拡張機能研究所

Introducing recommended browser extensions in manga format!

2025/09/06 21:00

AIのスクレイパー攻撃って実際どうなるの?小さな対策で乗り切った話

AI開発に必要なデータ収集の裏側で起きた、ちょっとしたトラブルとその対処法について。 低コストなシステムでも意外と耐えられた経験から学んだことをシェアします。
AIのスクレイパー攻撃って実際どうなるの?小さな対策で乗り切った話

なんとなく、「AI作るならデータ集めは当たり前だよね?」って思ってたんだけど、実際に大量のスクレイピングやアクセス攻撃が来ると、結構大変なことになるらしいんだよね💭

たとえば、ある大きなアジアの会社が自分たちのAIを作るために、ネットからバリバリ情報を集めてたら、南米の誰かが住宅用IPをたくさん使ってスクレイピング(もしかするとDDOSみたいな攻撃?)してきちゃったんだって😳

安い装置でも意外と頑張った話✨

普通、こういうイタズラみたいな攻撃を受けたら、「もうお手上げ…」ってなる気がするよね。でも、実はたった60ドル以下のセットアップでなんとか耐えられたらしいの🥺👍

これを聞いて、「そんなに安いんで大丈夫なの?」って最初はびっくりしたけど、ちゃんと仕組みを見直したり、ブロック用のコードを書き換えたりすれば、それなりに対処できるってわかったのは小さな発見だったよ🌸

ここでのポイントは?🤔

  • スクレイピングやクロール自体は悪いことじゃない(むしろ、必要なことも多い)
  • でも、「やりすぎ」とか「マナー無視」はやっぱり困るってこと
  • 安くても賢くガードする仕組みを作れば、攻撃に負けないこともあるよ

つまり、データ集めは自由だけど、「迷惑かけないでね」って話なんだよね💡

次のステップとしては?

これからは、統計処理やブロックのコードをもっと良くして、悪いヤツらをちゃんと避ける仕組みを作る予定らしい🎀

そんなに大掛かりじゃなくても、ちょっとした工夫で守れるんだな~って思ったよ😆


わたしもまだまだこの辺の仕組みはよくわかってないけど、こういう現場のリアル話を聞くと「なるほどね~」ってなった💭
なんか、デジタル世界も人間関係みたいなところあるんだなぁって思ったよ🥺✨

Show animated messageON
わーい!小さな工夫で守れたね🥺✨

Comments

Ataror of Brooklynn

ハンナ

ここ数ヶ月で偽装ユーザーエージェントや大量のIPを使うスクレイパーが増えてて、nofollowやrobots.txtも無視してガンガンスクレイピングしてるよ。

Ataror of Christian

クリス

なぜ同じサイトに何千ものリクエストを送るのか気になる。 俺も毎日何千サイトかスクレイプしてるけど、普通は2〜3回で済むんだよね。 トレーニング用データだと違うのかな?

Ataror of Robert

ロバート

笑えるけど、俺の小さなGiteaに1日20万リクエストも来てて、同じIssueやPRばっかり何度も引っこ抜かれてる。 アカウントは俺だけなのに。

Ataror of Leo

レオ

フェイクデータ出したりリダイレクトループを作ったりして対抗すべきだね。

Ataror of Wyatt

ワット

一日に200万リクエストくらい来てたけど、大半はブロックしてキャッシュで返すのが一番楽だった。

Ataror of Nolan

ノーラン

昨日もIPがバラバラで直接ブロックできない問題にぶち当たったよ。

Ataror of Kimberly

キンバリー

このイタチごっこに疲れてCloudFlareのWAFに入ったら90%は止まるようになったし、知らないクッキー無しだと人間認証もかかるし超効果的。

Ataror of Luis

リリー

サーバーが急にリソース使い果たすことが何度もあって調べたら、AIボットが5万ページとかPDFを並行して遅く落としてるのが原因だった。 小規模サイトだとこれがほぼDoS攻撃だよ。

Ataror of Kingston

グレース

結局、既知のAIボットやAWS、Azure、AlibabaのIPは全部ブロックしたよ。 もう対応する暇がない。

Ataror of Eden

ジャック

基本的な質問だけど、なぜスクレイピングするんだ? モバイル系だけど管理用VPS立てたらすぐに機密ファイル狙いの攻撃が来てビビった。 制限かけてよかったけど、倫理的な理由でやる人もいるの?

Ataror of Christian

クリス

あるサイトはブロック前は95%がAIボットからのリクエストだったよ。

Ataror of Brooklynn

ハンナ

仕事場で毎時何百万もアクセス来てて、fail2banやCloudflare、スクリプトで banリスト更新してもイタチごっこだった。 ユーザーエージェント狙い撃ちもして、最終的に国外全部ブロックした週もあった。

Ataror of Nolan

ノーラン

ルール無視してたのはAnthropicやランダムなAWS、中国系、小規模LLM、OpenAIも半分は守ってなかった感じ。

Ataror of Christian

クリス

GraylogとWazuh、あとは普通のnginxログで解析してた。

Ataror of Kingston

グレース

どうやって確実にbotか分かる? うちはuser agentもなくて送信元も不明、GAの画面解像度だけで区別してたよ。

Ataror of George

ジョージ

残念ながら彼らはマナーなんて無視で効率も悪いけど、何十億稼いでるから気にしてないんだろうね。

Ataror of Brian

ミア

唯一まともな対策はanubisってproof of workを要求するフィルターくらいかな。

Ataror of Sadie

サム

ある日Facebookから3500万リクエストも来た! これはもう明確な対策が必要な悪質な乱用だよ。


PICKUP
Related Articles