拡張機能研究所

おすすめのブラウザ拡張機能をマンガ形式で紹介!

2025/09/06 21:00

AIのスクレイパー攻撃って実際どうなるの?小さな対策で乗り切った話

AI開発に必要なデータ収集の裏側で起きた、ちょっとしたトラブルとその対処法について。 低コストなシステムでも意外と耐えられた経験から学んだことをシェアします。
AIのスクレイパー攻撃って実際どうなるの?小さな対策で乗り切った話

なんとなく、「AI作るならデータ集めは当たり前だよね?」って思ってたんだけど、実際に大量のスクレイピングやアクセス攻撃が来ると、結構大変なことになるらしいんだよね💭

たとえば、ある大きなアジアの会社が自分たちのAIを作るために、ネットからバリバリ情報を集めてたら、南米の誰かが住宅用IPをたくさん使ってスクレイピング(もしかするとDDOSみたいな攻撃?)してきちゃったんだって😳

安い装置でも意外と頑張った話✨

普通、こういうイタズラみたいな攻撃を受けたら、「もうお手上げ…」ってなる気がするよね。でも、実はたった60ドル以下のセットアップでなんとか耐えられたらしいの🥺👍

これを聞いて、「そんなに安いんで大丈夫なの?」って最初はびっくりしたけど、ちゃんと仕組みを見直したり、ブロック用のコードを書き換えたりすれば、それなりに対処できるってわかったのは小さな発見だったよ🌸

ここでのポイントは?🤔

  • スクレイピングやクロール自体は悪いことじゃない(むしろ、必要なことも多い)
  • でも、「やりすぎ」とか「マナー無視」はやっぱり困るってこと
  • 安くても賢くガードする仕組みを作れば、攻撃に負けないこともあるよ

つまり、データ集めは自由だけど、「迷惑かけないでね」って話なんだよね💡

次のステップとしては?

これからは、統計処理やブロックのコードをもっと良くして、悪いヤツらをちゃんと避ける仕組みを作る予定らしい🎀

そんなに大掛かりじゃなくても、ちょっとした工夫で守れるんだな~って思ったよ😆


わたしもまだまだこの辺の仕組みはよくわかってないけど、こういう現場のリアル話を聞くと「なるほどね~」ってなった💭
なんか、デジタル世界も人間関係みたいなところあるんだなぁって思ったよ🥺✨

ひとことアニメーション表示ON
わーい!小さな工夫で守れたね🥺✨

コメント

アバター

ハンナ

ここ数ヶ月で偽装ユーザーエージェントや大量のIPを使うスクレイパーが増えてて、nofollowやrobots.txtも無視してガンガンスクレイピングしてるよ。

アバター

クリス

なぜ同じサイトに何千ものリクエストを送るのか気になる。 俺も毎日何千サイトかスクレイプしてるけど、普通は2〜3回で済むんだよね。 トレーニング用データだと違うのかな?

アバター

ロバート

笑えるけど、俺の小さなGiteaに1日20万リクエストも来てて、同じIssueやPRばっかり何度も引っこ抜かれてる。 アカウントは俺だけなのに。

アバター

レオ

フェイクデータ出したりリダイレクトループを作ったりして対抗すべきだね。

アバター

ワット

一日に200万リクエストくらい来てたけど、大半はブロックしてキャッシュで返すのが一番楽だった。

アバター

ノーラン

昨日もIPがバラバラで直接ブロックできない問題にぶち当たったよ。

アバター

キンバリー

このイタチごっこに疲れてCloudFlareのWAFに入ったら90%は止まるようになったし、知らないクッキー無しだと人間認証もかかるし超効果的。

アバター

リリー

サーバーが急にリソース使い果たすことが何度もあって調べたら、AIボットが5万ページとかPDFを並行して遅く落としてるのが原因だった。 小規模サイトだとこれがほぼDoS攻撃だよ。

アバター

グレース

結局、既知のAIボットやAWS、Azure、AlibabaのIPは全部ブロックしたよ。 もう対応する暇がない。

アバター

ジャック

基本的な質問だけど、なぜスクレイピングするんだ? モバイル系だけど管理用VPS立てたらすぐに機密ファイル狙いの攻撃が来てビビった。 制限かけてよかったけど、倫理的な理由でやる人もいるの?

アバター

クリス

あるサイトはブロック前は95%がAIボットからのリクエストだったよ。

アバター

ハンナ

仕事場で毎時何百万もアクセス来てて、fail2banやCloudflare、スクリプトで banリスト更新してもイタチごっこだった。 ユーザーエージェント狙い撃ちもして、最終的に国外全部ブロックした週もあった。

アバター

ノーラン

ルール無視してたのはAnthropicやランダムなAWS、中国系、小規模LLM、OpenAIも半分は守ってなかった感じ。

アバター

クリス

GraylogとWazuh、あとは普通のnginxログで解析してた。

アバター

グレース

どうやって確実にbotか分かる? うちはuser agentもなくて送信元も不明、GAの画面解像度だけで区別してたよ。

アバター

ジョージ

残念ながら彼らはマナーなんて無視で効率も悪いけど、何十億稼いでるから気にしてないんだろうね。

アバター

ミア

唯一まともな対策はanubisってproof of workを要求するフィルターくらいかな。

アバター

サム

ある日Facebookから3500万リクエストも来た! これはもう明確な対策が必要な悪質な乱用だよ。


関連記事