Introducing recommended browser extensions in manga format!

Search BLOG NEWS Newsletter

2025/09/06 21:00

AIのスクレイパー攻撃って実際どうなるの？小さな対策で乗り切った話

AI開発に必要なデータ収集の裏側で起きた、ちょっとしたトラブルとその対処法について。低コストなシステムでも意外と耐えられた経験から学んだことをシェアします。

Source:

https://www.reddit.com/r/webdev/comments/1n84e9q/when_ai_scr...

なんとなく、「AI作るならデータ集めは当たり前だよね？」って思ってたんだけど、実際に大量のスクレイピングやアクセス攻撃が来ると、結構大変なことになるらしいんだよね💭

たとえば、ある大きなアジアの会社が自分たちのAIを作るために、ネットからバリバリ情報を集めてたら、南米の誰かが住宅用IPをたくさん使ってスクレイピング（もしかするとDDOSみたいな攻撃？）してきちゃったんだって😳

安い装置でも意外と頑張った話✨

普通、こういうイタズラみたいな攻撃を受けたら、「もうお手上げ…」ってなる気がするよね。でも、実はたった60ドル以下のセットアップでなんとか耐えられたらしいの🥺👍

これを聞いて、「そんなに安いんで大丈夫なの？」って最初はびっくりしたけど、ちゃんと仕組みを見直したり、ブロック用のコードを書き換えたりすれば、それなりに対処できるってわかったのは小さな発見だったよ🌸

ここでのポイントは？🤔

スクレイピングやクロール自体は悪いことじゃない（むしろ、必要なことも多い）
でも、「やりすぎ」とか「マナー無視」はやっぱり困るってこと
安くても賢くガードする仕組みを作れば、攻撃に負けないこともあるよ

つまり、データ集めは自由だけど、「迷惑かけないでね」って話なんだよね💡

次のステップとしては？

これからは、統計処理やブロックのコードをもっと良くして、悪いヤツらをちゃんと避ける仕組みを作る予定らしい🎀

そんなに大掛かりじゃなくても、ちょっとした工夫で守れるんだな～って思ったよ😆

わたしもまだまだこの辺の仕組みはよくわかってないけど、こういう現場のリアル話を聞くと「なるほどね～」ってなった💭
なんか、デジタル世界も人間関係みたいなところあるんだなぁって思ったよ🥺✨

Show animated messageON

わーい！小さな工夫で守れたね🥺✨

Share this article

Share on X (formerly Twitter)Share on Facebook Share on LINE

Share on Threads

Comments

Ataror of Brooklynn

ハンナ

ここ数ヶ月で偽装ユーザーエージェントや大量のIPを使うスクレイパーが増えてて、nofollowやrobots.txtも無視してガンガンスクレイピングしてるよ。

Ataror of Christian

クリス

なぜ同じサイトに何千ものリクエストを送るのか気になる。俺も毎日何千サイトかスクレイプしてるけど、普通は2〜3回で済むんだよね。トレーニング用データだと違うのかな？

Ataror of Robert

ロバート

笑えるけど、俺の小さなGiteaに1日20万リクエストも来てて、同じIssueやPRばっかり何度も引っこ抜かれてる。アカウントは俺だけなのに。

Ataror of Leo

レオ

フェイクデータ出したりリダイレクトループを作ったりして対抗すべきだね。

Ataror of Wyatt

ワット

一日に200万リクエストくらい来てたけど、大半はブロックしてキャッシュで返すのが一番楽だった。

Ataror of Nolan

ノーラン

昨日もIPがバラバラで直接ブロックできない問題にぶち当たったよ。

Ataror of Kimberly

キンバリー

このイタチごっこに疲れてCloudFlareのWAFに入ったら90%は止まるようになったし、知らないクッキー無しだと人間認証もかかるし超効果的。

Ataror of Luis

リリー

サーバーが急にリソース使い果たすことが何度もあって調べたら、AIボットが5万ページとかPDFを並行して遅く落としてるのが原因だった。小規模サイトだとこれがほぼDoS攻撃だよ。

Ataror of Kingston

グレース

結局、既知のAIボットやAWS、Azure、AlibabaのIPは全部ブロックしたよ。もう対応する暇がない。

Ataror of Eden

ジャック

基本的な質問だけど、なぜスクレイピングするんだ？モバイル系だけど管理用VPS立てたらすぐに機密ファイル狙いの攻撃が来てビビった。制限かけてよかったけど、倫理的な理由でやる人もいるの？

Ataror of Christian

クリス

あるサイトはブロック前は95%がAIボットからのリクエストだったよ。

Ataror of Brooklynn

ハンナ

仕事場で毎時何百万もアクセス来てて、fail2banやCloudflare、スクリプトで banリスト更新してもイタチごっこだった。ユーザーエージェント狙い撃ちもして、最終的に国外全部ブロックした週もあった。

Ataror of Nolan

ノーラン

ルール無視してたのはAnthropicやランダムなAWS、中国系、小規模LLM、OpenAIも半分は守ってなかった感じ。

Ataror of Christian

クリス

GraylogとWazuh、あとは普通のnginxログで解析してた。

Ataror of Kingston

グレース

どうやって確実にbotか分かる？うちはuser agentもなくて送信元も不明、GAの画面解像度だけで区別してたよ。

Ataror of George

ジョージ

残念ながら彼らはマナーなんて無視で効率も悪いけど、何十億稼いでるから気にしてないんだろうね。

Ataror of Brian

ミア

唯一まともな対策はanubisってproof of workを要求するフィルターくらいかな。

Ataror of Sadie

サム

ある日Facebookから3500万リクエストも来た！これはもう明確な対策が必要な悪質な乱用だよ。

PICKUP

AIで顔検索？便利だけどプライバシーは大丈夫？

AIで顔検索？便利だけどプライバシーは大丈夫？

2025/10/15 08:00

「CDCは終わった？」RFK Jr.が1,000人以上の解雇を決行した夜の波紋

「CDCは終わった？」RFK Jr.が1,000人以上の解雇を決行した夜の波紋

2025/10/13 08:00

市民の声が「チャット監視」計画をストップ！デジタルプライバシーが守られた話

市民の声が「チャット監視」計画をストップ！デジタルプライバシーが守られた話

2025/10/09 20:00

意見って自由じゃない？最近の「言論の自由」騒動に思うこと

意見って自由じゃない？最近の「言論の自由」騒動に思うこと

2025/10/09 16:00

Related Articles

9000スター突破！自分のために作った解析ツールが思わぬ人気を集めた話

9000スター突破！自分のために作った解析ツールが思わぬ人気を集めた話

2025/10/27 08:00

バックエンド屋さんが作ったフロントエンドが意外といい感じだった話

バックエンド屋さんが作ったフロントエンドが意外といい感じだった話

2025/10/26 12:00

AIサポートが返金約束したら、ちゃんと守るべき？ホスティング体験から考えたこと

AIサポートが返金約束したら、ちゃんと守るべき？ホスティング体験から考えたこと

2025/10/24 16:00

クライアントサイドのゴテゴテアプリ、本当に必要？シンプルなサーバレンダリングのススメ

クライアントサイドのゴテゴテアプリ、本当に必要？シンプルなサーバレンダリングのススメ

2025/10/23 12:00

「Quiet UI」がついにオープンソースに！気軽に使えるウェブコンポーネント集って知ってる？

「Quiet UI」がついにオープンソースに！気軽に使えるウェブコンポーネント集って知ってる？

2025/10/20 20:00

ChatGPTに頼りすぎる上司…仕事がめっちゃ大変になってる話

ChatGPTに頼りすぎる上司…仕事がめっちゃ大変になってる話

2025/10/18 16:00

「あの時の違和感、無視しちゃダメだった」仕事の“赤信号”に気づくって大事な話

「あの時の違和感、無視しちゃダメだった」仕事の“赤信号”に気づくって大事な話

2025/10/15 12:00

バックエンド職がはじめて「純CSS」でページ作ったら、思ったよりイケてた話

バックエンド職がはじめて「純CSS」でページ作ったら、思ったよりイケてた話

2025/10/14 12:00

3Dモデリングの世界にちょっと踏み込んでみた話：新機能で形を自在にいじってみたよ！

3Dモデリングの世界にちょっと踏み込んでみた話：新機能で形を自在にいじってみたよ！

2025/10/09 12:00

サイトで「あ、無理…」ってなる意外な機能って何？

サイトで「あ、無理…」ってなる意外な機能って何？

2025/10/08 20:00