なんとなく、「AI作るならデータ集めは当たり前だよね?」って思ってたんだけど、実際に大量のスクレイピングやアクセス攻撃が来ると、結構大変なことになるらしいんだよね💭
たとえば、ある大きなアジアの会社が自分たちのAIを作るために、ネットからバリバリ情報を集めてたら、南米の誰かが住宅用IPをたくさん使ってスクレイピング(もしかするとDDOSみたいな攻撃?)してきちゃったんだって😳
安い装置でも意外と頑張った話✨
普通、こういうイタズラみたいな攻撃を受けたら、「もうお手上げ…」ってなる気がするよね。でも、実はたった60ドル以下のセットアップでなんとか耐えられたらしいの🥺👍
これを聞いて、「そんなに安いんで大丈夫なの?」って最初はびっくりしたけど、ちゃんと仕組みを見直したり、ブロック用のコードを書き換えたりすれば、それなりに対処できるってわかったのは小さな発見だったよ🌸
ここでのポイントは?🤔
- スクレイピングやクロール自体は悪いことじゃない(むしろ、必要なことも多い)
- でも、「やりすぎ」とか「マナー無視」はやっぱり困るってこと
- 安くても賢くガードする仕組みを作れば、攻撃に負けないこともあるよ
つまり、データ集めは自由だけど、「迷惑かけないでね」って話なんだよね💡
次のステップとしては?
これからは、統計処理やブロックのコードをもっと良くして、悪いヤツらをちゃんと避ける仕組みを作る予定らしい🎀
そんなに大掛かりじゃなくても、ちょっとした工夫で守れるんだな~って思ったよ😆
わたしもまだまだこの辺の仕組みはよくわかってないけど、こういう現場のリアル話を聞くと「なるほどね~」ってなった💭
なんか、デジタル世界も人間関係みたいなところあるんだなぁって思ったよ🥺✨
コメント
ハンナ
ここ数ヶ月で偽装ユーザーエージェントや大量のIPを使うスクレイパーが増えてて、nofollowやrobots.txtも無視してガンガンスクレイピングしてるよ。
クリス
なぜ同じサイトに何千ものリクエストを送るのか気になる。 俺も毎日何千サイトかスクレイプしてるけど、普通は2〜3回で済むんだよね。 トレーニング用データだと違うのかな?
ロバート
笑えるけど、俺の小さなGiteaに1日20万リクエストも来てて、同じIssueやPRばっかり何度も引っこ抜かれてる。 アカウントは俺だけなのに。
レオ
フェイクデータ出したりリダイレクトループを作ったりして対抗すべきだね。
ワット
一日に200万リクエストくらい来てたけど、大半はブロックしてキャッシュで返すのが一番楽だった。
ノーラン
昨日もIPがバラバラで直接ブロックできない問題にぶち当たったよ。
キンバリー
このイタチごっこに疲れてCloudFlareのWAFに入ったら90%は止まるようになったし、知らないクッキー無しだと人間認証もかかるし超効果的。
リリー
サーバーが急にリソース使い果たすことが何度もあって調べたら、AIボットが5万ページとかPDFを並行して遅く落としてるのが原因だった。 小規模サイトだとこれがほぼDoS攻撃だよ。
グレース
結局、既知のAIボットやAWS、Azure、AlibabaのIPは全部ブロックしたよ。 もう対応する暇がない。
ジャック
基本的な質問だけど、なぜスクレイピングするんだ? モバイル系だけど管理用VPS立てたらすぐに機密ファイル狙いの攻撃が来てビビった。 制限かけてよかったけど、倫理的な理由でやる人もいるの?
クリス
あるサイトはブロック前は95%がAIボットからのリクエストだったよ。
ハンナ
仕事場で毎時何百万もアクセス来てて、fail2banやCloudflare、スクリプトで banリスト更新してもイタチごっこだった。 ユーザーエージェント狙い撃ちもして、最終的に国外全部ブロックした週もあった。
ノーラン
ルール無視してたのはAnthropicやランダムなAWS、中国系、小規模LLM、OpenAIも半分は守ってなかった感じ。
クリス
GraylogとWazuh、あとは普通のnginxログで解析してた。
グレース
どうやって確実にbotか分かる? うちはuser agentもなくて送信元も不明、GAの画面解像度だけで区別してたよ。
ジョージ
残念ながら彼らはマナーなんて無視で効率も悪いけど、何十億稼いでるから気にしてないんだろうね。
ミア
唯一まともな対策はanubisってproof of workを要求するフィルターくらいかな。
サム
ある日Facebookから3500万リクエストも来た! これはもう明確な対策が必要な悪質な乱用だよ。