これって意外と知られてないんだけど、AIクローラーがサイトにめちゃくちゃ大量アクセスしてくる問題って結構あるらしいんだよね💭
たとえば、ぼくがちょっと調べてみたら、あるポケモン専門のMediaWikiサイトで、ポケモンZ/Aの発表あたりから1日で20万件以上のアクセスがAIクローラーから来るようになったらしいの😳 それまではほとんど来てなかったのに、急に増えすぎてびっくりしたって。
AIクローラーって何?
簡単にいうと、AIがネットの情報を集めるために自動でウェブサイトを読み込むプログラムのことだよ✨ 便利だけど、時に大量にリクエストを送りすぎて、サイト運営者には負担になることもあるんだ🥺
どうして急に増えたの?
ポケモンZ/Aみたいに人気のニュースが出ると、AIもそれを勉強しようとして情報を集めるから、アクセスが急増しちゃうんだね🧠 たぶん、AI開発者たちは新しい情報をどんどん取り込もうとしているんだろうな〜って感じ✨
で、どうやって対策するの?
実は結構むずかしいんだけど、いくつかやってみる価値ありな方法があるよ🎀
-
robots.txtでクローラーを制限する
→ これが一番基本的。特定のクローラーをブロックしたり、巡回してほしくないページを指定できるんだ🌸 ただし、悪質なクローラーは無視したり、勝手にルールを破ることもあるから万能じゃない💭 -
アクセス制限(IP制限など)を設定する
→ 怪しい大量アクセスがあったら、そのIPアドレスをブロックする方法。ただし、AIクローラーはIPを変えてくることも多いから、イタチごっこになるかも😥 -
キャッシュを使う
→ サーバー負担を減らすために、ページのコピーを一時的に保存して、何度も同じ処理をしなくて済むようにする仕組み✨ これで少しは軽くなるかも! -
問い合わせてみる
→ もしどこのAIがアクセスしているか分かれば、その運営元に直接「負荷が大きいので控えてほしい」ってお願いする手もある📝 これが一番効果的な場合もあるよ❣️
はぁ、結局どうしたらいいの?
うーん、現状だと完全に止めるのは難しいけど、負荷を減らす工夫はできる感じかなあ…😮💨 特に人気サイトだと、こういうAIクローラーの波は避けられないところもあるし。
だから、サーバーの負荷対策をしつつ、 robots.txtをうまく使ってお手柔らかにお願いする感じが現実的かなって思うよ💡
個人的には、こういうAIの動きも時代の流れだなーって感じるけど、サイト運営してる人からしたらホント大変だよね🥺
コメント
グレース
AIトラフィックは誰の得にもならないから、IPをサーバーのファイアウォールでブロックしよう。
クリス
仕事で何日も何人ものクライアントがボット被害にあってる。 Cloudflareは今まで必要なかったけど、無料プランでDNS移行する価値はあるね。 ログを見て、クラウド系のIP(GoogleやAWSなど)から来るボットは注意してファイアウォールで対策しよう。 ただし正当なサービスも同じ範囲使うから気をつけて。 Cloudflareに切り替える前にやるのがベスト。 切り替えたら全接続がCloudflare経由になるよ。 Cloudflare使わないなら、不要なユーザーエージェントはサーバ設定かhtaccessでブロック、見た目が普通のIPもブロック、robots.txtを更新(ただしほとんど無視されるけど)。 スキルあればレートリミットスクリプト作ってAPIみたいに制限かけるのが効果的だよ。 成功したら教えてね。
レオ
Cloudflareの無料プランで対応可能だし、他はサイト環境次第でトラフィック制限を考えよう。 例えばnginxやApache、iptablesでIPやユーザーエージェントを制限、CloudflareのAIスクレイピング防御を使う、一時的にサイトを読み取り専用にして別CDNで守る、fail2banで急増トラフィックに対応するなど。 中でもCloudflareが一番簡単で安くてDNSさえ操作できれば使えるしCDN効果もある。 IPやエージェントでの制限は自由度高いけど、相手が大量IPを使ったり偽装したりするから完璧じゃない。 CDNは負荷軽減にはなるけど、編集の自由度が落ちるかも。 fail2banやiptablesは設定難しくて思ったほど効かないことも。
ベン
今すぐできるのはrobots.txtで「良い」ボットを除外すること。
エイダン
Cloudflare最高! 無料プランだけでだいたい90%は解決するし、月5ドル払えばcf workerとcrowdsecで95%以上の対策もできる。
ロバート
結局Cloudflareがおすすめ。
ジョージ
Anubis(※何かの名前かも)
ノーラン
Cloudflareのアタックモードをオンにしよう。
キンバリー
私はCloudflare使ってるけど、無料プランでもクロール対策はかなりいいよ。
ミア
無料じゃないけど、Cloudflareはちゃんと仕事するよ。
サラ
同じような状況を経験中。
ワット
自分はAIボットが狙うページに偽情報を入れてキャッシュさせて、影響を極力減らしたよ。
クロエ
トラフィック制限ルールを追加して、収集してるIPをどんどんブロックしよう。 AI対策には「毒」を仕込むのもあり。 ちなみに自分はあるプロジェクトで一日100万リクエストをボットから受けた。
サム
多分ほとんどの迷惑ボットはrobots.txtかllm.txtで十分止められるよ。