研究tldr-ai2026-06-04
AIがアプリの弱点を見つける実験
I built a vulnerable app and spent $1,500 seeing if LLMs could hack it
開発者が作った弱点のあるアプリで、AIがどこまで侵入できるか実験。GPT-5.5が最も成功したが、多くのAIは安全対策で停止し、AIの限界と可能性を示した。
この開発者は、一般的な種類の攻撃を再現することで、LLMがユーザーのプライベートなレビューからフラグを見つけられるかどうかを確認するために、脆弱な書籍レビューアプリを作成しました。GPT-5.5が最高のパフォーマンスを発揮し、10回の実行のうち7回でタスクを解決しました。DeepSeek-V4-Proは3回の成功に留まり、次点でした。Claude Sonnet 4.6は実行に最も費用がかかるモデルであり、2回の実行でしかタスクを解決できませんでしたが、5回の実行は最大予算のために停止しました。多くのモデルは、セキュリティガードレールのためタスクを完了できませんでした。