AIがウェブ作業を効率化するWebwright
Microsoft Research Releases Webwright: A Terminal-Native Web Agent Framework That Scores 60.1% on Odysseys, Up from Base GPT-5.4’s 33.5%

マイクロソフトがAIのウェブ操作を効率化する「Webwright」を発表。AIがコードを書いてブラウザを動かすことで、ウェブ上の作業効率が約2倍に向上しました。
今日のほとんどのウェブエージェントは、一度に一つのアクションでブラウザを操作します。モデルは現在のページの状態をスクリーンショットまたはDOMテキストとして受け取り、次のクリック、キー入力、またはスクロールを予測します。この一度に一つのアクションという設計は、言語モデルの推論能力が限られていた頃には理にかなっていました。しかし、モデルがコードの記述やデバッグにおいてより高性能になるにつれて、その厳格なループは助けとなる構造ではなく、制約となってきました。Microsoft ResearchのAI Frontiersラボは、異なるアプローチを構築しました。彼らの新しいオープンソースフレームワークであるWebwrightは、ステートフルなブラウザセッションの代わりにエージェントにターミナルを提供します。エージェントはPlaywrightコードを記述してブラウザを制御し、bashコマンドを実行し、ログを検査し、スクリプトを繰り返し改良します。Playwrightは、Microsoftからも提供されているオープンソースのブラウザ自動化ライブラリで、Chromium、Firefox、およびWebKitブラウザのプログラムによる制御をサポートしています。Webwrightが異なる点 Webwrightはエージェントとブラウザを分離し、ブラウザをエージェントがプログラム開発中に起動、検査、破棄できるものとして扱います。永続的な成果物はブラウザセッションではなく、ローカルワークスペース内のコードとログです。これは、開発者がRPA(Robotic Process Automation)スクリプトを作成する際に使用するモデルと同じです。毎回手動でサイトをクリックする代わりに、一度スクリプトを作成します。そのスクリプトは再実行、適応、共有が可能です。WebwrightはこれをLLM-powered agentsに適用します。このシステムには、Runner、Model Endpoint、およびterminal Environmentという3つのコアコンポーネントがあります。Runnerは約150行のコード、モデルインターフェースは約550行、環境は約300行です。マルチエージェントオーケストレーションや複雑な計画階層はなく、単一のエージェントループのみです。すべての中間コード、ログ、スクリーンショット、および結果はワークスペースに保存され、各実行の検査を容易にします。https://www.microsoft.com/en-us/research/articles/webwright-a-terminal-is-all-you-need-for-web-agents/ The Agent Loop The Runner sends the current c