マイクロソフト、ブラウザ操作AIで他社を上回る
Microsoft Releases Fara1.5: A Family of Browser Computer-Use Agents (4B/9B/27B) That Outperform OpenAI Operator and Gemini 2.5 Computer Use on Online-Mind2Web

マイクロソフトが、ブラウザを自動で操作するAI「Fara1.5」を発表しました。OpenAIやGoogleの類似AIを上回る72%のタスク成功率を達成し、ウェブ上の作業効率を大きく高める可能性があります。
Microsoft ResearchのAI FrontiersラボはFara1.5をリリースしました。これはブラウザ向けのcomputer-use agent (CUA) モデルのファミリーです。このリリースには、Fara1.5-4B、Fara1.5-9B、Fara1.5-27Bの3つのサイズが含まれています。これらのモデルは、Microsoftのこれらのエージェント向けサンドボックス型ブラウザインターフェースであるMagenticLiteと統合されています。Computer-use agentは、実際のブラウザを操作するピクセル・トゥ・アクションモデルです。これらはスクリーンショットを読み取り、マウスとキーボードのアクションを出力してタスクを完了します。OpenAIのOperatorやGoogleのGemini 2.5 Computer Useのような最近のエージェント製品もこのカテゴリに属します。Fara1.5-27BはOnline-Mind2Webで72%のタスク成功率を記録しました。このベンチマークは、136の人気サイトにわたる300のタスクをカバーしています。同じ評価において、OpenAIのOperatorは58.3%、Gemini 2.5 Computer Useは57.3%を記録しました。YutoriのNavigator n1は64.7%に達し、Fara1.5-9Bは63.4%を記録しました。これは、同じベンチマークで34.1%を記録した前身のFara-7Bをほぼ2倍にするものです。https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/ Architecture and agent loop これらのモデルは、4B、9B、27BのバリアントでQwen3.5ベースのチェックポイントを使用しています。これらはobserve-think-actループを通じて動作します。各ステップで、モデルは以前の会話履歴と直近の3つのブラウザスクリーンショットを取り込みます。その後、思考と単一の次のアクションを出力します。アクションスペースには、標準的なマウスとキーボードの入力、ウェブ検索のようなウェブ固有のアクションが含まれます。また、コンテキスト管理のためのメタアクションも公開しています。これには、後で使用するために事実を記憶することや、ユーザーに明確化の質問をすることが含まれます。これらのメタアクションにより、エージェントはより長い期間にわたって動作し、ユーザーと協力して作業することができます。Training mix トレーニングには、約200万のサンプルに対するsupervised fine-tuningが使用されます。その内訳は、ウェブの軌跡が60%、合成環境が12.8%です。フォーム入力とユーザーインタラクションが12.5%を占めます。Groundingが8.8%、VQAが4.9%を占めます。より小さな割合で、GUI drag、instruction following、およびsafetyがカバーされています。Lossは