アリババ、Qwen3.7-Plus発表 画像認識と自律AI
Alibaba’s Qwen Team Launches Qwen3.7-Plus, Adding Vision, Deep Reasoning, Tool Invocation, and Autonomous Iteration on the Bailian Platform

アリババが画像や動画も理解し、自分で考え行動するAI「Qwen3.7-Plus」を発表。複雑なタスクを自動でこなす能力が向上しました。
AlibabaのQwenチームはQwen3.7-Plusをリリースしました。このモデルは現在、Alibaba CloudのBailianプラットフォームを通じて利用可能です。Bailianは、国際ユーザーがModel Studioとしてアクセスするコンソールです。外部開発者向けにAPIサービスを提供しています。このリリースは、Alibabaが5月にQwen3.7世代を発表したことに続くものです。Qwen3.7-Plusはマルチモーダルな大規模言語モデルです。このモデルは、書かれたプロンプトに加えて、画像や動画を理解します。その兄弟モデルであるQwen3.7-Maxはテキスト専用です。これは視覚の理解であり、生成ではありません。このモデルは画像や動画を読み取りますが、それらを生成することはありません。Alibabaの画像および動画生成の取り組みは、別のモデルファミリーに属しています。Alibabaチームは、このリリースをマルチモーダルハイブリッドエージェント技術における一歩と説明しています。エージェントとは、複数のステップにわたって計画し、行動するモデルのことです。画像と動画の理解に基づいて、Qwen3.7-Plusは5つの能力を追加します。これらは、deep reasoning、self-programming、tool invocation、verification and testing、そしてautonomous iterationです。Self-programmingとは、モデルが自身のコードを書き、修正することを意味します。Tool invocationとは、外部の関数やAPIを呼び出すことを意味します。Verification and testingとは、出力結果を実行し、結果を確認することを意味します。Autonomous iterationとは、タスクが完了するまでループすることを意味します。これらを合わせると、単に回答するだけでなく、行動するために構築されたモデルを説明しています。 Visionに関する事例 Qwen3.7-Plusは、3.7ファミリーのマルチモーダルな半分です。そのプレビュー版はすでに測定可能なvisionの結果を投稿しています。Vision Arenaでは、Qwen3.7-Plus-Previewが総合で16位にランクインしました。これにより、Alibabaはvision分野で5番目のラボとなりました。モデルのランクとラボのランクは別々の数値です。Vision Arenaは、LM Arenaが運営する中立的なリーダーボードです。ユーザーは、ブラインドマッチアップで画像理解の回答に投票します。16位という結果は、米国のトップラボには及ばないものの、この分野の中では健闘しています。画像が多用される作業、例えば大規模なOCR、チャートの読み取り、またはビデオフレーム分析などにおいて、これは重要なシグナルです。テキスト専用のMax兄弟モデルは、この世代のreasoningを支えています。MaxはArtificialで56.6点を獲得しました。