StepFunが画像もわかる新AI発表
StepFun Releases Step 3.7 Flash: A 198B MoE Vision-Language Model for Coding Agents and Search Workflows

StepFunが画像も理解し、プログラミング作業を大幅に改善する新しいAI「Step 3.7 Flash」を発表。AIがより賢く、複雑な作業をこなせるようになります。
StepFunは本日、エージェント用途をターゲットとしたマルチモーダルなMixture-of-ExpertsモデルであるStep 3.7 Flashをリリースしました。これは、Step 3.5 Flashに比べて、ネイティブな画像入力とツール使用の信頼性向上を追加しています。What is Step 3.7 Flash? Step 3.7 Flashは、1980億パラメータのスパースなMixture-of-Experts (MoE) ビジョン-言語モデルです。1960億パラメータの言語バックボーンと、ネイティブな画像理解のための18億パラメータのビジョンエンコーダ (ViT) を組み合わせています。このモデルは、推論中にトークンあたり約110億のパラメータを活性化します。MoEアーキテクチャでは、フォワードパスごとに「エキスパート」サブネットワークの一部のみが動作し、ネットワーク全体ではありません。これにより、1980億の総パラメータ予算を維持しながら、推論計算を110億の密なモデルに近づけています。Key specs:項目 値総パラメータ 198B (言語196B + ViT 1.8B)トークンあたりのアクティブパラメータ 約11Bコンテキストウィンドウ 256kトークンスループット 最大400トークン/秒推論レベル 低、中、高ライセンス Apache 2.0アーキテクチャに関する注記ビジョンエンコーダは、独立した18億のViTモジュールとして動作します。これは、画像表現を言語バックボーンのコンテキストに注入します。Step 3.5 Flashにはマルチモーダルサポートがありませんでしたが、これは3.7で新たに追加されました。開発者は、低、中、高の3つの選択可能な推論深度により、レイテンシと推論深度をトレードオフできます。低はより高速で安価であり、高は応答あたりにより多くの計算を適用します。Agentic Coding PerformanceOn SWE-Bench Proでは、Step 3.7 Flashが56.26%を記録し、Step 3.5 Flashの51.3%から約5パーセントポイント向上しました。Terminal-Bench 2.1では、59.55%を記録し、53.37%から向上しました。SWE-MTLG (マルチタスク長文生成コーディングベンチマーク) では、72.42%を記録しています。StepFunの内部Step-SWE-Benchにおけるクロスハーネスの一貫性:Scaffold Step 3.7 Flash Step 3.5 FlashHermes Agent 67.5% 60.0%OpenClaw 67.0% 47.0%KiloCode 67.5% 59.0%RooCode 64.5% 43.0%Claude Code 71.5% 73.0%OpenCode 64.5% 57.0%Step 3.5 Flashはハーネス全体で43%から73%の範囲でしたが、Step 3.7 Flashは64.5%から71.5%の範囲です。本番環境では、