研究huggingface2026-05-18
ロボット動画AIを改良
Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA for Robot Video Generation
ロボットの動きを予測するAIが、LoRA/DoRA(効率的な学習方法)で調整され、少ないデータでも高精度なロボット動画を生成できるようになりました。
NVIDIA Cosmos Predict 2.5をLoRA/DoRAでロボット動画生成向けにファインチューニングする取り組みが行われました。NVIDIA Cosmos Predict 2.5は、動画予測や生成のタスクに特化した強力な基盤モデルです。本研究では、このモデルを特定のロボットの動作や環境に特化させるため、ファインチューニング手法が適用されました。 LoRA(Low-Rank Adaptation)とDoRA(Dilated Rank Adaptation)というパラメータ効率の良いアダプテーション(PEFT)手法が採用されました。これらの手法は、モデル全体の重みを再学習するのではなく、少数の追加パラメータのみを学習することで、計算コストとデータ要件を大幅に削減しながらモデルの性能を向上させることができます。 このアプローチにより、NVIDIA Cosmos Predict 2.5は、限られたロボットの動作データセットでも、より正確でリアルなロボットの動きを含む動画を生成できるようになりました。これは、ロボットのシミュレーション、行動計画、および新しいスキル学習の効率化に大きく貢献すると期待されます。