【AI News 2025.03.05】画像/音楽/動画/3D

画像関連

Ideogram最速モデルが『Freepik AI Suite』で利用可能に

画像生成サービスIdeogramとの提携により、Ideogramの最新モデルがFreepik AI Suiteで利用可能になりました。ポスターデザインやアイデア出しにおいて非常に精度高く便利なので、Ideogram対応はとても嬉しいアップデートです。

グラフィックデザインと写真撮影に最適化『Ideogram 2a』

グラフィックデザインと写真撮影に最適化された、これまでより高速でコストパフォーマンスに優れたテキストから画像への変換モデル、Ideogram 2aが公開されました。 

Ideogramは、画像生成サービスの中で特に汎用性が高く、扱いやすいと感じています。どんなデザインにも適応できる柔軟性があり、特にクリエイティブなアイデアを素早く形にしたい場合に非常に便利です。デザイナーにとって欠かせないツールのひとつです。

ZhipuAIの新しい画像生成モデル『CogView4-6B』が登場!

ZhipuAI は、特にCogVideoなどの画像生成モデルで知られるAI企業で、最近、新しい画像生成モデルCogView4-6Bをオープンソースで公開しました。このモデルは、Apache-2.0ライセンスの下で提供されており、誰でも自由に利用できるのが特徴です。
CogView4-6Bは、最近のAI技術のトレンドを統合した最先端のモデルで、Flux.1-dev 以上のベンチマークスコアを誇ります。この精度の高さは驚異的で、SDXLレベルの転換点を感じます。
また、このモデルはTransformerベースのアーキテクチャを採用しており、これによりワークフローの組み直しが必要となる場合がありますが、それでもこの技術が今後のAI画像生成の基盤となるかもしれません。

音楽関連

高速で音楽生成を実現『DiffRhythm』

DiffRhythm は、AIによって音楽を生成するモデルで、今回、1分35秒の音楽をたった10秒で生成できるという特徴を持ったモデルがオープンソースで公開されました。さらに、将来的には4分45秒の楽曲を生成できるバージョンも登場予定とのことで、ますます楽しみです。

動画関連

『Hunyuan I2V』動画制作のワークフローを変える注目モデル

オープンソースの動画生成モデルHunyuanは、現在のところ非常に使い勝手がよく活用してるので、I2Vの新モデルの公開はとても楽しみですね。
Wan 2.1の進化で、AlibabaとTencentの競争が激化しているようなので、今後の成長が非常に楽しみです。

Alibabaの最新モデル『Wan2.1』の急成長と進化

Alibabaが開発したオープンソースの動画生成モデルWan2.1が公開されてから1週間が経ち、その開発の速度には驚いています。公開から翌日には、ComfyUIがネイティブ対応し、さらにi2vモデルやGGUF化、MultiGPU対応、Video To Videoなど、モデル公開後の動きが洗練されてきています。

PixVerseの新機能『360° Microwave』

PixVerseの最新機能360° Microwaveが公開され、さらに使いやすくなりました。この機能は、一貫性を保ちながら360°ターンテーブルを生成できるため、キャラクターの三面図やLoRAを制作する時に非常に便利なのが特徴です。
特に、キャラクターの全体像を正確に描き出す必要がある際に、360° Microwaveは効率よく、しかも高精度で作業を進められます。先行利用時にその便利さを実感しており、特にこのツールを活用すれば、複雑な作業が大幅に簡略化できると感じました。興味のある方は、ぜひ試してみてください。

『Pika 2.2』に便利な機能多数追加

Pika 2.2の新しいアップデートで注目すべきは、Pikaframes機能と動画の尺を調整できる機能だと思います。細かい調整が簡単にできるため、クリエイターにとって非常に役立つツールになると思います。もし動画制作を行っているなら、Pika 2.2は試してみる価値があると思います。

nVidia『MotionMatcher』のモーションカスタマイズ性能

T2V(テキストから動画を生成する)拡散モデルは、テキストからリアルな動画を生成することができますが、オブジェクトの動きやカメラのフレーミングを正確に制御するなどの複雑な動きの再現には限界があります。
この研究では、参照動画を使った動きのカスタマイズを行うMotionMatcherついて説明されています。
MotionMatcherは、ピクセル単位ではなく、動きの特徴を比較して微調整を行うことで、より正確な動きの再現を実現でき、実験結果では、優れたモーションカスタマイズ性能が確認されたようです。
現在はCogVideoXで対応しているこのツールですが、今後Wan2.1やHunyuanでも対応できるようになることを期待しています。

自由度の高い『Hailuo I2V-01-Director Model』のカメラワーク

ailuoのI2V-01-Director Modelは、カメラワークにおいて非常に高い自由度を提供するツールで、使うたびにその魅力を実感しています。
このモデルでは、細かなカメラ操作が可能で、視覚的な表現を思いのままにコントロールできるので、動画制作が非常に楽しくなります。従来のカメラワークでは難しいとされていたシーンも、スムーズに表現できるようになるので、どんな新しい可能性が広がるのかが楽しみです。

3D関連

Tencentの新しい3D生成モデル『Tencent XR 3DGen』

Tencentから新しい3D生成モデルTencent XR 3DGenが公開されました。このモデルは、MITライセンスで提供されています。

テキストと画像から瞬時に3Dアセットを生成する『3DTopia-XL』

テキストや画像から迅速に3D PBR(Physically-Based Rendering)アセットを生成できる3DTopia-XLは、わずか5秒で高品質な3Dアセットを作成することが可能になりました。3Dコンテンツ制作を大きく効率化することが期待できそうです。

動きを予測する新モデル、Wonder Dynamics『Motion Prediction』

Motion Predictionは、動きの予測と自動化が進み、よりリアルでダイナミックなアニメーションやモーションを素早く作成することが可能になるモデルとのことで、時間ができたら、実際にその効果を検証してみたいと思っています。

▼この記事の監修
takio koizumi
デジタルアーティスト。デジタルハリウッド大学で3DCGを学ぶ。大学院修了後、VFXアーティストとして約10年間、映画・アニメ・ゲームなど多彩なジャンルの作品を手がける。近年はAIに精通し、生成AI技術を取り入れたワークフローを研究し発信している。
HP: https://sites.google.com/view/takio-koizumi/link


関連記事一覧