デジタル人技術の難点
デジタル人技術は現在、多くのシーンで展開されており、仮想デジタル人ライブ配信など、ライブの効率を大幅に向上させ、企業のコストを削減しています。しかし、デジタル人業界のソリューション開発プロセスでは、主要な技術的課題がいくつかあります:キャラクターモデルの動きの滑らかさと自然さを確保し、柔軟で多様なライブ言語表現技術を組み合わせて、リアルなデジタル人アンカー効果を実現します。市場には多くの商用プラットフォームがさまざまなソリューションを提供していますが、今回、アリババグループの Alipay がそのデジタル人技術「EchoMimic」をオープンソース化しました。この技術により、キャラクターの表情が豊かで多様であり、動きが滑らかで自然であり、仮想アンカーやキャラクターのビデオ生成に適しています。今では、ユーザーは無料で自分自身のデジタル人システムを構築できます!
Alibaba がオープンソース化した EchoMimic デジタル人技術
EchoMimic は、音声と顔の特徴だけで人物ビデオを生成することができ、また、音声と選択した顔の特徴の組み合わせで生成することもできます。技術アーキテクチャは以下のようになっています。
音声入力による人物画像アニメーション領域では、リアルなダイナミック人物画像の生成において著しい進歩が見られています。従来の方法は、音声または顔のキーポイントを使用して画像をビデオに変換することに限定されていました。これらの方法は満足のいく結果をもたらすことができますが、いくつかの問題が残っています。たとえば、音声のみによる方法は、時々比較的弱い音声信号のために不安定になることがあります。一方、顔のキーポイントのみによる方法は、より安定したドライブを提供しますが、キーポイント情報の過剰な制御により、結果が不自然になる可能性があります。これらの課題を解決するために、Alibaba は EchoMimic の新しいアプローチを採用しました。EchoMimic は、音声と顔の特徴を同時に使用してトレーニングします。新しいトレーニング戦略を実装することで、EchoMimic は音声と顔の特徴だけで人物ビデオを生成するだけでなく、音声と選択した顔の特徴の組み合わせで生成することもできます。EchoMimic は、さまざまな一般データセットおよび収集したデータセットで他のアルゴリズムと包括的に比較され、定量的および定性的評価の両方で優れたパフォーマンスを示しています。追加の視覚効果とソースコードは EchoMimic プロジェクトページで入手できます。
Github アドレス:https://github.com/BadToBest/EchoMimic
公式アドレス:https://badtobest.github.io/echomimic.html