皮皮鲁

皮皮鲁

采用区块链技术建立的个人博客

阿里終於開源數字人技術!!

數字人技術的難點

數字人技術目前在許多場景都已經落地,包括:虛擬數字人直播,大幅提升了直播效率並降低了公司成本。但是在數字人行業解決方案的研發過程中,關鍵的技術挑戰主要涵蓋以下幾點:確保人物模型動作的流暢性與自然度,並結合靈活多變的直播語言表達技巧,以達成栩栩如生的數字人主播效果。儘管市面上已有眾多商業平台推出了一系列解決方案,但此次,螞蟻集團的支付寶開源了其數字人技術:EchoMimic。該技術使得人物表情生動多樣,動作流暢自然,適用於虛擬主播和人物視頻的生成。現在,無需任何費用,用戶即可構建一套屬於自己的數字人系統!

image

阿里開源 EchoMimic 數字人技術
EchoMimic 能夠通過音頻和面部標誌單獨生成人像視頻,也可以通過音頻和選定的面部標誌的組合來生成,技術架構如下所示。

image

在音頻輸入推動下的人像圖像動畫領域,已經取得了在生成逼真動態人像方面的顯著進步。傳統方法局限於使用音頻或面部關鍵點將圖像轉化為視頻,雖然它們可以產生滿意的結果,但某些問題仍然存在。比如:僅由音頻驅動的方法有時可能因為相對較弱的音頻信號而不穩定,而僅由面部關鍵點驅動的方法雖然在驅動上更為穩定,但由於關鍵點信息的過度控制,可能導致結果不自然。為了解決上述挑戰,阿里採用了 EchoMimic 的新方法。EchoMimic 同時使用音頻和面部標誌進行訓練。通過實施一種新穎的訓練策略,EchoMimic 不僅能通過音頻和面部標誌單獨生成人像視頻,還可以通過音頻和選定的面部標誌的組合來生成。EchoMimic 已經在各種公共數據集和我們收集的數據集上與其他算法進行了全面比較,無論是在定量還是定性評估中都展示了卓越的性能。額外的可視化效果和源代碼可以在 EchoMimic 項目頁面上找到。

Github 地址:https://github.com/BadToBest/EchoMimic
官方地址:https://badtobest.github.io/echomimic.html

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。