1.选择技术
1.1.要求
支持本地化部署(最好对显卡没有特殊资源要求)
有比较成熟的SDK,能方便应用接入
1.2.AI初筛
特看:特看数字人丨AI 数字人直播系统丨AI 虚拟人直播解决方案 - 特看科技
Live2D:Cubism SDK Manual | SDK Manual | Live2D Manuals & Tutorials
初定方向:
2.AWESOME-DIGITAL
GitHub - wan-h/awesome-digital-human-live2d: Awesome Digital Human
缺陷:数字人形象不够真实,且不支持口型同步
3.腾讯智影
腾讯云渲染方案暂时也没有本地化部署方案,考虑端渲染H5 SDK接入方案
下载DEMO
启动服务:
报错:
反馈说未授权,联系客户体验授权,暂未回复
4.Live2D Cubism SDK
几种SDK差别:
可以自己生成数字人形象皮肤,软件使用有版权问题,生成形象属于个人。
4.1.网上找一个简单的demo跑一下
直接本地运行:
加载不出来,F12查看问题如下:
使用VSCODE运行index.html,下载一个插件
5.数字人应用多模块级联的技术方案
首先,使用语音识别(ASR)模块将用户输入的语音转为文本,然后将该文本输入大语言模型(LLM)模块生成相应的文本回复,文本转语音(TTS)模块会根据这部分文本内容进行语音合成,最后使用该语音驱动说话人生成(THG)模块,得到唇形同步的数字人说话视频,实现用户语音输入、数字人视频输出的对话效果。
参考文章:
开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s|已上线阿里ModelScope魔搭社区...-CSDN博客