虚拟主播已开始上岗带货,它们能胜任吗?

虚拟主播需要灵活运用肢体、声调、手势,吸引注意力,如若不协调,极易导致观众离场。

过去两年的疫情让越来越多的消费者养成了直播购物的习惯,也让虚拟人——这一此前通常是虚拟偶像领域里的角色开始大量进入直播带货领域。

与真人主播相比,虚拟主播完全可控,不用担心跳槽导致苦心培训的人才流失。根据人工智能资讯平台量子位的预测,2030年中国虚拟数字人整体市场规模将达到2700亿元,其中代替真人服务的服务型虚拟数字人市场规模约950亿元。

其实早在2020年初,淘宝就宣布将重点扶持虚拟主播。乐淘互娱就是淘宝平台上开展虚拟直播的“主力”,曾为良品铺子、壳牌、海伦斯等品牌订制过用于直播互动的AI数字人。不过,这些数字人的背后都是“中之人”(身着动捕服的演员),他们的装备是从英国进口的一套10万元的动捕服,如今,一场品牌合作直播报价能够接近3万元。

乐淘互娱早先与淘宝合作直播业务后,捕捉到了观众对直播画面的要求,“我们做影视起家的,参考国外的技术用到了开发游戏的虚拟引擎,是一个纯三维的虚幻的引擎。除了做电影特效以外,我们还做了些电子商务相关的直播背景跟场景。”乐淘互娱的技术研发部部长李雪舟告诉《第一财经》YiMagzine杂志,启用虚拟主播的直播背景可以自己选择时空,这也是早期虚拟直播吸引观众的重要因素。

尽管乐淘互娱在淘宝做到了全国前三,但乐淘的客户更多还是以小店为主,客户购买后通过成熟的直播机软件,让背后的客服读台本。但这样机械的互动难以满足观众的需求。

在直播带货领域,由于要对商品做出极为详细的描述,且需要更加专业化的讲解,对主播自身有着极高的要求。主播需要灵活运用肢体、声调、手势,吸引注意力,如若不协调,极易导致观众离场。很多公司制作的AI数字人无法同时兼顾嘴型与肢体动作,停止说话后,主播的身体还会继续摆动,不够自然。

另一家公司跳悦智能就在尝试解决这个问题。

不同于市场常见的需要依靠屏幕背后身着动态捕捉服的演员开展互动的虚拟主播,跳悦智能研发的AI数智人可以基于提示,结合语言模型自行运转:打招呼、介绍商品、与观众互动、带货,都能独立完成。

跳悦智能打造的AI电商主播

跳悦智能率先研发了能在直播带货场景通过3分钟图灵测试的AI数智人产品,是国内领先的AI数字人技术研发公司。2021年成立跳悦智能之前,创始人包英泽曾经在硅谷创立3D视觉公司xPerception并被百度收购,此后又在百度任主任架构师及教育公司VIPKID任首席科学家,有着多年的人工智能领域从业经历。

跳悦的AI数智人动作更流畅、准确。早在2019年,跳悦就开始关注并使用扩散模型(Diffusion)技术合成数字人与场景,而直到去年6月,扩散模型才开始走进大众视线。包英泽在百度时曾经负责过一个AI智慧工业光谱相机的项目,为了给相机人工降噪,包英泽做了多次尝试,扩散模型就是最优解。扩散模型对声音的出色处理引起了他的注意,“就这个声音来说,我们很早就发现用扩散模型去做合成声音的效果要好很多。

一般而言,虚拟主播需要足够多的声音素材深度学习才能稳定地复制声音,而在使用扩散模型后,通过20分钟的录音就能复刻声音。购买完跳悦的AI数智人,生成形象、声音、直播间背景后,一小时就能实现初始化。

汉能创投通过行业研究确定了虚拟人的投资方向,在去年12月对跳悦智能做了天使+轮的投资。汉能创投的执行董事龙翔曾在一次体验淘宝主播带货的直播互动中发现主播与观众互动的神态语气都十分自然,咨询商品问题大概两三分钟后才能发现背后是虚拟主播——而这个虚拟主播正是跳悦智能的产品。

跳悦早期曾经做过虚拟电视主播、虚拟教师等产品,为后来主攻AI数智人电商带货积攒下了经验。不同于前者,跳悦智能打造的AI电商主播不再是单向输出,更强调互动。通过搭载OpenAI和ChatGPT的接口,跳悦的大语言模型可以自动针对观众的问题提取答案。“可能一些对话机器人是识别关键词回答的,但关键词匹配一是不太准确,二是商家配置比较麻烦,配置100个问题都不一定能对应到你想问的上面。”包英泽告诉《第一财经》Yimagazine,跳悦的AI数智人会基于常识推理,对即将输出的文案二次编辑。

有chatGPT能力的AI数智人

此外,早期的入局也让跳悦度过了需要大量投入的人力标注阶段,积累了大量数据,这些积累让它的相对成本更低,基础款每月只需要1500元,在市场上占有优势。一家电子产品的中国分销商已经续费了18个月,是跳悦成立一年半以来续约最长的用户。

龙翔告诉《第一财经》YiMagzine,跳悦智能是汉能创投投资过的少数在早期就实现自我造血的AI公司。跳悦也是少数摆脱“真人+数字人”组合直播,实现数字人独立直播,销售能力超过真人平均水平的公司。

但对于其他公司来说,前期的巨大投入意味着只有增加订购量增加才能回本。“乐淘的量绝对没有(起来),市场的接受程度很有限。”即使每个月的销售额近4亿元,李雪舟仍然认为现在的市场没有成熟。具体到生产公司来说,即使在行业中处于领先的位置,也并不代表在整个领域中具有优势,未来还有很长的路要走。

北京跳悦智能科技有限公司成立于2021年,专注真实和智能的拟人AI(数智人)技术研发,是AI数智人产品化开拓者、数智人技术解决方案服务商;已获得真格基金和汉能资本的投资,以及HICOOL、中关村创业大赛、创客北京、itec创业大赛等多个奖项。

跳悦智能的市场定位是领先的AI数智人技术解决方案服务商,专注为政企客户提供AI数字人解决方案。例如:

  • 为某头部大模型公司提供数字人创建和视频合成产品,为其语言模型产品线增加可视化的互动能力。
  • 为某著名电视台提供数字主播创建产品,帮助降低主持人视频制作成本,提高视频产量。
  • 为某上市民营医院提供数字医生克隆产品,实现医疗科普视频的低成本制作,在APP中植入可互动的AI医生功能。
  • 为某殡葬行业上市公司提供数字人方案,打造集团的数字发言人,并为其客户提供逝者复刻服务。
  • 为某电商平台提供数字主播能力,帮助其商家低成本高质量的日不落直播。除此之外,在淘宝、美团、京东、唯品会等平台上,在AI主播每日互动直播数量上,跳悦智能稳居市场前列。

个性化:使用跳悦智能的产品线,客户可以快速容易的创建自己的数字人,包括逼真的形象和声音复刻,以及准确的音画同步效果。而市场上大部分数字人竞品,都需要较长的制作周期,才能创作效果较好的数字人模型。

智能化:跳悦数字人不仅外貌逼真,还可以实现音视频互动。而市场上大部分数字人竞品,都只有视频能力,缺少互动。

平民化:基于跳悦自研的AI推理框架,跳悦智能数字人可以在普通PC主机上独立运行,企业部署难度小,让数字人走进每个人的电脑。而市场上大部分数字人竞品,都是基于GPU云服务器推流实现,使用成本高,部署难度大。

跳悦智能核心算法已有6年的积累,是国内积累时间最久最成熟的数字人技术服务上。除了核心算法,跳悦智能遵循数据飞轮原则,不断巩固数据壁垒。

数据积累优势:目前已真实场景100Tb高质量视频数据;电商政务客服场景1000万句文本;1000+人物动作和服饰

模型算法优势:基于大模型的第三代数智人核心算法;源自核心团队6年技术积累;基于 RLHF原理在使用中提升效果;端到端自研模型,可实现人物躯体和微表情控制

算力规模成本优势:自建GPU数据中心控制成本;自研高可靠大规模推理软件架构;峰值支持1000块GPU同时在线

顶尖技术团队:创始人包英泽博士,清华电子工程本科,密西根/斯坦福计算机博士;成功创业者+AI创业项目百度收购;国际AI期刊审稿人,论文引用次数1000+;河北省省级技术领军人才;前VIPKID首席科学家(VP级)、百度主任架构师(T9)

顶级AI团队:达摩院、滴滴研究院算法负责人;中国移动研究院语音算法专家;VIPKid数字人算法高级工程师。 

想获取更多信息?

扫码添加「有AI小悦」

为您提供定制服务

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注