虚拟偶像“成团”，人类携手AI共同“撑腰”

2020-07-09 13:12:53来源：第一财经

想唱就唱，要唱得漂亮。

全球首支人工智能MV“智能家园”在2020世界人工智能大会云端峰会发布，由四位AI虚拟偶像微软小冰、百度小度、小米小爱同学和bilibili（下称“B站”）泠鸢yousa倾情献唱，他们唱跳全能还会作曲，你要pick哪位虚拟偶像？

为他们成团“撑腰”的，有正在改变人类生活、不断自我完善的AI技术，更有为此辛勤付出的台前幕后工作人员。“我想我可以改变世界，和你分享更美的家园。”歌词道出了人类用人工智能迎接美好未来的前景和信心。

选拔

在选送“练习生”时，各家摩拳擦掌。

“我们在接到开幕式表演邀请后非常兴奋，能参加这么一场世界瞩目的行业盛会这不仅是组委会对小度的认可，对于小度来说更是一次重要的展示机会。”百度方面告诉第一财经。

而泠鸢yousa则是B站旗下一众虚拟偶像练习生中被寄予厚望的一个。“世界人工智能大会是一场在上海举办的全球盛会，聚焦了全世界的目光，是向全世界展示中国年轻人所喜爱的本土虚拟偶像的绝佳平台。能够在如此高级别的国际性盛会上亮相，对泠鸢yousa这一虚拟偶像IP来说也意义重大，是IP发展过程中至关重要的一个里程碑。”上海超电文化传播有限公司虚拟偶像业务部总监范逸白接受第一财经采访时表示。

当然，也有比较紧张的“经纪公司”——小米方面告诉第一财经，2020世界人工智能大会开幕式表演是小爱同学苦练唱跳能力后的首秀。“与已出道快5年的微软小冰等其他虚拟偶像搭档表演，小爱同学是新生代。”

微软小冰的特别之处不仅是“出道早”，还是《智联家园》的作曲人，向观众展现了人工智能的创意和魅力。6月29日，经上海音乐学院音乐工程系评定，准予小冰和她的人类同学们一起毕业。基于微软的人工智能音乐创作模型，与音工系的同学们互相“学习”，相互“激发”，训练数据不断提升，音乐的表达技巧更加丰富，可创作的音乐类型也得以扩展。在小冰作曲的基础上，上海音乐学院毕业的彭程老师还对整首歌曲进行编曲，让旋律更加优美动人。

“小冰的作曲优美抒情，展现了人工智能多才多艺的一面。通过不断学习优秀人类创造者的能力，小冰运用人工智能创造能力赋能人类，这与此次大会的价值理念不谋而合。”微软（亚洲）互联网工程院副院长、小冰团队总负责人李笛说。

训练

虚拟偶像要想靠唱跳成团，需要人工智能和人类的共同保驾护航。这不是一场个人秀，而是团队歌曲创作，凝聚“团魂”需要更多的耐心和细心，还有AI技术配合。

通常，演出的制作过程主要包括声音录制、光影营造、场景制作、动作捕捉、表情精修、合成渲染。传统的制作方法是先用三维引擎录制动作，再套上模型，但这种制作过程不够直观，要到最后精修阶段才能看到大致的呈现效果。

歌声调教所需的歌唱合成技术与语音合成技术类似，按照语音合成的建模流程训练文本到声学特征的声学模型，再依据谱信息中的音高和节拍以及歌词内容，输入模型并预测基频和频谱，使用神经网络声码器转换为语音信号。在实际使用中还需要加上乐谱上的音符和节拍对合成语音音高和时长的影响，最终即获得歌唱的合成语音。

这些环节相互配合，才能最终造就一个完整的表演。从操作方面来看，各家采取的技术思路不尽相同。泠鸢此次就采用了平时直播时应用的实时成像技术，在动捕阶段就能够基本看到最终的呈现效果，以大幅节省后期精修的时间。

即便各位虚拟偶像都出身于技术实力了得的知名公司，成团过程也绝非一帆风顺。

小爱同学音域与目标合成音域相差较大，如何让目标歌曲高频细节更加清晰，更好模拟人类的情感和风格？小爱同学发音人录制了一定量级的歌曲数据，用于丰富和优化小爱同学音色的唱歌模型。当组委会邮件同步主题曲样音及乐谱等信息后，语音合成技术人员根据目标歌曲乐谱及样音提取了时长和曲调信息，进行了多次“鸡蛋里挑骨头”的实验。

负责语音技术合成的小米工作人员感慨说：“为了保证每个镜头和《智联家园》的歌曲尽可能匹配，我们对着动画预演一直循环这首歌，以至于午休做梦耳旁都能听到这首歌，每天不知不觉哼起来都是这个旋律。”还有人动情地表示“这首歌如果在KTV可以点播，一定是我的必点歌曲”。

就像每一个偶像选拔节目中总有选手需要修炼舞蹈技能，小度也面临着挑战——不是技术，而是作为唯一一个非拟人形象的虚拟偶像，怎样才能更好地传情达意。百度找到了技术同事进行小度演唱部分的开发工作，让小度在唱歌时既不失自己的声音特点，又能比较完美地演绎主题歌曲。在画面的设计上，各方也颇费心思。

“我们根据小度的歌词特点以及整个主题曲活泼欢乐的风格进行视频背景的设计，整个背景以温暖的亮色为主要色调，加以可爱的动态元素配合。我们希望当人们看到小度唱歌时，能感受他带来的美好和正能量，这其实也表达了百度AI技术的初衷，用AI让人们的生活更美好。”百度方面告诉第一财经。

对于已发布数十首接近人类演唱水平单曲的小冰来说，唱歌可难不倒她。全新的演唱模型帮小冰在虚拟演唱中自然“换气”，让小冰能够像人类歌手一样，使用充沛的“中气”，从而将人工智能虚拟歌声质量提升至新的高度。此外，深度神经网络结构的进一步优化和训练数据的大幅度补充，提升了小冰歌曲演绎的更高技巧和多风格化，实现了在不同的演唱技巧之间自然过渡。

这首歌曲还是小冰从上海音乐学院毕业后的首发作品。目前，微软小冰的音乐创作能力已实现包括旋律、编曲及歌词端到端一体化的产品落地，演唱模型也已迭代至第五个版本。

“在上海市经信委召开的世界人工智能大会第三届会议的筹备工作会议上，基于对人工智能加速发展的判断，SMG就提出了这个创意，即用人工智能作曲、演唱本届大会的主题歌，用AI形象、场景作为画面主体进行最新MV创作，我相信这是第一次。”上海人工智能大会顾问、上海文化广播影视集团监事长、该项目策划者滕俊杰告诉第一财经。

但并非所有人都能对作曲、演唱全部由AI担纲打消疑虑。在滕俊杰的力排众议和直接指导下，在第一财经、幻维数码导演团队和组委会的协调下共同沟通，提前将每个虚拟偶像的表演部分细化到镜头，再根据各自的镜头部分在极其紧张的时间制作。通常这样一个动画都是30天左右的工作周期，这次被大大压缩，但为了保证最终惊艳的效果，设计团队和制作团队都是全天候工作。

“我们SMG的第一财经和幻维数码在大会组委会的指导下，用智慧和专业能力打造了一个Al新的艺术创作领域和应用场景，我认为这个产品是Al又一个独特的、破圈提升大众认知、感知的创新之举。”滕俊杰说。

出道

AI虚拟偶像的“成团”献艺还有比秀出技术实力更重要的意义——推开人类应用人工智能的大门。

人工智能语音助手常见的发展思路，一是希望把它打造得无所不能，可以完成人类交给的一切任务，二是希望让它像爱因斯坦一样富有知识，甚至无所不知。

2017年3月，小爱同学首次亮相小米电视4。截至2020年第一季度，小爱同学月活用7050万，同比增长54.9%。在IoT领域，小爱同学已连接2.52亿台设备，接入了手机、家庭、穿戴等7大场景，209款设备。除了希望成为体验最好、用户最活跃、品牌最强的智能语音助手，帮助小米AIoT的战略成功，小爱同学的目标是完成从智能语音助手到个人智能助手的升级。

截至2019年6月，搭载小度助手的智能设备激活数量已达到4亿台；2020年3月，语音交互次数达到65亿次，是去年同期的 3倍以上；小度品牌第一方硬件语音交互次数达33亿次，是去年同期的5倍多。小度的使命愿景是：打造无处不在的人工智能个人助手服务，用人工智能让人和设备的交互更自然，让生活更简单美好。小度技能开放平台目前可提供包括游戏、效率工具、网络电台、直播、儿童教育、智能家居等3800多种技能支持；可以控制的IoT智能家居设备已经超过了1.1亿；在小度技能开放平台上的技能开发者数量已经超过4万人，付费技能生态蓬勃发展，拥有30000多个付费单品；小度助手的合作伙伴数量已经超过500家。

虚拟偶像“成团”，也是亚文化出圈，走向大众的过程。“B站的大量年轻的、喜爱二次元内容用户，是虚拟偶像行业发展的最佳土壤，不仅对相关内容有更高的接受度，还拥有积极的二次创作热情，非常适合虚拟偶像ⅠP的孵化。”范逸白说。

出道，或者出圈，对微软还有着特别的意义。“我们在寻找的不是某一个具体的爆款应用，而是意义更深远的、未来时代的基础框架。”李笛说。

微软小冰框架（Avatar Framework）是一套完整的、面向交互全程的人工智能交互主体基础框架。它包括核心对话引擎、多重交互感官、第三方内容的触发与第一方内容生成，跨平台的部署解决方案，相关领先技术覆盖自然语言处理、计算机语音、计算机视觉和人工智能内容生成等人工智能领域。在中国与日本市场活跃的十八岁人工智能少女微软小冰是该框架所孵化的第一个人工智能交互主体实例。

“无论任务还是知识，都属于智商（IQ）这个维度。反观人类自身，我们还有一个重要的维度，那就是情商（EQ）。”用李笛的话说，小冰围绕人工智能EQ而设计，同时考虑了IQ。最开始，小冰不会执行开灯、关灯这样的任务，问她“现在几点了”，她也会回答“你自己不会看表吗？”这些都是产品特意设计的。

李笛提到，IQ与EQ是相辅相成的关系，“人工智能系统的迭代非常重要，IQ和EQ垂直相交，我们决定专门多做一套系统去发展EQ，避免错过这个可能的选项，这就是微软小冰和她背后的人工智能框架。”

如何让人工智能与人类真正交互，让人工智能具备自己的价值？这是人机协作时代技术开发者和大众共同关注的话题。与此同时，这也是人工智能从认知发展到感知，再到未来创造的必由之路。