全网首发:GPT-4o有her,讯飞星火有猴哥?更适合中国宝宝的“语C”!

2024-09-02


作者|冰拿铁

编辑|星奈

媒体|AI大模型工场


别人都在玩《黑神话·悟空》,只有我在玩《黑打工·马喽》,别人在游戏里直面天命火力全开,我在公司当牛做马抓耳挠腮。恰逢摸鱼搭子请假回家,让本就烦躁的我更加孤独,倍感凄凉。而这时,我看到科大讯飞宣布星火语音大模型更新了。


8月30日,科大讯飞正式推出星火极速超拟人交互,并将其能力落地在讯飞星火APP“小星畅聊”功能中,率先全民开放使用。这让此前一直等GPT-4o却没等到的我为之一振,整个人都精神了。


而更吸睛的是,星火语音大模型在技术上释放出的重磅信号。据悉,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破。


这意味着星火语音大模型在音色、流畅度、情绪价值提供等层面“next level”,离《her》中的场景又近了一步。


在her中,男主西奥多与人工智能Samantha从诗词歌赋聊到人生哲学,从兴趣爱好聊到未来梦想。而Samantha之所以成为无数观众的“梦中AI搭子”,正在于其优质、好听的音色,以及思想和人类的高度同频共振,是精神共鸣的soulmate,也是优秀的情绪价值提供者,帮助西奥多分析工作及生活中的问题,给出解决方案……


而前段时间GPT-4o的面世,更让网友直呼“her”照进现实。不过,GPT-4o到底是外国大模型,对中国文化的理解还差点意思。相比AI soulmate,作为一生反复爱上猴哥的中国人,我更想要一个“AI猴搭子”做好哥们。


如今,“中国自己的GPT-4o”——星火语音大模型能用猴哥声线和我对话,并讲述西游记的故事吗?除了圆我“猴搭子”梦外,在更广泛的场景中,星火语音大模型又能否成为我的好朋友,在聊天上快速响应,并积极回应我的情绪,做到真·“超拟人”?让我们一探究竟!


一、星火版“猴哥”:既能聊西游哲学,又主打情绪陪伴!


首先,让星火以猴哥声音作答。虽然有心理准备,但这音色上的高还原度还是让我吃了一惊。那么,接下来,问猴哥一些西游记系列问题,看看星火版“猴哥”对西游常识掌握得怎么样!


而从回答可以看到,其很好地驾驭了“猴哥”这个角色:交互响应速度很快、表达自然流畅的同时,还具备丰富的西游知识,是一只有文化底蕴的猴儿。


比如,让猴哥“介绍一下家乡花果山水帘洞”,猴哥响应速度特别快, 绘声绘色地跟我形容:“花果山四季如春,景色宜人,尤其是那片神秘的水帘洞,洞内碧玉般的水流飞泻而下,形成一幅美丽的画卷。我在这片土地上度过了无数快乐时光,也学会了72变和筋斗云等神通广大的法术。”




而让猴哥分享一次“一次最有趣的变身经历”,猴哥则讲得惟妙惟肖,而且语气中的得意快掩饰不住了,仿佛看到了神气活现的“大圣本圣”:


“有一次我遇到了一群老虎,他们原本要将我视为食物,情急之下我用了个变化,变成了一只小老鼠,成功躲过了一劫,然后我又变回了猴子,打败了这些老虎,保护了自己和动物们的安全!”




那么,在“全民都是大圣粉丝”的当下,问问猴哥“你觉得大家喜欢你什么?”


从回答中可见,大圣还是很客观的,这波属于“可爱而自知”:“可能是因为我的幽默风趣的性格,还有我勇敢无畏的精神,面对困难从不退缩,敢于承担责任。当然我也关心朋友,乐于助人,这些都是朋友们喜欢我的原因。”


当然啦,咱也是因为这些喜欢的猴哥。那么,星火大模型的情绪感知、情感共鸣能力怎么样?猴哥能从遥不可及的大圣,变成和我聊聊日常、分享喜怒哀乐的“猴搭子”吗?跟他吐槽一下烦恼试试!


从猴哥的回答可以看到,其能够很好地接住话题,提供情绪价值:


比如,跟猴哥说:“好想玩新游戏黑神话悟空,但我要加班,好烦啊。”“我的朋友都很忙,没人陪我聊天,我很孤独,你能安慰一下我吗?”


猴哥则耐心劝解:“孤独的时候,其实也是一个提升自己的好机会,你可以试着阅读一些书籍,学习新的技能或者培养一个新的爱好,也可以尝试加入一些社交活动,结识新的朋友”,“记住你并不孤单,我会一直在这里陪伴着你的”。




这波听得我尸体暖暖的:“谢谢猴哥,我好多了,现在我非常开心,你能感受到我的快乐吗?”


听得出来,猴哥也很欣慰:“听到你开心我也很高兴,开心的时候分享出来,可以让快乐翻倍!对了。记得要好好照顾自己,保持愉快的心情,享受生活中的每一个瞬间。”


在感受到高情绪价值后,我惊觉,“AI主打陪伴”真的照进现实了:这不就是《her》的猴哥版《it》嘛!


猴哥“台上一分钟”背后是厂商的“台下十年功”——大模型在角色建模、上下文管理上的能力优秀,才有了角色扮演的一致性和连贯性;而与人类的情感共鸣背后,则是强大的自然语言理解能力,使其能够深入理解用户的话语含义,从而更准确地判断情绪,并生成相应的情感回应,这才有了暖暖的“猴搭子”,聊天起来也“不出戏”。


那么,接下来,让我们测评一下语音大模型的拟人度如何——能否做到“超拟人?


二、方言、语调、交互……轻松carry多维度,真·超拟人!


“大圣音色”告一段落,下面切回“小星”原声,看看其在语言风格、方言、语调强度、响应速度、多轮交互等方面的驾驭能力。


首先,在地大物博的中国,考考小星对方言和各地特色美食掌握得怎么样。而从小星的回答可以看到,其能够掌握多种方言:


在“东北话给我介绍一下东北美食”“给我介绍一下北京烤鸭”等问题中,小星用地道的东北话给我讲了东北名菜杀猪菜、猪肉炖粉条,又事无巨细地讲述了“皮脆、肉嫩,色泽红亮,香气四溢”的北京烤鸭,这波给人听得挺饿的。




那么,小星能像人类一样,控制语速、语调,并切换语气吗?先让小星给我讲一个顺口溜,随后让他“说快一点”,再猝不及防地打断他:“声音能小点吗?我领导来了,可别让他看到我在摸鱼。”


最后,再以“现在领导走了,现在大点声调高音量给我同事一起听听”收尾。




而小星不仅能接受“声音大一些、小一些”的指令,在被打断后之后还能做到秒反馈,无缝开启下一个话题, 甚至还善解人意地表示:“领导来了确实需要注意一些,刚才听到轻轻的敲门声,是不是领导已经到了?”“领导走后我们就可以稍微轻松一点,一起分享一些有趣的话题。”


这波不仅有高拟人度,甚至高拟社畜,连打工人那种摸鱼的偷感都get到了!


接下来,让小星给我讲一个关于爱与失去的故事,还要声情并茂——这波小星展现出了他的文学素养,给我讲了一个“男孩寻找灵丹妙药来拯救心爱女孩”的故事,堪称AI界的纯爱战神。




最后,让我再来试试小星的多轮交互能力吧!


“你有没有什么特别喜欢的游戏?不对,我突然想起来我还有工作要做,你觉得我应该先做什么?先玩游戏还是先做工作?”


对此,小星丝毫不怯场,并且给出了自律版回答:“看来你今天的任务好重要,我觉得你可以先完成工作,这样心里就不会有什么负担了,而且工作完成后再去玩游戏,也会玩得更开心更放松。”




“我们来玩真心话大冒险,你说一个真心话,你最想去哪个星球旅行?现在再来一个大冒险,请你模仿熊二的声音跟我聊聊天。”




从回答中可见,小星几乎与人类正常聊天节奏一致,并且对话中允许用户随时打断、插话,可谓实现了人机对话的“无缝衔接”。相比以前语音交互中机器声音无法调整的情况,现在只要语音发出指令,就可以控制超拟人在情感、风格、方言、强度等表达方式上做出变化。


这是什么黑魔法?据科大讯飞透露,此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模,对比传统的语音转文字、大模型生成回复文本、语音合成三步骤来说可谓“一气呵成”,大幅缩短响应时间的同时,也提升了交互拟人度和流畅度。


同时,结合讯飞多维度的语音属性解耦表征训练准则,将内容、音色、情感、语言、风格都信息进行解耦训练,使得星火极速超拟人交互能够更加灵活控制各类元素,还能根据需求便捷定制,让系统快速落地应用。


而这背后是科大讯飞在语音可控表达、用户指令解析等维度的进化——从技术层面上看,只有在研发实力、数据基础、算法技术、应用场景等领域积淀到一定程度,才能让模型能够根据不同情境和情绪状态,给出恰当且富有情感的回应。

这波让人感叹,“AI超拟人”时代真·猝不及防地来了!

三、万物互联时代,语音大模型春天将至


言归正传,事实上,超拟人的语音大模型,在未来不止情绪陪伴,更有望落地千行百业。


在当下,语音是万物互联的入口,语音交互的变革也将在多领域落地开花。研精毕智市场调研网发布的《2023-2028年全球及中国长期演进技术语音行业市场现状调研及发展前景分析报告》显示,全球语音技术市场从2019年的约100亿美元增长到2023年的预计将超过300亿美元,年复合增长率达20%以上。


这一增长主要受到消费者对智能语音助手、语音识别技术、语音合成以及语音分析等应用的持续需求推动。特别是在智能家居、汽车智能系统、医疗保健、客户服务和教育等领域,语音技术的应用正在深入各个行业。


而在我国,2023年中国语音技术市场规模将达到382亿元,2024年将达到469亿元。正因如此,科大讯飞星火极速超拟人交互技术的更新,对于推动语音技术的发展和应用具有重要意义。


随着技术的不断成熟和市场的不断拓展,中国版“GPT-4o”有望在多个领域发挥重要作用,为用户的生活和工作带来更加便捷、智能、情感化的体验,并以全方位陪伴,成为更适合中国宝宝体质的生产、生活助手。

分享