啊!从"馕言"到扫雷,Grok3竟靠邓丽君歌词逆袭?

2025-03-04



作者|西梅汁

编辑|星奈

媒体|AI大模型工场


才测完阿里的Qwen2.5-Max的新模型没多久,这不,最近阿里又推出了第一款推理模型QwQ-Max的预览版。


据了解,QwQ是在QWQ-MAX-PREVIEW支持下,一个基于Qwen2.5-Max的推理模型,可同时支持深度思考和联网搜索,并会展示完整的思维链。


官方表示,在不久的未来将开源QwQ—Max,当天晚上,阿里又同步开源视频模型万相2.1,截至目前,该模型已经登顶全球开源榜首!阿里这波"源神"操作,属实把开源精神玩明白了。

话都说到这了,那AI大模型工场再把最近马斯克号称「地表最强」的 Grok3以及我们的国产黑马DeepSeek拉出来跑跑~


一、挑战”馕言馕语“


最近新疆人的说话语序可被大家玩坏了,看到好多新疆“馕言文”真的太有意思了,有一种看得懂,但是一辈子都说不出来的比喻,那我们试试问问AI是否可以翻译出来呢!



1、QWQ-MAX



2、Grok3



3、DeepSeek



你别说,你还真别说!推理模式下,QWQ、Grok3、DeepSeek这三个AI对新疆“馕言”的独特句式都分析的头头是道,并且也都翻译出了“喝酒不开车,开车不喝酒”的意思。




根据显示可以看到Grok3的资料库还挺丰富,引用的资料中居然还包含了邓丽君的歌词!


二、跑跑数学竞赛


在翻译完句子后,再用一道数学竞赛题,测测看几个模型的表现


1、QWQ-MAX



2、Grok3



3、DeepSeek



三款模型给出的答案都是正确的,但解题思路差异明显,QWQ解题过程相对比较简洁,过程中还有一些看不懂的字母;Grok3题目解析思路很清晰,步骤详尽且符合教育场景需求,更加适合辅助学习;DeepSeek思路也同样清晰,目前测下来,系统繁忙的次数也减少很多。


三、扫雷游戏的开发竞技


最后,咱们再通过生成扫雷游戏代码验证开发能力,三者均支持网页端一键运行,对编程“小白”友好,但细节处理存在差异。


1、QWQ-MAX



2、Grok3



3、DeepSeek



精细度把握上,可以看到QwQ-Max与Grok3更加注重代码交互细节,在扫雷游戏中嵌入了“雷”的视觉图标,提升用户界面(UI)的直观性;DeepSeek代码逻辑简洁高效,但界面设计较为基础,更适合对界面要求低但重视代码健壮性的场景。


整体来看,QwQ-Max依托超大规模MoE架构,在开源与综合性能上具备潜力;Grok3细节处理与资料整合能力突出;DeepSeek则保持稳定高效的国产黑马姿态。三款模型各有所长,展现了AI推理领域多样化的技术路径与竞争格局!

分享