AI大模型工场

啊！从"馕言"到扫雷，Grok3竟靠邓丽君歌词逆袭？

2025-03-04

作者｜西梅汁

编辑｜星奈

媒体｜AI大模型工场

才测完阿里的Qwen2.5-Max的新模型没多久，这不，最近阿里又推出了第一款推理模型QwQ-Max的预览版。

据了解，QwQ是在QWQ-MAX-PREVIEW支持下，一个基于Qwen2.5-Max的推理模型，可同时支持深度思考和联网搜索，并会展示完整的思维链。

官方表示，在不久的未来将开源QwQ—Max，当天晚上，阿里又同步开源视频模型万相2.1，截至目前，该模型已经登顶全球开源榜首！阿里这波"源神"操作，属实把开源精神玩明白了。

话都说到这了，那AI大模型工场再把最近马斯克号称「地表最强」的 Grok3以及我们的国产黑马DeepSeek拉出来跑跑~

一、挑战”馕言馕语“

最近新疆人的说话语序可被大家玩坏了，看到好多新疆“馕言文”真的太有意思了，有一种看得懂，但是一辈子都说不出来的比喻，那我们试试问问AI是否可以翻译出来呢！

1、QWQ-MAX

2、Grok3

3、DeepSeek

你别说，你还真别说！推理模式下，QWQ、Grok3、DeepSeek这三个AI对新疆“馕言”的独特句式都分析的头头是道，并且也都翻译出了“喝酒不开车，开车不喝酒”的意思。

根据显示可以看到Grok3的资料库还挺丰富,引用的资料中居然还包含了邓丽君的歌词！

二、跑跑数学竞赛

在翻译完句子后，再用一道数学竞赛题，测测看几个模型的表现

1、QWQ-MAX

2、Grok3

3、DeepSeek

三款模型给出的答案都是正确的，但解题思路差异明显，QWQ解题过程相对比较简洁，过程中还有一些看不懂的字母；Grok3题目解析思路很清晰，步骤详尽且符合教育场景需求，更加适合辅助学习；DeepSeek思路也同样清晰，目前测下来，系统繁忙的次数也减少很多。

三、扫雷游戏的开发竞技

最后，咱们再通过生成扫雷游戏代码验证开发能力，三者均支持网页端一键运行，对编程“小白”友好，但细节处理存在差异。

1、QWQ-MAX

2、Grok3

3、DeepSeek

精细度把握上，可以看到QwQ-Max与Grok3更加注重代码交互细节，在扫雷游戏中嵌入了“雷”的视觉图标，提升用户界面（UI）的直观性；DeepSeek代码逻辑简洁高效，但界面设计较为基础，更适合对界面要求低但重视代码健壮性的场景。

整体来看，QwQ-Max依托超大规模MoE架构，在开源与综合性能上具备潜力；Grok3细节处理与资料整合能力突出；DeepSeek则保持稳定高效的国产黑马姿态。三款模型各有所长，展现了AI推理领域多样化的技术路径与竞争格局！