AI大模型工场

扛起“深度推理+多模态”双重大旗，商汤日日新SenseNova V6全新升级！

2025-04-11

作者｜冰拿铁

编辑｜星奈

媒体｜AI大模型工场

“君子之学必日新。日新者，日进也。”当下，AI创新浪潮翻涌，奔向AGI的星辰大海，追光路上，多模态、深度推理竞技逐渐成为行业重心：一方面，多模态走到舞台中央，从 Gemini 2.0、GPT 4.5 到最近刚发布的 Llama 4，可以看到国际主流机构持续提升原生多模态能力的清晰脉络。这背后的底层逻辑是，多模态大模型通过更广泛、更深度的信息交互与整合，可以为用户更完整的场景价值。

另一方面，深度推理能力成为技术竞赛的核心焦点，毕竟这是让大模型切入高价值业务场景的关键技术基础。不过，目前业界对推理能力的关注主要在数理求解等纯文本推理任务上，但要实现推理能力在更广泛场景的落地，就需要多模态和推理的紧密结合。

谁能扛起“多模态+深度推理”双重大旗？如今，“扛把子玩家”来了——4月10日，“2025 商汤技术交流日”举行，推出主打“强推理”的全新日日新 6.0 AI 模型，性能预期对标Gemini 2.0 Pro。

作为商汤日日新大模型体系最新版本的基础模型，日日新SenseNova V6具备深度推理与多模态理解能力，适用于办公、教育、文旅、自动驾驶等场景。

在独立评测中，多模态和语言深度推理任务上同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。

同时，日日新SenseNova V6创新实现“慢思考”深度分析，推动多模态AI迈向更高智能。不止于此，商汤日日新SenseNova V6的交互版本「SenseNova V6 Omni」发布，拥有强大的实时交互、视觉识别、记忆思考、持续对话和复杂推理等能力，进一步强化AI的陪伴感、沉浸感，让每次互动更加智能与贴心。

苟日新，日日新，又日新。如今，超越自己、代表中国竞逐国际赛场的日日新6.0版本又带来了哪些新惊喜？

一、日日新SenseNova V6：

多模态+强推理双杀！

在当下，多模态能力为何成为行业竞逐重点？这是由于真实业务场景（如自动驾驶、工业制造、金融分析）中的信息天然是多模态交织的，例如视频包含视觉和时序信息，金融报告融合文本、表格、图表等。传统单一语言模型仅能处理文本，无法完整理解这些复杂场景。

而作为国内率先实现多模态下的深度思考能力的大模型，日日新具有多模态原生优势，相较那些虽然会深度思考但缺乏多模态能力、“五感未打通”的大模型，赢在起跑线上：

日日新SenseNova V6作为拥有6200亿参数的MoE融合模态大模型，在一个统一的模型框架内，实现了图片、文本、视频能力的原生统一，突破传统多模态分立局限，引领AI技术革新。

如今，凭借多模态的原生融合优势，商汤日日新SenseNova V6的多模态理解、推理和交互能力大幅升级，叠加强推理、强交互、长记忆等能力BUFF，率先实现多模态下的深度思考。

长思维链维度，超过 200B 高质量多模态长思维链数据，最长 64K 思维链；数理能力维度，数据分析能力大幅领先 GPT-4o；推理能力维度，多模态深度推理国内第一，对标 OpenAI o1；全局记忆维度，率先在国内突破长视频理解，支持10分钟的视频理解及深度推理。

在权威的推理能力及多模态能力评测中，「日日新 V6」在多个维度获得SOTA：

【核心指标】纯文本任务综合性能优秀，比肩国际一线模型；多模态性能领先，各方面性能突出；纯文本推理与多模态推理能力均取得SOTA

【强推理能力】日日新融合模型从 5.5 到 V6 / V6 Reasoner，推理能力显著提升。在独立评测中，多模态和语言深度推理任务上同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。

实测中，日日新可以get到emoji中有趣的梗，比如这个张梗图：

这么抽象的图也是被“商量”玩明白了。

也能做到根据图片给出装修建议，把我们公司杂乱的一角喂给它：

可以看到他从安全隐患到视觉审美再到家居智能化都给出了详细的建议。

复杂繁琐的文档处理场景遇上多模态强推理AI，效率提升翻倍，也可来商汤办公小浣熊体验：https://xiaohuanxiong.com/officev2/

值得一提的是，日日新SenseNova V6是首个支持10分钟中长视频深度解析的大模型：随着互联网技术的飞速发展，视频已成为大众获取信息与知识的主流方式。相较于传统文本形式，视频融合了图像、语言、动作及场景等多模态信息，能够更加直观、生动、沉浸式地实现知识的立体化传播。然而，这种信息密度的跃升也使得视频的理解门槛更高，对AI技术提出了更加复杂的挑战。

而商汤日日新SenseNova V6是国内首个支持10分钟中长视频深度解析的大模型，视频理解能力国内最强，基础性能逼近Gemini 2.5 Turbo，同时支持视频中的音频+视频的混合模态分析。

比如，打开商量视频助手，上传柯南剧集，其能概述剧情以及柯南破案经过，成为最佳追剧搭子：

再比如，上传视频，输入“请帮我剪辑视频中的片段，包含任意由客户指定的场景，提取相关片段，标明时间范围，并为每个片段配上解说文案，用户场景为：进球时刻”，商量就能聚焦进球时刻的核心场景，精选最具张力的破门瞬间与战术配合段落。

而且这位AI剪辑师还有一套专业的技术方法论：通过「慢动作特写+多视角切换视觉冲击，配合数据可视化包装(如射门轨迹热区图)，最终呈现FIFA Online3赛事解说的专业性与游戏足球的美感。

（恐怖如斯，我司剪辑已经汗流浃背了！）

再投喂一个视频，指令是以列表形式输出视频中必买好物，格式为“序号、物件、原因及用途”。AI很快指出是一位装修达人分享的装修开工需要提前准备的小物件清单，随后列出了十个需要网购的物品：钱(开玩笑)、网钱，水井房钥匙……

最绝的是，它能分辨出“买钱”是开玩笑！

一套测评下来，能看到日日新的大幅飞跃：传统视频分析多依赖单一模态，如仅视觉或音频的浅层特征提取，而日日新V6通过混合模态分析，实现了对视频中非结构化信息的立体化解析；

同时，支持10分钟中长视频解析，意味着模型需具备长上下文记忆与动态场景建模能力，通过先进的模态信息压缩技术，实现长时域信息的连贯推理，在超长视频中保持对关键事件（如会议记录、教学演示）的持续追踪，避免信息断层，这标志着AI从“片段式理解”向“全局认知”的跃迁。

这一视频解析能力突破，不仅是技术层面的里程碑，更开启了“视频即数据库”的新时代。好比文字识别技术对纸质文档的数字化革命，有望重构用户与视频信息的交互范式，并渗透至产业毛细血管，成为驱动数字经济的新引擎。

那么，应用层面，基于商汤日日新SenseNova V6、全新升级的交互版本SenseNova V6 Omni带来了哪些惊喜？

二、实测全新升级交互版本SenseNova V6 Omni：

感知、情感理解更拟人！

商汤认为，大模型在商业应用上有两个方面的关键价值：一是融入真实的业务应用，具备处理复杂信息和解决复杂问题的能力；二是以更有亲和力的方式与人交互，让人感受到和模型交流的良好体验，愿意和模型持续交流。

这在「SenseNova V6 Omni」上体现得恰如其分——其拥有国内最强的多模态交互能力，是国内首个商业化的全模态实时交互模型。

SenseNova V6 Omni具备高度拟人化的感知、表达和情感理解能力，可针对不同的对话内容和场景需求，即时灵活地切换语气、情感与音调，同时还拥有强大的实时交互、视觉识别、记忆思考、持续对话和复杂推理等能力。

比如，数学解题场景，基于强大的音视频沟通能力，SenseNova V6 Omni支持手写答案识别和深度思考，可通过多步骤的缜密思考提高解题准确性。

基于其创新打造的“一对一讲解能力”，SenseNova V6 Omni如同个性化数学私教，可帮助用户快速了解解题过程中的失误和疏漏，并以引导提问的方式为用户逐步剖析解题思路，还支持语音实时答疑，随时解答用户在解题过程中遇到的问题。

这不仅有望降低优质教育资源获取门槛，还能通过数据积累优化教学策略，推动“因材施教”在AI时代的规模化落地。

再比如，点读翻译场景，在音视频通话模式下，SenseNova V6 Omni可对用户指尖指向位置的文字进行精准翻译，带来“指哪儿翻哪儿”的即时语言转换体验。

据悉，结合中英文翻译能力，可以实现接近100%的点读翻译准确率，同时，突破传统的手动选框或输入操作翻译模式，让翻译过程更高效、更流畅，交互更自然，完美契合“所见即所得”的认知习惯。在教育场景中，这种能力有望应用于双语教材阅读、外文文献研究等领域，提升学习效率的同时降低认知负荷。例如，学生阅读英文原版书时，指尖触碰即可生成词汇卡，结合上下文语境提供精准释义。

文旅讲解维度，SenseNova V6 Omni可担任“拟人化导游”，通过“视觉+语言”的多模态信息融合方式为用户带来沉浸式的文旅场景介绍。

在探寻文明密码、叩问“何以中国”蔚然成风、各地掀起文旅热的当下，这一技能无疑为文化遗产的数字化保护与传播提供新工具，期待未来，博物馆、文化遗址等机构开发虚实融合的导览项目，吸引年轻群体关注传统文化。

从技术演进角度看，SenseNova V6 Omni的突破不仅在于多模态能力本身，更在于其通过“感知-决策-交互”闭环重构人机关系，有望推动各行业从“工具辅助”阶段迈向“智能协同”新纪元。

三、训练成本、推理成本业界最低、

优于DeepSeek：再燃AI普惠之火！

为什么多模态+深度思考时代，商汤能领跑赛道、为AGI时代的产业升级奠定基础？这得益于商汤对多模态的精准判断与果断押注：商汤认为，融合多模态是未来的一条必由之路，其技术最显著的特点是「单一模型，多模态融合」。而这种“单一模型融合多模态的技术路径”也为国际顶尖头部玩家趋之若鹜，GPT-4o、Claude 3.5、Gemini 2.0都采用了类似路径。

值得一提的是，得益于商汤大装置与大模型的协同优化，实现“模型 - 系统 - 计算”的垂直整合，商汤日日新SenseNova V6的训练和推理效率显著提升，成本大幅降低，整体推理成本达到行业最低，优于DeepSeek。

惟创新者进，惟创新者强。日拱一卒无有尽，功不唐捐终入海：如今，商汤等企业不断更新、降本提质，通过资源垂直整合实现效率提升与成本优化，让AI从“可用”向“易用”“普惠”阶段跨越，通过“日日新”体系的持续迭代，商汤正在构建AGI时代的基础设施。如商汤科技联合创始人徐立所言:“AI之道，在于百姓之日用。商汤日日新V6将跨越多模态边界，释放推理与智能的无限可能。”期待未来，如徐立所言，其在模型的迭代速度及处理问题的能力上可以日日更新，不断解锁AGI的更多可能。