名称:
-
日日新 SenseNova V6
所属公司:
-
商汤科技(SenseTime)
模型概述:
日日新 SenseNova V6 是商汤科技推出的第六代大规模多模态融合智能模型,具备语言、图像、音视频等模态的原生融合能力,定位为新一代通用人工智能底座模型。该模型采用混合专家(MoE)架构构建,参数规模达到数千亿级,具备长文本推理、视频分析、复杂任务规划与流式交互等先进能力,是商汤“日日新 SenseNova 大模型体系”的旗舰级产品。
发展历程:
-
2023年4月:商汤科技首次发布“日日新 SenseNova”大模型体系,包含语言理解、图像生成、智能交互等多个模型方向。
-
2023年8月:SenseNova 大模型完成内部部署与平台化训练,建立多模态统一架构基础。
-
2024年4月:推出 SenseNova 5.0,性能对标国际一线模型,支持文本与图像的深度理解和生成。
-
2024年7月:发布交互增强版 SenseNova 5o,提升流式对话与语音视觉融合交互体验。
-
2025年1月:SenseNova 交互模型商业化落地,率先在保险、教育、数字人等场景大规模部署。
-
2025年4月:正式发布第六代模型 SenseNova V6,全面升级多模态深度理解、视频处理效率和模型推理成本。
技术特点:
-
混合专家(MoE)大模型架构
利用稀疏激活的专家网络结构,大幅提升推理效率,支持超大参数规模下的高效部署和微调。 -
原生多模态融合机制
模型原生支持文本、图像、语音、视频等模态的联合建模,无需预处理拼接,具备高效跨模态对齐和理解能力。 -
长上下文推理与全局记忆机制
支持64K以上的上下文窗口,结合位置扩展机制与记忆网络,增强模型在长序列信息中的一致性与推理能力。 -
统一时序建模与模态对齐编码
实现视频、语音、图文的时间轴对齐,通过多尺度编码器捕捉时序逻辑和模态依赖,支持长视频精细化分析。 -
多模态思维链训练范式
构建跨模态推理样本链,结合多智能体协作生成高质量训练数据,强化模型在因果推理、假设验证等任务中的泛化能力。 -
强化学习与反馈训练融合(RLHF + RFT)
综合多种人类偏好反馈与任务评估指标,构建多目标奖励模型,提升模型对复杂语境和用户意图的适应性。 -
轻量级交互模型优化(Omni 版)
针对端侧交互需求推出轻量版,支持本地部署与多模态流式对话,兼顾实时性与认知深度。
主要功能:
-
中长视频语义解析与内容生成
具备10分钟级别视频内容压缩与语义提取能力,支持场景识别、事件抽取、剧情总结与内容配音。 -
多模态实时交互问答
实现图像、语音、视频与语言的实时融合交互,可完成视频中物体识别、人物关系问答、图文解说等任务。 -
复杂文件审阅与合规性识别
适配多格式材料(图片、PDF、音视频等),自动分析材料一致性与合规性,广泛用于金融与保险审核流程。 -
教育辅导与知识推理
对课件、笔记、视频讲解进行理解与总结,辅导数学推理、科学实验等知识点,支持作业讲解与学习路径规划。 -
情感理解与具身智能对话
通过语言、语音、表情、环境感知等多模态信号,判断用户情绪与意图,实现更自然的人机情感交互。 -
智能创作与设计辅助
在文生图、图生文等生成任务中表现出色,支持故事创作、营销海报生成、数字人脚本和形象自动设计等。
适用场景:
-
金融保险自动审查
用于理赔资料、风控材料等文档的自动化审核与欺诈检测,提升审查效率与合规可靠性。 -
智能制造质量检测
结合视觉与传感器数据,对生产线视频进行实时分析,实现缺陷检测与流程监控。 -
医疗影像辅助诊断
对超声、CT、MRI 等影像资料进行多模态分析,结合病历文本生成辅助诊断报告。 -
智慧教育与辅导平台
提供图文、视频、语音辅导服务,支持智能讲题、错题归因、个性化知识图谱等功能。 -
文化旅游智能导览
在博物馆、景区等场所,结合环境音画提供多语言实时解说与互动问答,增强游客沉浸式体验。 -
内容创作与媒体剪辑
实现长视频自动剪辑、热点摘要、内容解说与图文创作,加速媒体生产效率。 -
客户服务与虚拟助手
多模态理解用户问题,支持图文语音多轮对话,广泛应用于客服、政务、零售等领域的智能化服务系统。