日日新 SenseNova V6
国内
AI大模型多模态模型自然语言处理

日日新 SenseNova V6

日日新 SenseNova V6 是商汤科技推出的第六代大规模多模态融合智能模型,具备语言、图像、音视频等模态的原生融合能力,定位为新一代通用人工智能底座模型

标签:

名称:

  • 日日新 SenseNova V6

所属公司:

  • 商汤科技(SenseTime)

模型概述:

日日新 SenseNova V6 是商汤科技推出的第六代大规模多模态融合智能模型,具备语言、图像、音视频等模态的原生融合能力,定位为新一代通用人工智能底座模型。该模型采用混合专家(MoE)架构构建,参数规模达到数千亿级,具备长文本推理、视频分析、复杂任务规划与流式交互等先进能力,是商汤“日日新 SenseNova 大模型体系”的旗舰级产品。

日日新 SenseNova V6


发展历程:

  • 2023年4月:商汤科技首次发布“日日新 SenseNova”大模型体系,包含语言理解、图像生成、智能交互等多个模型方向。

  • 2023年8月:SenseNova 大模型完成内部部署与平台化训练,建立多模态统一架构基础。

  • 2024年4月:推出 SenseNova 5.0,性能对标国际一线模型,支持文本与图像的深度理解和生成。

  • 2024年7月:发布交互增强版 SenseNova 5o,提升流式对话与语音视觉融合交互体验。

  • 2025年1月:SenseNova 交互模型商业化落地,率先在保险、教育、数字人等场景大规模部署。

  • 2025年4月:正式发布第六代模型 SenseNova V6,全面升级多模态深度理解、视频处理效率和模型推理成本。


技术特点:

  • 混合专家(MoE)大模型架构
    利用稀疏激活的专家网络结构,大幅提升推理效率,支持超大参数规模下的高效部署和微调。

  • 原生多模态融合机制
    模型原生支持文本、图像、语音、视频等模态的联合建模,无需预处理拼接,具备高效跨模态对齐和理解能力。

  • 长上下文推理与全局记忆机制
    支持64K以上的上下文窗口,结合位置扩展机制与记忆网络,增强模型在长序列信息中的一致性与推理能力。

  • 统一时序建模与模态对齐编码
    实现视频、语音、图文的时间轴对齐,通过多尺度编码器捕捉时序逻辑和模态依赖,支持长视频精细化分析。

  • 多模态思维链训练范式
    构建跨模态推理样本链,结合多智能体协作生成高质量训练数据,强化模型在因果推理、假设验证等任务中的泛化能力。

  • 强化学习与反馈训练融合(RLHF + RFT)
    综合多种人类偏好反馈与任务评估指标,构建多目标奖励模型,提升模型对复杂语境和用户意图的适应性。

  • 轻量级交互模型优化(Omni 版)
    针对端侧交互需求推出轻量版,支持本地部署与多模态流式对话,兼顾实时性与认知深度。


主要功能:

  • 中长视频语义解析与内容生成
    具备10分钟级别视频内容压缩与语义提取能力,支持场景识别、事件抽取、剧情总结与内容配音。

  • 多模态实时交互问答
    实现图像、语音、视频与语言的实时融合交互,可完成视频中物体识别、人物关系问答、图文解说等任务。

  • 复杂文件审阅与合规性识别
    适配多格式材料(图片、PDF、音视频等),自动分析材料一致性与合规性,广泛用于金融与保险审核流程。

  • 教育辅导与知识推理
    对课件、笔记、视频讲解进行理解与总结,辅导数学推理、科学实验等知识点,支持作业讲解与学习路径规划。

  • 情感理解与具身智能对话
    通过语言、语音、表情、环境感知等多模态信号,判断用户情绪与意图,实现更自然的人机情感交互。

  • 智能创作与设计辅助
    在文生图、图生文等生成任务中表现出色,支持故事创作、营销海报生成、数字人脚本和形象自动设计等。


适用场景:

  • 金融保险自动审查
    用于理赔资料、风控材料等文档的自动化审核与欺诈检测,提升审查效率与合规可靠性。

  • 智能制造质量检测
    结合视觉与传感器数据,对生产线视频进行实时分析,实现缺陷检测与流程监控。

  • 医疗影像辅助诊断
    对超声、CT、MRI 等影像资料进行多模态分析,结合病历文本生成辅助诊断报告。

  • 智慧教育与辅导平台
    提供图文、视频、语音辅导服务,支持智能讲题、错题归因、个性化知识图谱等功能。

  • 文化旅游智能导览
    在博物馆、景区等场所,结合环境音画提供多语言实时解说与互动问答,增强游客沉浸式体验。

  • 内容创作与媒体剪辑
    实现长视频自动剪辑、热点摘要、内容解说与图文创作,加速媒体生产效率。

  • 客户服务与虚拟助手
    多模态理解用户问题,支持图文语音多轮对话,广泛应用于客服、政务、零售等领域的智能化服务系统。

数据统计

相关导航