概述
讯飞智作是科大讯飞推出的一站式AIGC(生成式人工智能)内容创作平台,聚焦音视频内容生产领域。平台通过整合语音合成、虚拟数字人、多模态处理等核心技术,为用户提供从文本输入到音视频输出的全流程解决方案。其核心定位是降低专业级音视频内容制作门槛,解决传统制作中主播资源短缺、效率低下、成本高昂等痛点。
平台支持多语种、多场景、多模态的内容生成,涵盖AI配音、虚拟主播视频制作、PPT转视频、声音与形象定制等功能,广泛应用于媒体、教育、企业数字化、政务、文旅等领域。

技术特点
1. 核心算法
- 多模态生成模型:结合自然语言处理(NLP)、计算机视觉(CV)和语音合成(TTS/ASR)技术,实现文本、语音、图像的协同生成。
- 情感语音合成:基于深度学习模型,支持语调、语速、情感(如高兴、严肃)的动态调整,提升语音自然度。
- 虚拟人驱动:采用人脸建模、唇形预测、动作捕捉技术,生成高拟真虚拟主播形象,支持个性化定制。
2. 架构设计
- 分布式计算架构:支持高并发音视频生成请求,确保大规模用户场景下的稳定性与响应速度。
- 模块化服务:提供API接口与SaaS化服务,便于与第三方系统集成,适应企业级定制需求。
3. 训练与优化
- 多语种与方言支持:覆盖中文(含方言)、英文、日语、韩语等主流语言,满足国际化业务需求。
- 数据驱动迭代:通过用户反馈与场景数据持续优化模型,提升生成内容的准确性与场景适配性。
主要功能
讯飞智作的核心功能围绕音视频内容创作全流程展开,具体包括:
1. AI配音与音频生成
- 文本转语音(TTS):输入文本后,选择发音人、语调、语速等参数,一键生成专业级音频。
- 情感化语音合成:支持情感标签(如高兴、悲伤、紧张)注入,增强语音表现力。
- 多音色库:提供多样化发音人选择,涵盖不同性别、年龄、语言风格。
2. 虚拟主播视频制作
- 虚拟人形象构建:提供标准形象库,并支持个性化定制(如面部特征、服装、动作)。
- 视频自动化生成:输入文本或录音,搭配虚拟主播形象、背景音乐、字幕等,快速生成播报类视频。
- 真人数字分身:通过上传真人视频(≥3分钟),生成高度拟真的虚拟分身,用于企业宣传片、知识分享等场景。
3. 智能剪辑与多模态创作
- PPT转视频:一键将PPT内容转换为动态视频,支持模板化设计与动画效果添加。
- 视频剪辑工具:提供基础剪辑功能(裁剪、拼接、特效)及场景化模板库,简化后期制作流程。
- 多语言配音:支持同一视频内容的多语种配音生成,适配国际化传播需求。
4. 个性化定制服务
- 声音复刻:基于用户提供的语音样本,生成专属声音模型,实现个性化语音合成。
- 形象定制:通过参数化配置或3D建模,打造符合品牌调性的虚拟形象。
适用场景
讯飞智作的高效性与灵活性使其适用于以下行业与业务场景:
1. 媒体与新闻
- 新闻播报:快速生成新闻短视频,适配社交媒体与移动端传播。
- 专题报道:结合虚拟主播与多模态内容,制作互动性更强的深度报道。
2. 教育与培训
- 在线课程制作:将教材或讲稿转换为动态视频,降低课程录制成本。
- 知识科普:通过虚拟主播生成趣味化科普视频,提升学习效率。
3. 企业数字化
- 产品宣传:生成企业宣传片、产品介绍视频,替代传统拍摄流程。
- 内部培训:制作标准化培训视频,统一内容输出质量。
4. 政务与公共服务
- 政策解读:通过虚拟主播发布政策说明视频,提升公众理解度。
- 公共服务宣传:制作便民服务指南、安全教育视频等。
5. 文旅与IP运营
- 景区宣传:生成沉浸式旅游宣传片,吸引潜在游客。
- IP内容创作:结合虚拟人技术打造数字IP角色,拓展内容生态。














皖公网安备34010202602243号