VSP-LLM - PROMPT

VSP-LLM是一个结合视觉语音处理（Visual Speech Processing）与大型语言模型（LLMs）的框架，旨在通过LLMs的强大能力最大化上下文建模能力。VSP-LLM设计用于执行视觉语音识别和翻译的多任务，通过自监督视觉语音模型将输入视频映射到LLM的输入潜在空间。该框架通过提出一种新颖的去重方法和低秩适配器（LoRA），可以高效地进行训练。

数据统计

相关导航

SALMONN

SALMONN是由清华大学电子工程系和字节跳动开发的大型语言模型（LLM），支持语音、音频事件和音乐输入。与仅支持语音或音频事件输入的模型不同，SALMONN可以感知和理解各种音频输入，从而获得多语言语音识别和翻译以及音频-语音共推理等新兴能力。这可以被视为给予LLM“听觉”和认知听觉能力，使SALMONN成为通向具有听觉能力的人工通用智能的一步。

WhisperFusion

WhisperFusion是一款基于WhisperLive和WhisperSpeech功能的产品，通过在实时语音转文字流程中集成Mistral大型语言模型（LLM）来实现与AI的无缝对话。Whisper和LLM均经过TensorRT引擎优化，以最大程度提升性能和实时处理能力。WhisperSpeech则使用torch.compile来优化。产品定位于提供超低延迟的AI实时对话体验。

StyleTTS 2

StyleTTS 2 是一款文本转语音（TTS）模型，使用大型语音语言模型（SLMs）进行风格扩散和对抗训练，实现了人级别的 TTS 合成。它通过扩散模型将风格建模为潜在随机变量，以生成最适合文本的风格，而无需参考语音。此外，我们使用大型预训练的 SLMs（如 WavLM）作为判别器，并结合我们的创新可微持续时间建模进行端到端训练，从而提高了语音的自然度。StyleTTS 2 在单说话人 LJSpeech 数据集上超越了人类录音，并在多说话人 VCTK 数据集上与之匹配，得到了母语为英语的评审人员的认可。此外，当在 LibriTTS 数据集上进行训练时，我们的模型优于先前公开可用的零样本扩展模型。通过展示风格扩散和对抗训练与大型 SLMs 的潜力，这项工作在单个和多说话人数据集上实现了一个人级别的 TTS 合成。

Andes

Andes是一个大型语言模型（LLM）API市场，连接领先的人工智能技术，提供自然语言处理、自动文本生成、翻译等功能，为您的应用增加智能能力。

Code Llama

Code Llama 是一款先进的大型语言模型，可以通过文本提示生成代码。它是当前公开可用的语言模型中在编程任务上达到最佳性能的模型之一。Code Llama 可以帮助开发人员提高工作效率，降低编码门槛，并作为一个教育工具帮助编程学习者编写更健壮、更好文档化的软件。Code Llama 提供了多个版本，包括基础版、针对 Python 的专用版和针对自然语言指令的定制版。它支持多种流行的编程语言，如 Python、C++、Java 等。Code Llama 免费供研究和商业使用。

LlamaIndex

LlamaIndex是一个简单、灵活的数据框架，用于连接自定义数据源到大型语言模型。它提供了关键工具，用于增强您的LLM应用程序的数据。包括数据摄取、数据索引和查询接口。可以轻松构建强大的终端用户应用程序，如文档问答、数据增强聊天机器人、知识代理、结构化分析等。支持连接非结构化、结构化或半结构化的数据源。

暂无评论

暂无评论...

VSP-LLM翻译站点

数据统计

相关导航

暂无评论

热门网址

热门标签