WhisperKit由Argmax公司推出,是一个基于Whisper项目的推理工具包,它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的目标是收集开发者反馈,并在几周内发布一个稳定的候选版本,以加速设备上推理的生产化。
稳定扩散 AI 是一种开源的深度学习文本到图像生成模型,由 CompVis 团队与 Runway ML 联合开发,并获得 Stability AI 的运算支持。它可以根据文本描述生成高质量图片,也可以进行图像补全、外推以及文本指导下的图像到图像转换。稳定扩散 AI 开源了其代码、预训练模型和许可证,允许用户在单个 GPU 上运行。这使其成为第一个可以在用户本地设备上运行的开源深度文本到图像模型。
ADeus是一个开源的人工智能可穿戴设备项目,实时记录语音和环境数据,通过手机或电脑应用进行个性化助理服务,支持多种智能功能,用户拥有对数据的完全控制权。
Open-Sora-Plan是一个开源项目,旨在复现OpenAI的Sora(T2V模型),并构建关于Video-VQVAE(VideoGPT)+ DiT的知识。项目由北京大学-兔展AIGC联合实验室发起,目前资源有限,希望开源社区能够贡献力量。项目提供了训练代码,并欢迎Pull Request。
StoryGenius是一款基于GPT-4、Stable Diffusion API和Anthropic API的自动创作小说工具。它可以根据用户提供的初始提示和章节数,在几分钟内生成一整本奇幻小说,并自动打包为电子书格式。不仅如此,它还可以根据生成的小说内容创建一个原创封面,将整本作品一次性转换为PDF或电子书格式。最重要的是,StoryGenius是开源的,可以免费使用。
ComfyUI-N-Sidebar是一个开源项目,它结合了ComfyUI和N-Sidebar两个库,旨在为用户提供一个舒适且易于使用的用户界面和导航栏。该项目通过简化界面元素和优化交互设计,提高了用户体验。
cog-become-image是一个AI模型,能够将任何面部图片适配到另一张图片上。该项目提供了在Replicate上运行此模型的链接,以及在ComfyUI中运行的指南。此外,还提供了在本地开发和运行Web UI的详细步骤。
LLM4Decompile是一个开源项目,旨在创建并发布第一个专门用于反编译的LLM(大型语言模型),并通过构建首个专注于可重编译性和可执行性的反编译基准测试来评估其能力。该项目通过编译大量C代码样本到汇编代码,然后使用这些数据对DeepSeek-Coder模型进行微调,构建了评估基准Decompile-Eval。
FakeSoraAPI是一个开源项目,它模拟了尚未发布的OpenAI Sora API,允许开发者提前准备和测试他们的应用程序。这个API用于从文本生成视频,帮助开发者在Sora API正式发布前进行开发和测试。
ChatRWKV是一种基于100%RNN的RWKV语言模型构建的开源聊天助手,它可以像ChatGPT一样进行人机对话,但具有更快的速度和更低的显存消耗。该项目由Stability EleutherAI提供训练赞助,最新版RWKV-6已经达到了Mamba级别的性能。