3D世界

LEO是一个基于大型语言模型的多模态、多任务全能代理人，能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现：（i）3D视觉语言对齐和（ii）3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集，需要对3D世界进行深入的理解和交互。通过严格的实验，我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。

56 0

3D世界AI多模态交互人工智能多任务学习

PROMPT - AI导航（prompt.cn）是一个专注于AI领域的网址导航站，致力于为用户提供便捷、高效、智能的在线导航服务。包括AI工具、AI绘画、AI视频、AI语音、AI写作、AI办公、AI设计、AI编程、AI聊天、AI提示词、机器学习、深度学习、自然语言处理、智能推荐等多个领域，共计收录10000+个优质网站。

收录申请免责声明关于我们

引领智能未来，探索无限AI应用

3D世界