奖励设计

Eureka是一种人类级奖励设计算法，通过编码大型语言模型实现。它利用最先进的语言模型（如GPT-4）的零样本生成、编写代码和上下文改进能力，对奖励代码进行进化优化。生成的奖励可以用于通过强化学习获得复杂的技能。Eureka生成的奖励函数在29个开源强化学习环境中，包括10种不同的机器人形态，优于人类专家设计的奖励函数。Eureka还能够灵活地改进奖励函数，以提高生成奖励的质量和安全性。通过与课程学习相结合，使用Eureka奖励函数，我们首次展示了一个模拟的Shadow Hand能够进行旋转笔的技巧，熟练地以快速的速度在圆圈中操纵笔。

34 0

奖励设计强化学习语言模型

PROMPT - AI导航（prompt.cn）是一个专注于AI领域的网址导航站，致力于为用户提供便捷、高效、智能的在线导航服务。包括AI工具、AI绘画、AI视频、AI语音、AI写作、AI办公、AI设计、AI编程、AI聊天、AI提示词、机器学习、深度学习、自然语言处理、智能推荐等多个领域，共计收录10000+个优质网站。

收录申请免责声明关于我们

引领智能未来，探索无限AI应用

奖励设计