强化学习

Starling-7B 是一个由强化学习从 AI 反馈（RLAIF）训练的开放大型语言模型（LLM）。它通过我们的新 GPT-4 标记排序数据集 Nectar 和新的奖励训练和策略调优流程充分发挥了作用。Starling-7B 在使用 GPT-4 作为评委的 MT Bench 中得分为 8.09，在 MT-Bench 上超过了目前所有模型，除了 OpenAI 的 GPT-4 和 GPT-4 Turbo。我们在 HuggingFace 上发布了排名数据集 Nectar、奖励模型 Starling-RM-7B-alpha 和语言模型 Starling-LM-7B-alpha，以及 LMSYS Chatbot Arena 中的在线演示。请期待我们即将发布的代码和论文，其中将提供有关整个过程的更多详细信息。

73 0

强化学习聊天机器人语言模型

Parrot

Parrot 是一种多目标强化学习框架，专为文本转图像生成而设计。它通过批量 Pareto 最优选择的方式，自动识别在 T2I 生成的 RL 优化过程中不同奖励之间的最佳权衡。此外，Parrot采用了 T2I 模型和提示扩展网络的联合优化方法，促进了生成质量感知的文本提示，从而进一步提高了最终图像质量。为了抵消由于提示扩展而可能导致的原始用户提示的潜在灾难性遗忘，我们在推理时引入了原始提示中心化指导，确保生成的图像忠实于用户输入。大量实验和用户研究表明，Parrot在各种质量标准，包括美学、人类偏好、图像情感和文本-图像对齐方面，均优于几种基线方法。

59 0

图片生成强化学习文本生成

OpenAI Universe

Universe 是一个软件平台,能够通过各种游戏、网站和其他应用程序,测量和训练人工智能的通用智能能力。它允许 AI 代理像人类一样使用计算机,通过观察屏幕像素和操作虚拟键盘和鼠标来与系统交互。该平台集成了包括 Flash 游戏、网页任务、视频游戏等上千种环境,旨在通过构建能够灵活应用过往经验快速掌握陌生环境的 AI 代理,从而实现通用人工智能的重大突破。

58 0

人工智能任务模拟免费试用强化学习

Octopus

Octopus是一款基于环境反馈的视觉语言编程工具，能够高效地解析代理的视觉和文本任务目标，制定复杂的动作序列，并生成可执行代码。Octopus的设计允许代理处理广泛的任务，从模拟器中的日常琐事到复杂视频游戏中的复杂交互。Octopus通过利用GPT-4来控制探索代理生成训练数据，即动作蓝图和相应的可执行代码，在我们的实验环境OctoVerse中进行训练。我们还收集反馈，以允许强化学习与环境反馈（RLEF）的增强训练方案。通过一系列实验，我们阐明了Octopus的功能并呈现了令人信服的结果，提出的RLEF证明了提高代理决策的效果。通过开源我们的模型架构、模拟器和数据集，我们希望激发更多的创新并促进更广泛的体验AI社区中的协作应用。

53 0

GPT-4强化学习模拟器环境反馈

DiffusionRL

Text-to-image扩散模型是一类深度生成模型，展现了出色的图像生成能力。然而，这些模型容易受到来自网页规模的文本-图像训练对的隐含偏见的影响，可能无法准确地对我们关心的图像方面进行建模。这可能导致次优样本、模型偏见以及与人类伦理和偏好不符的图像。本文介绍了一种有效可扩展的算法，利用强化学习（RL）改进扩散模型，涵盖了多样的奖励函数，如人类偏好、组成性和公平性，覆盖了数百万张图像。我们阐明了我们的方法如何大幅优于现有方法，使扩散模型与人类偏好保持一致。我们进一步阐明了如何这显著改进了预训练的稳定扩散（SD）模型，生成的样本被人类偏好80.3%，同时改善了生成样本的组成和多样性。

48 0

图像生成强化学习深度学习

SERL

SERL是一个经过精心实现的代码库,包含了一个高效的离策略深度强化学习方法,以及计算奖励和重置环境的方法,一个高质量的广泛采用的机器人控制器,以及一些具有挑战性的示例任务。它为社区提供了一个资源,描述了它的设计选择,并呈现了实验结果。令人惊讶的是,我们发现我们的实现可以实现非常高效的学习,仅需25到50分钟的训练即可获得PCB装配、电缆布线和物体重定位等策略,改进了文献中报告的类似任务的最新结果。这些策略实现了完美或接近完美的成功率,即使在扰动下也具有极强的鲁棒性,并呈现出新兴的恢复和修正行为。我们希望这些有前途的结果和我们的高质量开源实现能为机器人社区提供一个工具,以促进机器人强化学习的进一步发展。

44 0

代码展示强化学习聊天机器人

Eureka

Eureka是一种人类级奖励设计算法，通过编码大型语言模型实现。它利用最先进的语言模型（如GPT-4）的零样本生成、编写代码和上下文改进能力，对奖励代码进行进化优化。生成的奖励可以用于通过强化学习获得复杂的技能。Eureka生成的奖励函数在29个开源强化学习环境中，包括10种不同的机器人形态，优于人类专家设计的奖励函数。Eureka还能够灵活地改进奖励函数，以提高生成奖励的质量和安全性。通过与课程学习相结合，使用Eureka奖励函数，我们首次展示了一个模拟的Shadow Hand能够进行旋转笔的技巧，熟练地以快速的速度在圆圈中操纵笔。

34 0

奖励设计强化学习语言模型

引领智能未来，探索无限AI应用