ALMA-R模型,通过Contrastive Preference Optimization (CPO)进行了进一步的LoRA微调,超越了GPT-4和WMT获奖者。用户可以在GitHub仓库中下载ALMA(-R)模型和数据集。ALMA-R建立在ALMA模型的基础上,采用了我们提出的Contrastive Preference Optimization (CPO)进行微调,而不是ALMA中使用的Supervised Fine-tuning。CPO微调需要我们的三元组偏好数据进行偏好学习。ALMA-R现在可以匹配甚至超越GPT-4或WMT获奖者!
数据统计
相关导航
暂无评论...