CS25是斯坦福大学提供的一门课程,主要探讨深度学习模型Transformers,该模型在全球范围内产生了巨大影响。课程邀请了Transformers研究领域的前沿人物,讨论从GPT和Gemini等LLM架构到创造性应用(如DALL-E和Sora)在内的最新突破。CS25已经成为斯坦福最热门和最令人兴奋的研讨会课程之一。
数据统计
相关导航
lmsys
LMSYS Org 是一个组织,旨在使大型模型及其系统基础设施的技术民主化。他们开发了 Vicuna 聊天机器人,其在 7B/13B/33B 规模下可以印象 GPT-4,实现了 90% ChatGPT 质量。同时,还提供 Chatbot Arena 以众包和 Elo 评级系统进行大规模、游戏化评估 LLMs。SGLang 提供了复杂 LLM 程序的高效接口和运行时环境。LMSYS-Chat-1M 是一个大规模真实世界 LLM 对话数据集。FastChat 是一个用于训练、提供服务和评估基于 LLM 的聊天机器人的开放平台。MT-Bench 是一个用于评估聊天机器人的一组具有挑战性、多回合、开放式问题。
ImagenHub
ImagenHub是一个一站式库,用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。其次,我们构建了一个统一的推理管道来确保公平比较。第三,我们设计了两个人工评估指标,即语义一致性和感知质量,并制定了全面的指南来评估生成的图像。我们训练专家评审员根据提出的指标来评估模型输出。该人工评估在76%的模型上实现了高的评估者间一致性。我们全面地评估了约30个模型,并观察到三个关键发现:(1)现有模型的性能普遍不令人满意,除了文本引导的图像生成和主题驱动的图像生成外,74%的模型整体得分低于0.5。(2)我们检查了已发表论文中的声明,发现83%的声明是正确的。(3)除了主题驱动的图像生成外,现有的自动评估指标都没有高于0.2的斯皮尔曼相关系数。未来,我们将继续努力评估新发布的模型,并更新排行榜以跟踪条件图像生成领域的进展。
暂无评论...