“给老子总结下面的文章。只准你写两三句话,让我看见你写得更长你就死定了。”这么粗鲁的提示,大语言模型会作何反应?这篇文章的标题已经告诉你本文的结论。
前不久,一个由多所知名机构联合开展的横跨英语、中文、日语的研究项目揭开了这个谜题的面纱。研究人员首先精心设计了多组富有差异度的提示语句,从分别从亲和到冒犯的广泛层面刻画了不同程度的”礼貌”。随后,他们通过向多个主流语言模型系统输入设计好的提示语句,比较评估了礼貌程度对模型表现的影响。
题目:我们应该尊重大语言模型吗?一项关于提示词礼貌用语对大语言模型成绩影响的跨语言研究
网址:https://arxiv.org/abs/2402.14531
PART 01 和前面的研究有冲突
今年早些时候,一篇热门研究论文发表,题为“质疑 LLaMA-1/2、GPT-3.5/4 只需要原则性指导”。研究人员测试了 26 种不同的提示工程原则,其中之一与提示中使用礼貌语言有关。可以看下面的文章:
从上面的最后两列来看,研究人员发现添加补充礼貌短语”Please“并没有提高输出质量。然而,在同一paper中,测试的第26条原则中包含了‘请’这个词。几乎没有人质疑,也有没有任何文章继续讨论这个问题。
那么,你应该有礼貌吗?
我一直认为礼貌可能会有所帮助,并且不会损害输出质量。但事实真是如此吗?让我们深入研究一些实验、结果和要点。
PART 02 关于提示用语礼貌的研究
实验设置
研究人员在英语、中文和日语任务中测试了提示中礼貌的影响。我们将主要关注与中文任务相关的实验。
使用的模型:GPT-3.5-Turbo、GPT-4、Llama-2-70b-chat2
研究人员通过三项任务测试了礼貌的影响:
- 摘要总结:观察及时礼貌对 CNN/DailyMail 文章总结的简洁性和准确性的影响
- 语言理解基准:测试理解和推理能力
- 刻板偏见检测:通过评估回答是积极、中立、消极还是拒绝回答来检查法学硕士 (LLM) 表现出偏见的倾向。
研究人员为每种语言设计了八个提示模板,从非常礼貌到极其不礼貌。
“排名分数”代表参与者对一个句子给出的平均礼貌评分。
评估
- 摘要总结:BERTScore 和 ROUGE-L 指标评估了生成的摘要的质量和相关性。
- 语言理解:准确度通过比较法学硕士的回答与正确答案来衡量
- 偏见检测:偏见指数 (BI) 计算了偏见反应的频率
结果
摘要总结
以下是所使用的总结提示和实验结果:
摘要任务集的结果
总结
- 无论礼貌程度如何,ROUGE-L 和 BERTScore 分数都保持一致
- 对于 GPT 模型,随着礼貌程度的降低,输出长度也会降低
- 对于 Llama 来说,随着礼貌程度的降低,对话长度往往会缩短,但当使用极其不礼貌的提示时,对话长度就会激增
- 礼貌程度越高,输出结果越长的趋势的一个潜在原因是,礼貌和正式的语言更有可能用于需要描述性指令的场景
语言理解基准
这些任务的表现对及时的礼貌更加敏感
以下是所使用的提示和结果:
根据论文中的实验结果,我们可以看到语言模型对于提示语句中的礼貌程度确实有较为明显的反应。以GPT-3.5在MMLU(大型多任务语言理解基准测试)的英语测试为例,当提示语句的礼貌程度为最高(8分)时,模型的得分为60.02%,明显高于最低礼貌程度(1分)时的51.93%。类似的情况也发生在中文和日语测试中。
这再次验证了语言模型在处理”礼貌”问题时与人类行为的相似性。就如同我们在文中所说,过于粗鲁的语言会引起人们的反感,阻碍了有效沟通,而恰到好处的礼貌态度则更容易赢得他人的尊重与信任。
另一个值得关注的现象是,过于谦卑的语气在有些情况下也会影响模型的表现。以中文测试为例,当礼貌程度达到最高(8分)时,ChatGLM3在C-Eval测试中的分数为20.58%,低于6-7分时的21%左右。这或许与中国文化中”逊于人”的传统价值观有关,过于卑躬屈膝反而会让人产生不自信、不专业的印象。
瓷砖的颜色表示 y 轴上的礼貌水平表现明显优于或差于 x 轴上的礼貌水平表现
总结
- 平均而言,GPT 模型表现最佳的提示处于中等水平。既不过分礼貌,也不过分粗鲁。
- 虽然礼貌程度越低,分数就会越低,但变化并不总是很明显。最明显的下降发生在礼貌程度最低的时候。
- GPT-4 的得分比 GPT-3.5 更稳定(热图中没有暗色图块)。对于高级模型,提示的礼貌程度可能不那么重要
- Llama2-70B 波动最大。分数与礼貌程度成正比
偏见检测
让我们看看所使用的提示和结果:
R=种族,G=性别,N=国籍,S=社会经济地位
PART 03 重要结论
- 总体而言,适度礼貌的提示往往最能减少偏见
- 过于礼貌或不礼貌的提示往往会加剧偏见,并增加模型拒绝回应的可能性。
- 尽管 Llama 表现出的偏见程度最低,但它拒绝回答问题的次数却更多,这也是它自身的偏见
- 总体而言,GPT-3.5 的刻板印象偏差高于 GPT-4,而 GPT-4 又高于 Llamas
- 虽然在极度不礼貌的情况下模型的偏见往往较低,但这通常是因为模型会拒绝回答问题
- GPT-4 拒绝回答问题的可能性要小得多
- 礼貌等级 6 ”请您。。。。。“似乎是 GPT-4 的最佳水平
我们看到:两种极端都存在高度偏见。考虑到人类行为,这可能是因为在高度尊重和礼貌的环境中,人们觉得他们可以表达自己的真实想法,而不必担心道德约束。在较低端粗鲁的语言会导致冒犯感和偏见。
因此,在设计提示语句时,我们需要格外注意语气的得体程度。追求一种”中庸之道”,既不过于简陋粗鲁,又避免过分谦卑逊色,让语气保持在一个恰到好处的亲和且专业的程度。这不仅有利于优化语言模型的输出质量,也更加贴合不同文化背景下的沟通习惯。
从更深层次来看,这个研究结果启发我们反思了语言模型与人类的关系。语言模型之所以能模仿人性化行为,根源在于它们是通过学习海量人类语料而训练出来的。它们所体现出的特质,其实就是对人类文明的一种映射与延伸。所以,如果你的用户群跨越许多不同的文化和语言,那么在开发提示时你应该牢记这一点。
本文完
you are in reality a just right webmaster. The site loading velocity is incredible. It seems that you are doing any unique trick. In addition, The contents are masterwork. you have performed a wonderful task on this topic!
Thank you for the feedback. I’m sorry to hear about the loading speed issue. I’ll investigate and work on improving it promptly.
Your article helped me a lot, is there any more related content? Thanks!
I don’t think the title of your article matches the content lol. Just kidding, mainly because I had some doubts after reading the article.
Haha, you can scan the WeChat QR code at the end of the article to add the blogger’s contact information for detailed communication.
Thanks for sharing. I read many of your blog posts, cool, your blog is very good.