TOFU数据集包含根据不存在的200位作者虚构生成的问答对,用于评估大型语言模型在真实任务上的遗忘性能。该任务的目标是遗忘在各种遗忘集比例上经过微调的模型。该数据集采用问答格式,非常适合用于流行的聊天模型,如Llama2、Mistral或Qwen。但是,它也适用于任何其他大型语言模型。对应的代码库是针对Llama2聊天和Phi-1.5模型编写的,但可以轻松地适配到其他模型。