MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个旨在为AI提供丰富中文语料的项目。它不仅包括主流文化内容,还涵盖了小众文化和网络用语。数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等多种形式的纯文本中文数据。
MathPile是一个包含约95亿个标记的数学中心语料库,从教科书(包括讲座笔记)、arXiv、维基百科、ProofWiki、StackExchange和网页中汲取数学内容,适用于K-12、大学、研究生水平和数学竞赛。MathPile的数据质量高,并且有着丰富的数据文档,以增强透明度和给用户灵活的使用数据的能力。在授权方面,MathPile遵循BY-NC-SA 4.0许可协议,同时计划很快发布一个商业可用版本。