Corpus
自然语言处理,知识图谱相关语料。按照Task细分,欢迎PR。
Install / Use
/learn @SimmerChan/CorpusREADME
把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。
- 数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
- 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
- 我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。
关注公众号:尘世美小茶馆,获取更多丰富资源。

目录:
- 1. NLP中文语料
- 2. NLP外文语料
- 3. 语言资源
- 4. KG数据
包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的页面 ,作者邮箱应该是 bjdjssgmzsf@yahoo.com ,联系过,没收到回复。原始数据是图文数据库,我将其转存百度网盘 ,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本rmrb.py 将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。
<h3 id='1.1.2'>1.1.2 微信公众号语料库</h3>微信公众号语料库:只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。
<h2 id='1.2'>1.2 结构化数据</h2> <h3 id='1.2.1'>1.2.1 中国古代人物传记数据库(CBDB)</h3>
中国历代人物传记数据库(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。
CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的版本,表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本cbdb.py是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。
<h2 id='1.3'>1.3 文本分类数据集</h2> <h3 id='1.3.1'>1.3.1 2018法研杯</h3> 2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip),数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。<h3 id='1.3.2'>1.3.2 今日头条中文新闻(短文本)分类数据集</h3>
今日头条中文新闻(短文本)分类数据集:共382688条,分布于15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞。
<h3 id='1.3.3'>1.3.3 清华新闻分类语料</h3>
清华新闻分类语料:74万篇新闻文档,划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
<h3 id='1.3.4'>1.3.4 SMP2017中文人机对话评测数据</h3>
包含了两个任务的数据集:用户意图领域分类,特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴。
<h3 id='1.3.5'>1.3.5 中国新闻网新闻分类语料</h3>
中国新闻网新闻分类语料:从中国新闻网爬取2008-2016年七个新闻种类的新闻,包括中国大陆政治、港澳台政治、国际新闻、金融、文化、娱乐、体育(论文还提到health这个类别,数据里其实没有)。每个样本只包括新闻的第一段话。每个类别样本数相同。140万训练集,11.2万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Chinanews子文件)
<h3 id='1.3.6'>1.3.6 凤凰网新闻分类语料</h3>
凤凰网新闻分类语料:从凤凰网爬取2006-2016年五个新闻种类的新闻,包括中国大陆政治、国际新闻、港澳台、军事和社会新闻。每个样本只包括新闻的第一段话。每个类别样本数相同。80万训练集,5万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Ifeng子文件)
<h2 id='1.4'>1.4 序列标注数据集(分词、命名实体识别、词性标注等)</h2> <h3 id='1.4.1'>1.4.1 SiGHAN2005分词数据集</h3> SiGHAN2005分词[数据集](http://sighan.cs.uchicago.edu/bakeoff2005/)(或在我的repo中下载):北大、香港城市大学、台湾“中央研究院”(繁体)、微软亚研院四个机构提供的中文分词数据集。<h3 id='1.4.2'>1.4.2 MSRA命名实体识别数据集</h3>
MSRA命名实体识别数据集:包含地名、人名和机构名三类。
<h3 id='1.4.3'>1.4.3 人民日报命名实体识别数据集</h3>
人民日报命名实体识别数据集:包含地名、人名和机构名三类。
<h3 id='1.4.4'>1.4.4 微博命名实体识别数据集</h3>
微博命名实体识别数据集:包含地名、人名、机构名、行政区名四类。
<h3 id='1.4.5'>1.4.5 影视-音乐-书籍实体标注数据</h3>
影视、音乐、书籍实体标注数据:类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据。
<h3 id='1.4.6'>1.4.6 BosonNLP NER数据</h3>
BosonNLP(好像不维护了,数据可以在我的repo中找到):2000条,包含人名、地名、时间、组织名、公司名、产品名。
<h3 id='1.4.7'>1.4.7 cluener 细粒度实体识别数据集</h3>
cluener:是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)
<h3 id='1.4.8'>1.4.8 人民日报2014NER标注数据</h3>
人民日报2014NER标注数据(数据可以在我的repo中找到):包含人名、地点、组织、时间。
<h3 id='1.4.9'>1.4.9 1998年1月-6月人民日报标注语料</h3>
1300W字的新闻标注语料,该语料可用于分词、NER、POS等任务。标记和格式请参考此文章。
<h2 id='1.5'>1.5 指代消解</h2> <h3 id='1.5.1'>1.5.1 CLUEWSC2020 </h3>
CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务,训练集:1244,开发集:304。
<h2 id='1.6'>1.6 对话</h2> <h3 id='1.6.1'>1.6.1 好大夫医疗对话数据集 </h3>
医疗领域对话数据集,110万轮对话,共400万句:从好大夫网上爬的。
<h3 id='1.6.12'>1.6.2 中文医疗对话数据集 </h3>
中文医疗对话数据集:
| 领域 | 数据量 | | ------ | ------ | | 男科 | 94596 | | 内科 | 220606 | | 妇产科 | 183751 | | 肿瘤科 | 75553 | | 儿科 | 101602 | | 外科 | 115991 |
<h2 id='1.7'>1.7 情感分析</h2> <h3 id='1.7.1'>1.7.1 携程网酒店评论数据</h3>
携程网酒店评论数据:5000+条正向评论,2000+负向评论。
<h3 id='1.7.2'>1.7.2 外卖评论数据</h3>
外卖评论数据:4000+正向,8000+负向。
<h3 id='1.7.3'>1.7.3 电商商品评论数据</h3>
电商商品评论数据:10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店。
<h3 id='1.7.4'>1.7.4 微博情感数据(2类)</h3>
微博情感数据:10万多条,带情感标注的新浪微博,正负向评论约各 5 万条。
<h3 id='1.7.5'>1.7.5 微博情感数据(4类)</h3>
微博情感数据:36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约5万条。
<h3 id='1.7.6'>1.7.6 电影评论评分数据</h3>
电影评论评分数据:28部电影,超70万用户,超200万条评分/评论数据,包括1-5分评分,及评论的点赞数。
<h3 id='1.7.7'>1.7.7 大众点评餐馆评论数据</h3>
大众点评餐馆评论数据:24 万家餐馆,54 万用户,440 万条评论/评分数据。包括总体评分(0-5),环境评分(1-5),口味评分(1-5),服务评分(1-5)
<h3 id='1.7.8'>1.7.8 Amazon商品评论数据</h3>
Amazon商品评论数据:52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据,评分1-5。
<h3 id='1.7.9'>1.7.9 豆瓣电影评论数据</h3>
豆瓣电影评论数据:5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据,评分1-5。
<h3 id='1.7.10'>1.7.10 大众点评用户评论(2类)</h3>
大众点评用户评论:从大众点评爬取的用户评论。1-3星划分为负面评论、4-5星为正面评论。每个类别样本数相同。200万训练集,50万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,dianping子文件)
<h3 id='1.7.11'>1.7.11 京东用户评论数据</h3>
京东用户评论[数据](https://github.com/zh
Related Skills
node-connect
352.5kDiagnose OpenClaw node connection and pairing failures for Android, iOS, and macOS companion apps
frontend-design
111.3kCreate distinctive, production-grade frontend interfaces with high design quality. Use this skill when the user asks to build web components, pages, or applications. Generates creative, polished code that avoids generic AI aesthetics.
openai-whisper-api
352.5kTranscribe audio via OpenAI Audio Transcriptions API (Whisper).
qqbot-media
352.5kQQBot 富媒体收发能力。使用 <qqmedia> 标签,系统根据文件扩展名自动识别类型(图片/语音/视频/文件)。
