SkillAgentSearch skills...

Corpus

自然语言处理,知识图谱相关语料。按照Task细分,欢迎PR。

Install / Use

/learn @SimmerChan/Corpus
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。

  1. 数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
  2. 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
  3. 我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。

关注公众号:尘世美小茶馆,获取更多丰富资源。

目录:

<h1 id='1'>1. 中文语料</h1> <h2 id='1.1'>1.1 生语料</h2> <h3 id='1.1.1'>1.1.1 人民日报新闻数据</h3>

包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的页面 ,作者邮箱应该是 bjdjssgmzsf@yahoo.com ,联系过,没收到回复。原始数据是图文数据库,我将其转存百度网盘 ,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本rmrb.py 将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。

<h3 id='1.1.2'>1.1.2 微信公众号语料库</h3>

微信公众号语料库:只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。


<h2 id='1.2'>1.2 结构化数据</h2> <h3 id='1.2.1'>1.2.1 中国古代人物传记数据库(CBDB)</h3>

中国历代人物传记数据库(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。

CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的版本,表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本cbdb.py是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。

<h2 id='1.3'>1.3 文本分类数据集</h2> <h3 id='1.3.1'>1.3.1 2018法研杯</h3> 2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip),数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。
<h3 id='1.3.2'>1.3.2 今日头条中文新闻(短文本)分类数据集</h3>

今日头条中文新闻(短文本)分类数据集:共382688条,分布于15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞。


<h3 id='1.3.3'>1.3.3 清华新闻分类语料</h3>

清华新闻分类语料:74万篇新闻文档,划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。


<h3 id='1.3.4'>1.3.4 SMP2017中文人机对话评测数据</h3>

包含了两个任务的数据集:用户意图领域分类,特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴。


<h3 id='1.3.5'>1.3.5 中国新闻网新闻分类语料</h3>

中国新闻网新闻分类语料:从中国新闻网爬取2008-2016年七个新闻种类的新闻,包括中国大陆政治、港澳台政治、国际新闻、金融、文化、娱乐、体育(论文还提到health这个类别,数据里其实没有)。每个样本只包括新闻的第一段话。每个类别样本数相同。140万训练集,11.2万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Chinanews子文件)


<h3 id='1.3.6'>1.3.6 凤凰网新闻分类语料</h3>

凤凰网新闻分类语料:从凤凰网爬取2006-2016年五个新闻种类的新闻,包括中国大陆政治、国际新闻、港澳台、军事和社会新闻。每个样本只包括新闻的第一段话。每个类别样本数相同。80万训练集,5万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Ifeng子文件)

<h2 id='1.4'>1.4 序列标注数据集(分词、命名实体识别、词性标注等)</h2> <h3 id='1.4.1'>1.4.1 SiGHAN2005分词数据集</h3> SiGHAN2005分词[数据集](http://sighan.cs.uchicago.edu/bakeoff2005/)(或在我的repo中下载):北大、香港城市大学、台湾“中央研究院”(繁体)、微软亚研院四个机构提供的中文分词数据集。
<h3 id='1.4.2'>1.4.2 MSRA命名实体识别数据集</h3>

MSRA命名实体识别数据集:包含地名、人名和机构名三类。


<h3 id='1.4.3'>1.4.3 人民日报命名实体识别数据集</h3>

人民日报命名实体识别数据集:包含地名、人名和机构名三类。


<h3 id='1.4.4'>1.4.4 微博命名实体识别数据集</h3>

微博命名实体识别数据集:包含地名、人名、机构名、行政区名四类。


<h3 id='1.4.5'>1.4.5 影视-音乐-书籍实体标注数据</h3>

影视、音乐、书籍实体标注数据:类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据。


<h3 id='1.4.6'>1.4.6 BosonNLP NER数据</h3>

BosonNLP(好像不维护了,数据可以在我的repo中找到):2000条,包含人名、地名、时间、组织名、公司名、产品名。


<h3 id='1.4.7'>1.4.7 cluener 细粒度实体识别数据集</h3>

cluener:是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)


<h3 id='1.4.8'>1.4.8 人民日报2014NER标注数据</h3>

人民日报2014NER标注数据(数据可以在我的repo中找到):包含人名、地点、组织、时间。


<h3 id='1.4.9'>1.4.9 1998年1月-6月人民日报标注语料</h3>

1300W字的新闻标注语料,该语料可用于分词、NER、POS等任务。标记和格式请参考此文章


<h2 id='1.5'>1.5 指代消解</h2> <h3 id='1.5.1'>1.5.1 CLUEWSC2020 </h3>

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务,训练集:1244,开发集:304。


<h2 id='1.6'>1.6 对话</h2> <h3 id='1.6.1'>1.6.1 好大夫医疗对话数据集 </h3>

医疗领域对话数据集,110万轮对话,共400万句:从好大夫网上爬的。


<h3 id='1.6.12'>1.6.2 中文医疗对话数据集 </h3>

中文医疗对话数据集

| 领域 | 数据量 | | ------ | ------ | | 男科 | 94596 | | 内科 | 220606 | | 妇产科 | 183751 | | 肿瘤科 | 75553 | | 儿科 | 101602 | | 外科 | 115991 |


<h2 id='1.7'>1.7 情感分析</h2> <h3 id='1.7.1'>1.7.1 携程网酒店评论数据</h3>

携程网酒店评论数据:5000+条正向评论,2000+负向评论。


<h3 id='1.7.2'>1.7.2 外卖评论数据</h3>

外卖评论数据:4000+正向,8000+负向。


<h3 id='1.7.3'>1.7.3 电商商品评论数据</h3>

电商商品评论数据:10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店。


<h3 id='1.7.4'>1.7.4 微博情感数据(2类)</h3>

微博情感数据:10万多条,带情感标注的新浪微博,正负向评论约各 5 万条。


<h3 id='1.7.5'>1.7.5 微博情感数据(4类)</h3>

微博情感数据:36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约5万条。


<h3 id='1.7.6'>1.7.6 电影评论评分数据</h3>

电影评论评分数据:28部电影,超70万用户,超200万条评分/评论数据,包括1-5分评分,及评论的点赞数。


<h3 id='1.7.7'>1.7.7 大众点评餐馆评论数据</h3>

大众点评餐馆评论数据:24 万家餐馆,54 万用户,440 万条评论/评分数据。包括总体评分(0-5),环境评分(1-5),口味评分(1-5),服务评分(1-5)


<h3 id='1.7.8'>1.7.8 Amazon商品评论数据</h3>

Amazon商品评论数据:52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据,评分1-5。


<h3 id='1.7.9'>1.7.9 豆瓣电影评论数据</h3>

豆瓣电影评论数据:5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据,评分1-5。


<h3 id='1.7.10'>1.7.10 大众点评用户评论(2类)</h3>

大众点评用户评论:从大众点评爬取的用户评论。1-3星划分为负面评论、4-5星为正面评论。每个类别样本数相同。200万训练集,50万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,dianping子文件)


<h3 id='1.7.11'>1.7.11 京东用户评论数据</h3>

京东用户评论[数据](https://github.com/zh

Related Skills

View on GitHub
GitHub Stars731
CategoryDevelopment
Updated24d ago
Forks155

Languages

Python

Security Score

80/100

Audited on Mar 15, 2026

No findings