CLUEDatasetSearch
搜索所有中文NLP数据集,附常用英文NLP数据集
Install / Use
/learn @CLUEbenchmark/CLUEDatasetSearchREADME
CLUEDatasetSearch
中英文NLP数据集。可以点击搜索。
您可以通过<a href='https://www.cluebenchmarks.com/dataSet_upload.html'>上传数据集信息</a>贡献你的力量。上传五个或以上数据集信息并审核通过后,该同学可以作为项目贡献者,并显示出来。
<a href="https://www.cluebenchmarks.com/clueai.html">clueai工具包: 三分钟三行代码搞定NLP开发(零样本学习)</a>

如果数据集有问题,欢迎提出issue。
所有数据集均来源于网络,只做整理供大家提取方便,如果有侵权等问题,请及时联系我们删除。
NER
| ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ---- | ------------------------------------------------------------ | --------- | -------------------------------------- | ---- | ------------------------------------------------------------ | ------------ | ------------ | ----------------------------------------------------- | ---- | | 1 | CCKS2017中文电子病例命名实体识别 | 2017年5月 | 北京极目云健康科技有限公司 | | <font size=2>数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理</font> </font> | 电子病历 | 命名实体识别 | \ | 中文 | | 2 | CCKS2018中文电子病例命名实体识别 | 2018年 | 医渡云(北京)技术有限公司 | | <font size=2> CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 </font> | 电子病历 | 命名实体识别 | \ | 中文 | | 3 | 微软亚研院MSRA命名实体识别识别数据集 | \ | MSRA | | <font size=2> 数据来源于MSRA,标注形式为BIO,共有46365条语料 </font> | Msra | 命名实体识别 | \ | 中文 | | 4 | 1998人民日报语料集实体识别标注集 | 1998年1月 | 人民日报 | | <font size=2> 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 </font> | 98人民日报 | 命名实体识别 | \ | 中文 | | 5 | Boson | \ | 玻森数据 | | <font size=2> 数据来源为Boson,标注形式为BMEO,共有2000条语料 </font> | Boson | 命名实体识别 | \ | 中文 | | 6 | CLUE Fine-Grain NER | 2020年 | CLUE | | <font size=2> CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 </font> | 细粒度;CULE | 命名实体识别 | \ | 中文 | | 7 | CoNLL-2003 | 2003 | CNTS - Language Technology Group | | <font size=2> 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 </font> | CoNLL-2003 | 命名实体识别 | 论文 | 英文 | | 8 | 微博实体识别 | 2015年 | https://github.com/hltcoe/golden-horse | | <font size=2> </font> | EMNLP-2015 | 命名实体识别 | | | | 9 | SIGHAN Bakeoff 2005 | 2005年 | MSR/PKU | | <font size=2> </font> | bakeoff-2005 | 命名实体识别 | | |
QA
| ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ---- | ------------------------------------------------------------ | --------- | ------------ | ---- | ------------------------------------------------------------ | ------ | ---- | ------------------------------------------------------------ | ---- | | 1 | NewsQA | 2019/9/13 | 微软研究院 | | <font size=2> Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 </font> | 英文 | QA | 论文 | | | 2 | SQuAD | | 斯坦福 | | <font size=2> 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 </font> | 英文 | QA | 论文 | | | 3 | SimpleQuestions | | Facebook | | <font size=2> 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 </font> | 英文 | QA | 论文 | | | 4 | WikiQA | 2016/7/14 | 微软研究院 | | <font size=2> 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 </font> | 英文 | QA | 论文 | | | 5 | cMedQA | 2019/2/25 | Zhang Sheng | | <font size=2> 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 </font> | 中文 | QA | 论文 | | | 6 | cMedQA2 | 2019/1/9 | Zhang Sheng | | <font size=2> cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 </font> | 中文 | QA | 论文 | | | 7 | webMedQA | 2019/3/10 | He Junqing | | <font size=2> 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 </font> | 中文 | QA | 论文 | | | 8 | XQA | 2019/7/29 | 清华大学 | | <font size=2> 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 </font> | 多语言 | QA | 论文 | | | 9 | AmazonQA | 2019/9/29 | 亚马逊 | | <font size=2> 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 </font> | 英文 | QA | 论文 | | | 9 | AmazonQA | 2019/9/29 | 亚马逊 | | <font size=2> 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 </font> | 英文 | QA | 论文 | |
情感分析
| ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ---- | ------------------------------------------------------------ | -------- | ------------------------------------ | ---- | ------------------------------------------------------------ | ---------------------------- | -------- | ------------------------------------------------------------ | ---- | | 1 | NLPCC2013 | 2013 | CCF | \ | <font size=2> 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子 </font> | NLPCC2013, Emotion | 情感分析 | 论文 | | | 2 | NLPCC2014 Task1 | 2014 | CCF | \ | <font size=2> 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博 </font> | NLPCC2014, Emotion | 情感分析 | \ | | | 3 | NLPCC2014 Task2 | 2014 | CCF | \ | <font size=2> 微博语料,标注了正面和负面 </font> | NLPCC2014, Sentiment | 情感分析 | \ | | | 4 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | \ | <font size=2> 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 </font> | weibo emotion corpus | 情感分析 | Emotion Corpus Construction Based on Selection from Noisy Natural Labels | | | 5 | [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) | 2009 | Fuji Ren | \ | <font size=2> 标注的博客语料库,在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客,11000段落和35000句子。 </font> | RenCECPs, emotion, sentiment | 情感分析 | Construction of a blog emotion corpus for Chinese emotional expression analysis | | | 6 | [weibo_senti_100k](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo
Related Skills
node-connect
337.7kDiagnose OpenClaw node connection and pairing failures for Android, iOS, and macOS companion apps
frontend-design
83.3kCreate distinctive, production-grade frontend interfaces with high design quality. Use this skill when the user asks to build web components, pages, or applications. Generates creative, polished code that avoids generic AI aesthetics.
openai-whisper-api
337.7kTranscribe audio via OpenAI Audio Transcriptions API (Whisper).
commit-push-pr
83.3kCommit, push, and open a PR
