CLUE
中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Install / Use
/learn @CLUEbenchmark/CLUEREADME
CLUE benchmark
datasets, baselines, pre-trained models, corpus and leaderboard
中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。
我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。
** Update 2026-02-06: **
SuperCLUE官网更新(2026-02-06): <a href='https://www.superclueai.com/' target="__blank">www.SuperClueAI.com</a>
中文大模型基准测评2025年年度报告(New!):<a href='https://www.cluebenchmarks.com/superclue_2025' target="__blank">中文大模型基准测评2025年年度报告</a>
State Of Chinese AI 2025(New!):<a href='https://www.cluebenchmarks.com/superclue_2025_en' target="__blank">State Of Chinese AI 2025</a>
优秀的国产深度学习框架PaddlePaddle中的NLP核心项目:<a href="https://github.com/CLUEbenchmark/CLUE/tree/master/baselines/paddlenlp" target="_" style="color:red">PaddleNLP现以全面支持CLUE基准</a>
<a href='https://mp.weixin.qq.com/s/LtkKuKdpg8Lg3XCEMWpaMw'> CLUE论文被计算语言学国际会议 COLING2020高分录用</a>
中文任务测评基准(CLUE benchmark)-排行榜 Leaderboard
排行榜会定期更新 数据来源: www.CLUEbenchmarks.com <a href='https://arxiv.org/abs/2004.05986'>论文</a>
分类任务(v1版本,正式版)
| 模型 | Score | 参数 | AFQMC | TNEWS' | IFLYTEK' | CMNLI | CLUEWSC2020 | CSL | | :----:| :----: | :----: | :----: |:----: |:----: |:----: |:----: |:----: | | <a href="https://github.com/google-research/bert">BERT-base</a> | 68.77 | 108M | 73.70 | 56.58 | 60.29 | 79.69 | 62.0 | 80.36 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">BERT-wwm-ext</a> | 68.75 | 108M | 74.07 | 56.84 | 59.43 | 80.42 | 61.1 | 80.63 | | <a href="https://github.com/PaddlePaddle/ERNIE">ERNIE-base</a> | 68.55 | 108M | 73.83 | 58.33 | 58.96 | 80.29 | 60.8 | 79.1 | | <a href="https://github.com/brightmart/roberta_zh">RoBERTa-large</a> | 71.70 | 334M | 74.02 | 57.86 | 62.55 | 81.70 | 72.7 | 81.36 | | <a href="https://github.com/ymcui/Chinese-PreTrained-XLNet">XLNet-mid</a> | 68.58 | 200M | 70.50 | 56.24 | 57.85 | 81.25 | 64.4 | 81.26 | | <a href="https://github.com/google-research/albert">ALBERT-xxlarge</a> | 71.04 | 235M | 75.6 | 59.46 | 62.89 | 83.14 | 61.54 | 83.63 | | <a href="https://github.com/google-research/albert">ALBERT-xlarge</a> | 68.92 | 60M | 69.96 | 57.36 | 59.50 | 81.13 | 64.34 | 81.20 | | <a href="https://github.com/google-research/albert">ALBERT-large</a> | 67.91 | 18M | 74 | 55.16 | 57.00 | 78.77 | 62.24 | 80.30 | | <a href="https://github.com/google-research/albert">ALBERT-base</a> | 67.44 | 12M | 72.55 | 55.06 | 56.58 | 77.58 | 64.34 | 78.5 | | <a href="https://github.com/brightmart/albert_zh">ALBERT-tiny</a> | 62.61 | 4M | 69.92 | 53.35 | 48.71 | 70.61 | 58.5 | 74.56 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-ext</a> | 70.10 | 108M | 74.04 | 56.94 | 60.31 | 80.51 | 67.8 | 81.0 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-large</a> | 72.83 | 330M | 76.55 | 58.61 | 62.98 | 82.12 | 74.6 | 82.13 |
注:AFQMC:蚂蚁语义相似度(Acc);TNEWS:文本分类(Acc);IFLYTEK:长文本分类(Acc); CMNLI: 自然语言推理中文版;
COPA: 因果推断; WSC:CLUEWSC2020,即Winograd模式挑战中文版; CSL: 中国科学文献数据集; Score总分是通过计算6个数据集得分平均值获得;
'代表对原数据集使用albert_tiny模型筛选后获得,数据集与原数据集不同,从而可能导致在这些数据集上albert_tiny表现略低.
阅读理解任务
| 模型 | Score | 参数 | CMRC2018 | CHID | C<sup>3</sup> | | :----:| :----: | :----: | :----: |:----: |:----: | | <a href="https://github.com/google-research/bert">BERT-base</a> | 72.71 | 108M | 71.60 | 82.04 | 64.50 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">BERT-wwm-ext</a> | 75.12 | 108M | 73.95 | 82.90 | 68.50 | | <a href="https://github.com/PaddlePaddle/ERNIE">ERNIE-base</a> | 73.69 | 108M | 74.7 | 82.28 | 64.10 | | <a href="https://github.com/brightmart/roberta_zh">RoBERTa-large</a> | 76.85 | 334M | 78.50 | 84.50 | 67.55 | | <a href="https://github.com/ymcui/Chinese-PreTrained-XLNet">XLNet-mid</a> | 72.70 | 209M | 66.95 | 83.47 | 67.68 | | <a href="https://github.com/google-research/albert">ALBERT-base</a> | 68.08 | 10M | 72.90 | 71.77 | 59.58 | | <a href="https://github.com/google-research/albert">ALBERT-large</a> | 71.51 | 16.5M | 75.95 | 74.18 | 64.41 | | <a href="https://github.com/google-research/albert">ALBERT-xlarge</a> | 75.73 | 57.5M | 76.30 | 80.57 | 70.32 | | <a href="https://github.com/google-research/albert">ALBERT-xxlarge</a> | 77.19 | 221M | 75.15 | 83.15 | 73.28 | | <a href="https://github.com/brightmart/albert_zh">ALBERT-tiny</a> | 49.05 | 1.8M | 53.35 | 43.53 | 50.26 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-ext</a> | 75.11 | 108M | 75.20 | 83.62 | 66.50 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-large</a> | 79.05 | 330M | 77.95 | 85.37 | 73.82 |
DRCD、CMRC2018: 繁体、简体抽取式阅读理解(F1, EM);CHID: 成语多分类阅读理解(Acc);C<sup>3</sup>: 多选中文阅读理解(Acc);Score总分是通过计算3个数据集得分平均值获得。
注:阅读理解上述指标中F1和EM共存的情况下,取EM为最终指标。CMRC2018结果为CLUE专用独立测试集。
一键运行.基线模型与代码 Baseline with codes
使用方式:
1、克隆项目
git clone https://github.com/CLUEbenchmark/CLUE.git
2、进入到相应的目录
分类任务
例如:
cd CLUE/baselines/models/bert
cd CLUE/baselines/models_pytorch/classifier_pytorch
或阅读理解任务:
cd CLUE/baselines/models_pytorch/mrc_pytorch
3、运行对应任务的脚本(GPU方式): 会自动下载模型和任务数据并开始运行。
bash run_classifier_xxx.sh
如运行 bash run_classifier_iflytek.sh 会开始iflytek任务的训练
4、tpu使用方式(可选)
cd CLUE/baselines/models/bert/tpu
bash run_classifier_tnews.sh即可测试tnews任务(注意更换里面的gs路径和tpu ip)。数据和模型会自动下载和上传。
cd CLUE/baselines/models/roberta/tpu
bash run_classifier_tiny.sh即可运行所有分类任务(注意更换里面的路径,模型地址和tpu ip)
生成提交文件
分类任务:
在CLUE/baselines/models/bert目录下执行
bash run_classifier_xxx.sh predict
即可在output_dir下得到相应的提交文件json格式结果xxx_prdict.json
或见<a href="https://github.com/CLUEbenchmark/CLUE/blob/master/baselines/models/bert/run_classifier.py#L932-L951">代码实现</a>
阅读理解任务:
在CLUE/baselines/models_pytorch/mrc_pytorch目录下执行
test_mrc.py
具体参数和使用方法可见对应的run_mrc_xxx.sh
<a href="https://storage.googleapis.com/cluebenchmark/tasks/clue_submit_examples.zip">提交样例下载</a>
运行环境
tensorflow 1.12 /cuda 9.0 /cudnn7.0
工具包 Toolkit
运行方式:
pip install PyCLUE
cd PyCLUE/examples/classifications
python3 run_clue_task.py
支持10个任务、9大模型、自定义任务,见 <a href="https://github.com/CLUEbenchmark/PyCLUE">PyCLUE toolkit</a>
测评系统 Leaderboard
测评入口:<a href="http://www.CLUEbenchmarks.com">我要提交</a> <img src="https://github.com/CLUEbenchmark/CLUE/blob/master/resources/img/CLUEbenchmark.jpg" width="90%" height="45%" />
语料库(CLUECorpus2020):语言建模、预训练或生成型任务
Corpus for Langauge Modelling, Pre-training, Generating tasks
可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于<a href="https://github.com/brightmart/nlp_chinese_corpus">nlp_chinese_corpus项目</a>
当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。
包含如下子语料库(总共14G语料):
1、<a href="https://pan.baidu.com/s/1MLLM-CdM6BhJkj8D0u3atA">新闻语料 news2016zh_corpus</a>: 8G语料,分成两个上下两部分,总共有2000个小文件。
2、<a href="https://drive.google.com/open?id=1u2yW_XohbYL2YAK6Bzc5XrngHstQTf0v">社区互动-语料 webText2019zh_corpus</a>:3G语料,包含3G文本,总共有900多个小文件。
3、<a href="https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA">维基百科-语料 wiki2019zh_corpus</a>:1.1G左右文本,包含300左右小文件。
4、<a href="https://pan.baidu.com/s/18-ufaJJtf7ullzHMWXvhFw">评论数据-语料 comments2019zh_corpus</a>:2.3G左右文本,共784个小文件,包括点评评论547个、亚马逊评论227个,合并<a href="https://github.com/InsaneLife/ChineseNLPCorpus">ChineseNLPCorpus</a>的多个评论数据,清洗、格式转换、拆分成小文件。
这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;
你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;
如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。
CLUE benchmark的定位 Vision
为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展
数据集介绍与下载 Introduction of datasets
<a href="https://storage.googleapis.com/cluebenchmark/tasks/clue_submit_examples.zip">提交样例下载</a>
1. AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。
<a href="https://storage.googleapis.com/cluebenchmark/tasks/afqmc_public.zip" > AFQMC'数据集下载</a>
2.TNEWS' 今日头条中文新闻(短文本)分类 Short Text Classificaiton for News
该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。
数据量:训练集(53,360),验证集(10,000),测试集(10,000)
例子:
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}
每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。
<a href="https://storage.googleapis.com/cluebenchmark/tasks/tnews_public.zip" > TNEWS'数据集下载</a>
3.IFLYTEK' 长文本分类 Long Text classification
该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别:"打车":0,"地图导航":1,"免费WIFI":2,"租车":3,….,"女性":115,"经营":116,"收款":117,"其他":118(分别用0-118表示)。
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。
<a href="https://storage.googleapis.com/cluebenchmark/tasks/iflytek_public.zip" > IFLYTEK'数据集下载</a>
4.<a href='https://github.com/cluebenchmark/OCNLI'>OCNLI 中文原版自然语言推理</a> Original Chinese Natural Language Inference
OCNLI,即原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
Related Skills
node-connect
342.0kDiagnose OpenClaw node connection and pairing failures for Android, iOS, and macOS companion apps
frontend-design
84.7kCreate distinctive, production-grade frontend interfaces with high design quality. Use this skill when the user asks to build web components, pages, or applications. Generates creative, polished code that avoids generic AI aesthetics.
openai-whisper-api
342.0kTranscribe audio via OpenAI Audio Transcriptions API (Whisper).
commit-push-pr
84.7kCommit, push, and open a PR
