SkillAgentSearch skills...

CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard

Install / Use

/learn @CLUEbenchmark/CLUE

README

CLUE benchmark

datasets, baselines, pre-trained models, corpus and leaderboard

中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

** Update 2026-02-06: **

SuperCLUE官网更新(2026-02-06): <a href='https://www.superclueai.com/' target="__blank">www.SuperClueAI.com</a>

中文大模型基准测评2025年年度报告(New!):<a href='https://www.cluebenchmarks.com/superclue_2025' target="__blank">中文大模型基准测评2025年年度报告</a>

State Of Chinese AI 2025(New!):<a href='https://www.cluebenchmarks.com/superclue_2025_en' target="__blank">State Of Chinese AI 2025</a>

优秀的国产深度学习框架PaddlePaddle中的NLP核心项目:<a href="https://github.com/CLUEbenchmark/CLUE/tree/master/baselines/paddlenlp" target="_" style="color:red">PaddleNLP现以全面支持CLUE基准</a>

<a href='https://mp.weixin.qq.com/s/LtkKuKdpg8Lg3XCEMWpaMw'> CLUE论文被计算语言学国际会议 COLING2020高分录用</a>

中文任务测评基准(CLUE benchmark)-排行榜 Leaderboard

排行榜会定期更新 数据来源: www.CLUEbenchmarks.com <a href='https://arxiv.org/abs/2004.05986'>论文</a>

分类任务(v1版本,正式版)

| 模型 | Score | 参数 | AFQMC | TNEWS' | IFLYTEK' | CMNLI | CLUEWSC2020 | CSL | | :----:| :----: | :----: | :----: |:----: |:----: |:----: |:----: |:----: | | <a href="https://github.com/google-research/bert">BERT-base</a> | 68.77 | 108M | 73.70 | 56.58 | 60.29 | 79.69 | 62.0 | 80.36 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">BERT-wwm-ext</a> | 68.75 | 108M | 74.07 | 56.84 | 59.43 | 80.42 | 61.1 | 80.63 | | <a href="https://github.com/PaddlePaddle/ERNIE">ERNIE-base</a> | 68.55 | 108M | 73.83 | 58.33 | 58.96 | 80.29 | 60.8 | 79.1 | | <a href="https://github.com/brightmart/roberta_zh">RoBERTa-large</a> | 71.70 | 334M | 74.02 | 57.86 | 62.55 | 81.70 | 72.7 | 81.36 | | <a href="https://github.com/ymcui/Chinese-PreTrained-XLNet">XLNet-mid</a> | 68.58 | 200M | 70.50 | 56.24 | 57.85 | 81.25 | 64.4 | 81.26 | | <a href="https://github.com/google-research/albert">ALBERT-xxlarge</a> | 71.04 | 235M | 75.6 | 59.46 | 62.89 | 83.14 | 61.54 | 83.63 | | <a href="https://github.com/google-research/albert">ALBERT-xlarge</a> | 68.92 | 60M | 69.96 | 57.36 | 59.50 | 81.13 | 64.34 | 81.20 | | <a href="https://github.com/google-research/albert">ALBERT-large</a> | 67.91 | 18M | 74 | 55.16 | 57.00 | 78.77 | 62.24 | 80.30 | | <a href="https://github.com/google-research/albert">ALBERT-base</a> | 67.44 | 12M | 72.55 | 55.06 | 56.58 | 77.58 | 64.34 | 78.5 | | <a href="https://github.com/brightmart/albert_zh">ALBERT-tiny</a> | 62.61 | 4M | 69.92 | 53.35 | 48.71 | 70.61 | 58.5 | 74.56 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-ext</a> | 70.10 | 108M | 74.04 | 56.94 | 60.31 | 80.51 | 67.8 | 81.0 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-large</a> | 72.83 | 330M | 76.55 | 58.61 | 62.98 | 82.12 | 74.6 | 82.13 |

注:AFQMC:蚂蚁语义相似度(Acc);TNEWS:文本分类(Acc);IFLYTEK:长文本分类(Acc); CMNLI: 自然语言推理中文版; 
   COPA: 因果推断; WSC:CLUEWSC2020,即Winograd模式挑战中文版; CSL: 中国科学文献数据集; Score总分是通过计算6个数据集得分平均值获得;
  '代表对原数据集使用albert_tiny模型筛选后获得,数据集与原数据集不同,从而可能导致在这些数据集上albert_tiny表现略低.

阅读理解任务

| 模型 | Score | 参数 | CMRC2018 | CHID | C<sup>3</sup> | | :----:| :----: | :----: | :----: |:----: |:----: | | <a href="https://github.com/google-research/bert">BERT-base</a> | 72.71 | 108M | 71.60 | 82.04 | 64.50 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">BERT-wwm-ext</a> | 75.12 | 108M | 73.95 | 82.90 | 68.50 | | <a href="https://github.com/PaddlePaddle/ERNIE">ERNIE-base</a> | 73.69 | 108M | 74.7 | 82.28 | 64.10 | | <a href="https://github.com/brightmart/roberta_zh">RoBERTa-large</a> | 76.85 | 334M | 78.50 | 84.50 | 67.55 | | <a href="https://github.com/ymcui/Chinese-PreTrained-XLNet">XLNet-mid</a> | 72.70 | 209M | 66.95 | 83.47 | 67.68 | | <a href="https://github.com/google-research/albert">ALBERT-base</a> | 68.08 | 10M | 72.90 | 71.77 | 59.58 | | <a href="https://github.com/google-research/albert">ALBERT-large</a> | 71.51 | 16.5M | 75.95 | 74.18 | 64.41 | | <a href="https://github.com/google-research/albert">ALBERT-xlarge</a> | 75.73 | 57.5M | 76.30 | 80.57 | 70.32 | | <a href="https://github.com/google-research/albert">ALBERT-xxlarge</a> | 77.19 | 221M | 75.15 | 83.15 | 73.28 | | <a href="https://github.com/brightmart/albert_zh">ALBERT-tiny</a> | 49.05 | 1.8M | 53.35 | 43.53 | 50.26 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-ext</a> | 75.11 | 108M | 75.20 | 83.62 | 66.50 | | <a href="https://github.com/ymcui/Chinese-BERT-wwm">RoBERTa-wwm-large</a> | 79.05 | 330M | 77.95 | 85.37 | 73.82 |

DRCD、CMRC2018: 繁体、简体抽取式阅读理解(F1, EM);CHID: 成语多分类阅读理解(Acc);C<sup>3</sup>: 多选中文阅读理解(Acc);Score总分是通过计算3个数据集得分平均值获得。

注:阅读理解上述指标中F1和EM共存的情况下,取EM为最终指标。CMRC2018结果为CLUE专用独立测试集。

一键运行.基线模型与代码 Baseline with codes

使用方式:
1、克隆项目 
   git clone https://github.com/CLUEbenchmark/CLUE.git
2、进入到相应的目录
   分类任务  
       例如:
       cd CLUE/baselines/models/bert
       cd CLUE/baselines/models_pytorch/classifier_pytorch
   或阅读理解任务:
       cd CLUE/baselines/models_pytorch/mrc_pytorch
3、运行对应任务的脚本(GPU方式): 会自动下载模型和任务数据并开始运行。
   bash run_classifier_xxx.sh
   如运行 bash run_classifier_iflytek.sh 会开始iflytek任务的训练  
4、tpu使用方式(可选)  
    cd CLUE/baselines/models/bert/tpu  
    bash run_classifier_tnews.sh即可测试tnews任务(注意更换里面的gs路径和tpu ip)。数据和模型会自动下载和上传。
    
    cd CLUE/baselines/models/roberta/tpu  
    bash run_classifier_tiny.sh即可运行所有分类任务(注意更换里面的路径,模型地址和tpu ip)  

生成提交文件

分类任务: 
    在CLUE/baselines/models/bert目录下执行
    bash run_classifier_xxx.sh predict 
    即可在output_dir下得到相应的提交文件json格式结果xxx_prdict.json

或见<a href="https://github.com/CLUEbenchmark/CLUE/blob/master/baselines/models/bert/run_classifier.py#L932-L951">代码实现</a>

阅读理解任务:
     在CLUE/baselines/models_pytorch/mrc_pytorch目录下执行
     test_mrc.py
     具体参数和使用方法可见对应的run_mrc_xxx.sh
​    

<a href="https://storage.googleapis.com/cluebenchmark/tasks/clue_submit_examples.zip">提交样例下载</a>

运行环境

tensorflow 1.12 /cuda 9.0 /cudnn7.0

工具包 Toolkit

运行方式:

pip install PyCLUE 
cd PyCLUE/examples/classifications
python3 run_clue_task.py

支持10个任务、9大模型、自定义任务,见 <a href="https://github.com/CLUEbenchmark/PyCLUE">PyCLUE toolkit</a>

测评系统 Leaderboard

测评入口:<a href="http://www.CLUEbenchmarks.com">我要提交</a> <img src="https://github.com/CLUEbenchmark/CLUE/blob/master/resources/img/CLUEbenchmark.jpg" width="90%" height="45%" />

语料库(CLUECorpus2020):语言建模、预训练或生成型任务

Corpus for Langauge Modelling, Pre-training, Generating tasks

可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于<a href="https://github.com/brightmart/nlp_chinese_corpus">nlp_chinese_corpus项目</a>

当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。

包含如下子语料库(总共14G语料):

1、<a href="https://pan.baidu.com/s/1MLLM-CdM6BhJkj8D0u3atA">新闻语料 news2016zh_corpus</a>: 8G语料,分成两个上下两部分,总共有2000个小文件。

2、<a href="https://drive.google.com/open?id=1u2yW_XohbYL2YAK6Bzc5XrngHstQTf0v">社区互动-语料 webText2019zh_corpus</a>:3G语料,包含3G文本,总共有900多个小文件。

3、<a href="https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA">维基百科-语料 wiki2019zh_corpus</a>:1.1G左右文本,包含300左右小文件。

4、<a href="https://pan.baidu.com/s/18-ufaJJtf7ullzHMWXvhFw">评论数据-语料 comments2019zh_corpus</a>:2.3G左右文本,共784个小文件,包括点评评论547个、亚马逊评论227个,合并<a href="https://github.com/InsaneLife/ChineseNLPCorpus">ChineseNLPCorpus</a>的多个评论数据,清洗、格式转换、拆分成小文件。

这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;

你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;

如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。

CLUE benchmark的定位 Vision

为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展

数据集介绍与下载 Introduction of datasets

<a href="https://storage.googleapis.com/cluebenchmark/tasks/clue_submit_examples.zip">提交样例下载</a>

1. AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus
     数据量:训练集(34334)验证集(4316)测试集(3861)
     例子:
     {"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
     每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。

<a href="https://storage.googleapis.com/cluebenchmark/tasks/afqmc_public.zip" > AFQMC'数据集下载</a>

2.TNEWS' 今日头条中文新闻(短文本)分类 Short Text Classificaiton for News

该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。

     数据量:训练集(53,360),验证集(10,000),测试集(10,000)
     例子:
     {"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}
     每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。

<a href="https://storage.googleapis.com/cluebenchmark/tasks/tnews_public.zip" > TNEWS'数据集下载</a>

3.IFLYTEK' 长文本分类 Long Text classification

该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别:"打车":0,"地图导航":1,"免费WIFI":2,"租车":3,….,"女性":115,"经营":116,"收款":117,"其他":118(分别用0-118表示)。

    数据量:训练集(12,133),验证集(2,599),测试集(2,600)
    例子:
    {"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
    每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。

<a href="https://storage.googleapis.com/cluebenchmark/tasks/iflytek_public.zip" > IFLYTEK'数据集下载</a>

4.<a href='https://github.com/cluebenchmark/OCNLI'>OCNLI 中文原版自然语言推理</a> Original Chinese Natural Language Inference

OCNLI,即原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。

  

Related Skills

View on GitHub
GitHub Stars4.2k
CategoryDevelopment
Updated5d ago
Forks546

Languages

Python

Security Score

85/100

Audited on Mar 25, 2026

No findings