MNBVC
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
Install / Use
/learn @esbatmop/MNBVCREADME
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集
请媒体朋友们不要报道我们,让我们有更长久的时间可以收集整理数据。我们最怕捧杀了,您让我们保持低调,就是对中文算法圈做了大的贡献!
中文互联网上最古老最神秘(没有之一)的MOP里屋社区于2023.1.1庄重宣布:
在英明神武的猫扑管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集
MNBVC语料集 不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。
进度
目前总数据量60732GB,目标是达到253T数据,目前进度24%。
数据说明
压缩包密码为253874
压缩包内中文语料包括txt、json、jsonl和parquet(多模态专用)格式,最终会统一到jsonl和parquet格式。
压缩包根目录的links.txt里有每个子文件夹数据来源的url
每个子文件夹内有一张png格式的图片,是数据来源的网页截图
收录的数据将去掉大于等于8位的数字串进行脱敏
压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等
索引和分类
我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。
huggingface
清洗完成的分类数据将陆续放到:https://huggingface.co/datasets/liwu/MNBVC
一人行快,众人行远(摇人加速 发送邮件 MNBVC@253874.net)
各个小组长反映,数据清洗的苦力代码工作比较多,技术落地有点慢,希望有大量时间的同学来帮忙,会用python就行,有人手把手指导。请来帮忙的同学先阅读项目的三条红线。
- OCR转码小组(被GPT4逼成了包含文字-图片的多模态语料组,增加编制),目前5人,缺5人(需有CV、NLP算法背景,想用nlp辅助ocr转码,有业内此领域顶尖大佬带队指导)
- 问答语料小组,目前3人,缺4人(目前全是写python代码对齐问答项并人肉检查的苦力活,后面想利用算法模型做自动对齐)
- 语料增强小组,目前3人,缺2人(想利用nlp补全缺字的语料,并进行文本质量检测等)
- 代码语料小组和平行语料小组还缺几个打杂(后面由组长来决定到底干嘛)
- 待建古文研究小组(研究地方志等古籍的转码,语料很多,难度很大)
- 待建测试组(请测试同学加入,帮助我们提升数据质量,希望本组同学可以研究用llm直接生成测试用例和测试代码)
即使没空帮助项目做开发,也可以通过参加 (语料元气弹) 项目,随手上传语料文档,来参与MNBVC语料集的建设。
中文大语料清洗工具
为处理大规模的中文语料,MNBVC项目组的同学在现有开源软件基础上做了优化,提供了更高效的版本:
- 更快速且准确的中文编码检测工具:charset_mnbvc
- 将txt批量转成jsonl并挑出段落重复度高的文件:deduplication_mnbvc
- 从多层目录中按关键词采样一定数量的文件并保留目录结构:scan_copy_files_mnbvc
- 将MNBVC语料格式统一的格式检查工具:DataCheck_MNBVC
- 数据清洗示例及工具:DataClean-MNBVC
代码仓库爬虫工具
现有各个开源代码语料集都有很严重的人为过滤现象,这让追赶chatGPT变得更为困难。为避免重复劳动,提供经过MNBVC大规模验证后的代码仓库爬虫代码。
- 爬取github代码仓库meta信息:publicRepos_mnbvc
- 爬取github代码仓库最新版本代码:github_downloader_mnbvc
- 爬取notabug代码仓库:notabug_download_mnbvc
- 爬取bitbucket代码仓库:bitbucket_crawl_mnbvc
- 将代码转为语料:githubcode_extractor_mnbvc
- 爬取commit记录:get_github_commit_mnbvc
多模态处理工具
- PDF元信息抽取工具:pdf_meta_data_mnbvc
- PDF解析规则工具:mmdp_mnbvc
- 第一版的pdf转txt工具:pdf2txt_mnbvc
- Arxiv文档解析工具:Arxiv_mllm_mnbvc
- Arxiv图文对处理工具:ARXIV_IMAGE2CAPTION_mnbvc
- 将PDF文件转换为JSON和Markdown格式的工具:docling_parse_mnbvc
- 将文本文件转化为parquet格式:mm_template_mnbvc
各种清洗代码
- wikihow清洗代码:WikiHowQAExtractor-mnbvc
- 中国外交部发言清洗代码:QA_with_reporters_from_the_Ministry_of_Foreign_Affair_mnbvc
- 各类数学题清洗代码:Math_mnbvc
- stackexchange的清洗代码:stackexchange_mnbvc
- 平行语料的清洗代码:parallel_corpus_mnbvc
- 试卷的清洗代码:Exam-Question-Bank-Dataset-zh_mnbvc
- 裁判文书网的清洗代码:MNBVC-judgment
- 剧本杀的清洗代码:MNBVC-pdf-extract
- DocLayNet的清洗代码:DocLayNetPlus_mnbvc
- 天涯论坛的清洗代码:tianya-mnbvc
- reddit论坛的清洗代码:reddit-mnbvc
- TigerBot的清洗代码:TigerBot-mnbvc
- Telechat的文本清洗代码:Telechat-mnbvc
- Telechat的问答语料清洗代码:ShareGPTQAExtractor-mnbvc
- Poem的清洗代码:PoemExtractor-mnbvc
其他小工具
- chinarxiv的爬虫:chinaxivCrawler_mnbvc
- 从warc中提取文件:warc_extractor_mnbvc
- psyarxiv、chemrxiv、biorxiv、medrxiv的爬虫:xxarxiv_mnbvc
- wipo的爬虫:wipo_mnbvc
语料集下载信息(每个压缩包都会随着清洗进度更新):
1.通过p2p微力同步全部压缩包并接收更新
建议关闭tcp穿透、关闭udp传输的微力设置。如不关闭,微力有可能堵塞路由器(同时也许传输速度更快)
微力密钥part1: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直达链接part1 注:此part1需占磁盘空间10T+,如需要更小分块的链接,请看:锐意新计划
微力密钥part2: B4FQSD525XQQDY6XNO7JZ6BM2EIKAUTVPLLVX6N52HIWBZ7G72R7EQ
微力直达链接part2
Citation
Please cite the repo if you use the data or code in this repo.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/esbatmop/MNBVC}},
}
Related Skills
proje
Interactive vocabulary learning platform with smart flashcards and spaced repetition for effective language acquisition.
YC-Killer
2.7kA library of enterprise-grade AI agents designed to democratize artificial intelligence and provide free, open-source alternatives to overvalued Y Combinator startups. If you are excited about democratizing AI access & AI agents, please star ⭐️ this repository and use the link in the readme to join our open source AI research team.
best-practices-researcher
The most comprehensive Claude Code skills registry | Web Search: https://skills-registry-web.vercel.app
groundhog
401Groundhog's primary purpose is to teach people how Cursor and all these other coding agents work under the hood. If you understand how these coding assistants work from first principles, then you can drive these tools harder (or perhaps make your own!).
Security Score
Audited on Apr 10, 2026
