MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

Generate Convert Improve

Install / Use

/learn @esbatmop/MNBVC

About this skill

Quality Score

0/100

README

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集

请媒体朋友们不要报道我们，让我们有更长久的时间可以收集整理数据。我们最怕捧杀了，您让我们保持低调，就是对中文算法圈做了大的贡献！

中文互联网上最古老最神秘(没有之一)的MOP里屋社区于2023.1.1庄重宣布:

在英明神武的猫扑管子带领下，决心发挥社区所长(哪都长)，帮助开源社区长期更新一份最大的中文互联网语料集

MNBVC语料集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。

进度

目前总数据量60732GB，目标是达到253T数据，目前进度24%。

数据说明

压缩包密码为253874

压缩包内中文语料包括txt、json、jsonl和parquet（多模态专用）格式，最终会统一到jsonl和parquet格式。

压缩包根目录的links.txt里有每个子文件夹数据来源的url

每个子文件夹内有一张png格式的图片，是数据来源的网页截图

收录的数据将去掉大于等于8位的数字串进行脱敏

压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等

索引和分类

我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息，但为了长而持久的提供数据集的更新和下载，为了尽量避免版权争议，本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲，不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用，拜托大家低调的使用数据。

huggingface

清洗完成的分类数据将陆续放到：https://huggingface.co/datasets/liwu/MNBVC

一人行快，众人行远（摇人加速发送邮件 MNBVC@253874.net）

各个小组长反映，数据清洗的苦力代码工作比较多，技术落地有点慢，希望有大量时间的同学来帮忙，会用python就行，有人手把手指导。请来帮忙的同学先阅读项目的三条红线。

OCR转码小组（被GPT4逼成了包含文字-图片的多模态语料组，增加编制），目前5人，缺5人（需有CV、NLP算法背景，想用nlp辅助ocr转码，有业内此领域顶尖大佬带队指导）
问答语料小组，目前3人，缺4人（目前全是写python代码对齐问答项并人肉检查的苦力活，后面想利用算法模型做自动对齐）
语料增强小组，目前3人，缺2人（想利用nlp补全缺字的语料，并进行文本质量检测等）
代码语料小组和平行语料小组还缺几个打杂（后面由组长来决定到底干嘛）
待建古文研究小组（研究地方志等古籍的转码，语料很多，难度很大）
待建测试组（请测试同学加入，帮助我们提升数据质量，希望本组同学可以研究用llm直接生成测试用例和测试代码）

即使没空帮助项目做开发，也可以通过参加 (语料元气弹) 项目，随手上传语料文档，来参与MNBVC语料集的建设。

中文大语料清洗工具

为处理大规模的中文语料，MNBVC项目组的同学在现有开源软件基础上做了优化，提供了更高效的版本:

更快速且准确的中文编码检测工具：charset_mnbvc
将txt批量转成jsonl并挑出段落重复度高的文件：deduplication_mnbvc
从多层目录中按关键词采样一定数量的文件并保留目录结构：scan_copy_files_mnbvc
将MNBVC语料格式统一的格式检查工具：DataCheck_MNBVC
数据清洗示例及工具：DataClean-MNBVC

代码仓库爬虫工具

现有各个开源代码语料集都有很严重的人为过滤现象，这让追赶chatGPT变得更为困难。为避免重复劳动，提供经过MNBVC大规模验证后的代码仓库爬虫代码。

爬取github代码仓库meta信息：publicRepos_mnbvc
爬取github代码仓库最新版本代码：github_downloader_mnbvc
爬取notabug代码仓库：notabug_download_mnbvc
爬取bitbucket代码仓库：bitbucket_crawl_mnbvc
将代码转为语料：githubcode_extractor_mnbvc
爬取commit记录：get_github_commit_mnbvc

多模态处理工具

PDF元信息抽取工具：pdf_meta_data_mnbvc
PDF解析规则工具：mmdp_mnbvc
第一版的pdf转txt工具：pdf2txt_mnbvc
Arxiv文档解析工具：Arxiv_mllm_mnbvc
Arxiv图文对处理工具：ARXIV_IMAGE2CAPTION_mnbvc
将PDF文件转换为JSON和Markdown格式的工具：docling_parse_mnbvc
将文本文件转化为parquet格式：mm_template_mnbvc

各种清洗代码

wikihow清洗代码：WikiHowQAExtractor-mnbvc
中国外交部发言清洗代码：QA_with_reporters_from_the_Ministry_of_Foreign_Affair_mnbvc
各类数学题清洗代码：Math_mnbvc
stackexchange的清洗代码：stackexchange_mnbvc
平行语料的清洗代码：parallel_corpus_mnbvc
试卷的清洗代码：Exam-Question-Bank-Dataset-zh_mnbvc
裁判文书网的清洗代码：MNBVC-judgment
剧本杀的清洗代码：MNBVC-pdf-extract
DocLayNet的清洗代码：DocLayNetPlus_mnbvc
天涯论坛的清洗代码：tianya-mnbvc
reddit论坛的清洗代码：reddit-mnbvc
TigerBot的清洗代码：TigerBot-mnbvc
Telechat的文本清洗代码：Telechat-mnbvc
Telechat的问答语料清洗代码：ShareGPTQAExtractor-mnbvc
Poem的清洗代码：PoemExtractor-mnbvc

其他小工具

chinarxiv的爬虫：chinaxivCrawler_mnbvc
从warc中提取文件：warc_extractor_mnbvc
psyarxiv、chemrxiv、biorxiv、medrxiv的爬虫：xxarxiv_mnbvc
wipo的爬虫：wipo_mnbvc

语料集下载信息(每个压缩包都会随着清洗进度更新):

1.通过p2p微力同步全部压缩包并接收更新
建议关闭tcp穿透、关闭udp传输的微力设置。如不关闭，微力有可能堵塞路由器（同时也许传输速度更快）

微力密钥part1: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直达链接part1 注：此part1需占磁盘空间10T+，如需要更小分块的链接，请看：锐意新计划

微力密钥part2: B4FQSD525XQQDY6XNO7JZ6BM2EIKAUTVPLLVX6N52HIWBZ7G72R7EQ
微力直达链接part2

2.通过百度网盘下载：第一部分、第二部分

Citation

Please cite the repo if you use the data or code in this repo.

@misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/esbatmop/MNBVC}},
}

Related Skills

proje

Interactive vocabulary learning platform with smart flashcards and spaced repetition for effective language acquisition.

YC-Killer

2.7k

A library of enterprise-grade AI agents designed to democratize artificial intelligence and provide free, open-source alternatives to overvalued Y Combinator startups. If you are excited about democratizing AI access & AI agents, please star ⭐️ this repository and use the link in the readme to join our open source AI research team.

best-practices-researcher

The most comprehensive Claude Code skills registry | Web Search: https://skills-registry-web.vercel.app

groundhog

401

Groundhog's primary purpose is to teach people how Cursor and all these other coding agents work under the hood. If you understand how these coding assistants work from first principles, then you can drive these tools harder (or perhaps make your own!).

esbatmop

View profile

View on GitHub

GitHub Stars4.2k

CategoryEducation

Updated5h ago

Forks289

esbatmop/MNBVC

Security Score

100/100

Audited on Apr 10, 2026

No findings