SkillAgentSearch skills...

Takin

A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。

Install / Use

/learn @sharejing/Takin
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

<div align="center"><img src="https://github.com/sharejing/Takin/blob/main/images/takin_logo.PNG" height="150px"/></div> <h2 align="center">A Python Toolkit for File Processing, Text Cleaning and Data Splitting</h2>

实验室数据大多由人工众包构建而成,其格式规范,内容干净,数据经过一些简单清洗便能用于模型训练;而真实环境下的数据往往来自于一些用户日志、员工记录等,其文件格式众多,数据内容包含大量噪声,想要获得内容干净、格式规范统一的数据,就需要对这些数据进行深度清洗。Takin就是一款用于真实环境下文件处理、文本清洗和数据划分的开源工具。通过对外提供函数接口的方式,帮助使用者快速获取模型的输入数据。

🚩<b>Takin的最终目标是:对于任何格式和内容的数据,通过Takin就能完全得到你所期望的最规范、最干净的数据。</b>

为了接近并最终达到这个目标,Takin目前包含以下功能:

  • 文件处理:读取和写入各种文件;
  • 文本清洗:提供多个清洗函数接口(如删除数字、序号、标点、特殊字符等);
  • 数据划分:快速划分训练集、验证集和测试集。
<h2 align="center">Installation&Usage&Plan</h2> <h3>:sunny: Installation</h3>
pip install takin

最近的船新版本为takin==1.1.4

<h3>:sunny: Plan&Usage</h3>

文件处理 (File Processing)

文本清洗 (Text Cleaning)

数据划分 (Data Splitting)

  • [x] 给定一个原始数据集,按照比例将其划分为训练集、验证集、测试集 split_dataset
  • [x] corpus中每个元素是dict,按照类别进行数据切分 split_dataset_by_class

<b>目前Takin仍处于开发阶段,才疏学浅,若有错误和不当之处,请批评与指正!</b>

<b>如果您有更好的想法想一起合作,请联系我QQ:1085665357,请注明来意,谢谢~</b>

View on GitHub
GitHub Stars36
CategoryDevelopment
Updated8d ago
Forks7

Languages

Python

Security Score

95/100

Audited on Mar 31, 2026

No findings