SkillAgentSearch skills...

ChiVe

Japanese word embedding with Sudachi and NWJC 🌿

Install / Use

/learn @WorksApplications/ChiVe
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

chiVe: Sudachi による日本語単語ベクトル

English README

概要

"chiVe" (チャイブ, Sudachi Vector) は、大規模コーパスと複数粒度分割に基づく日本語単語ベクトルです。

Skip-gram アルゴリズムを元に、word2vec (gensim) を使用して単語分散表現を構築しています。

学習コーパスには、v1.0-v1.2 では約 1 億のウェブページ文章を含む国立国語研究所の日本語ウェブコーパス(NWJC)、 v1.3 では CommonCrawl から取得したウェブページ文章を採用しています。

分かち書きにはワークスアプリケーションズの形態素解析器 Sudachi を使用しています。 Sudachi で定義されている A/B/C の 3 つの分割単位でコーパスを解析した結果を元に分散表現の学習を行なっています。

データ

SudachiDict と chiVe のデータは、AWS の Open Data Sponsorship Program によりホストしていただいています。

| 版 | 最低頻度 | 正規化 | 語彙数 | テキスト | gensim | Magnitude | | --------- | -------- | ------ | --------- | --------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------- | | v1.3 mc5 | 5 | o | 2,530,791 | 3.6GB (tar.gz) | 2.9GB (tar.gz) | - | | v1.3 mc15 | 15 | o | 1,186,019 | 1.7GB (tar.gz) | 1.3GB (tar.gz) | - | | v1.3 mc30 | 30 | o | 759,011 | 1.1GB (tar.gz) | 0.8GB (tar.gz) | - | | v1.3 mc90 | 90 | o | 410,533 | 0.6GB (tar.gz) | 0.5GB (tar.gz) | - | | | | | | | | | | v1.2 mc5 | 5 | o | 3,197,456 | 9.2GB (tar.gz) | 3.8GB (tar.gz) | 5.5GB (.magnitude) | | v1.2 mc15 | 15 | o | 1,454,280 | 5.0GB (tar.gz) | 1.7GB (tar.gz) | 2.4GB (.magnitude) | | v1.2 mc30 | 30 | o | 912,550 | 3.1GB (tar.gz) | 1.1GB (tar.gz) | 1.5GB (.magnitude) | | v1.2 mc90 | 90 | o | 482,223 | 1.7GB (tar.gz) | 0.6GB (tar.gz) | 0.8GB (.magnitude) | | | | | | | | | | v1.1 mc5 | 5 | o | 3,196,481 | 11GB (tar.gz) | 3.6GB (tar.gz) | 5.5GB (.magnitude) | | v1.1 mc15 | 15 | o | 1,452,205 | 4.7GB (tar.gz) | 1.7GB (tar.gz) | 2.4GB (.magnitude) | | v1.1 mc30 | 30 | o | 910,424 | 3.0GB (tar.gz) | 1.1GB (tar.gz) | 1.5GB (.magnitude) | | v1.1 mc90 | 90 | o | 480,443 | 1.6GB (tar.gz) | 0.6GB (tar.gz) | 0.8GB (.magnitude) | | v1.0 mc5 | 5 | x | 3,644,628 | 12GB (tar.gz) | 4.1GB (tar.gz) | 6.3GB (.magnitude) |

全て 300 次元のベクトルです。

「最低頻度」は、コーパス内での単語出現回数での足切り基準(gensim での min_count )です。

「正規化」は、形態素解析器 Sudachi による表記統制です。例えば 空き缶, 空缶, 空き罐, 空罐, 空きカン, 空きかん はすべて正規化表記 空き缶 に統制されます。

| 版 | Sudachi | Sudachi 辞書 | 学習コーパス | | ---- | ------- | --------------------- | ---------------------------------------------------- | | v1.3 | v0.6.8 | 20240109-core | CommonCrawl (CC-MAIN-2022-40, warc, first 20k files) | | v1.2 | v0.4.3 | 20200722-core | NWJC | | v1.1 | v0.3.0 | 20191030-core | NWJC | | v1.0 | v0.1.1 | 0.1.1-dictionary-full | NWJC |

全て同じ学習アルゴリズムを使用しています。詳細は training を参照してください。

「A 単位語のみ」の資源

Sudachi 辞書にある A 単位語のみを含む資源です(A 単位語のみでの再学習ではなく、上にある元資源から、B 単位語、C 単位語、OOV 語(Out-of-vocabulary, 辞書にない語)を除いたものです)。

v1.1 mc90 aunit が、自然言語処理ツール spaCy の日本語モデルに使われています。

| 版 | 語彙数 | テキスト | gensim | Magnitude | | --------------- | --------------- | --------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------- | | v1.1 mc5 aunit | 322,094 (10.1%) | 1.1GB (tar.gz) | 0.4GB (tar.gz) | 0.5GB (.magnitude) | | v1.1 mc15 aunit | 276,866 (19.1%) | 1.0GB (tar.gz) | 0.3GB (tar.gz) | 0.4GB (.magnitude) | | v1.1 mc30 aunit | 242,658 (26.7%) | 0.8GB (tar.gz) | 0.3GB (tar.gz) | 0.4GB (.magnitude) | | v1.1 mc90 aunit | 189,775 (39.5%) | 0.7GB (tar.gz) | 0.2GB (tar.gz) | 0.3GB (.magnitude) |

追加学習用のフルモデル

chiVe は、各ドメイン(分野)に合わせたデータで追加学習させられます。 chiVe は、追加学習なしでも利用でき

View on GitHub
GitHub Stars172
CategoryDevelopment
Updated7d ago
Forks6

Languages

Python

Security Score

100/100

Audited on Mar 31, 2026

No findings