SkillAgentSearch skills...

Kuresampler

WORLD と ニューラルボコーダーを利用した UTAU エンジンです。自然なクロスフェードと高品質な出音の両立を目指します。

Install / Use

/learn @oatsu-gh/Kuresampler
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

kuresampler

WORLD と ニューラルボコーダーを利用した UTAU エンジンです。自然なクロスフェードと高品質な出音の両立を目指します。

使い方

サーバー & クライアントモード (推奨)

  • kuresampler v0.1.0 で追加されたモードです。サーバー・クライアント方式により高速に動作します。
  • UTAU, OpenUtau 両対応です。
  • resampler として使用可能です。wavtool は通常のものを使用してください。
  • resampler として下記のいずれかを指定してください。
    • kuresampler_K_Client.exe
    • kuresampler_R_Client.exe
  • CUDA対応環境の場合、reinstall_torch.bat を一度実行すればGPUを使って高速レンダリングできるようになります。

スタンドアロンモード (非推奨)

  • kuresampler v0.0.1 以前と同様の動作をします。
  • OpenUtau 非対応です。
  • resampler としてのみ使用可能です。wavtool は通常のものを使用してください。
  • resampler として下記のいずれかを指定してください。
    • kuresampler_K.exe
    • kuresampler_R.exe
    • kuresampler_fast_K.exe
    • kuresampler_fast_R.exe
  • fast が付くエンジンは高速ですが高負荷です。
  • CUDA対応環境の場合、reinstall_torch.bat を一度実行すればGPUを使って高速レンダリングできるようになります。

エンジン比較

| Engine | Vocoder Model | Description | Characteristic | Training Dataset | License or Terms | Requires notation ? | | ----------------- | ----------------------- | ------------------------------------------------------------------------------- | -------------------------------------------------------------------- | ------------------------------------------------ | -------------------------------------------------------------------- | -------------------- | | kuresampler_K.exe | usfGAN_EnunuKodoku_0826 | 「ENUNU蠱毒企画 歌唱データベース」を学習したモデルです。 | 低~高音域の男声・女声両方の幅広い声質に適します。 | https://github.com/oatsu-gh/enunu_kodoku_singing | https://github.com/oatsu-gh/enunu_kodoku_singing/blob/main/README.md | NO | | kuresampler_R.exe | usfGAN_NamineRitsu#4310 | 「NNSVS/ENUNU 波音リツ #4139 CRISSCROSS 5スタイル」で使用されているモデルです。 | 低中~高音域の女声に適します。音域によらず一貫した声質が得られます。 | private | https://www.canon-voice.com/terms/ | NO |

    ___
   .//⌒___ \  +    。     +    。     *     。
  //_/   \\ \     +    。     +    。     *     。
         \\ \
  *    +  ((  |    イヤッッホォォォオオォオウ!
          |  ∩
   +   。  |  | | *     +    。     +   。 +
          |  | |
          |  / |  ._  +    。     +    +     *
     \ ̄ ̄ ~/   /~ ̄.\
      ||\  ~^~^~^~    \    +    。     +    +     *
      ||\|| ̄ ̄ ̄ ̄ ̄ ̄ ̄|| ̄              それがVIPクオリティ
      || || ̄ ̄ ̄ ̄ ̄ ̄ ̄||             https://hebi.5ch.net/news4vip/

特徴

長所と短所

  • resampler のみで使用する場合
    • 長所:パラメトリック歌声合成のわりに自然な声が得られる。
    • 短所:一般的なUTAUエンジンに比べてレンダリングが遅い。
  • resampler と wavtool 両方で使用する場合 (未実装)
    • 長所:パラメトリック音声合成のわりに自然な声が得られる。
    • 長所:原音の音階が異なるクロスフェードでも、比較的自然な合成ができる。
    • 短所:一般的なUTAUエンジンに比べてレンダリングが遅い。

ボコーダーモデルのつくりかた / How to make your vocoder model

  • wavファイルを用意すれば nnsvs で uSFGAN ボコーダーモデルを自作可能です。

フラグ / Flags

  • B, g, e, l 以外は動作未検証です。
  • デフォルトの伸縮方法はストレッチ式 ( e ) です。ループ式に変更したい場合はループフラグ ( l ) を使用してください。

| flag | range | default | description | | -------- | ------------- | -------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | B | 0 ~ 100 | default:50 | 息成分の強さ(ブレシネス)。大きいほど息っぽい。0~49では B0 の時非周期性指標が全て0になるように乗算。51~100では B100 の時、1000Hz~5000Hz 帯の非周期性指標が全て1になるように加算。 | | eb | 0 ~ 100 | default:0 | 語尾の息成分の強さ。大きいほど息っぽい。 | | ebs | -1000 ~ 1000 | default:0 | ノート前半部分の語尾息がかからない時間を5ms単位で指定。負の数を指定するとノート末尾からの時間。 | | eba | 0 ~ 1000 | default:0 | ebフラグのアタックタイムを5ms単位で指定。 | | g | -100 ~ 100 | default:0 | 疑似ジェンダー値。負で女声化・若年化、正で男声化・大人化。 | | t | -100 ~ 100 | default:0 | 音程の補正。1cent単位。 | | P | 0 ~ 100 | default:86 | ピークコンプレッサー。P100 の時 volume 適用前の音量最大値が -6dB になるよう正規化。P0 の時は無効。 | | e | - | default: True | wav の伸縮方法。通常はループ方式で、このフラグを設定するとストレッチ式になる。 | | l (エル) | - | default: False | wav の伸縮方法をループ式にする。 | | A | -100 ~ 100 | default:0 | ピッチ変動にあわせて音量が変化。1~100では基準より高いとき音量が小さく、-1~-100では基準より低いとき音量が小さくなる。 | | gw | 0 ~ 500 | default:0 | うなり声(グロウル)。 | | gws | -1000 ~ 1000 | default:0 | ノート前半部分のグロウルがかからない時間を5ms単位で指定。負の数を指定するとノート末尾からの時間。 | | gwa | 0 ~ 1000 | default:0 | gwフラグのアタックタイムを5ms単位で指定。 | | vf | -500 ~ 500 | default:0 | 疑似エッジ。エッジがかかる長さを5ms単位で指定。 | | vfw | 0 ~ 300 | default:100 | 疑似エッジの1回あたりの長さ(%指定)。 | | vfp | 0 ~ 100 | default:20 | 疑似エッジの1回あたりの無音の長さ(%指定)。 |

Special Thanks

LEIRH (https://x.com/LEIRHds)

更新履歴

0.0.1-alpha

  • 初配布

0.0.1

  • 声が幼く聞こえる不具合を修正
  • g フラグや B フラグ適用時にWAV合成できない不具合を修正 (同梱のPyRwuを改造)
  • g フラグのフォルマントシフトのスケールを log から mel に変更 (同梱のPyRwuを改造)
  • reinstall_torch.bat を追加

0.1.0

  • FastAPI を使用した サーバー & クライアントモードを追加。これにより、レンダリング高速化。
    • resampler として kuresampler_K_Client.exe / kuresampler_R_Client.exe を指定して使用。
  • OpenUtau 対応
View on GitHub
GitHub Stars14
CategoryDevelopment
Updated1mo ago
Forks1

Languages

Python

Security Score

95/100

Audited on Feb 15, 2026

No findings