使い方
音声認識の設定画面で、Whisperの欄で使いたいモデルを選択してください。
「なし」だとWhisperでの認識を行いません。
下にいくほど認識精度が上がり、処理時間が長くなります。
また、他の音声認識エンジンと異なり、
認識中はCPUを全力で使用する上に認識時間も長いので注意してください。
モデルについて
DisNOTE作者の主観ですが、tiny~smallだとGoogle Cloud Speech APIより精度が悪いです。使うのであれば
mediumがオススメです。
モデル | モデルデータサイズ(※1) | 認識精度 | 認識時間(※2) | 備考 |
tiny | 70MB | 悪い ↑ ↓ 良い | 短い ↑ ↓ 長い | |
base | 140MB | |
small | 470MB | |
medium | 1.5GB | ※オススメ |
large | 3.0GB | |
※1 認識時に使われるモデル(辞書)データです。Whisperを有効にすると必要なものだけが自動的にダウンロードされます。
※2 認識速度はお使いのPCの性能に左右されます。
あとは、通常と同じようにDisNOTEを使ってください。Whisperでの認識結果が表示されるようになります。
なお、
初めてWhisperを使うときは上記のモデルデータをダウンロードするので非常に時間がかかります。時間に余裕のある時にお使いください。
余談
本来WhisperはGPUを用いて高速に認識をするというライブラリなのですが、DisNOTEでは諸々の事情でGPUの代わりにCPUを用いています(遅いのはそのため)。
DisNOTE.batを使う方向け
DisNOTE.batと同じフォルダにあるDisNOTE.iniというファイルを、テキストエディタで開いてください。
※DisNOTE.iniが存在しなかったり、whisper_modelの行が存在しなかったらDisNOTE.batをダブルクリックして実行してください。エラーになって終了しますが、DisNOTE.iniが作成されます。
whisper_modelという項目を、モデル名に変更してください。