DisNOTEのページに戻る

Whisperでの音声認識について

DisNOTEは、音声認識に複数の音声認識エンジンを使用しています。詳しくはこちらを参照してください
その中のWhisperを使用するための設定方法を説明します。

使い方


音声認識の設定画面で、Whisperの欄で使いたいモデルを選択してください。
「なし」だとWhisperでの認識を行いません。
下にいくほど認識精度が上がり、処理時間が長くなります。
また、他の音声認識エンジンと異なり、認識中はCPUを全力で使用する上に認識時間も長いので注意してください。

モデルについて

DisNOTE作者の主観ですが、tiny~smallだとGoogle Cloud Speech APIより精度が悪いです。使うのであればmediumがオススメです。
※whisper_modelの行が存在しなかったらDisNOTE.batをダブルクリックして実行してください。エラーになって終了しますが、whisper_modelの行が作成されます。
モデルモデルデータサイズ(※1)認識精度認識時間(※2)備考
tiny 70MB悪い


良い
短い


長い
base 140MB
small 470MB
medium1.5GB※オススメ
large 3.0GB
※1 認識時に使われるモデル(辞書)データです。Whisperを有効にすると必要なものだけが自動的にダウンロードされます。
※2 認識速度はお使いのPCの性能に左右されます。

あとは、通常と同じようにDisNOTEを使ってください。Whisperでの認識結果が表示されるようになります。
なお、初めてWhisperを使うときは上記のモデルデータをダウンロードするので非常に時間がかかります。時間に余裕のある時にお使いください。

余談

本来WhisperはGPUを用いて高速に認識をするというライブラリなのですが、DisNOTEでは諸々の事情でGPUの代わりにCPUを用いています(遅いのはそのため)。

DisNOTE.batを使う方向け

DisNOTE.batと同じフォルダにあるDisNOTE.iniというファイルを、テキストエディタで開いてください。
※DisNOTE.iniが存在しなかったらDisNOTE.batをダブルクリックして実行してください。エラーになって終了しますが、DisNOTE.iniが作成されます。


whisper_modelという項目を、モデル名に変更してください。