DisNOTEのページに戻る

DisNOTEの音声認識について

DisNOTEは、音声認識に以下の3つの音声認識エンジンを使用しています。
初期状態では、Google Cloud Speech APIだけを使うようになっています。
Google Cloud Speech APIは認識精度があまり高くありません。そこそこの認識はできますが、より正確に認識させたい方は他の音声認識エンジンを使うことができます。

認識結果の比較

同じ音声をそれぞれのエンジンで認識したときの例です。
Google Cloud Speech API Wit.ai Whisper

音声認識エンジンの特徴

それぞれの音声認識の特徴を簡単に説明します。
DisNOTE作者の主観によるものですので注意してください。
Google Cloud Speech API Wit.ai Whisper
DisNOTEで使うための事前設定 ○最初から使える ×設定が必要
※要Facebookアカウント
○最初から使える
※認識開始時に画面から設定を変更してください
認識精度 △それなり ○高い ○高い
※辞書次第
認識結果の候補の数 ○最大5つ △1つだけ △1つだけ
フィラー(※) ほぼ省略される あり ほぼ省略される
認識速度 ○早い △少し遅い ×とても遅い
モデルデータダウンロード ○不要 ○不要 ×要DL
※推奨辞書だと1.5GB
※自動的にダウンロードされます
使用料 ○無料 ○無料 ○無料
※フィラー:「えーと」「まあ」など、会話の隙間を埋める発話。おそらくWit.ai以外の2つは意図的に省略しているのだと思います。

初期設定が面倒ですが一度設定すればそこそこの認識時間で高い精度が出せるWit.aiか、 すぐ使えますが認識に時間がかかるWhisperか、お好みで選んでください。
そもそも精度を求めていないという方は、Google Cloud Speech APIだけでも大丈夫です。
とにかく候補を増やしたい!という方は全部使うこともできます。

設定方法

以下を参照して設定してください。