【トピック】編集用と高精度、何が違うの?

UDトークは日本語の音声認識エンジンの種類が選べます。これはときどき紹介していますが、その中でもAmiVoiceはモードが2つ「編集用」と「高精度」と選べます。まぁ、高精度っていうくらいだから認識精度に差があることは間違いないのですが、だったらなんで編集用ってのがあるの?ということでそれを説明したいと思います。

まず認識精度というのについて、誤解のないように説明をすると100%という上限があります。なのでちゃんとした音声が入っていれば「編集用」と「高精度」も結果にそれほど大きな違いはありません。

音声認識の処理は「一区切りで話した単位」で行われます。息継ぎの単位と言ったほうがわかりやすいかもしれません。なので通常はその単位で結果が取得できることになり、リアルタイムの音声認識ではそれを繰り返します。

編集用・・・話終わる前の途中経過で認識結果を出力していくモード。一回で読みやすい区切りで表示していきます。

高精度・・・話終わってから認識結果を取得するモード。話終わってから改めて全体を確認するので精度が上がりますが結果の量が多くタイムラグもあります。

と言う前置きを踏まえて、

UDトークが他の音声認識アプリにない重要な機能が「支援者によるリアルタイム編集機能」です。通常の音声認識を使用すると話終わってから結果を取得しそれを編集するのでタイムラグも大きくすでに過ぎたところを覚えていられません。ですが、UDトークはしゃべり初めからある程度の区切りの良い長さですぐに結果がでて編集ができます。この独自の実装により他の音声認識エンジンを採用した編集ができるものより格段に編集しやすくなっています。

編集者がいない場合はできるだけ精度を上げたほうがいいので高精度がいいかと思います。ですので編集用(デフォルト)が設定してあってもトークの公開を行なっていない場合は高精度に自動的に切り替わっています(この仕様は将来的に変更するかもしれません)。

音声認識が微妙なくらいの会話音声だと高精度にすると違いがわかりやすいと聞いています。このあたりは用途によって選択をしていただければいいかと思います。

p.s
ちなみに最近リリースした話題の字幕エディター for ファイルのAmiVoice Cloud Platformですが、おそらくこれはUDトークの高精度相当の設定で行われていると思います。