【トピック】「編集用」と「高精度」を使い分けよう

UDトークはトーク設定で日本語の音声認識エンジンを切り替えることができます。その中に「AmiVoice 編集用」と「AmiVoice 高精度」があります。

「そりゃ精度が高い方がいいから高精度でしょ?」と思われるかもしれませんが、ここはその機能を知っておいて使い分けるのが正解です。

AmiVoice 編集用

音声認識結果の編集で困るのが「結果が出てからじゃないと編集ができない」と言うことです。かと言って最近の音声認識技術は長い発話を入力した方が精度が高くなります(前後関係を判断するので)。でも話終わってからでは何を喋ったのかを編集時に忘れてしまいます。そんな時に編集用を選択しておくと話終わる前に途中で編集ができるように切り出していきます。ただし途中で切り出すためある程度の認識途中で確定をさせてしまいます。雑音が入ったりとか曖昧な音声が入った時に誤認識が出やすくなります。

AmiVoice 高精度

発話が終了したタイミングで音声認識の結果をまた最初から検証し、一番精度が高い結果を出すようにします。これは最近の音声認識技術では一般的な技術で雑音や曖昧な音声が入った時でも全体を通してエラー補完が行われ精度を上げることができます。なので1つの発話が長くなり、話終わった後でないと編集ができなくなります。

どう使い分ける?

基本的には精度が高い「高精度」で使うのがいいと思います。トークを公開して編集者がいるときは「編集用」にした方が編集しやすいと思います。ですが、編集者が少ない場合やある程度認識率が高そうな場合(単語登録がしっかりされていたり、話者がUDトークで喋り慣れている場合)は編集者がいても高精度で使ってもいいと思います。

このあたりの使い分けがスムーズにできるように運用時にガイダンスを出すなどしてみたいはと思います。