【トピック】UDトークで使用しているAmiVoiceの認識率の目指すところ

「UDトークよりGoogleの方が認識する」と言われる時がありますが(UDトークもGoogleが使えるんですがデフォルトで設定されてるAmiVoiceのことだろうとしておきます)、ではそもそも「認識する」ということはどういう状態になんでしょうか?2つあると思います。

・ちゃんと喋ってる内容をちゃんと認識する
・ちゃんと喋ってない内容をほどほど認識する

ちゃんと喋ってない内容をちゃんと認識するというのは矛盾しています。そもそもちゃんと喋ってないので人間にだってわからないわけなので。
よくUDトークで「認識率が向上しました」のアナウンスをしますが、AmiVoiceの認識率アップの方向性は

「ちゃんと喋ってる内容をちゃんと認識する」

ことになります。この精度がどんどん上がっています。なのでちゃんと喋ってる人は体感でわかるくらい上がったと感じる時も多いです。
逆にちゃんと喋ってない内容はそんなに変わりません。

例えば認識率を定量的に考えたとして、60%も70%も体感的には大きく変わらないでしょう。でも95%と96%って大きく体感で変わります。目で見てわかる1文字1単語の精度を上げることになるからです。

ちゃんと喋ってない内容をほどほど認識するのであればGoogleのように認識できないところをばっさりとカットすることで認識してるように見せかけることもできます。もちろんGoogleもすごく精度が上がってきていますが、日本語環境だとまだまだ「ちゃんと喋ってる内容をちゃんと認識する」用途だったらAmiVoiceの方に軍配はあがるでしょう。

【UDトーク】第二十一回:AmiVoiceとGoogle、音声認識エンジン比較!

なので使い分けだと考えています。

UDトークのAmiVoiceは

「ちゃんと喋ってる内容をちゃんと認識する」

ここの精度向上に力を入れている音声認識エンジンなのです。