【ヒント】認識精度が100%になればいいのか?

やはり皆さん気になるところは認識精度だと思います。結論から言うと今の音声認識技術を取り巻く状況では認識精度と言う数値はそれほど意味をなさなくなっています。なぜならば「ちゃんと喋ればちゃんと出る」と言うところが担保され始めたからです。以前はそうじゃなかったのでパーセンテージで表現をしていた時代もありました。

なので今は「なぜ下がるのか?」と言うところを考えるようになりました。そしてまたその下がった要因をカバーして「上げる工夫」のは別の手法になります。

例えば下がる原因としては「口とマイクの距離」があります。ではその原因をカバーして上げるには集音性能だったりとか離れた距離感でのデータの収集とかそういったことになります。騒音や方言やフランクな話し言葉など、「下がる要因」はたくさんあります。

つまり

「ちゃんと喋ればちゃんと認識する – 下がる要因 + 上げる工夫 = 認識結果」

と言うなんちゃって方程式が出来上がります。ここで下がる要因と上げる仕組みが相殺されればちゃんと喋った認識結果と等しくなります。なのでもしいまうまく認識されないなーと思っている方は「下がる要因」を考えて「上げる工夫」をしてみてください。それで

「ちゃんと喋ればちゃんと認識する = 認識結果」

というのに近づけることが必要です。

これを踏まえて本題の「認識精度が100%になればいいのか?」ですが、音声認識の結果は「喋ったことをそのまま」出します。なのでその内容が「わかりやすいかどうか」に関しては音声認識とは関係がないことなのです。つまり下がる要因を上がる工夫でカバーして認識エンジンのスペックを100%引き出したとしても、認識させるもとの話し手に依存すると言うことです。

「分かりやすく話す→音声認識の結果が良いし見て分かる
音声認識の結果が良くても→分かりやすいとは限らない」

分かりやすく話すと聞いている人も理解がしやすいです。そう考えると話し手は特に音声認識のために特別することは必要なく「話を伝えるために」することのすべてが「下がる要因」カバーできる「上げる工夫」にもつながるということです。

音声認識は単純な技術であり手段です。そこがなにか配慮するわけではなく行き着く先は「そのまま出す」です。もちろん技術的には精度向上は最優先事項ですが、運用で考えるとそれほど大きな要因ではなくなってきています。

技術を理解して正しい運用をすることも大事です。ご活用ください。

ちなみに、

「分かりやすく話す→多少間違っていても分かる」

と言う結果も体感では出ています。つまりちゃんと文脈に沿っていると間違ったところも補完しやすいんでしょうね。