うまく認識する人、しない人がいるのはなぜ?

「どうも私の声はちゃんと認識しないんです」

時々そういったご意見をいただきます。大体の場合が「マイクに口を近づけないで話している」とか「単語登録をしていない」ことが原因ですが、実は技術的に音声認識が苦手な声のカテゴリがあります。

まず音声認識の精度がどうやって向上をしているか?ということですが、これは無料のアプリを使っていただいてる皆さんに音声データの収集にご協力をいただいていて、それを元に精度が向上しています。つまり「多数派」で精度があがります。男性女性の割合であったり、地域の割合だったり、年齢だったり、そういった要素が統計上現れてきます。

つまり集まりにくい音声データのカテゴリが認識率が低いカテゴリとなります。

その中の一つは「子供」です。やはりスマホのアプリで音を収集しているので子供の音声は集まりにくいです。それに影響をして「(アニメ声のような)高い声」とかコンパニオンさんのように「極端にきれいな通る声」なども影響してきます。もともと女性の声自体が集まりにくかったカテゴリだったのですが、UDトークで音声が集まるようになってからは男女比はほぼ均等に集まるようになったようです。こうやって幾つかのカテゴリで埋めていき結果的に誰でも事前学習なしに音声認識ができるのですが、ときどきその境目に該当する人(声質)がいらっしゃったりすると認識しないときがあります。

一つの認識しづらいカテゴリに「難聴者の発話」というのがあります。聞こえないことによってだんだん発声が曖昧になっていきます。そのパターンは非常に多岐に渡ります。このカテゴリもUDトークとしては集めきれてないカテゴリです。ただ難聴の方の場合はUDトークを日々使っているとご自身の発声の方が良くなって認識するようになると言うおもしろいパターンも多数報告されています。

ここで、よくご意見をいただくのが「AppleやGoogleの音声認識は難聴者の声でもよく認識する」と言うことです。はい、たしかに認識します。それは前述した音声を収集している範囲が広いからカバーできているともいえます。ただスマホの音声認識は短文で「命令や対話」なので、UDトークの長い話し言葉を文字化するものとは調整方法が変わってきます。なので難聴者の方がUDトークでたくさん喋って音声データの収集にご協力いただけると「難聴者の声」と言うカテゴリが強くなります。AppleやGoogleも同じように収集をしていますが、どうせいただけるならここは国産のアプリ「UDトーク」の方にいただけたら幸いです(笑)

現在たくさんの方にお使いいただき様々な声のカテゴリが集まるようになってどんどん認識精度が向上しています。でもやはり認識率が100%になるのと、出てきた結果を見て理解ができるかは別問題です。まず技術的には高みは目指しますが、同時に音声認識技術を使うということはどういうことかを理解していただく必要もあると思ってます。