【トピック】音声認識は音声を認識しているわけではない?!

UDトークを使う時にちょっと音声認識の仕組みを知っておくとより活用ができます。

音声認識は音声認識は音声を認識しているわけではない、と言うタイトルですが、英語だと「Speech Recognition」といいます。「音」が入っていないですよね。
みなさんがよく勘違いするのは、UDトークの音声認識は「音声を認識して文字化」してるのではなく「話し言葉の音声を認識して文章化」しています。つまり「ガチャン」って物音が「ガチャン」と出るわけではなく、入ってきた音声に対して一番スコアが高い文章をを出します、なので音と結果が「違う」のは仕組みとして当然なのです。

例えば

こうえん

皆さんは何を思い浮かべましたか?いろいろありますよね。では

こうえんに遊びにいく
こうえんを聞きに行く
こうえんを見に行く

となるとそれぞれ「公園」「講演」「公演」と音だけでも特定できます。それは一番思い当たる文章であって次点には違う漢字が思い浮かんだと思います。これを実際にUDトークでやってみると、

公園に遊びにいく
講演を聞きに行く
公演を見に行く

となります。面白いのでやってみてください。

「前後の単語で判断しながら一番スコアが高い文章を出す」

これがUDトークの音声認識の仕組みとなります(※もちろん技術としては「音」の種類を認識したりするものの存在します)。よく「漢字かな変換までしてすごい」と言われますが、はじめから漢字かな混じりで出てくるのです。繰り返しますが「一番スコアが高い文章を出しているだけ」なので、賢いと言う表現は微妙に間違っっています。

さて、これを踏まえると認識率を上げるためにはどうしたらいいでしょう?簡単ですね、

・一番スコアが高いと思われる文章の音声を入力してあげる
・認識させたい文章の音声だけを入れてあげる
・あまりダラダラと話さずちょっと書き言葉を意識する
・句読点を意識して話す
・挙手して話し、話すときはマイクを口に近づける
・手元で認識開始と停止を操作する
・話してるときは他の人は話に割り込まない

さて、これって音声認識をするために気をつけることでしょうか?違いますよね、相手にちゃんとわかりやすく伝えたり話した内容を記録に残したりといったことがしやすくなるためにすることです。なのでちゃんと気をつけて会話や会議をすると必然的に認識結果がよくなります。

ほんのちょっとの知識と工夫で格段に使い勝手が向上します。ぜひみなさんも試してみてください。