【トピック】音声認識の仕組み

どうやってやってるの?賢いね?ぜんぜんダメじゃない!といろんなリアクションをいただく音声認識技術。その仕組みをざっくり簡単に説明したいと思います。

「音声を認識しているわけではありません」

え?!と思われるかもしれませんが、音声認識は英語だとAutomatic Speech Recognition、音声ではなくスピーチです。なので「会話認識」とか「文章認識」とかの方が技術的な意味合いとしては正しいと思います。

音を認識しているわけではないので聞こえてるものを文字化しているのではないのです。だから「歌詞が出てくるといい」とか「英語でも近い発音かひらがなで」とか「車の音とか環境音とかを」と言うのも技術的には「違うこと」になります。

「かしこい」と言う表現も違ってて、音声認識は考えていません。単に「辞書の検索」なので認識率の向上は「辞書の強化」と「検索スピード」の掛け算です。

音が入力されるとそれを言語の「音素」に変換して「辞書を検索」し一番近い「文章」を出力します。音素に変換をしてるので音声認識エンジンは言語や地域(英語だと北米、イギリス、オーストラリアなど)によって辞書が分けられます。

文章を検索しているのの分かりやすい例が「こうえん」と発話したとき、これだけでは「公園」か「講演」か「公演」かが分かりません。単語でだとそのとき辞書がもってる一番頻度が高いものを出してきます。これが

公園へ遊びに行く
講演を聞きに行く
公演を見に行く

とここまで話すとどの「こうえん」なのかが確定されます。キーボードで打って漢字に変換をしてるわけではなく初めから漢字になのです。

技術的なことを少しわかっていると「これは音声認識でできる」とか「これはちょっと無理だな」とかがわかるようになってきます。

ただこれは現時点での技術でありもしかしたら将来的に言語や地域を自動判別したり、ほんとに「音」と認識したりできるようになるのかもしれません。そこは世の中の基礎研究をしている機関や音声認識技術の提供元であるAmiVoiceの株式会社アドバンストメディアの仕事となります。UDトークはいち早く最新の技術は取り入れていく方針です。

「話し言葉を認識する」と言うことを念頭に置いて音声認識技術の使いどころを考えてみてください。そしていろんな場所でやってみて楽しんでみてください。

p.s
これは簡単な説明で概念的なものなので、専門的なツッコミはご遠慮ください。