【トピック】音声認識されやすい話し方で使う

現在の音声認識技術について、特にUDトークでメインで採用しているAmiVoiceの認識精度ですが

・音声認識されやすい話し方で使う

・固有名詞を単語登録をする

この2つを理解して運用することが精度が高い認識結果を出すことについて大前提となります。

後者は機能として提供しているので使われている方は多いし、むしろ日本語という環境では単語登録なしの音声認識(特に一発勝負のコミュニケーションにおいて)は考えられないと思います。ここがAmiVoiceがGoogleやAppleに勝るアドバンテージでしょう。

前者ですが、この話をするとよく「人間が機械に合わせるなんて技術が未熟なだけじゃないか」という人がいるんですが(最近は流石に減ってきましたが)、音声認識はあくまで「道具」なので「正しい使い方をしましょう」ということと言いたいわけです。

このことをうまく説明する時に

「人間の耳で聞いてわからないことは、音声認識も難しい」

ということです。遠く離れたところの声も苦手です。「人間だとそれはある程度分かるじゃないか」と言われそうですが、人間も聞いて理解するときはあるていど推測をしながら聞いてます。

自分の講演や参加した講演を文字起こしをすることを僕は推奨しています。ぜひ運用をされてる方にはやってもらいたいと思っています。そうすると確かにその場では自分が喋ったことや聞いていたことを全部「分かってた」はずなのに文字起こしをしてみると「こんなこと言ってたっけ」とか「なんて言ってるんだここ」って部分がほんとにたくさんあります。つまり聞いている時も内容を100%キャッチできているわけではないのです。UDトークで支援をされている方たちは(もちろんこれは開発者も含めて)このことに「気がつく」わけです。

ちょっと話を戻しますが、逆にいうと「人間の耳で聞いて分かりやすいものは、音声認識しやすい」ということになります。例えば作成した原稿の読み上げなどはもうほぼ100%認識するでしょう(音声がちゃんと綺麗にとれていることは大前提ですが)。通常の会話でも、早口にやりすぎず、文章も長くなりすぎず、簡潔に表現するなどを心がければ認識率はあがります。これらは音声認識の精度を上げるため、ではなく相手に話を伝えるために心がけることです。最近だと外国人対応でよく取り上げられる「やさしい日本語」での伝え方がUDトークと相性が良いと言う報告もいただいています。

自分で認識結果を見ながら話すのも効果的です。ちょっと言い方が分かりにくかったなと思ったときは大体認識結果で出てくる文章もよくわからなかったり、誤認識が多かったりします。リアルタイムで見ていることで早口になりにくい効果もあります。

「音声認識されやすい話し方で使う」と言うのは「道具の正しい使い方」くらいに考えて、うまくこの音声認識と言う最先端の技術を活用していただければと思います。