GoogleとAmiVoice、音声認識の特徴

現在コンパクトプランと法人向けプランでは日本語の音声認識エンジンをAmiVoiceとGoogleで選択してご利用いただけるようになっております。どの認識エンジンも精度が上がってきました。そうなるとどういった基準で使い分ければいいのか?ということろが課題となってきます。

そんな使用の際の基準を考えてみました。

AmiVoice Google
単語登録
句読点挿入
「えーと」などのカット
読みの表示
発音のカバー率
雑音環境
編集のしやすさ

単語登録、句読点挿入、「えーと」などのカット

このあたりは講演などのリアルタイム字幕を作成するときには必須の機能となりますので、まずきちんと音を取れる環境ではAmiVoiceを選択したほうが良いでしょう。Googleを選択する理由はないと思います。

読みの表示

実は読みの表示は音声認識エンジンの機能です。AmiVoiceの場合は認識結果に読みが含まれているのでそのとおりに表示することができます。Googleの場合は音声認識の結果にあとから読みを機会的につけているため喋っていない読みがでることがあります。

発音のカバー率

Googleは実はそれほど喋った内容をそのまま出す処理を行っておりません。入ってきた音声に対して一番近い文章を出す方を優先しています。それとは反対にAmiVoiceは入ってきた音声に対してどういう結果があるかを優先します。その結果、Googleの場合は入力された音声が曖昧でもそれなりに正しいものを(多少喋ってないことが付加されたようになったり)出してきます。さらに雑音とみなすとまったく結果が出ないこともあります。

入力音声に対する結果を優先<出力する文章の正しさを優先

ということになります。ですので、UDトークの使用環境で言うと難聴者の方の発話や、まだ日本語を文法的にきちんと話せない外国人の発話に強いことになります。事実、この機能を提供したあとに、企業で働く難聴者の方がGoogleに切り替えたことにより「いままでリスピーク(復唱)をしてもらっていたのが、会議で自分で発言ができるようになった」と報告を受けています。

雑音環境

これは上記のカバー率によってくるのですが、雑音環境でも同じことが言えます。AmiVoiceは「きちんと入力された音声」に対しての精度を上げるためにチューニングをしています。逆にGoogleはもともと検索エンジンへの入力で使われる音声認識なのでとにかく雑音に強い側面があります。居酒屋やパーティーなどで筆談や通訳との併用で活用するには良いと思います。

編集のしやすさ

これはUDトークの機能になりますが、UDトークは喋り終わる前でも小刻みに認識結果が確定したところから編集ができますが、Googleは話し終わるまで編集することができません。短い発話を繰り替えすような会話環境なら良いですが、やはり講演などではAmiVoiceで運用するのがいいと思います。

まとめ

こうやって列挙すると講演等でしっかりと環境を整えて運用をするケースではGoogleを使う理由はあまりないですが、喋る人が自分で選ぶ(特に難聴者の方が使うとき)とすごく活用の幅が広がるのではないかと思います。

こちらはAmiVoiceでの結果になります。「、」が入っているのとAmiVoice、Google、UDトークにきちんと読みがなが入っています。単語登録がされている結果でもあります。スマホに向かってきちんと話したので一回でこの結果を出すことができました。

こちら、Googleでの結果になります。文末の「。」はUDトークの方で挿入しているものですので、音声認識自体では句読点は出されていません。当然amivoiceやgoogleなどには読みは振られていません。「短い髪は」は「みじかいはつわ」の誤認識ですが、読める文章に近づけているのがわかります。ちなみに「は」とか「が」も言い忘れたところに挿入されたりしています。もっとシビアな環境で試してみたいですね。

こちら、一般の方にはコンパクトプランと言う形式で提供しておりますが、有料のアドオンとなります。もし難聴者の方でまず試したい方がいましたらSmilingual(スマイリンガル)をインストールしてみてください。こちらもGoogleで実装してますので、自分の声の認識が認識しやすいかどうかを試してアドオンを購入されるといいと思います。

「選べる」ということはアプリの機能としてとても重要です。UDトークは

  • 音声認識エンジンの選択
  • 翻訳エンジンの選択

ができる数少ないアプリでもありますので、ぜひいろいろ試していただき自分にとって最適な使い方を見つけていただけると幸いです。