GoogleとAmiVoice、音声認識の特徴

(追記)最新版ではさらにAmiVoice高精度とApple、Apple On Device(オフラインエンジン)が無料版でも選択できるようになっています。

現在コンパクトプランと法人向けプラン(※)では日本語の音声認識エンジンをAmiVoiceとGoogleで選択してご利用いただけるようになっております。どの認識エンジンも精度が上がってきました。そうなるとどういった基準で使い分ければいいのか?ということろが課題となってきます。

※法人向けプランでは「管理ツール」で音声認識エンジンを選択可能を許可する必要があります

そんな使用の際の基準を考えてみました。

 AmiVoiceGoogle
単語登録
句読点挿入
「えーと」などのカット
読みの表示
発音のカバー率
雑音環境
編集のしやすさ

単語登録、句読点挿入、「えーと」などのカット

このあたりは講演などのリアルタイム字幕を作成するときには必須の機能となりますので、まずきちんと音を取れる環境ではAmiVoiceを選択したほうが良いでしょう。Googleを選択する理由はないと思います。

読みの表示

実は読みの表示は音声認識エンジンの機能です。AmiVoiceの場合は認識結果に読みが含まれているのでそのとおりに表示することができます。Googleの場合は音声認識の結果にあとから読みを機会的につけているため喋っていない読みがでることがあります。

発音のカバー率

Googleは実はそれほど喋った内容をそのまま出す処理を行っておりません。入ってきた音声に対して一番近い文章を出す方を優先しています。それとは反対にAmiVoiceは入ってきた音声に対してどういう結果があるかを優先します。その結果、Googleの場合は入力された音声が曖昧でもそれなりに正しいものを(多少喋ってないことが付加されたようになったり)出してきます。さらに雑音とみなすとまったく結果が出ないこともあります。

入力音声に対する結果を優先<出力する文章の正しさを優先

ということになります。ですので、UDトークの使用環境で言うと難聴者の方の発話や、まだ日本語を文法的にきちんと話せない外国人の発話に強いことになります。事実、この機能を提供したあとに、企業で働く難聴者の方がGoogleに切り替えたことにより「いままでリスピーク(復唱)をしてもらっていたのが、会議で自分で発言ができるようになった」と報告を受けています。

雑音環境

これは上記のカバー率によってくるのですが、雑音環境でも同じことが言えます。AmiVoiceは「きちんと入力された音声」に対しての精度を上げるためにチューニングをしています。逆にGoogleはもともと検索エンジンへの入力で使われる音声認識なのでとにかく雑音に強い側面があります。居酒屋やパーティーなどで筆談や通訳との併用で活用するには良いと思います。

編集のしやすさ

これはUDトークの機能になりますが、UDトークは喋り終わる前でも小刻みに認識結果が確定したところから編集ができますが、Googleは話し終わるまで編集することができません。短い発話を繰り替えすような会話環境なら良いですが、やはり講演などではAmiVoiceで運用するのがいいと思います。

まとめ

こうやって列挙すると講演等でしっかりと環境を整えて運用をするケースではGoogleを使う理由はあまりないですが、喋る人が自分で選ぶ(特に難聴者の方が使うとき)とすごく活用の幅が広がるのではないかと思います。

AmiVoiceでのは「、」が入っていてアルファベット表記にも読みがなが入っています。単語登録がされている結果でもあります。スマホに向かってきちんと話したので一回でこの結果を出すことができました。

Googleでの結果になります。文末の「。」はUDトークの方で挿入しているものですので、音声認識自体では句読点は出されていません。当然アルファベットには読みは振られていません。誤認識は読める文章に近づけています。ちなみに「は」とか「が」も言い忘れたところに挿入されたりしています。もっとシビアな環境で試してみたいですね。

「選べる」ということはアプリの機能としてとても重要です。UDトークは

  • 音声認識エンジンの選択
  • 翻訳エンジンの選択

ができる数少ないアプリでもありますので、ぜひいろいろ試していただき自分にとって最適な使い方を見つけていただけると幸いです。