【トピック】多言語の音声認識エンジン、何を選ぶ?

UDトークは日本語だけではなくたくさんの言語の音声認識ができます。無料版においてはiOS版はAppleが提供するもの、Android版はGoogleが提供するものを利用できますが、法人向けプランだとまた選択肢が増えます。「何を選んだらいいの?」と言う声も多いので違いなどをまとめてみました。

iOS版とAndroid版の違い

英語などの外国語の音声認識の機能で「iOS版は連続発話ができる、Android版は連続発話ができない」です。無料のAndroid版は1発話ごとに認識する仕様なので通常の翻訳アプリのようにしゃべって使うことになります。iOS版は本体の音声認識の機能として連続発話が可能なのでUDトークもそのように実装しています。

※日本語の音声認識はiOSもAndroidもAmiVoiceで連続発話が可能です。

無料版と法人版の違い

法人向けプランをご利用いただくと

  • AmiVoice(高精度/編集用)・・・英語・中国語・韓国語で提供。iOSおよびAndroidで利用可能。
  • Google(連続発話対応)・・・多くの言語で対応。iOSのみ。(※コンパクトプランでも利用可能)

これらが選択可能になります。iOSで英語の音声認識だとAppleとGoogleとAmiVoiceの3つが選べることになるのでどれにしたら良いか悩むところです。

現状はGoogleが一番精度が高い

現状認識精度としては多言語全般ですがGoogleが圧倒的に精度が高いです。それについでAppleのもの。AmiVoiceの英語・中国語・韓国語は低くはないもののそれには及びません。ですので、海外からのゲストスピーカーや動画を音声認識させる時はAppleやGoogleをお勧めしています。

※日本語ではダントツでAmiVoiceが高いです。字幕配信の実際の現場運用でGoogleを使うことはほぼないです。

AmiVoiceの利用シーン

ではあえてなぜ法人向けプランでAmiVoiceを提供しているのかですが、いくつか理由があります。

社内の利用制限でGoogleが使用できない

特に理由もなくGoogleの利用を制限している企業が多いです。いまだにGoogleはデータを収集していると思い込まれていますが、UDトークで採用している有償のGoogleのこうした機能はデータの収集を行なっておりません(技術についてを参照ください)。社内のポリシーに合わせても英語の音声認識が使えるように提供をしています。

編集用では日本語同様に小刻みに結果が出る

AppleやGoogleの多言語音声認識だと結果が話し終わりで出てきてそこで初めて編集ができるようになります。日本語のAmiVoice高精度と同じになります。英語・中国語・韓国語でも話終わる前に小刻みに結果を出して編集をしたい場合は「編集用」にすると日本語と同等に編集ができます。誤認識は多少増えるものの編集者がしやすいと言うのもメリットなので選択肢のひとつとなります。ですが日本語と違って英語や中国語の認識精度はすごく高いのでちょっとした固有名詞以外の編集の必要性はないかもしれませんし、GoogleやAppleで行っても話し終わった後に編集はできるので運用次第となります。

まとめ

  • Googleで多言語の音声認識をするのが圧倒的に精度が高い
  • 無料版、コンパクトプラン、法人向けプランで選択肢が異なる
  • 英語・中国語・韓国語で誤認識の修正を行うならAmiVoice編集用がやりやすい時もある

英語で話しているYouTubeの動画などを認識させて違いを見ていただければ良いかと思います。