【ヒント】音声認識、いろいろあるけど

iOSではSiriやキーボードに、Androidは検索したりと音声認識が身近になって、もうちょっとした検索や操作なら喋って済んでしまうことが多くなったのではないでしょうか(少なくとも開発者、かなりスマホの音声認識使ってます)。

よく聞かれるのがズバリ「UDトークってSiriとかと何が違うの?」と言うことです。ですがこの質問は少しばかりずれています。

まずこれを理解するには「音声認識」と呼んでいるものがなんなのか?を正しく把握する必要があります。

音声認識とひとことで言った場合に要素は「技術」と「インターフェイス」と2つに分けて考えなければいけません。

SiriやGoogle検索で説明をします。AppleもGoogleも独自に「音声認識技術」を持っています。そしてSiriやGoogle検索と言った「音声認識インターフェイス」でユーザーに提供されます。キーボードについているのも「音声認識インターフェイス」となります。みなさんが音声認識を使っているとよく言っているのは「技術をインターフェイスを通して」使っているということになります。

ではUDトークで同じ説明をすることにします。AmiVoice(アミボイス)と言う株式会社アドバンストメディアが開発している音声認識技術があります。それをUDトークと言うインターフェイス(アプリそのものがインターフェイス)を通して使用しています。UDトークはAmiVoiceと言う音声認識技術を採用しています。

では、技術の提供を受けて「インターフェイスを開発する立場」になって考えてみます。技術の提供元から「インターフェイスを開発してもいいよ」と言う条件や規約が提示されます。それぞれ分かりやすいところで列挙をしてみます。

■Apple
・開発キットを通して自由に使用
・無料(年間のアプリ開発ライセンスは必要)
・時間(連続1分)や回数制限あり
・音声データは提供

■Google
・専用インターフェイス(「お話ください」の)を通して無料で使用
・Speech APIで有料(従量課金)で使用
・専用インターフェイスは一言、Speech APIは連続可能
・音声データは再利用、Speech APIは再利用されない

■AmiVoice
・開発ツールキットの販売提供(企業間のみ)
・ライセンス料+利用料
・時間制限なし
・単語登録や辞書のカスタマイズ可能

(これが全てではありませんのでご了承を)

AppleとGoogleの技術としての提供形態はよく似ています。両方とも開発者が無料で使用してインターフェイスを開発できるようになっています。ただし、これを使用して作った場合は喋った音声データはすべてAppleとGoogleに提供をすることになります(利用規約に明記されています)。

技術としてのAmiVoiceはAppleやGoogleとは大きく異なります。特徴はやはり日本でビジネスをしている企業の技術なので企業間でライセンス契約をし、開発会社が製品を開発します。カスタマイズも可能なのでその分野に合わせた使い方(専門用語とか)にも対応できます。

ではこの技術を使ってインターフェイスを提供する立場になってみます。どの音声認識技術を使用しても無料有料にかかわらず、インターフェイス、つまりアプリやソフトウェアは「価格をつけて販売」することになります。これで言うとiOSやAndroidはOSや端末を使っている分にはそれ自体のインターフェイスを使って無料で提供されています。UDトークも無料アプリとして提供をしています。しかし厳密には無料ではなく、インターフェイスを使用したユーザーの音声を対価としていただいているので無料提供をしているということです。UDトークは法人向けには音声データを収集していないので、その分有料で提供をしております。

ここまでで「技術」と「インターフェイス」、そしてそれを「開発」して「提供」するところまでなんとなく理解していただけかと思います。

ではここで「日本」と言う市場を考えてみたいと思います。これは筆者の見解ですが、「喋り言葉を一字一句文字にする」と言う音声認識のニーズは日本独自なのではないかと考えています。それは日本語は複雑でキーボードでリアルタイムに打つことが不可能だからです(頑張ればできる、と言う議論はここでは論外で、サービスとしての提供のクオリティの話をしています)。海外での音声認識のニーズは検索をしたり、命令をしたり、対話をしたり、といったところ。これは長時間連続で文字化をするような技術の提供形態をとっていないことからも推測できます。長時間の利用を前提とすると例え時間制限なく使える技術があってもそれが従量課金だと使用する方も提供する方もなかなかビジネスにはしづらいといえます。なのでどこで「インターフェイス」を提供するか、ビジネスをするかで「技術」を選択することになります。

逆に考えるとUDトークと言うインターフェイスをユーザーに無料で提供をしようと考えた場合(聴覚障害者へのサポートでの使用を考えたときも)、ニーズやビジネスに合って選択した技術がAmiVoiceだった、とも言えます。

と、いろいろ難しい話もしてきましたが、ユーザーの人にとってみたら結局「良く認識する技術がいい」ってことだけだと思います(笑)

まず技術同士で比較というのは難しいのですが認識率と言うところで言うと正直「どっこいどっこい」です。認識率は数値的なものももちろんありますが、体感も含まれてきます。インターフェイスの違いでだいぶ体感が変わってくるのです。SiriやGoogle検索は短い言葉を発する前提で非常によくチューニングされていますし、結果をよりリクエストに適したものに変換したりしています。つまり「明日」と喋って「明日」と言う文字が取得できるのは音声認識ですが、明日の日付が取得できるのはインターフェイスということです。ユーザーはしばしばこれも「認識率がいい」と判断をします。

UDトークは長いスピーチなんかを文字化するためにチューニングされています。一番分かりやすいのは「句読点」の挿入なのではないかと。AmiVoiceは長文で句読点が入る音声認識技術です。あと他の音声認識技術やインターフェイスにはない「単語追加」などのカスタマイズも可能です。

みなさんが音声認識を使用するとき、それは「音声認識インターフェイス」であって、その裏にある「音声認識技術」まではほとんど意識することがないと思います。でもちょっとだけ仕組みを知っておくと使い方のアイデアも生まれたり、より活用できたりするんじゃないかと思います。

ここまで読んで頂いてありがとうございます。もう一回頭から読んでみましょう(笑)