カテゴリー別アーカイブ: ヒント

【トピック】喋った音声はどうなるの?

よくある質問に「喋った音声はどうなるの?」というのがあります。

UDトークの無料版をお使いの場合は音声認識率向上のために「音声データの収集と再利用」に協力をしていただいております。たくさんの方に使っていただくことにより固有名詞や方言を含んだ非常にバリエーションに富んだ音声が集まっています。それらを解析することで音声認識率も徐々に向上をしてきております。

音声の収集について、これは利用規約の第4条の4に明記してあります。

ーーーー
第4条(サービスの内容・利用条件)

4.本アプリに入力されるお客様の音声については、音声認識精度向上のために収集、分析、再利用します。この際、音声は、その内容を一般に公開することはなく、厳重に管理し、音声認識精度向上のための統計量を抽出することのみに利用します。また、個人が特定できる形態での使用は一切いたしません。※なお、UDトーク®法人向けプランでは、音声の収集、分析、再利用はしていません。
ーーーー

「情報漏えい」と勘違いされますがこれは大切なデータです。個人が特定できない状態で厳重に保管され解析し再利用されます。

ですので無料のアプリを業務でお使いの場合でも規約に同意したとみなし、すべてこちらで収集し再利用をしております。とは言え今はこうした他のクラウドのサービスは無料であるかわりに使用時のデータは収集しております。こちらとしては業務上の会議でのやりとりや機密に関わるなかなか手に入らない貴重なデータが手に入るのでいいと言えばいいのですが…、それを報告しないで使用するとおそらく問題が起きると思われます。

そのために「法人向けプラン」があり、ご契約いただくと使用時の音声データは収集をしません。

音声データの収集で問題になるのは機密情報だけではなく、相手がいて対応をする場合も想定されます。例えば受付の窓口での使用などでしょう。相手に対して無料のアプリを使った時、相手は音声の収集に同意はしていないことになります。ですので、そうしたトラブルを未然に防ぐために利用規約では業務での利用を禁止しております。

ーーーーー
第5条(禁止事項)

④ 本アプリを用いて法人格を有する事業者が収益を得る事業を行うこと
ーーーーー

これは利用規約ですし、UDトークはほとんど機能制限がないアプリなので使えてしまいます。ですので、それぞれの良識やモラルに任せることになります。こちらから取り締まるようなことはしませんが、無料版を日常の用途で使っている人たちが「サーバーが混みあう」というケースが増えてしまい本当に使いたい人たちが使えなくなるケースが出てしまいます。

ですので2点

ーーーーー
・現在無料版を業務で使われてる方は、本当にそこで使ってもいい内容なのか?

・受付や公的な窓口で自分が使われた場合、それは相手がちゃんと法人向けプランを契約しているのか?
ーーーーー

ご自身や相手にご確認ください。その時は特にこちらに報告はしなくてもいいですが、規約違反である旨を指摘をしてあげてください。

自身の生活を向上させたり、ご家族や友人間や市民団体の活動など、そういったシーンではいくらでもお使いいただけるアプリです。また開発と無料提供を継続していくためには法人利用の収益が元になっております。

利用規約はホームページか、アプリ内の「設定>利用規約一般」で見ることができます。
http://udtalk.jp/license/

よろしければシェアをしていただけると、幸いです。

IMG_1310 IMG_1311

【トピック】音声認識の仕組み

どうやってやってるの?賢いね?ぜんぜんダメじゃない!といろんなリアクションをいただく音声認識技術。その仕組みをざっくり簡単に説明したいと思います。

「音声を認識しているわけではありません」

え?!と思われるかもしれませんが、音声認識は英語だとAutomatic Speech Recognition、音声ではなくスピーチです。なので「会話認識」とか「文章認識」とかの方が技術的な意味合いとしては正しいと思います。

音を認識しているわけではないので聞こえてるものを文字化しているのではないのです。だから「歌詞が出てくるといい」とか「英語でも近い発音かひらがなで」とか「車の音とか環境音とかを」と言うのも技術的には「違うこと」になります。

「かしこい」と言う表現も違ってて、音声認識は考えていません。単に「辞書の検索」なので認識率の向上は「辞書の強化」と「検索スピード」の掛け算です。

音が入力されるとそれを言語の「音素」に変換して「辞書を検索」し一番近い「文章」を出力します。音素に変換をしてるので音声認識エンジンは言語や地域(英語だと北米、イギリス、オーストラリアなど)によって辞書が分けられます。

文章を検索しているのの分かりやすい例が「こうえん」と発話したとき、これだけでは「公園」か「講演」か「公演」かが分かりません。単語でだとそのとき辞書がもってる一番頻度が高いものを出してきます。これが

公園へ遊びに行く
講演を聞きに行く
公演を見に行く

とここまで話すとどの「こうえん」なのかが確定されます。キーボードで打って漢字に変換をしてるわけではなく初めから漢字になのです。

技術的なことを少しわかっていると「これは音声認識でできる」とか「これはちょっと無理だな」とかがわかるようになってきます。

ただこれは現時点での技術でありもしかしたら将来的に言語や地域を自動判別したり、ほんとに「音」と認識したりできるようになるのかもしれません。そこは世の中の基礎研究をしている機関や音声認識技術の提供元であるAmiVoiceの株式会社アドバンストメディアの仕事となります。UDトークはいち早く最新の技術は取り入れていく方針です。

「話し言葉を認識する」と言うことを念頭に置いて音声認識技術の使いどころを考えてみてください。そしていろんな場所でやってみて楽しんでみてください。

p.s
これは簡単な説明で概念的なものなので、専門的なツッコミはご遠慮ください。