カテゴリー別アーカイブ: ヒント

UDトークについての良くある質問や噂(?)をご紹介

UDトークについての良くある質問や噂(?)をちょっとご紹介したいと思います。

■Q.無料版と有料版で認識率が違うと聞いたのですが?。

A.いいえ、同じです。無料版も有料版も同じように最新のチューニングを施しております。法人向けプランの方が積極的に単語登録などをする仕様になってますのでその違いは出るのかもしれませんが、基本的な精度は同じです。

■Q.外部マイクや専用マイクを使うと認識率が上がると聞いたのですが?

A.いいえ、正しくは「上がることもあります」です。認識率は「口とマイクの距離」に比例します。例えばiPadで外部マイクを使うことで口とマイクの距離が近くなれば認識率は上がります。スマートフォンを口元で使うのが一番精度がいいです。外部マイクは例えば襟元につけてハンズフリーにしたいとかそう言った目的で使います。ただしその時は口からマイクが離れるので多少認識率が落ちることがあります。

■Q.喋った内容が漏洩していると聞きました。

A.いいえ、たしかに無料版は音声データをサーバーに保存して認識率向上のために再利用をしていますが、音声データは個人が特定できない状態で厳重に管理をし解析をしております。こちらとしてはみなさんに「データ収集に協力をしていただいている」と言う立場なので無料でアプリの提供が可能です。もし機密情報を扱ったり再利用自体が気になるかたは法人向けプランやコンパクトプラン等の有料利用で再利用をさせないようにすることも可能です。

■Q.頑張って喋ったら認識率が上がるんですか?よくそういう話を聞きます。

A.いいえ、リアルタイムに喋った内容は認識率の向上には影響をしません。体感的に上がると感じる方が多いのは喋り方とか使い方のコツを掴んできたからだと思います。スマートフォンをみんなで回して使うような環境があるのでUDトークは個人に対する学習は行わないようにしてます。ある一定期間無料版ユーザーさんたちの音声を蓄積してこちらで精査しそれを元に音声認識エンジンを不定期にチューニングしています。現在10万人を超えるユーザーさんからたくさんデータが集まっておりますのでチューニングをスムーズに行うことができます。

■Q.私の声が認識しないのですが

A.いろいろな要因が考えられますがまず音声認識は「文章の音声」を「文章の文字」に変換する技術です。したがって劇のセリフとか落語とか読み聞かせのような音声は認識しづらいです。子供の声やアニメの声やコンパニオンのような高い通った声なども認識しづらいケースがありますがこれは徐々に解消されてきたように思います。難聴者の方でだんだんと喋り方が曖昧になってきた方は難しいですし、加えて発音障害があるかたも難しいです。滑舌が悪かったり、変なところで区切ったりするような喋り方も音声認識には不向きです。一番適しているのはスピーチや講演、日常会話や新聞記事などの平坦な読み上げですのでまずはちゃんと認識するのと確認してみてからなぜ認識しないのかを判断してください。

■Q.小さな会社で作ってると聞いてサポートが心配。

A.UDトークのアプリの開発会社はShamrock Records株式会社と言うとても小さな会社ですが、それを支える基礎技術を提供してくださっているたくさんの会社と各地で販売を行っている会社と全体でサポートと販売を行っております。オンラインマニュアルもありますし、何より10万ダウンロード以上あるアプリなのでみなさん使い方は回りで共有したりしています。こちらとしては助かっております(笑)

【トピック】UDトークは誰のためのもの?

結論から言うと、UDトークは「話す方」「伝える方」が使うものです。なので情報を受け取る方(聴覚障害者など)はあくまで使われた結果を「見るだけ」になります。

いまだに多く人が勘違いされてるのはこのアプリは対象となる本人が持って使うものではなく、相手に使ってもらうことによって成り立つもの。つまり「自立」のためのものでなく「共助」のための手段なのです。逆に言うと話すほうがUDトークを使う気がなければまったく役に立ちません(まぁ、それでも多少分かる結果は出ると思いますが)。

例えばトークイベントでも聴覚障害者の方が手にUDトークを持って手元で音声認識を開始しても文字になるわけではありません。トークイベントの主催者がちゃんと導入をして正しい使い方をし話される方や出席者にこれが何をするための手段なのかをちゃんと理解した上で使用するものです。

じゃこれを使ってもらうために頭を下げてお願いをしなきゃいけないのか?と言うと答えは「はい」です。これを使ってもらう事によって自分がメリットを得ることができるのであればお願いすればいいと思います。合理的配慮の世の中、それを断る人もいないと思います。

そもそもの考え方を変えてみてはどうでしょうか。相手に対してのメリットを提示するのです。話す人がこれを使った場合たくさんメリットがあります。まず音声認識や翻訳の機能を使うことでそこに外国人や聴覚障害者の方たちがいても自分の話した内容を持ち帰ってもらうことができます。つまり「伝えること」ができます。

終わったあとにすぐに全文の記録が残ります。ちょっと直してすぐに公開することもできますし、動画のフル字幕を作成する手助けにもなります。

リアルタイム字幕は話している内容を補完します。手元で見ることで遡って確認したりすることができるので、全ての参加者にとって役に立つ情報補助となります。

これはよく言われることですが、

「話している内容が相手に伝わらないのは100%話し手の責任」

です。

話し手の立場からするとわざわざ足を運んでくださった方たちに自分の話をちゃんと持ち帰っていただくことへの努力は当たり前のことです。UDトークは話して側の補助ツールとして効果を発揮します。

このように話し手に対してのメリットも一緒に提示してあげることで「共に使う」と言う関係ができます。

もちろん人によってはこういうのがめんどくさいと感じる方もいらっしゃるでしょう。ですが、そのときに自分たちにとって何が一番大事なことなのか、と言う目的を大事にしていただければきっとうまく使えるのではないかと思います。

もちろんUDトークは万能ではないのでさっぱり使えないケースもあります(笑)。そういうときはまた別のことを考えていただければいいと思います。UDトークは問題解決のツールでもありますが、問題発見のツールでもありますので。

【トピック】音声認識、いろいろあるけど

iOSではSiriやキーボードに、Androidは検索したりと音声認識が身近になって、もうちょっとした検索や操作なら喋って済んでしまうことが多くなったのではないでしょうか(少なくとも開発者、かなりスマホの音声認識使ってます)。

よく聞かれるのがズバリ「UDトークってSiriとかと何が違うの?」と言うことです。ですがこの質問は少しばかりずれています。

まずこれを理解するには「音声認識」と呼んでいるものがなんなのか?を正しく把握する必要があります。

音声認識とひとことで言った場合に要素は「技術」と「インターフェイス」と2つに分けて考えなければいけません。

SiriやGoogle検索で説明をします。AppleもGoogleも独自に「音声認識技術」を持っています。そしてSiriやGoogle検索と言った「音声認識インターフェイス」でユーザーに提供されます。キーボードについているのも「音声認識インターフェイス」となります。みなさんが音声認識を使っているとよく言っているのは「技術をインターフェイスを通して」使っているということになります。

ではUDトークで同じ説明をすることにします。AmiVoice(アミボイス)と言う株式会社アドバンストメディアが開発している音声認識技術があります。それをUDトークと言うインターフェイス(アプリそのものがインターフェイス)を通して使用しています。UDトークはAmiVoiceと言う音声認識技術を採用しています。

では、技術の提供を受けて「インターフェイスを開発する立場」になって考えてみます。技術の提供元から「インターフェイスを開発してもいいよ」と言う条件や規約が提示されます。それぞれ分かりやすいところで列挙をしてみます。

■Apple
・開発キットを通して自由に使用
・無料(年間のアプリ開発ライセンスは必要)
・時間(連続1分)や回数制限あり
・音声データは提供

■Google
・専用インターフェイス(「お話ください」の)を通して無料で使用
・Speech APIで有料(従量課金)で使用
・専用インターフェイスは一言、Speech APIは連続可能
・音声データは提供

■AmiVoice
・開発ツールキットの販売提供(企業間のみ)
・ライセンス料+利用料
・時間制限なし
・単語登録や辞書のカスタマイズ可能

(これが全てではありませんのでご了承を)

AppleとGoogleの技術としての提供形態はよく似ています。両方とも開発者が無料で使用してインターフェイスを開発できるようになっています。ただし、これを使用して作った場合は喋った音声データはすべてAppleとGoogleに提供をすることになります(利用規約に明記されています)。

技術としてのAmiVoiceはAppleやGoogleとは大きく異なります。特徴はやはり日本でビジネスをしている企業の技術なので企業間でライセンス契約をし、開発会社が製品を開発します。カスタマイズも可能なのでその分野に合わせた使い方(専門用語とか)にも対応できます。

ではこの技術を使ってインターフェイスを提供する立場になってみます。どの音声認識技術を使用しても無料有料にかかわらず、インターフェイス、つまりアプリやソフトウェアは「価格をつけて販売」することになります。これで言うとiOSやAndroidはOSや端末を使っている分にはそれ自体のインターフェイスを使って無料で提供されています。UDトークも無料アプリとして提供をしています。しかし厳密には無料ではなく、インターフェイスを使用したユーザーの音声を対価としていただいているので無料提供をしているということです。UDトークは法人向けには音声データを収集していないので、その分有料で提供をしております。

ここまでで「技術」と「インターフェイス」、そしてそれを「開発」して「提供」するところまでなんとなく理解していただけかと思います。

ではここで「日本」と言う市場を考えてみたいと思います。これは筆者の見解ですが、「喋り言葉を一字一句文字にする」と言う音声認識のニーズは日本独自なのではないかと考えています。それは日本語は複雑でキーボードでリアルタイムに打つことが不可能だからです(頑張ればできる、と言う議論はここでは論外で、サービスとしての提供のクオリティの話をしています)。海外での音声認識のニーズは検索をしたり、命令をしたり、対話をしたり、といったところ。これは長時間連続で文字化をするような技術の提供形態をとっていないことからも推測できます。長時間の利用を前提とすると例え時間制限なく使える技術があってもそれが従量課金だと使用する方も提供する方もなかなかビジネスにはしづらいといえます。なのでどこで「インターフェイス」を提供するか、ビジネスをするかで「技術」を選択することになります。

逆に考えるとUDトークと言うインターフェイスをユーザーに無料で提供をしようと考えた場合(聴覚障害者へのサポートでの使用を考えたときも)、ニーズやビジネスに合って選択した技術がAmiVoiceだった、とも言えます。

と、いろいろ難しい話もしてきましたが、ユーザーの人にとってみたら結局「良く認識する技術がいい」ってことだけだと思います(笑)

まず技術同士で比較というのは難しいのですが認識率と言うところで言うと正直「どっこいどっこい」です。認識率は数値的なものももちろんありますが、体感も含まれてきます。インターフェイスの違いでだいぶ体感が変わってくるのです。SiriやGoogle検索は短い言葉を発する前提で非常によくチューニングされていますし、結果をよりリクエストに適したものに変換したりしています。つまり「明日」と喋って「明日」と言う文字が取得できるのは音声認識ですが、明日の日付が取得できるのはインターフェイスということです。ユーザーはしばしばこれも「認識率がいい」と判断をします。

UDトークは長いスピーチなんかを文字化するためにチューニングされています。一番分かりやすいのは「句読点」の挿入なのではないかと。AmiVoiceは長文で句読点が入る音声認識技術です。あと他の音声認識技術やインターフェイスにはない「単語追加」などのカスタマイズも可能です。

みなさんが音声認識を使用するとき、それは「音声認識インターフェイス」であって、その裏にある「音声認識技術」まではほとんど意識することがないと思います。でもちょっとだけ仕組みを知っておくと使い方のアイデアも生まれたり、より活用できたりするんじゃないかと思います。

ここまで読んで頂いてありがとうございます。もう一回頭から読んでみましょう(笑)

【トピック】音声認識で支援をすると言うこと

ここを見てらっしゃる方は聴覚障害者の情報支援・サポートとしてUDトークに注目しすでに活用をされている方も多いと思います。

また音声認識を実装したそういうツールも出てきましたので、ここで一つみなさんにちゃんと考えていただきたいことがあります。

無料版で支援をされる方たちへ
http://udtalk.jp/notice/

まずは上記のリンク先を読んでいただけたらと思います。「そういえばそうだ…」と思われる方も多いのではないでしょうか。

利用規約にも書かれてるようにUDトークの無料版は音声認識時のデータをサーバーに蓄積し精度向上のために再利用をしています。もちろんセキュリティは万全で、個人が特定できない状態で管理保存されています。これはGoogleやAppleも同じで同じように利用規約に書いてあります。

ここで「利用規約」ですが、これに同意しているのはあくまで使う人です。なので「支援をする側の人」がいくら同意をしても、「支援をされる側の人」も利用規約に同意をしている必要があります。少なくとも音声データの収集の部分だけは同意をとるべきでしょう。

みなさんに勘違いをしてほしくないのは、サーバーにデータが蓄積され再利用されることは悪いことや怖いことではないということです。実際みなさんがやっているLINEやFacebookだって無料で提供される代わりにいろんなデータが学習素材として再利用されています。もちろんプライバシーはちゃんと保護された状態で。

ただ機密保持や守秘義務の観点で考えると「当事者が知らない間に個人情報が再利用に回されてた」と言うのはトラブルを招く可能性があることだとすぐにわかると思います。そのため、これからはクラウドやIT機器を利用して支援を受ける時、支援をする時はちゃんと双方でデータの行き所を把握しておく必要があります。

UDトークは法人向けプランではサーバーに音声データを保存しない、再利用しないモードで動作します。なので法人向けプランを使っている時は特に同意を取らなくとも、聞かれたときも「法人向けプランを使っています」と応えていただければUDトークがそれを保証します。法人向けプランは「プレミアムプラン」「スタンダードプラン」「教育機関向けプラン」「支援団体向けプラン」とアドオンで買える「コンパクトプラン」になります。

UDトークは無料のアプリでも十分支援ができますし、「連続発話の時間制限を解除(240円/月)」を購入すると講演等でも使用することができます。もちろん無償で業務ではない範囲です、がそういうところは何が行われているのがが非常にグレーな状態でシステムが運用されています。

今回、このことについて記載したページには「同意書」のテンプレートをご用意しました。こうしたことを気にして行くことが大事ですし、提供側としてはすべてクリアにして安心して活用していただくことが責務であると考えております。

なんか難しい話になってきた、とお思いかもしれませんが、至ってシンプルです(笑)。運用パターンとしては、

・無料版のアプリで支援→支援を受ける方に対し「同意を得る」
・法人向けプランで支援→法人向けプランの使用を明確に伝える

この2つしかありません。このケースでの法人向けプランは「支援団体向けプラン(4,800円/月)」「コンパクトプラン(9,800円/月)」となります。もしこれが過度の負担になるようなケースになってくると、UDトークでの支援ができなくなってきてしまいます。

ですので、支援を受ける方たちも積極的に同意をして無料版で支援を受けていただきたく思います。そうするとこちらで音声が大量に集まり、認識率の向上につながります。

正しい理解とともに安心してUDトークをぜひお使いください。

【トピック】専門用語や固有名詞はどこまで認識するの?

音声認識を使っていて気になるところだと思います。まず結論から言うと「音声認識辞書に入っていない単語は認識しません」です。

頑張って喋っても「ない」ものは「でない」のです(笑)

ここが音声認識が人工知能と勘違いされているところなのですが、単語は自動的に増えていくわけではありません。基本的なものはサーバー側で随時増えております。もしかしたら近い将来この部分が人工知能化されるかもしれませんが、現在は「人の手で精査して」行っております。

辞書にない単語はどうしたらいいか?サーバー側で追加されるのを待つのも気が長い話しだし、自分たちだけの造語などいつまでたっても追加されません。

簡単な話で「登録」をすればよいのです。

現在、UDトークには2つの単語登録方法が用意されています。

1.アプリ内で単語登録
https://teachme.jp/contents/870775

ここに登録することで「その端末でのみ」単語登録が有効になります。まず自分の名前とか登録すると良いと思います。名前は一番身近で気が付きにくい固有名詞です。

2.サーバーに単語登録
https://teachme.jp/contents/774039

法人向けプランのみの機能ですが、同一アカウントで動作している端末全てで有効にすることができます。CSVによる一括登録や保存もできるので管理が楽になります。

アプリ内で有効な単語登録は「アプリ内+サーバーへ」の合わせたものとなります。

単語登録をするとまず間違いなく単語は出るようになります。ただし1文字とか逆に長過ぎるものとかだと音声認識のバランスが崩れ誤認識になるケースがあります。

単語登録の方針としては「必要最小限」です。実際に使ってみて出なかった単語を登録していくと言う運用がおすすめです。

ぜひやってみてください。

【トピック】音声認識でいわゆる文字や文章作成に関わる仕事はどうなるのか?

音声認識でいわゆる文字や文章作成に関わる仕事はどうなるのか?よくいろんなところで議論される内容だと思います。

結論から言うと間違いなく仕事は「増えます」です。これは明らかです。どのカテゴリでもそうですが、機械化が進むと「人間にしかできない仕事」と言うのを担当することになります。

なので仕事の内容は変わってきます。音声から文字にする部分、ここは音声認識の仕事になるでしょう。音声認識でやるようになるとそれ前提で音を収録するようになるので認識率は高くなります。むしろ人が手で打った方が間違いが多くなります。(もう現在でも音声認識の方が正しいときが多いですが)

じゃ「人間にしかできない仕事」とはなにか?と言うと、その結果が「正しいかどうか」を精査する仕事になります。「適切かどうか」の判断も人間の仕事になります。音声認識や翻訳で自動化され始めるとデータの量が膨大になり、より人間がやるべき仕事が増えます。「要約」をする仕事もここに含まれてきます。もちろん将来的は要約も自動化されますが、された結果がいいかどうかを判断できるのは人間の仕事ということになります。なのでどれだけ技術が進歩しても人間の仕事は「人間にしかできない仕事」と言うような形を変えて残り続け、データ量が増えるにつれて仕事も増えていきます。

面白いことに自動化が進んでくると、人間の手を使う仕事は非常に「贅沢である」と言うことになってきます。例えば音声認識を使わないで全部人力でタイピングしてやることはお金をかけた贅沢な運用となります。「あそこは全部人手でやっててなんて贅沢なのかしら」なんて(笑)。例えば手書きで紙に起こすってなるとほんとに贅沢なことになります。パソコンのデータなのであればそれを手で打とうが音声認識でやろうが同じになり、人間の手でやったのと自動でやったの比べると10倍以上コストが違うでしょう。その後に人が見て直すと言う仕事が入るなら同じことなので安い方を選択する人が増えてくると言うことになります。

そうすると「コストが下がって仕事にならなくなる」と言う人もいますが、上がってくるデータ量が膨大になるので仕事は溢れかえります。「文字を起こす仕事」は確実になくなりますが、「間違いを訂正して適切にする仕事」はビジネスとして成り立つほどになるでしょう。

去年から音声認識が実用化され、UDトークもビジネスシーンで一気に普及しました。そして今年がまさに転換期で、文字に関わる仕事に携わっている人たちは色々な選択を迫られると思います。それにワクワクする人もいれば恐れる人もいるでしょう。でもこれはむしろ人間にしかできないことに価値を見出せるいいチャンスでもあると言うことなのです。

【トピック】認識精度が100%になればいいのか?

やはり皆さん気になるところは認識精度だと思います。結論から言うと今の音声認識技術を取り巻く状況では認識精度と言う数値はそれほど意味をなさなくなっています。なぜならば「ちゃんと喋ればちゃんと出る」と言うところが担保され始めたからです。以前はそうじゃなかったのでパーセンテージで表現をしていた時代もありました。

なので今は「なぜ下がるのか?」と言うところを考えるようになりました。そしてまたその下がった要因をカバーして「上げる工夫」のは別の手法になります。

例えば下がる原因としては「口とマイクの距離」があります。ではその原因をカバーして上げるには集音性能だったりとか離れた距離感でのデータの収集とかそういったことになります。騒音や方言やフランクな話し言葉など、「下がる要因」はたくさんあります。

つまり

「ちゃんと喋ればちゃんと認識する – 下がる要因 + 上げる工夫 = 認識結果」

と言うなんちゃって方程式が出来上がります。ここで下がる要因と上げる仕組みが相殺されればちゃんと喋った認識結果と等しくなります。なのでもしいまうまく認識されないなーと思っている方は「下がる要因」を考えて「上げる工夫」をしてみてください。それで

「ちゃんと喋ればちゃんと認識する = 認識結果」

というのに近づけることが必要です。

これを踏まえて本題の「認識精度が100%になればいいのか?」ですが、音声認識の結果は「喋ったことをそのまま」出します。なのでその内容が「わかりやすいかどうか」に関しては音声認識とは関係がないことなのです。つまり下がる要因を上がる工夫でカバーして認識エンジンのスペックを100%引き出したとしても、認識させるもとの話し手に依存すると言うことです。

「分かりやすく話す→音声認識の結果が良いし見て分かる
音声認識の結果が良くても→分かりやすいとは限らない」

分かりやすく話すと聞いている人も理解がしやすいです。そう考えると話し手は特に音声認識のために特別することは必要なく「話を伝えるために」することのすべてが「下がる要因」カバーできる「上げる工夫」にもつながるということです。

音声認識は単純な技術であり手段です。そこがなにか配慮するわけではなく行き着く先は「そのまま出す」です。もちろん技術的には精度向上は最優先事項ですが、運用で考えるとそれほど大きな要因ではなくなってきています。

技術を理解して正しい運用をすることも大事です。ご活用ください。

ちなみに、

「分かりやすく話す→多少間違っていても分かる」

と言う結果も体感では出ています。つまりちゃんと文脈に沿っていると間違ったところも補完しやすいんでしょうね。

【トピック】音声認識は音声を認識しているわけではない?!

UDトークを使う時にちょっと音声認識の仕組みを知っておくとより活用ができます。

音声認識は音声認識は音声を認識しているわけではない、と言うタイトルですが、英語だと「Speech Recognition」といいます。「音」が入っていないですよね。
みなさんがよく勘違いするのは、UDトークの音声認識は「音声を認識して文字化」してるのではなく「話し言葉の音声を認識して文章化」しています。つまり「ガチャン」って物音が「ガチャン」と出るわけではなく、入ってきた音声に対して一番スコアが高い文章をを出します、なので音と結果が「違う」のは仕組みとして当然なのです。

例えば

こうえん

皆さんは何を思い浮かべましたか?いろいろありますよね。では

こうえんに遊びにいく
こうえんを聞きに行く
こうえんを見に行く

となるとそれぞれ「公園」「講演」「公演」と音だけでも特定できます。それは一番思い当たる文章であって次点には違う漢字が思い浮かんだと思います。これを実際にUDトークでやってみると、

公園に遊びにいく
講演を聞きに行く
公演を見に行く

となります。面白いのでやってみてください。

「前後の単語で判断しながら一番スコアが高い文章を出す」

これがUDトークの音声認識の仕組みとなります(※もちろん技術としては「音」の種類を認識したりするものの存在します)。よく「漢字かな変換までしてすごい」と言われますが、はじめから漢字かな混じりで出てくるのです。繰り返しますが「一番スコアが高い文章を出しているだけ」なので、賢いと言う表現は微妙に間違っっています。

さて、これを踏まえると認識率を上げるためにはどうしたらいいでしょう?簡単ですね、

・一番スコアが高いと思われる文章の音声を入力してあげる
・認識させたい文章の音声だけを入れてあげる
・あまりダラダラと話さずちょっと書き言葉を意識する
・句読点を意識して話す
・挙手して話し、話すときはマイクを口に近づける
・手元で認識開始と停止を操作する
・話してるときは他の人は話に割り込まない

さて、これって音声認識をするために気をつけることでしょうか?違いますよね、相手にちゃんとわかりやすく伝えたり話した内容を記録に残したりといったことがしやすくなるためにすることです。なのでちゃんと気をつけて会話や会議をすると必然的に認識結果がよくなります。

ほんのちょっとの知識と工夫で格段に使い勝手が向上します。ぜひみなさんも試してみてください。

【トピック】喋った音声はどうなるの?

よくある質問に「喋った音声はどうなるの?」というのがあります。

UDトークの無料版をお使いの場合は音声認識率向上のために「音声データの収集と再利用」に協力をしていただいております。たくさんの方に使っていただくことにより固有名詞や方言を含んだ非常にバリエーションに富んだ音声が集まっています。それらを解析することで音声認識率も徐々に向上をしてきております。

音声の収集について、これは利用規約の第4条の4に明記してあります。

ーーーー
第4条(サービスの内容・利用条件)

4.本アプリに入力されるお客様の音声については、音声認識精度向上のために収集、分析、再利用します。この際、音声は、その内容を一般に公開することはなく、厳重に管理し、音声認識精度向上のための統計量を抽出することのみに利用します。また、個人が特定できる形態での使用は一切いたしません。※なお、UDトーク®法人向けプランでは、音声の収集、分析、再利用はしていません。
ーーーー

「情報漏えい」と勘違いされますがこれは大切なデータです。個人が特定できない状態で厳重に保管され解析し再利用されます。

ですので無料のアプリを業務でお使いの場合でも規約に同意したとみなし、すべてこちらで収集し再利用をしております。とは言え今はこうした他のクラウドのサービスは無料であるかわりに使用時のデータは収集しております。こちらとしては業務上の会議でのやりとりや機密に関わるなかなか手に入らない貴重なデータが手に入るのでいいと言えばいいのですが…、それを報告しないで使用するとおそらく問題が起きると思われます。

そのために「法人向けプラン」があり、ご契約いただくと使用時の音声データは収集をしません。

音声データの収集で問題になるのは機密情報だけではなく、相手がいて対応をする場合も想定されます。例えば受付の窓口での使用などでしょう。相手に対して無料のアプリを使った時、相手は音声の収集に同意はしていないことになります。ですので、そうしたトラブルを未然に防ぐために利用規約では業務での利用を禁止しております。

ーーーーー
第5条(禁止事項)

④ 本アプリを用いて法人格を有する事業者が収益を得る事業を行うこと
ーーーーー

これは利用規約ですし、UDトークはほとんど機能制限がないアプリなので使えてしまいます。ですので、それぞれの良識やモラルに任せることになります。こちらから取り締まるようなことはしませんが、無料版を日常の用途で使っている人たちが「サーバーが混みあう」というケースが増えてしまい本当に使いたい人たちが使えなくなるケースが出てしまいます。

ですので2点

ーーーーー
・現在無料版を業務で使われてる方は、本当にそこで使ってもいい内容なのか?

・受付や公的な窓口で自分が使われた場合、それは相手がちゃんと法人向けプランを契約しているのか?
ーーーーー

ご自身や相手にご確認ください。その時は特にこちらに報告はしなくてもいいですが、規約違反である旨を指摘をしてあげてください。

自身の生活を向上させたり、ご家族や友人間や市民団体の活動など、そういったシーンではいくらでもお使いいただけるアプリです。また開発と無料提供を継続していくためには法人利用の収益が元になっております。

利用規約はホームページか、アプリ内の「設定>利用規約一般」で見ることができます。
http://udtalk.jp/license/

よろしければシェアをしていただけると、幸いです。

IMG_1310 IMG_1311

【トピック】音声認識の仕組み

どうやってやってるの?賢いね?ぜんぜんダメじゃない!といろんなリアクションをいただく音声認識技術。その仕組みをざっくり簡単に説明したいと思います。

「音声を認識しているわけではありません」

え?!と思われるかもしれませんが、音声認識は英語だとAutomatic Speech Recognition、音声ではなくスピーチです。なので「会話認識」とか「文章認識」とかの方が技術的な意味合いとしては正しいと思います。

音を認識しているわけではないので聞こえてるものを文字化しているのではないのです。だから「歌詞が出てくるといい」とか「英語でも近い発音かひらがなで」とか「車の音とか環境音とかを」と言うのも技術的には「違うこと」になります。

「かしこい」と言う表現も違ってて、音声認識は考えていません。単に「辞書の検索」なので認識率の向上は「辞書の強化」と「検索スピード」の掛け算です。

音が入力されるとそれを言語の「音素」に変換して「辞書を検索」し一番近い「文章」を出力します。音素に変換をしてるので音声認識エンジンは言語や地域(英語だと北米、イギリス、オーストラリアなど)によって辞書が分けられます。

文章を検索しているのの分かりやすい例が「こうえん」と発話したとき、これだけでは「公園」か「講演」か「公演」かが分かりません。単語でだとそのとき辞書がもってる一番頻度が高いものを出してきます。これが

公園へ遊びに行く
講演を聞きに行く
公演を見に行く

とここまで話すとどの「こうえん」なのかが確定されます。キーボードで打って漢字に変換をしてるわけではなく初めから漢字になのです。

技術的なことを少しわかっていると「これは音声認識でできる」とか「これはちょっと無理だな」とかがわかるようになってきます。

ただこれは現時点での技術でありもしかしたら将来的に言語や地域を自動判別したり、ほんとに「音」と認識したりできるようになるのかもしれません。そこは世の中の基礎研究をしている機関や音声認識技術の提供元であるAmiVoiceの株式会社アドバンストメディアの仕事となります。UDトークはいち早く最新の技術は取り入れていく方針です。

「話し言葉を認識する」と言うことを念頭に置いて音声認識技術の使いどころを考えてみてください。そしていろんな場所でやってみて楽しんでみてください。

p.s
これは簡単な説明で概念的なものなので、専門的なツッコミはご遠慮ください。