shamrock1976 のすべての投稿

【トピック】音声認識、いろいろあるけど

iOSではSiriやキーボードに、Androidは検索したりと音声認識が身近になって、もうちょっとした検索や操作なら喋って済んでしまうことが多くなったのではないでしょうか(少なくとも開発者、かなりスマホの音声認識使ってます)。

よく聞かれるのがズバリ「UDトークってSiriとかと何が違うの?」と言うことです。ですがこの質問は少しばかりずれています。

まずこれを理解するには「音声認識」と呼んでいるものがなんなのか?を正しく把握する必要があります。

音声認識とひとことで言った場合に要素は「技術」と「インターフェイス」と2つに分けて考えなければいけません。

SiriやGoogle検索で説明をします。AppleもGoogleも独自に「音声認識技術」を持っています。そしてSiriやGoogle検索と言った「音声認識インターフェイス」でユーザーに提供されます。キーボードについているのも「音声認識インターフェイス」となります。みなさんが音声認識を使っているとよく言っているのは「技術をインターフェイスを通して」使っているということになります。

ではUDトークで同じ説明をすることにします。AmiVoice(アミボイス)と言う株式会社アドバンストメディアが開発している音声認識技術があります。それをUDトークと言うインターフェイス(アプリそのものがインターフェイス)を通して使用しています。UDトークはAmiVoiceと言う音声認識技術を採用しています。

では、技術の提供を受けて「インターフェイスを開発する立場」になって考えてみます。技術の提供元から「インターフェイスを開発してもいいよ」と言う条件や規約が提示されます。それぞれ分かりやすいところで列挙をしてみます。

■Apple
・開発キットを通して自由に使用
・無料(年間のアプリ開発ライセンスは必要)
・時間(連続1分)や回数制限あり
・音声データは提供

■Google
・専用インターフェイス(「お話ください」の)を通して無料で使用
・Speech APIで有料(従量課金)で使用
・専用インターフェイスは一言、Speech APIは連続可能
・音声データは提供

■AmiVoice
・開発ツールキットの販売提供(企業間のみ)
・ライセンス料+利用料
・時間制限なし
・単語登録や辞書のカスタマイズ可能

(これが全てではありませんのでご了承を)

AppleとGoogleの技術としての提供形態はよく似ています。両方とも開発者が無料で使用してインターフェイスを開発できるようになっています。ただし、これを使用して作った場合は喋った音声データはすべてAppleとGoogleに提供をすることになります(利用規約に明記されています)。

技術としてのAmiVoiceはAppleやGoogleとは大きく異なります。特徴はやはり日本でビジネスをしている企業の技術なので企業間でライセンス契約をし、開発会社が製品を開発します。カスタマイズも可能なのでその分野に合わせた使い方(専門用語とか)にも対応できます。

ではこの技術を使ってインターフェイスを提供する立場になってみます。どの音声認識技術を使用しても無料有料にかかわらず、インターフェイス、つまりアプリやソフトウェアは「価格をつけて販売」することになります。これで言うとiOSやAndroidはOSや端末を使っている分にはそれ自体のインターフェイスを使って無料で提供されています。UDトークも無料アプリとして提供をしています。しかし厳密には無料ではなく、インターフェイスを使用したユーザーの音声を対価としていただいているので無料提供をしているということです。UDトークは法人向けには音声データを収集していないので、その分有料で提供をしております。

ここまでで「技術」と「インターフェイス」、そしてそれを「開発」して「提供」するところまでなんとなく理解していただけかと思います。

ではここで「日本」と言う市場を考えてみたいと思います。これは筆者の見解ですが、「喋り言葉を一字一句文字にする」と言う音声認識のニーズは日本独自なのではないかと考えています。それは日本語は複雑でキーボードでリアルタイムに打つことが不可能だからです(頑張ればできる、と言う議論はここでは論外で、サービスとしての提供のクオリティの話をしています)。海外での音声認識のニーズは検索をしたり、命令をしたり、対話をしたり、といったところ。これは長時間連続で文字化をするような技術の提供形態をとっていないことからも推測できます。長時間の利用を前提とすると例え時間制限なく使える技術があってもそれが従量課金だと使用する方も提供する方もなかなかビジネスにはしづらいといえます。なのでどこで「インターフェイス」を提供するか、ビジネスをするかで「技術」を選択することになります。

逆に考えるとUDトークと言うインターフェイスをユーザーに無料で提供をしようと考えた場合(聴覚障害者へのサポートでの使用を考えたときも)、ニーズやビジネスに合って選択した技術がAmiVoiceだった、とも言えます。

と、いろいろ難しい話もしてきましたが、ユーザーの人にとってみたら結局「良く認識する技術がいい」ってことだけだと思います(笑)

まず技術同士で比較というのは難しいのですが認識率と言うところで言うと正直「どっこいどっこい」です。認識率は数値的なものももちろんありますが、体感も含まれてきます。インターフェイスの違いでだいぶ体感が変わってくるのです。SiriやGoogle検索は短い言葉を発する前提で非常によくチューニングされていますし、結果をよりリクエストに適したものに変換したりしています。つまり「明日」と喋って「明日」と言う文字が取得できるのは音声認識ですが、明日の日付が取得できるのはインターフェイスということです。ユーザーはしばしばこれも「認識率がいい」と判断をします。

UDトークは長いスピーチなんかを文字化するためにチューニングされています。一番分かりやすいのは「句読点」の挿入なのではないかと。AmiVoiceは長文で句読点が入る音声認識技術です。あと他の音声認識技術やインターフェイスにはない「単語追加」などのカスタマイズも可能です。

みなさんが音声認識を使用するとき、それは「音声認識インターフェイス」であって、その裏にある「音声認識技術」まではほとんど意識することがないと思います。でもちょっとだけ仕組みを知っておくと使い方のアイデアも生まれたり、より活用できたりするんじゃないかと思います。

ここまで読んで頂いてありがとうございます。もう一回頭から読んでみましょう(笑)

【重要】UDトークの「UDトーク®利用規約(一般)」を一部変更しました

UDトークの「UDトーク®利用規約(一般)」を一部変更しました。

第五条の4項を

④ 法人格を有する事業者がその業務のために本アプリを利用すること(ただし、事業内容・規模・形態、従業員数等から、当社が利用を認める場合を除く)

と変更いたしました。

いままでどおり無料のアプリの業務利用は「原則禁止」のまま、例外的に認める場合は業務での利用も可能にするものです。
ここで「当社が利用を認める場合」のいち例としては「自営業者・個人経営の商店」などとなります(接客で利用する場合には音声の収集については承諾を得てからご利用ください)。

改めて確認ですが「自治体」「公共機関」が窓口で住民への対応としての利用するときはすべて業務利用となります。ですが、住民の方が自分でUDトークを持ってって窓口で使ってもらう(筆談器のように)のは問題ありません。

また「教育機関」で学校側が学生支援や業務で使用することももちろん業務利用となります。ですが、学生さんが自分たちでサークル活動とかで使用するのは問題ありません。

通常「一般企業」で利用する場合は殆どのケースが業務利用となります。

利用規約についてはこちらから取り締まるわけではなく、報告があったときに都度判断させていただくことになります。
もし「こういう使い方は大丈夫だろうか?」と懸念される場合はお問い合わせください。

一般の無料アプリをお使いの方にとってはいままでちょっと利用がグレーゾーンだったところが明確なったので利用できる範囲がすっきりしたかと思います。引き続きご利用ください。

UDトーク®利用規約(一般)

【法人向けプラン導入報告】きゅりあん(品川文化振興事業団様)

【法人向けプラン導入報告】きゅりあん(品川文化振興事業団様)

このたび、品川区の施設「きゅりあん」にUDトークを導入いたしました。
施設をご利用の団体様は、UDトークを無料でご利用いただけます。
諸室に整備されているFree WiFiを使用し、多言語音声認識と発話の文字化、またそれらのプロジェクタ出力が可能です。

いまUDトークのサービスは始まったばかりです。
きゅりあんご利用の際はぜひご活用ください。

・受付でiPadやiRig2などの必要機材は、レンタルできます。
・詳しい使い方は、受付にて貸出しますマニュアルを読みながらご利用ください。
・諸室の音響設備に音声出力ケーブルがついていますので、ご自身の端末や機材を持ち込んで使用することも可能です。
・一部導入した設備をご利用できないお部屋がございますので、利用申請時にご確認下さい。

ご不明な点は、きゅりあん受付までお気軽にお問い合わせください。
電話:03-5479-4100
FAX:03-5479-4110
所在地:東京都品川区東大井5-18-1
開館時間:午前9時~午後9時30分

きゅりあん

【運用レポート】長野大学にてUDトークの講習会

5月27日土曜日、長野大学にてUDトークの講習会を行いました。

長野大学では、ゼミや授業でUDトークを活用いただいております。

講師が教室に行くと、音響設備にはすでにUDトークがセッティングがしてありました。ろう学校から聴覚障がいのある職員の参加もあったので情報保障をUDトークで行いながら進めました。

学生には、実際にQRコードで連携し編集作業に挑戦していただきましたが、すぐに慣れた様子でした。上級者の中には、静岡福祉大学のノートテイクアプリ「まあちゃん」と連携して使ってる学生もいます。

終了後は、文字起こしや、授業で使う映像教材への字幕作成について質問を受けました。

支援する学生の負担も軽くなると思いますので、今後も様々な場面でUDトークを活用していただきたいと思います。

ジョーク機能「大阪弁で表示する」をリリースしました

iOS版 ver.5.6.6、Android版 ver.3.6.6でジョーク機能「大阪弁で表示する」をリリースしました。出てきた音声認識結果がとことん大阪弁になります(笑)。実用性は…、皆さんしだい(笑)

標準語で喋ると大阪弁で表示されます。あ、大阪弁の音声認識ができるようになったわけではないのでご注意を。

聞こえないかたが使うと、標準をを喋る人が一人もいなくなったような感覚になります。設定のしっぱなしにご注意を。

英語から日本語への翻訳でも大阪弁になります。外国人が全員大阪弁で喋ってます。

どんな真面目な会議もこの機能を使うと笑いを堪えるのに必至です。
ついつい喋って使ってみたくなる、そんな機能ですので、ぜひ遊んでみてください。

今回この機能を実装するにあたり、大阪にある「天神橋ホームページ製作所」さんにご協力をいただきました。元となった機能のウェブサイト版はこちらになります。「関西弁変換にする予定だったのですが、よりベタな表現に変換をするので大阪弁変換としています。」と言うネイティブならではのこだわりが秀逸ですw

【トピック】プラン比較、どこが違うの?

先日リリースした「連続発話の時間制限の解除」アドオン。さっそくたくさんの方にご購入いただいておりますが、結局のところ「法人向けプランやコンパクトプランと何が違うの?」と言うのをちらほら聞きます。

なのでここで改めて機能差を一覧にしてみました。

まず無料版と法人向けプランやコンパクトプランで一番大きな違いは「音声認識サーバーの違い」です。ここで勘違いをしてほしくないのは「音声認識エンジンは同じ」ということです。つまり認識率はどれも同じです。

音声認識サーバーの違いで音声データを保存するかしないかになりますが、もう一つ、法人向けプランやコンパクトプランで使用する音声認識サーバーのほうがたくさん用意してあります。UDトークは「共用サーバー」と言う運用をしております(プレミアムプランは専用サーバーです)。一定数のサーバーの処理能力をユーザーで分け合う仕様です。なのでユーザー数がピークに達すると音声認識サーバーの許容量を超え、認識結果の取得が遅くなったりサーバーから切断されたりします。もちろんこちらもサーバーの数を増やしたりして対応をしますが、当然法人向けプランやコンパクトプランのサーバーの方が優先されます。

ですので、安定して認識結果を得る必要がある運用の場合は法人向けプランやコンパクトプランが必須となってきます。

その他、翻訳エンジンが高電社の「翻訳クラウド」に切り替わってたり、単語登録が音声認識サーバーに対して一括でできたり、台数の制限がないなど、の運用上のメリットがあります。

っですが、なにより「運用サポート」がつくのが一番のメリットなのではないかと思います。法人向けプランをご契約の企業団体様には導入後にご希望に応じで無料で講師を派遣して講習会を開いております。ちゃんとした使い方とUDトークがどういうものかと言うことをしっかりと教えることによって、その後の運用もスムーズになります。

利用規約やコンプライアンス上では業務(学校での運用や自治体導入も含む)で利用する場合は法人向けプランは「必須」です。ですが、法人向けプランか無料アプリかで選択ができるカテゴリの方たちもいらっしゃいます。

UDトークは無料でも有料でもできることはほとんど変わらないアプリです。必要に応じて適切な選択をしていただけたらと思います。

細かいプランの比較の一覧を添付しました。

ウェブページはこちら、PDFもダウンロードできます。

【トピック】音声認識で支援をすると言うこと

ここを見てらっしゃる方は聴覚障害者の情報支援・サポートとしてUDトークに注目しすでに活用をされている方も多いと思います。

また音声認識を実装したそういうツールも出てきましたので、ここで一つみなさんにちゃんと考えていただきたいことがあります。

無料版で支援をされる方たちへ
http://udtalk.jp/notice/

まずは上記のリンク先を読んでいただけたらと思います。「そういえばそうだ…」と思われる方も多いのではないでしょうか。

利用規約にも書かれてるようにUDトークの無料版は音声認識時のデータをサーバーに蓄積し精度向上のために再利用をしています。もちろんセキュリティは万全で、個人が特定できない状態で管理保存されています。これはGoogleやAppleも同じで同じように利用規約に書いてあります。

ここで「利用規約」ですが、これに同意しているのはあくまで使う人です。なので「支援をする側の人」がいくら同意をしても、「支援をされる側の人」も利用規約に同意をしている必要があります。少なくとも音声データの収集の部分だけは同意をとるべきでしょう。

みなさんに勘違いをしてほしくないのは、サーバーにデータが蓄積され再利用されることは悪いことや怖いことではないということです。実際みなさんがやっているLINEやFacebookだって無料で提供される代わりにいろんなデータが学習素材として再利用されています。もちろんプライバシーはちゃんと保護された状態で。

ただ機密保持や守秘義務の観点で考えると「当事者が知らない間に個人情報が再利用に回されてた」と言うのはトラブルを招く可能性があることだとすぐにわかると思います。そのため、これからはクラウドやIT機器を利用して支援を受ける時、支援をする時はちゃんと双方でデータの行き所を把握しておく必要があります。

UDトークは法人向けプランではサーバーに音声データを保存しない、再利用しないモードで動作します。なので法人向けプランを使っている時は特に同意を取らなくとも、聞かれたときも「法人向けプランを使っています」と応えていただければUDトークがそれを保証します。法人向けプランは「プレミアムプラン」「スタンダードプラン」「教育機関向けプラン」「支援団体向けプラン」とアドオンで買える「コンパクトプラン」になります。

UDトークは無料のアプリでも十分支援ができますし、「連続発話の時間制限を解除(240円/月)」を購入すると講演等でも使用することができます。もちろん無償で業務ではない範囲です、がそういうところは何が行われているのがが非常にグレーな状態でシステムが運用されています。

今回、このことについて記載したページには「同意書」のテンプレートをご用意しました。こうしたことを気にして行くことが大事ですし、提供側としてはすべてクリアにして安心して活用していただくことが責務であると考えております。

なんか難しい話になってきた、とお思いかもしれませんが、至ってシンプルです(笑)。運用パターンとしては、

・無料版のアプリで支援→支援を受ける方に対し「同意を得る」
・法人向けプランで支援→法人向けプランの使用を明確に伝える

この2つしかありません。このケースでの法人向けプランは「支援団体向けプラン(4,800円/月)」「コンパクトプラン(9,800円/月)」となります。もしこれが過度の負担になるようなケースになってくると、UDトークでの支援ができなくなってきてしまいます。

ですので、支援を受ける方たちも積極的に同意をして無料版で支援を受けていただきたく思います。そうするとこちらで音声が大量に集まり、認識率の向上につながります。

正しい理解とともに安心してUDトークをぜひお使いください。

iOS版 ver.5.6.5リリース「連続発話の時間制限を解除」のアドオンを販売開始

iOS版 ver.5.6.5をリリースにて「連続発話の時間制限を解除」のアドオンを販売開始しました。現在無料版では一回の発話の時間が3分と言う制限がありました。これは無料版は会話で使用するということを想定しており、1人の人が3分以上話す主導権を持たないことを前提としております。この時間制限は法人向けプランやコンパクトプランで解除されます。一人の人が話し続けるシチュエーションというのはそういった業務利用がメインであると考えていました。

ですが、最近はこの連続発話の機能が欲しく個人でもコンパクトプランを購入されてる方も増え、問い合わせも多くなんとか提供をしたいなと考えておりました。課題としては「サーバーの負荷」だったのですが、無料アプリで使用するサーバーを増強する目処も立ちましたので今回のアドオンの販売の開始に至りました。無料アプリでも連続で使用できることでテレビやラジオと合わせて使うなど活用の幅はぐんと広がると思います。(利用規約やデータ収集のポリシーは無料アプリに準ずるので業務利用はダメですよ!)

月額240円の自動更新課金アドオンです。iOSのみの提供となります(Androidでの提供予定はいまのところありません)。

(9:00現在、まだリリースしたばかりで購入ができないようです。昼過ぎにはできる、かな?)

アプリ起動→左上の「設定」→アドオンの購入

その他、5.6.5には

・ノイズが多い発話には「ノイズマーク」を表示(認識率の信憑性の基準にできる、かもしれない)

・「以上です。」と言うと自動的に音声認識が停止(トーク設定内、初期状態ではオフ)

などの実験的な機能を追加しております。

ぜひご利用ください。

【法人向けプラン導入報告】株式会社シーピーユー様

石川県金沢市にある株式会社シーピーユー様に法人向けプランを導入するとともに、運用についてのコメントをいただきました。職場全体でUDトークの活用が進むと理想的ですよね!

以下、コメント頂いております。

ーーー
社内に聴覚障がい者がいます。UDトークを導入する前は、筆談やメールを活用して、職場での相手とコミュニケーションを図ってきました。しかし、会議など複数人数で話される場面ではどうしても聞き取れない難しさがあり、UDトークを導入することとなりました。

その結果、得られる情報の幅が格段に広がり、様々な場面でコミュニケーションツールとしてUDトークを活用するシーンが増えています。健常者の理解度も日々高くなり、自然と協力するようになっています。これからも愛用していきたいと思います。

株式会社シーピーユー