カテゴリー別アーカイブ: ヒント

【ヒント】誤認識結果を積極的に編集をしましょう!

意外と知られていなくてびっくりする時があるんですが、UDトークは誤認識した箇所を「編集」することができます。お手元のUDトークで喋ったあと項目をタップしてみてください。編集モードになって直すことができます。

「誤認識したら、直す」

これが1サイクルになります。音声認識の認識率は100%はないし、なりません。仮になったとしてもそれが理解できる文字情報であるかとは全く別の問題になります(ローカルな内容を100%認識して文字に出しても、知らないことは知らない)。

この修正作業はトークを公開してつなげているときでももちろん可能です。自分の発言だけではなく、人の発言も修正することができます。QRコードを「発言を許可」か「編集を許可」で配布すると編集可能になります。

編集にはスマートフォン、タブレット、WindowsとMacなど大体どの端末でも行うことができます。その時に使いやすいものででしょう。
日本語は例え99%認識していても、1%のところで意味がわからなかったり変わったりするとても繊細な言語です。認識率の向上は「手放しでできる」ようになるのではなく「人間の仕事を軽減させる」ことをもたらします。

→以前はすべて打っていた(打てないから要約していた)
→今は音声認識で出して結果を修正する
→30%くらい修正をしていたところが5%くらいまで下がった

と言う流れなのです。
リアルタイム編集は別にスクリーンに情報として出すときのためだけではありません。いま同時に議事録を取ってる作業が楽になります。議事録は要約なので実はそこで話していることと「まったく違うこと」を記述しています。UDトークの場合はその場で聞きながら全文を記録・修正していくので要約議事録で改ざんが発生するリスクも軽減されます。また後から全文ログを元にして省略議事録を作ることができます。

・リアルタイムの情報支援手段
・全文の記録を作成

この2つの目的を最大限に達成するためにも積極的に編集作業を、参加者全員で行っていく運用を行ってみて下さい。

ちなみにUDトークは修正した箇所をハイライトします。なので一瞬目線をそらしてもどこが変わったかが把握しやすくなっています。そして修正後にまた翻訳をします。翻訳結果も変わったところがハイライトされますので、これもまた把握しやすくなりますし言語学習のツールとしても活用できます。

【ヒント】音声認識ができない状況でどうする?

UDトークは日本語音声認識はかなりのレベルに達してきて、いまだと講演会のようなところだとほぼ完璧に認識することができます。ですが、UDトークは

・発音障害があったり
・難聴で少し発生が曖昧になってきたり
・日本語を習得したばかりの訛のある外国人の方だったり
・地方の独特な発生の方言だったり

これら場合は認識がしづらいです。これは技術的には「日本語の音の列ではない」ということになります。例えば東北地方の方言は母音らしきものが8つあるとかないとか。

そういう時、UDトークは音声認識しない、無力か?と思われますが、違います。そんな時の現場での対処法を書いてみたいと思います。

1.そのまま誤認識を編集する

認識結果はめちゃめちゃですが、そのまま出来る限り編集します。たとえ結果がめちゃめちゃでもUDトークで「この部分」と言う切り出しをしてくれます。ですので、複数人で作業をしているときに割り振りを勝手にやってくれます。いわゆる「わんこそば形式」であいてる人にどんどん編集単位が振られます。編集者同士で連携の申し合わせをする必要もないので、誰でもできます。ただ最初に出てくる文字がめちゃめちゃなのでちょっと印象が悪いかもしれませんが、UDトークはある程度文節単位で細かく出してくれるのでそのパートをまるっと入れ替えていけば文章になっていきます。

2.全文筆記または要約筆記をする

UDトークは別に音声認識をつかわなくてもキーボードで入力できます。実はUDトークは音声認識にフォーカスされがちですが、非常に柔軟に使えるチャットツールです。今までの文字通訳の手法を100%活かしてでキーボードで打っていきます。かつ、UDトークは打っている経過を出す仕様なので見てる人に作業が止まっていると言う不安を与えませんし、ある程度長文でも途中を読みながら把握できます。5〜6行どんと表示されても読みきれませんからね。ちなみにUDトークは手書きもできるので、iPad ProとApple Pencilで可能となります。

3.リスピーク(復唱)する

直接音声認識が無理なので人が聞きながら代わりに端末に喋って音声入力をしていきます。キーボードの代わりがマイクになったと考えたらわかりやすいと思います。これによってキーボードをうつフィジカルな限界に縛られなく成るので内容に自由度がでてきます。全文のときは全文だし、まとめたほうがいいときはまとめるし、と。リスピークって特殊なスキル?と思われがちで確かに特殊ですが、実は通訳さんはこのトレーニングを受けてるから通訳ができます。リスピークの課題としては突然来るタイミングでの心の準備と、狭い部屋だと話者の声とリスピークの肉声が会場で混ざってしまうことです。もし作業場所が隔離されていたりとかであれば全く問題なく切り替えて運用できます。

そもそもUDトークはネットが使えないと音声認識はできません(文字を送るだけであればローカルネットワークで構築することもできますが)。ですが、いまネットが使えないところも少なく、これからオリパラ2020に向けてどんどん公共のネットワークが増えていきます。ネットさえ繋がっていればUDトークはほぼ開くだけで文字がキーボードや音声認識で送ることができます。

もちろんこの手法は議事録を取るときにも有効な手段です。キーワードだけ記述をしておくとかあとから音声を追いかけれる「目印をつける」だけでもいいと思います。

特に現在一番使用されている聴覚障害者支援の分野で音声認識が並行して活用できれば人間の作業で行う部分が格段に減って、いままで文字打ちで(手書きもまだある)苦労されてた方たちの負担が非常に楽になります。そうすると仕事が減るのではなくさらに多くの場所へ支援に出れるようになり仕事は増えることになります。現状まだまったく福祉の分野では人が足りなくてニーズを満たせていないので。

ぜひいろんな手法を取り入れてその場で何がベストなのかを研究してみて下さい。現状まだ研究する説いう行為は「人間の仕事」なのですからね。

【ヒント】どこまで無料で使えるの?

活動や仕事をしている方によく聞かれる質問です。実はここはわりとはっきりと線引ができるところとなります。大きくは2つの点、

・プライバシーを扱うかどうか
・業務で使用するかどうか

となります。またここでの表現は

・無料版→無課金または月額240円の「時間制限解除」のアドオンを購入時
・法人版→法人向けプランを契約または「コンパクトプラン」のアドオンを購入時

とします。

■プライバシーを扱うかどうか

たびたびこちらでも紹介していますが、無料版は音声データを蓄積して音声認識の精度向上に再利用をしています。ですので、利用者自身が同意している状態であればお使いいただけますが、個人情報や機密情報を含んだ内容となると少し気になるところです。ですので、一般企業や自治体等の窓口での業務ではまず無料版はお使いいただけないと考えてます。

【トピック】喋った音声はどうなるの?

■業務で使用するかどうか

UDトークが安定して無料で提供をできているのは「収益源」があるからです。現在利用規約で業務での利用は「禁止」をしており、法人向けプランをご利用いただくことになっております。無料版を業務で利用するのは規約違反となります。ただし、これは線引も難しく取り締まるような仕組みも用意してないので「信頼」にもとづいております。UDトークが広がるとともに公共性を帯びてきているのも事実です。いわゆる「一般企業」「自治体(公共機関)」「教育機関」で利用するときはその内容によらず必ず法人向けプランの適応となります。

この2つの点をクリアしてるところはすべて無料でお使いいただけます。例えばパブリックに開かれたイベントで字幕をつけたい場合なども問題なくご利用いただけます。NPOや一般社団法人など非営利型の法人でご利用の際もOKです。ただし「プライバシーをどう扱うか」の点で法人向けプランを導入されているところも多いです。

政治家の方が演説や活動報告で使うのも無料でOKです。個人事業主や個人商店の方も実生活との境目が難しいので許可をしております。ただし「プライバシーをどう扱うか」の点はご注意下さい。ライターの方とか書き起こしをされてるかたは扱っている内容が「プライバシーをどう扱うか」でご判断ください。

「UDトークは高い」とよく噂されますが、実は殆どのケースは無料でお使いいただけます。またコンパクトプランは1週間で2,800円のアドオン、小規模団体向けプランは月額9,800円と法人向けのビジネスプランとしてはかなり低価格で導入することができます(適用条件あり)。特にコンパクトプランの1週間単位での購入はどの企業さんでも積極的にご利用いただけるといいかと思います。

契約数も増えたことで現在はサーバーの遅延もなく安定供給ができるようになりました。「企業が有償で利用して一般の方が無料で使える」と言う還元型のビジネスモデルでもあります。みなさまにはご理解の上で積極的に使用していただければと思っております。

【ヒント】認識率ってなんだろう?

ほんの今からUDトークを使い始めた人は「まだ誤認識がありますね。もっと認識率あがるといいですよね」といいます。

これ、3〜4年前、それこそUDトークができたときから使い始めてる人が聞いたらひっくり返りますよね(笑)。それこそ音声認識の業界に10〜20年関わってきた人からするとまさかここまで認識するなんて、と言うレベルに達してます。

でも、ほんの今から使い始めた人のその印象も「正しい」のです。知ったその時がその人にとっての相対的な「あたりまえの認識率」になります。それは絶対的な値にするともちろん高く、ずっと右肩上がりです。悪くなることはなくこれからどんどん良くなります。

でも認識率に100%以上はありません。もし仮に130%とかあったらそれは自動生成とか「忖度」になりもしかしたらAIの世界になるかも?(笑)

つまり何がいいたいかと言うと、認識率の話しとかそれを採用基準をするのって「意味がない」という事です。使い始めた時期にも、目的によっても、環境によっても求められる数値が変わってくる、そんなものでの比較や検討は本質的には思えません。

例えば絶対的な数値で80%の認識率だったとします。

Aさん:なんだ20%しか間違わないんだったらたいしたもんだ。
Bさん:20%も間違うならそんなの全くダメだね。

これはちょっと前に「Aさんは海外の、Bさんは日本の考え方」と揶揄されていましたが、いまはわりとAさんタイプも日本に増えてきてるように思います。

なぜ認識率と言う数字にこだわってきたのか?それは最先端の技術である音声認識が「高くて手に入らなかった」「研究室や企業の製品のでしか試せなかった」からなのですよね。でもいまは、特にUDトークは最先端の音声認識技術を搭載しているのに、それをスマホのアプリとして無料で配信し当たり前に使えるようにしています。ほとんどの人が認識率と言うのを知るまでもなく自分で使ってみて体感できます。

そうなってくると「はじめての音声認識の結果」が重要になってくるわけですが、それは運が悪い人もいれば、はじめからやる気がない人もいる(いい結果を得ようとしない)ので試してもらうときには「正しい使い方を教える」か「最高のパフォーマンスを見せる」必要があります。

あと「認識結果が良くなる」と言う表現も実は微妙に間違っていて、先にも書きましたが、認識率は100%が最高です。なのでそこから下がるので認識率は「維持するもの」であり結果が悪くなってくる「要因」があると考えます。

そうすると「あ、だからうまく使えなかったんだ…」ってことが自ずと見えてきます。あと大前提として登録されていない単語はいくら頑張っても出ません。素直に登録しましょう。

50%くらいしか認識してなくても役に立つシーンもあれば、90%近く認識しててもUDトークじゃないねぇ、ってシーンもあります。

認識率と言う数値にとらわれず、目的に合うかどうかで採用をきめるのが良い結果を生むと思います。

【ヒント】うまく認識する人、しない人がいるのはなぜ?

「どうも私の声はちゃんと認識しないんです」

時々そういったご意見をいただきます。大体の場合が「マイクに口を近づけないで話している」とか「単語登録をしていない」ことが原因ですが、実は技術的に音声認識が苦手な声のカテゴリがあります。

まず音声認識の精度がどうやって向上をしているか?ということですが、これは無料のアプリを使っていただいてる皆さんに音声データの収集にご協力をいただいていて、それを元に精度が向上しています。つまり「多数派」で精度があがります。男性女性の割合であったり、地域の割合だったり、年齢だったり、そういった要素が統計上現れてきます。

つまり集まりにくい音声データのカテゴリが認識率が低いカテゴリとなります。

その中の一つは「子供」です。やはりスマホのアプリで音を収集しているので子供の音声は集まりにくいです。それに影響をして「(アニメ声のような)高い声」とかコンパニオンさんのように「極端にきれいな通る声」なども影響してきます。もともと女性の声自体が集まりにくかったカテゴリだったのですが、UDトークで音声が集まるようになってからは男女比はほぼ均等に集まるようになったようです。こうやって幾つかのカテゴリで埋めていき結果的に誰でも事前学習なしに音声認識ができるのですが、ときどきその境目に該当する人(声質)がいらっしゃったりすると認識しないときがあります。

一つの認識しづらいカテゴリに「難聴者の発話」というのがあります。聞こえないことによってだんだん発声が曖昧になっていきます。そのパターンは非常に多岐に渡ります。このカテゴリもUDトークとしては集めきれてないカテゴリです。ただ難聴の方の場合はUDトークを日々使っているとご自身の発声の方が良くなって認識するようになると言うおもしろいパターンも多数報告されています。

ここで、よくご意見をいただくのが「AppleやGoogleの音声認識は難聴者の声でもよく認識する」と言うことです。はい、たしかに認識します。それは前述した音声を収集している範囲が広いからカバーできているともいえます。ただスマホの音声認識は短文で「命令や対話」なので、UDトークの長い話し言葉を文字化するものとは調整方法が変わってきます。なので難聴者の方がUDトークでたくさん喋って音声データの収集にご協力いただけると「難聴者の声」と言うカテゴリが強くなります。AppleやGoogleも同じように収集をしていますが、どうせいただけるならここは国産のアプリ「UDトーク」の方にいただけたら幸いです(笑)

現在たくさんの方にお使いいただき様々な声のカテゴリが集まるようになってどんどん認識精度が向上しています。でもやはり認識率が100%になるのと、出てきた結果を見て理解ができるかは別問題です。まず技術的には高みは目指しますが、同時に音声認識技術を使うということはどういうことかを理解していただく必要もあると思ってます。

【ヒント】UDトークを音響設備に接続して使用する

UDトークを普段会話や数人のコミュニケーションで使用されている方が次へのステップアップとして「大きなホールで使ってみたい」と思うことは自然な流れだと思います(そういうことにしておいて!w)

じゃ具体的にどうしたらいいのか?という事をちょっと取り上げてみます。

必要な機材

まず大きな会場には少なからず「ハンドマイク」と「スピーカー」があります。ここでハンドマイクで集音されてスピーカーから出てる音を使って音声認識ができればいいですよね。

この場合、その会場の音響設備から有線で音を出す必要があります。いわゆる「録音用の外部出力」です。ですが、それをもらってもスマートフォンのマイクヘッドフォン端子に指しても音声認識できません。入力用のアタッチメントが必要です。代表的なものはiRig2(アイリグツー)というものです。

iRig2(Amazonのページに移動します)

他にも類似の製品が出ています。基本何でもOKですが、入力する端子の形状が重要になってきます。iRig2は「標準フォーン」と言う形状の入力になります。なので次は接続するケーブルが必要になってきますが、どういう形状でもらうのがいいのか、会場の音響担当者に伝える必要があります。

iRig2を使った音響設備との接続方法

音響担当者への説明

これが一番ハードルが高いかもしれません。なぜなら専門用語があったり、そもそも会場の音響担当者が何のためにそれが欲しいのかが伝達されていないケースが多いからです。

まずここではこちらがiRig2を所持している前提で話をします。簡単に文章にすると

音声認識で文字化をするためマイクを使って話された音声が外部出力として必要です。こちらの形状は標準フォーンなのでその形式で出してください。

このような感じで伝わると思います。さらにこのときに確認をすることとしては

  • 欲しいのはマイクの音声だけ
  • BGMや動画などを使ったときの音声は可能なら分けてもらう
  • 複数マイクがあるときは全部まとめて1つにしてもらう
  • 音量の基底レベルは低めで(-10〜-12db)

iRig2を前提としましたが、例えばiRig PREだと「XLR(エックスエルアール)」もしくは「キャノンのメス」と言う形状の入力になります。その時はそれを音響担当者に伝えると良いでしょう。相手が専門の担当者であれば写真に撮って見せるのもいいと思います。

一つ注意が必要なのはそうした設備の担当者は経験上、その場で直前に言われることを嫌います。なのでUDトークを音響設備に繋いで使う時は事前に伝えておくことが重要です。

持ち込み機材で行う場合

持ち込みでポータブルのマイクスピーカーシステムと繋いで使うケースも多いと思います。例えば

TOA ワイヤレスアンプ

こういうタイプのものにはだいたい「外部出力」「ライン出力」と言う名前で音を有線で出力出来るようになっています。形状は標準フォーンまたはRCA(アールシーエー)と言う形式が多いです。なのでマイクスピーカーシステムとiRig2を接続するケーブルを購入すればマイクを通した音を音声認識することができます。

標準フォーン〜RCAケーブル

標準フォーン〜標準フォーンケーブル

これらのケーブルはたくさん種類もありますし、楽器屋や家電量販店で購入することができます。

機材が用意や接続できない場合

音が出ているスピーカーの前にUDトークを置いて見てください。意外とちゃんと認識します。天井にスピーカーがある場合は自撮り棒で伸ばしたりガムテープでくっつけたりしてもいいです。手段は選びません(笑)

よく使用する会場であれば一度やり方を覚えればずっと使っていくことができます。ぜひこのあたりいろいろと実験をしてみてください。

【ヒント】UDトークについての良くある質問や噂(?)をご紹介

UDトークについての良くある質問や噂(?)をちょっとご紹介したいと思います。

■Q.無料版と有料版で認識率が違うと聞いたのですが?。

A.いいえ、同じです。無料版も有料版も同じように最新のチューニングを施しております。法人向けプランの方が積極的に単語登録などをする仕様になってますのでその違いは出るのかもしれませんが、基本的な精度は同じです。

■Q.外部マイクや専用マイクを使うと認識率が上がると聞いたのですが?

A.いいえ、正しくは「上がることもあります」です。認識率は「口とマイクの距離」に比例します。例えばiPadで外部マイクを使うことで口とマイクの距離が近くなれば認識率は上がります。スマートフォンを口元で使うのが一番精度がいいです。外部マイクは例えば襟元につけてハンズフリーにしたいとかそう言った目的で使います。ただしその時は口からマイクが離れるので多少認識率が落ちることがあります。

■Q.喋った内容が漏洩していると聞きました。

A.いいえ、たしかに無料版は音声データをサーバーに保存して認識率向上のために再利用をしていますが、音声データは個人が特定できない状態で厳重に管理をし解析をしております。こちらとしてはみなさんに「データ収集に協力をしていただいている」と言う立場なので無料でアプリの提供が可能です。もし機密情報を扱ったり再利用自体が気になるかたは法人向けプランやコンパクトプラン等の有料利用で再利用をさせないようにすることも可能です。

■Q.頑張って喋ったら認識率が上がるんですか?よくそういう話を聞きます。

A.いいえ、リアルタイムに喋った内容は認識率の向上には影響をしません。体感的に上がると感じる方が多いのは喋り方とか使い方のコツを掴んできたからだと思います。スマートフォンをみんなで回して使うような環境があるのでUDトークは個人に対する学習は行わないようにしてます。ある一定期間無料版ユーザーさんたちの音声を蓄積してこちらで精査しそれを元に音声認識エンジンを不定期にチューニングしています。現在10万人を超えるユーザーさんからたくさんデータが集まっておりますのでチューニングをスムーズに行うことができます。

■Q.私の声が認識しないのですが

A.いろいろな要因が考えられますがまず音声認識は「文章の音声」を「文章の文字」に変換する技術です。したがって劇のセリフとか落語とか読み聞かせのような音声は認識しづらいです。子供の声やアニメの声やコンパニオンのような高い通った声なども認識しづらいケースがありますがこれは徐々に解消されてきたように思います。難聴者の方でだんだんと喋り方が曖昧になってきた方は難しいですし、加えて発音障害があるかたも難しいです。滑舌が悪かったり、変なところで区切ったりするような喋り方も音声認識には不向きです。一番適しているのはスピーチや講演、日常会話や新聞記事などの平坦な読み上げですのでまずはちゃんと認識するのと確認してみてからなぜ認識しないのかを判断してください。

■Q.小さな会社で作ってると聞いてサポートが心配。

A.UDトークのアプリの開発会社はShamrock Records株式会社と言うとても小さな会社ですが、それを支える基礎技術を提供してくださっているたくさんの会社と各地で販売を行っている会社と全体でサポートと販売を行っております。オンラインマニュアルもありますし、何より10万ダウンロード以上あるアプリなのでみなさん使い方は回りで共有したりしています。こちらとしては助かっております(笑)

【ヒント】UDトークは誰のためのもの?

結論から言うと、UDトークは「話す方」「伝える方」が使うものです。なので情報を受け取る方(聴覚障害者など)はあくまで使われた結果を「見るだけ」になります。

いまだに多く人が勘違いされてるのはこのアプリは対象となる本人が持って使うものではなく、相手に使ってもらうことによって成り立つもの。つまり「自立」のためのものでなく「共助」のための手段なのです。逆に言うと話すほうがUDトークを使う気がなければまったく役に立ちません(まぁ、それでも多少分かる結果は出ると思いますが)。

例えばトークイベントでも聴覚障害者の方が手にUDトークを持って手元で音声認識を開始しても文字になるわけではありません。トークイベントの主催者がちゃんと導入をして正しい使い方をし話される方や出席者にこれが何をするための手段なのかをちゃんと理解した上で使用するものです。

じゃこれを使ってもらうために頭を下げてお願いをしなきゃいけないのか?と言うと答えは「はい」です。これを使ってもらう事によって自分がメリットを得ることができるのであればお願いすればいいと思います。合理的配慮の世の中、それを断る人もいないと思います。

そもそもの考え方を変えてみてはどうでしょうか。相手に対してのメリットを提示するのです。話す人がこれを使った場合たくさんメリットがあります。まず音声認識や翻訳の機能を使うことでそこに外国人や聴覚障害者の方たちがいても自分の話した内容を持ち帰ってもらうことができます。つまり「伝えること」ができます。

終わったあとにすぐに全文の記録が残ります。ちょっと直してすぐに公開することもできますし、動画のフル字幕を作成する手助けにもなります。

リアルタイム字幕は話している内容を補完します。手元で見ることで遡って確認したりすることができるので、全ての参加者にとって役に立つ情報補助となります。

これはよく言われることですが、

「話している内容が相手に伝わらないのは100%話し手の責任」

です。

話し手の立場からするとわざわざ足を運んでくださった方たちに自分の話をちゃんと持ち帰っていただくことへの努力は当たり前のことです。UDトークは話して側の補助ツールとして効果を発揮します。

このように話し手に対してのメリットも一緒に提示してあげることで「共に使う」と言う関係ができます。

もちろん人によってはこういうのがめんどくさいと感じる方もいらっしゃるでしょう。ですが、そのときに自分たちにとって何が一番大事なことなのか、と言う目的を大事にしていただければきっとうまく使えるのではないかと思います。

もちろんUDトークは万能ではないのでさっぱり使えないケースもあります(笑)。そういうときはまた別のことを考えていただければいいと思います。UDトークは問題解決のツールでもありますが、問題発見のツールでもありますので。

【ヒント】音声認識、いろいろあるけど

iOSではSiriやキーボードに、Androidは検索したりと音声認識が身近になって、もうちょっとした検索や操作なら喋って済んでしまうことが多くなったのではないでしょうか(少なくとも開発者、かなりスマホの音声認識使ってます)。

よく聞かれるのがズバリ「UDトークってSiriとかと何が違うの?」と言うことです。ですがこの質問は少しばかりずれています。

まずこれを理解するには「音声認識」と呼んでいるものがなんなのか?を正しく把握する必要があります。

音声認識とひとことで言った場合に要素は「技術」と「インターフェイス」と2つに分けて考えなければいけません。

SiriやGoogle検索で説明をします。AppleもGoogleも独自に「音声認識技術」を持っています。そしてSiriやGoogle検索と言った「音声認識インターフェイス」でユーザーに提供されます。キーボードについているのも「音声認識インターフェイス」となります。みなさんが音声認識を使っているとよく言っているのは「技術をインターフェイスを通して」使っているということになります。

ではUDトークで同じ説明をすることにします。AmiVoice(アミボイス)と言う株式会社アドバンストメディアが開発している音声認識技術があります。それをUDトークと言うインターフェイス(アプリそのものがインターフェイス)を通して使用しています。UDトークはAmiVoiceと言う音声認識技術を採用しています。

では、技術の提供を受けて「インターフェイスを開発する立場」になって考えてみます。技術の提供元から「インターフェイスを開発してもいいよ」と言う条件や規約が提示されます。それぞれ分かりやすいところで列挙をしてみます。

■Apple
・開発キットを通して自由に使用
・無料(年間のアプリ開発ライセンスは必要)
・時間(連続1分)や回数制限あり
・音声データは提供

■Google
・専用インターフェイス(「お話ください」の)を通して無料で使用
・Speech APIで有料(従量課金)で使用
・専用インターフェイスは一言、Speech APIは連続可能
・音声データは提供

■AmiVoice
・開発ツールキットの販売提供(企業間のみ)
・ライセンス料+利用料
・時間制限なし
・単語登録や辞書のカスタマイズ可能

(これが全てではありませんのでご了承を)

AppleとGoogleの技術としての提供形態はよく似ています。両方とも開発者が無料で使用してインターフェイスを開発できるようになっています。ただし、これを使用して作った場合は喋った音声データはすべてAppleとGoogleに提供をすることになります(利用規約に明記されています)。

技術としてのAmiVoiceはAppleやGoogleとは大きく異なります。特徴はやはり日本でビジネスをしている企業の技術なので企業間でライセンス契約をし、開発会社が製品を開発します。カスタマイズも可能なのでその分野に合わせた使い方(専門用語とか)にも対応できます。

ではこの技術を使ってインターフェイスを提供する立場になってみます。どの音声認識技術を使用しても無料有料にかかわらず、インターフェイス、つまりアプリやソフトウェアは「価格をつけて販売」することになります。これで言うとiOSやAndroidはOSや端末を使っている分にはそれ自体のインターフェイスを使って無料で提供されています。UDトークも無料アプリとして提供をしています。しかし厳密には無料ではなく、インターフェイスを使用したユーザーの音声を対価としていただいているので無料提供をしているということです。UDトークは法人向けには音声データを収集していないので、その分有料で提供をしております。

ここまでで「技術」と「インターフェイス」、そしてそれを「開発」して「提供」するところまでなんとなく理解していただけかと思います。

ではここで「日本」と言う市場を考えてみたいと思います。これは筆者の見解ですが、「喋り言葉を一字一句文字にする」と言う音声認識のニーズは日本独自なのではないかと考えています。それは日本語は複雑でキーボードでリアルタイムに打つことが不可能だからです(頑張ればできる、と言う議論はここでは論外で、サービスとしての提供のクオリティの話をしています)。海外での音声認識のニーズは検索をしたり、命令をしたり、対話をしたり、といったところ。これは長時間連続で文字化をするような技術の提供形態をとっていないことからも推測できます。長時間の利用を前提とすると例え時間制限なく使える技術があってもそれが従量課金だと使用する方も提供する方もなかなかビジネスにはしづらいといえます。なのでどこで「インターフェイス」を提供するか、ビジネスをするかで「技術」を選択することになります。

逆に考えるとUDトークと言うインターフェイスをユーザーに無料で提供をしようと考えた場合(聴覚障害者へのサポートでの使用を考えたときも)、ニーズやビジネスに合って選択した技術がAmiVoiceだった、とも言えます。

と、いろいろ難しい話もしてきましたが、ユーザーの人にとってみたら結局「良く認識する技術がいい」ってことだけだと思います(笑)

まず技術同士で比較というのは難しいのですが認識率と言うところで言うと正直「どっこいどっこい」です。認識率は数値的なものももちろんありますが、体感も含まれてきます。インターフェイスの違いでだいぶ体感が変わってくるのです。SiriやGoogle検索は短い言葉を発する前提で非常によくチューニングされていますし、結果をよりリクエストに適したものに変換したりしています。つまり「明日」と喋って「明日」と言う文字が取得できるのは音声認識ですが、明日の日付が取得できるのはインターフェイスということです。ユーザーはしばしばこれも「認識率がいい」と判断をします。

UDトークは長いスピーチなんかを文字化するためにチューニングされています。一番分かりやすいのは「句読点」の挿入なのではないかと。AmiVoiceは長文で句読点が入る音声認識技術です。あと他の音声認識技術やインターフェイスにはない「単語追加」などのカスタマイズも可能です。

みなさんが音声認識を使用するとき、それは「音声認識インターフェイス」であって、その裏にある「音声認識技術」まではほとんど意識することがないと思います。でもちょっとだけ仕組みを知っておくと使い方のアイデアも生まれたり、より活用できたりするんじゃないかと思います。

ここまで読んで頂いてありがとうございます。もう一回頭から読んでみましょう(笑)

【ヒント】音声認識で支援をすると言うこと

ここを見てらっしゃる方は聴覚障害者の情報支援・サポートとしてUDトークに注目しすでに活用をされている方も多いと思います。

また音声認識を実装したそういうツールも出てきましたので、ここで一つみなさんにちゃんと考えていただきたいことがあります。

無料版で支援をされる方たちへ
http://udtalk.jp/notice/

まずは上記のリンク先を読んでいただけたらと思います。「そういえばそうだ…」と思われる方も多いのではないでしょうか。

利用規約にも書かれてるようにUDトークの無料版は音声認識時のデータをサーバーに蓄積し精度向上のために再利用をしています。もちろんセキュリティは万全で、個人が特定できない状態で管理保存されています。これはGoogleやAppleも同じで同じように利用規約に書いてあります。

ここで「利用規約」ですが、これに同意しているのはあくまで使う人です。なので「支援をする側の人」がいくら同意をしても、「支援をされる側の人」も利用規約に同意をしている必要があります。少なくとも音声データの収集の部分だけは同意をとるべきでしょう。

みなさんに勘違いをしてほしくないのは、サーバーにデータが蓄積され再利用されることは悪いことや怖いことではないということです。実際みなさんがやっているLINEやFacebookだって無料で提供される代わりにいろんなデータが学習素材として再利用されています。もちろんプライバシーはちゃんと保護された状態で。

ただ機密保持や守秘義務の観点で考えると「当事者が知らない間に個人情報が再利用に回されてた」と言うのはトラブルを招く可能性があることだとすぐにわかると思います。そのため、これからはクラウドやIT機器を利用して支援を受ける時、支援をする時はちゃんと双方でデータの行き所を把握しておく必要があります。

UDトークは法人向けプランではサーバーに音声データを保存しない、再利用しないモードで動作します。なので法人向けプランを使っている時は特に同意を取らなくとも、聞かれたときも「法人向けプランを使っています」と応えていただければUDトークがそれを保証します。法人向けプランは「プレミアムプラン」「スタンダードプラン」「教育機関向けプラン」「支援団体向けプラン」とアドオンで買える「コンパクトプラン」になります。

UDトークは無料のアプリでも十分支援ができますし、「連続発話の時間制限を解除(240円/月)」を購入すると講演等でも使用することができます。もちろん無償で業務ではない範囲です、がそういうところは何が行われているのがが非常にグレーな状態でシステムが運用されています。

今回、このことについて記載したページには「同意書」のテンプレートをご用意しました。こうしたことを気にして行くことが大事ですし、提供側としてはすべてクリアにして安心して活用していただくことが責務であると考えております。

なんか難しい話になってきた、とお思いかもしれませんが、至ってシンプルです(笑)。運用パターンとしては、

・無料版のアプリで支援→支援を受ける方に対し「同意を得る」
・法人向けプランで支援→法人向けプランの使用を明確に伝える

この2つしかありません。このケースでの法人向けプランは「支援団体向けプラン(4,800円/月)」「コンパクトプラン(9,800円/月)」となります。もしこれが過度の負担になるようなケースになってくると、UDトークでの支援ができなくなってきてしまいます。

ですので、支援を受ける方たちも積極的に同意をして無料版で支援を受けていただきたく思います。そうするとこちらで音声が大量に集まり、認識率の向上につながります。

正しい理解とともに安心してUDトークをぜひお使いください。