【トピック】話し手が使う音声認識コミュニケーションアプリに求められる機能

「UDトークは話し手が喋って使うアプリです」と、またかよってくらい見聞きしていると思いますが、ずっと言い続けていきます(笑)。でも一方で耳が聞こえない方が自分で手に持って「まわりの声や音が情報として見える」と言うアプリももちろん必要だと考えています。

「受信で使う」というところで考えると、両方で共通で求められる部分もあれば、相反してしまうところもあるのでその部分を考えてみたいと思います。

共通で求められる部分

  • 使いやすい見た目(操作、色、アクセシビリティー)
  • 多様のプラットフォームで使える
  • 導入しやすい(ダウンロードが軽い、無料など)
  • 認知度

実はこうしてみると共通で求められる部分は意外とアプリの機能的なことではなく取り巻く環境とかによる使い勝手になるかと思います。意外と認知度は重要だし、見た目なんかは「人に勧めたくなる、勧められて使いたくなる」と言ったちょっとしたオシャレ感も大事になってきます。

では次です

受信で使う時に求められる機能

  • 広範囲を拾って騒音下に強い
  • 連続稼働に強い(安定性)
  • 時事ネタに強い単語辞書(サーバーで自動更新)
  • 声だけではなく音情報も可視化

やはり何よりもどう言う音が入るかわからない状態なので雑音に強いことは必須かと思います。単語登録や編集機能はと言うとそもそもどう言う音が入ってくるかわからない状態だと単語登録のしようがありません。したがって音声認識サーバー(サービス)側で時事ネタの単語を自動で更新する機能が重要になるかもしれませんね。

では続けて

発信で使う時に求められる機能

  • 単語登録と誤認識の編集
  • 相手に文字を見せるための機能
  • デバイスに向けて話された声だけを意図的に拾う
  • 雑音はなるべくカットする

話し手の立場だと伝えたいことが明確なのでそれを思い通りにコントロールできる機能が求められます。単語登録も一番内容をわかっている話し手がするのが効率が良いですよね。あと聞こえてる人が使う分には使っている環境が音声認識に適しているかどうか(騒音下かどうか)も自分で判断して使うことができます。ボタンのコントロールも自分でできるし、デバイスに向けて文字化してほしいところをピンポイントに話すことも可能です。なので音を拾う範囲も狭い範囲(電話で話す距離)をしっかりと拾った方がいいですよね。喋った内容を自分で見ることも相手に見せることも「見やすさ」は求められます。

こうして列挙してみると、UDトークは共通で求められる部分に関してはほぼ満たしていると思います。見た目もそこそこおしゃれだと思いますしすっきりしてます(当社比)。VoiceOverでも使えてカラーユニバーサルデザインの要素も取り込んでいます。そして認知度は…、大丈夫っですね(笑)。みなさん安心してインストールしていただけます。

受信に関してはどうでしょうか?UDトークは採用しているAmiVoiceがそうなのですが「能動的に入力された声をきちんと文字化する」エンジンでもあるので、意識して話されてない音声(例えば駅のアナウンスなど)は弱いです。広範囲を拾うには「遠くの声」に設定をするとかなり拾ってくれますが、それもやはり意識して話された声が前提となります。時事ネタですが、実は最近は単語辞書がサーバー側で毎日更新されるようになっており、時事ネタに強くなっています。でもやはりUDトークのメイン機能とも言える単語登録と編集は受信で使う時は生きてきません。最近Googleのエンジンは音の認識に強くなってきて「(音楽)」とか「(車のエンジン)」とか出すようになってきてますよね。UDトークはそう言った音の認識はしません。なので受信での用途は「使えないこともない」ってところです。

発信で使う時に求められる機能はいわずもがなそこに最適化をしてありますので、割愛させていただきます。

いま海外や国内でいろんな音声認識アプリが出てきて選択肢も増えてきました。どれを使うかは好みや機能とかいろいろ選ぶ基準がありますが「自分がどう使いたいか」「相手にどう使ってもらいたいか」と言うスタンスで選んでいただくのが良いと思います。これも蛇足になりますが、UDトークは「話し手が使うことで聴覚障害が抱える課題を社会モデルとして解決する」アプローチをとっています。社会モデルというのは障害自体が課題ではなく、それを取り巻く社会の方が対応できていないから課題があるという考え方です。つまり話し手が伝えるために使うことでコミュニケーションの課題は解決していくもの言うことです。

アプリでできること、アプリではできないことなど開発検討事項はいくつかあります。例えば音声認識の精度はアプリ開発者ごときのレベルではコントロールができませんが(サービスの提供元つまりAmiVoiceやGoogleの仕事)、使い勝手や見た目などはアプリ開発担当の仕事です。どう言う人に使ってもらいたいかをデザインするのももちろんアプリ開発会社の仕事です。

なのでUDトークとしては

  • 発信で使う時に求められる機能に重点を置いて開発してく
  • 受信で使う時に求められる機能もできる限り対応していく
  • 全体として社会に普及させるためにより良い見た目や使い方をデザインする

と言う方向性でこれからも開発をしていきたいと考えています。