【ヒント】音声認識ができない状況でどうする?

UDトークは日本語音声認識はかなりのレベルに達してきて、いまだと講演会のようなところだとほぼ完璧に認識することができます。ですが、UDトークは

・発音障害があったり
・難聴で少し発生が曖昧になってきたり
・日本語を習得したばかりの訛のある外国人の方だったり
・地方の独特な発生の方言だったり

これら場合は認識がしづらいです。これは技術的には「日本語の音の列ではない」ということになります。例えば東北地方の方言は母音らしきものが8つあるとかないとか。

そういう時、UDトークは音声認識しない、無力か?と思われますが、違います。そんな時の現場での対処法を書いてみたいと思います。

1.そのまま誤認識を編集する

認識結果はめちゃめちゃですが、そのまま出来る限り編集します。たとえ結果がめちゃめちゃでもUDトークで「この部分」と言う切り出しをしてくれます。ですので、複数人で作業をしているときに割り振りを勝手にやってくれます。いわゆる「わんこそば形式」であいてる人にどんどん編集単位が振られます。編集者同士で連携の申し合わせをする必要もないので、誰でもできます。ただ最初に出てくる文字がめちゃめちゃなのでちょっと印象が悪いかもしれませんが、UDトークはある程度文節単位で細かく出してくれるのでそのパートをまるっと入れ替えていけば文章になっていきます。

2.全文筆記または要約筆記をする

UDトークは別に音声認識をつかわなくてもキーボードで入力できます。実はUDトークは音声認識にフォーカスされがちですが、非常に柔軟に使えるチャットツールです。今までの文字通訳の手法を100%活かしてでキーボードで打っていきます。かつ、UDトークは打っている経過を出す仕様なので見てる人に作業が止まっていると言う不安を与えませんし、ある程度長文でも途中を読みながら把握できます。5〜6行どんと表示されても読みきれませんからね。ちなみにUDトークは手書きもできるので、iPad ProとApple Pencilで可能となります。

3.リスピーク(復唱)する

直接音声認識が無理なので人が聞きながら代わりに端末に喋って音声入力をしていきます。キーボードの代わりがマイクになったと考えたらわかりやすいと思います。これによってキーボードをうつフィジカルな限界に縛られなく成るので内容に自由度がでてきます。全文のときは全文だし、まとめたほうがいいときはまとめるし、と。リスピークって特殊なスキル?と思われがちで確かに特殊ですが、実は通訳さんはこのトレーニングを受けてるから通訳ができます。リスピークの課題としては突然来るタイミングでの心の準備と、狭い部屋だと話者の声とリスピークの肉声が会場で混ざってしまうことです。もし作業場所が隔離されていたりとかであれば全く問題なく切り替えて運用できます。

そもそもUDトークはネットが使えないと音声認識はできません(文字を送るだけであればローカルネットワークで構築することもできますが)。ですが、いまネットが使えないところも少なく、これからオリパラ2020に向けてどんどん公共のネットワークが増えていきます。ネットさえ繋がっていればUDトークはほぼ開くだけで文字がキーボードや音声認識で送ることができます。

もちろんこの手法は議事録を取るときにも有効な手段です。キーワードだけ記述をしておくとかあとから音声を追いかけれる「目印をつける」だけでもいいと思います。

特に現在一番使用されている聴覚障害者支援の分野で音声認識が並行して活用できれば人間の作業で行う部分が格段に減って、いままで文字打ちで(手書きもまだある)苦労されてた方たちの負担が非常に楽になります。そうすると仕事が減るのではなくさらに多くの場所へ支援に出れるようになり仕事は増えることになります。現状まだまったく福祉の分野では人が足りなくてニーズを満たせていないので。

ぜひいろんな手法を取り入れてその場で何がベストなのかを研究してみて下さい。現状まだ研究する説いう行為は「人間の仕事」なのですからね。