【トピック】UDトークの運用は大変なのか?

(追記)UDトークは運用に「それほど特別なスキル(資格等の)が必要ない」、という点でみればまた違った大変さを考えることができるのではないかと思います。誰でもできるということは大変さも多くの人で共有できるということです。

「UDトークの運用って大変そう」とか「できる人がいない」とか時々聞きます。まぁ、もちろんまったく手間がかからない、とはいいませんし、リアルタイム字幕を提供する方法としては新しいことなので、どのあたりが大変なのかを分析してみたいなと思います。

まず「運用」と言うと大きく2つのパートがあると思います。「音声認識の準備」と「誤認識の修正」ですね。

「音声認識の準備」に関してはある程度機材と知識は必要になると思います。現場でやるときは音声をラインでどう録るか、リスピーク(担当者による復唱入力)で運用するときは場所をどうするか、など。

人手でやるタイピングや手書きだと身一つで行けばできる、と言われそうですが、プロジェクタ出力したりいまだとオンライン環境に投影したりなどするのでそこの手間はむしろUDトークの方が簡単に接続できるかなと思います。

単語登録をしたりする作業も資料を見ながら行えば支援の予習もついでにできるのでよいです。ともあれ準備はどの方法でもちゃんとやることが大事です。UDトークの方が機材をセットすることきちんとマニュアル化すれば誰でもできるようになるでしょう。

「誤認識の修正」についてはかかる人数は2〜4人くらいがいいです。多すぎても持て余すので何人かで交代するのもありです。よく「全部打った方が楽」と言う意見もありますが、それはあくまで作業者の立場での話です。出力される字幕はUDトークは全文、手打ちだと要約になるでしょう(多くの方ができる方法として要約ということです)。同じ人数をかけたとしても要約だとせいぜい10%くらい。残したり出したりする結果がそれで時はもちろん良いです。なのでこれは目的に応じて決めることであり労力で決めることでもありません。

誤認識を部分的に直すのと、全文を聴きながら打っていくのはまったく違う思考回路を使うので得手不得手は別れるかもしれませんが、部分的に直す方が「特別な訓練なく誰にでもできる」かなと考えています。それにUDトークのいいところはゼロ人から字幕を出せることでもあり、その自動の環境に人が加わっていくといったイメージです。

「運用」というとどうしても人が作業をすると言うイメージに取られがちですが、音声認識や自動翻訳等のAIの活用前半的に言えるのは「機械の自動化に人が入る」ことを運用と言ってもいいと思います。そうなるとまたいままでとは違った「大変さ」というのが出てくると思うので「今までやってきたこと」と単純に労力だけで比べず、それぞれの方法のメリットデメリットを考えることも大事です。それで工夫された方法が復唱入力によって入れていくリスピークだったりもします。

何かをやるのに「楽な方法」を探すことは僕は悪くないし、それが向上につながると思います。楽な方法はダメな方法ではないし、でも何をやるにしてもきちんとやるのは大変だと思います。

そのあたりをざっくり「大変」と言わず、分析してみてメリットデメリットとそれによって何を成すのかで考えて方法を選択していただければよいかなと思っています。