【トピック】ライブキャプション機能とUDトークの立ち位置
ついにiOS26でライブキャプション機能が有効になりました。UDトークのような機能がOSレベルでついただけではなく、再生している動画や音声も外に音を出さなくても字幕が出せるように。しかもこれがすべてオンデバイスで音声認識をするというものです。Androidには以前からありましたが、iOS版の実装やユーザー体験は圧倒的です。
OSにUDトークみたいな(いやそれ以上の)機能が実装されて、「UDトークは大丈夫なの?」と心配されるかもしれませんが、UDトークとしてはこの機能をむしろ「待望」しておりました。
理由としては、UDトークは「話し手が意識して話して使う」のと「聞き手が持って見て使う」を明確にユーザーとして分けているからです。今回のライブキャプション機能によって「聞き手が持って見て使う」方に圧倒的に便利な選択肢が増えたことになります。もともとUDトークはこのケースにはそれほど強くありません。なぜならば単語登録などの準備をしっかりしてこそ機能をフルで発揮できるアプリだからです。突然使うというケースでは、最速で使える、しかもOSに組み込まれているものが一番使い勝手が良いと思います。
この段階でライブキャプションの認識率をUDトークと比較することに意味はありません。以前から言っていますが、認識率には上限があり、それぞれに優先するバイアスや得意分野もあります。比べること自体に意味がないのと、今後時間が経つにつれ「上がるだけ」のものです。
UDトークは、準備ができる環境でかつ「話し手が意識して話して使う」方にフォーカスしていきます。iOSのライブキャプションは話し手が使うような設計にはなっていません(もちろん使うこともできますが、それは当然のことだと思います)。リリースから13年間、「聞き手が持って見て使う」方の用途にはリクエストに十分応えられないこともあり、求める機能や精度が不十分だったこともあり、申し訳ない気持ちもある一方で心無い言葉を投げかけられることもありました。ですが、いまはその用途がUDトークだけではなくなり、OSに組み込まれたことで、アプリ開発会社としては「仕事は終わった」と感じています。もちろん選択肢の一つとして使っていただければ嬉しいです。
「話し手が意識して話して使う」場面では、UDトークはすでにシェアがあり、今でも多くのイベントや配信、講演や授業などで活用されています。この部分がUDトークのビジネスの根幹であり、社会モデルとして字幕を実装していく大事な役割を担っていると自負しています。
ぜひこれまで「聞き手が持って見て使う」用途だった方は、iOS26からのライブキャプションを積極的にお使いください。生活が変わると思います。もちろん一般の利用シーンでも便利な機能です。ヘッドフォンを持っていない時に動画を見たい、でもその動画に字幕がない時や、Podcastを聴きたい時など、音を出さずに字幕で楽しむことができます。多くの方に知って使ってもらいたい機能です。それをUDトークが推すのは変だと感じる方もいるかもしれませんが、競合機能とはまったく思っていませんのでご安心を(笑)