【トピック】字幕データ ver.0.5の活用を提案します

最近はオンラインイベントでUDトークが採用され、終わった後動画でアーカイブがのこり、そこにも字幕がつくようになりました。

だいたい皆さん、イベントが終了したらログを出力して、アーカイブされた動画を聴きながら字幕を修正してアップすると思います。この間の時間は1時間くらいのものであれば一人でやっても2〜3時間で終わります。分担すればもっと早いです。

ですが数が増えてきたりするとなかなか取り掛かれなかったり、担当できる人がいなかったりします。最低でもイベントの実時間分は聞かなければいけないし、以前の全部書き起こすことから比べると格段に楽にはなりましたが、ある程度の労力はかかる作業です。

アプリにバージョンがあるなら字幕にもバージョンがあっていいのではないでしょうか?そしてオープンデータのようにだんだん充実させていっても良いと思います。

そこで字幕データにバージョンの定義をし、それぞれで活用を提案してみたいと思います。

ver.0.0

単語登録もせずUDトークに音声を流した「だけ」のものです。流石にこれはそのまま公開できるレベルではないと思いますので、全文ログや字幕作成の元にするためのものとしてください。

ver.0.1

単語登録をそこそこきちんとして自動字幕として出したものです。リアルタイムでみるのはいいですが、流石に固有名詞が誤認識してたり文脈がおかしいところがあると意味は通じないかもしれないので後からチェックは必要です。そのあたりが了承とれればログとしての配布もありだと思います。最低限ここは担保して欲しいラインでもあります。

ver.0.5

単語登録もした状態でリアルタイムで数人が編集に関わったあとのログです。リアルタイムでひどい誤認識は修正されている前提なので大きく意味が通じないところはないと思います。これであれば即時にYouTubeの字幕データへの適応もして良いのではないかと考えます。

ver.1.0〜

終わったあと数人で誤認識を修正したものです。全文記録やYouTubeの字幕データとしても活用できる状態のものです。ひとまず表記揺れや誤字脱字などこまかいところはこの後修正していくものとしてきちんとデータとして配布ができる状態のものです。ここから先は字幕ならば視聴者の方にもチェックしてもらいながら修正をしていく運用もできます。

おそらくみなさんver.1.0の状態にしてからYouTubeの字幕のデータに使ったり全文ログの配布などに使ってると思いますが、ver.0.5からver.1.0にするまでに時間がかかったりすると情報提供までが遅れてしまうことになります。「聴いて把握できる軽度の難聴の方」や「視覚優位や字幕があったほうが見やすい方」、単純に聴きづらい環境で字幕が便利に感じる方などへはver.0.5を反映させた字幕でも十分な情報支援だったりします。

イベントでUDトークを運用してver.0.5のデータからver.1.0にするまでになかなか時間が取れない時も、ver.0.5としてアップしておく運用が「スピード感」があって良いのではないかと思います。イベントを開催する方も気分が楽になると思います。

以上、UDトークからのver.0.5の字幕を活用しましょうという提案でした。