【トピック】音声合成とリアルタイム字幕でYouTube配信を!

12月22日の「シビックテック 2022年振り返り!そして2023年へ」の配信で設定をミスったので備忘録としてまとめておきます。かなり攻めた設定ですが、これで今回の出演者のPenさんの様に発話が難しい方もUDトークを使って音声合成でYouTubeの配信にのせることができます。その文字は他の出演者の音声認識字幕と同じ様に流れるので文字でも見れるし翻訳もできます。

ではポイントを紹介していきます。

やりたいのは「音声合成の音は音声認識させたくない」と言うことです。そこで左側の①のPCですが、iRig2を使って入力には音声合成の音を、出力を音声認識用にしています。こうすることでこのPCのZoomからは音声合成の音「以外」が出力されるのでそれを音声認識させることになります(Zoomは自分が喋ってる声はスピーカーからは聞こえないですよね、それを利用)。

音声合成用のUDトークは読み上げ設定で「キーボード入力のみ読み上げる」をオンにします。まさにこれがこのために作った機能です。音声認識の結果は音声合成されません。

あとはいつも通りZoomの画面とウェブで公開を並べたPCの画面と音をHDMIでキャプチャしてOBSでYouTubeに配信と言う流れです。②のPCからは話者の声と音声合成の音が流れてきます。

③のPCでそれぞれがZoomに参加することで青木と小泉さんと佐藤さんの声は音声認識用UDトークで音声認識します。PenさんがUDトークのPC版で打ったり事前原稿を送出したものは音声合成用UDトークで読み上げてくれます。

これで昨日の音声合成付きリアルタイム字幕配信の仕組みが出来上がりです。配信側はPCは4台使いますが、①と③は別のところで動かしても大丈夫です(有線接続ではないので)。

発話が難しい人も参加できて字幕付きの配信ができるこの攻めたシステム。ぜひやってみてください。