KIHARA BLOG:社内ラズコンでめざせ優勝!

Raspberry Pi(ラズパイ)で機械学習とか音声認識とか姿勢推定とかしながら組み込みシステムを構築して、社内ラズコンで優勝をめざすブログです。勉強中:Raspberry Pi、Linux、Python、Coral EdgeTPU、PoseNet、Julius

Streamの自動字幕機能を使って操作手順や思考を文字化する

仕事で、ベテランの方がテストする時のノウハウ(操作手順や考え方)をまとめることになりまして。
テスト後にヒアリングしてもなかなかよいデータを得られないため、実際のテストに参加させてもらってどうにかノウハウを可視化させよう、ということになりました。 ところが、テストしている横でパチパチPC打つわけにいかん。(テストの邪魔だし手が追いつかない)
Microsoft Office Streamを使ってはどうか」と上司から提案いただいたので、検証してみました。

Streamとは

公式サイトより

Microsoft Stream は、組織内のユーザーがビデオを安全にアップロード、表示、および共有できるエンタープライズビデオサービスです。授業、会議、プレゼンテーション、トレーニング セッション等の録画や、チームのコラボレーションを促進するその他の動画を共有できます。 また、Microsoft Stream を使用すると、ビデオのコメントを共有したり、コメントや説明のタグタイムコードを使用したりすることが簡単になります。ビデオの特定のポイントを参照し、同僚と話し合うことができます。

というわけで、Teams会議で録画した動画を共有したり、研修の様子を撮影して配信したりできます。

トランススクリプト(自動字幕機能)

StreamやTeams動画にはトランススクリプトと呼ばれる自動字幕機能がついていて、なんと話した言葉を自動で文字化してくれます。当初は英語とスペイン語のみ対応でしたが、2019年下期ごろに日本語にも対応されたようです。
support.office.com

試しに使ってみた

ライブ配信でトランススクリプトを使う

イベントの作成画面で2か所設定するだけ。

  • [詳細]タブ>[動画の言語]を「日本語」に設定
  • [オプション]タブ>[キャプション]の「字幕ファイルの自動生成」にチェック

f:id:KIHARA0223:20200112234901p:plain

イベント終了後の動画を再生してみると、きちんと音声が文字化されていました。適当に思いついた言葉を口にしたのですが、「大根の味噌汁」とか笑い声「ハハハ」までかなり正確に文字化できています。
f:id:KIHARA0223:20200112235220p:plain

動画をアップロードしてトランススクリプトを使う

ライブ配信以外に、アップロードした動画にトランススクリプトを付けることができます。
こちらもアップロード設定画面で2か所設定するだけ。

  • [詳細]タブ>[動画の言語]を「日本語」に設定
  • [オプション]タブ>[キャプション]の「字幕ファイルの自動生成」にチェック

f:id:KIHARA0223:20200112235700p:plain

動画を再生してみると、こちらもかなり正確に文字化できていました。 f:id:KIHARA0223:20200112235713p:plain

トランスクリプト(字幕)を編集する

ボタンを押すと、字幕を編集することができます。この時、自動で対象の再生位置をサーチしてくれるという親切ぶり。わざわざ自分でサーチして再生しながら直す、といった手間がかかりません。便利!

トランススクリプト(字幕)をダウンロードする

動画の編集画面から字幕ファイルをダウンロードすることもできます。 f:id:KIHARA0223:20200113000157p:plain

ダウンロードできるのは WebVTT ファイルと呼ばれるデータフォーマットで、字幕と字幕の時間が記載されています。テキストエディタWebブラウザで表示できるので、加工しやすそう。これも便利!

まとめ

Stream機能について調べましたが、動画内の音声を文字化する点ではかなり高精度&便利だということが分かりました。
あとはテスターの方に、思考発話法で操作や考えたことを口に出してもらえば、ノウハウの可視化が効率的に行えそうです。