Whisper + ChatGPT + HandBrake　字幕付き動画を簡単に作成

以前に、Whisperを使った字幕ファイルの作成を紹介しました。

そこで、以下の2つのフリーソフトを使用して実際に動画に埋め込む作業をしたいと思います。

無料字幕制作ソフト「Subtitle Edit」
オープンソースで開発されている動画変換ソフト「HandBrake」

Subtitle Editは、字幕ファイルの修正・調整をする専用のソフトです。
このソフトだけでは、動画への字幕の合成はできません。

HandBrakeは、この修正・調整した字幕ファイルを動画へ合成するのに使用します。

※別のフリーの動画変換ソフト「MediaCoder」で字幕の合成を試したのですが、
　字幕が早く消えたり抜けたりと、うまく行きませんでした。参考までに。

動画ファイルを準備する
Whisperで字幕ファイルを作成する
英語の字幕ファイルを翻訳する
字幕ファイルの調整・修正（Subtitle Edit）
1. 全体設定
2. 個別設定
字幕ファイルの合成（HandBrake）

動画ファイルを準備する

最初に、元となる動画ファイルを準備します。

色々とネット上を探して、やっと見つけた以下の動画にしました。
著作権フリーと記載されていたので、お言葉に甘えさせて頂きます。
https://youtu.be/686es9zYF04

Whisperで字幕ファイルを作成する

Whisperを使った字幕ファイルの作成を参考に、字幕ファイルを作成します。

最初に、「編集」→「ノートブックの設定」から、
ハードウェアアクセラレートを「GPU」に設定しましょう。

以下のコマンドを入力し、Shift+Enterを押して実行しましょう。
GPUの情報が出てくれば、正常に設定変更できています。

!nvidia-smi

さて、ソースを書いていくことにします。

! pip install git+https://github.com/nyanta012/whisper.git
import whisper
model = whisper.load_model("large")

! pip install yt-dlp
! rm input.mp3 
! yt-dlp -x --audio-format mp3 https://youtu.be/686es9zYF04 -o "input.mp3"
! yt-dlp --recode-video mp4 https://youtu.be/686es9zYF04 -o "input.mp4"

# 出力される1文の長さの調整（デフォルト＝1.0）
slr = 0.3

result = model.transcribe("input.mp3", segment_length_ratio=float(slr))
#result = model.transcribe("input.mp3", segment_length_ratio=float(slr), verbose=True)

#import pandas as pd
#pd.DataFrame(result["segments"])[["id", "start", "end", "text"]]

! pip install srt

from datetime import timedelta
from srt import Subtitle
import srt

segments = result["segments"]

subs = []
 
for data in segments:
    index = data["id"] + 1
    start = data["start"]
    end = data["end"]
    text = data["text"]
    sub = Subtitle(index=1, start=timedelta(
                            seconds=timedelta(seconds=start).seconds,
                            microseconds=timedelta(seconds=start).microseconds),
                            end=timedelta(
                            seconds=timedelta(seconds=end).seconds,
                            microseconds=timedelta(seconds=end).microseconds),
                            content=text, proprietary='')
 
    subs.append(sub)

with open("test.srt", mode="w", encoding="utf-8") as f:
    f.write(srt.compose(subs))

!cat test.srt

以下のファイルが作成されれば完了です。

途中、動画ファイルを「input.mp4」で取得していますので、
ファイル名を右クリック→ダウンロードしておきましょう。

英語の字幕ファイルを翻訳する

日本語の動画であれば必要ない作業ですが、適当な素材が見つからなかったため、
今回は翻訳作業が必要となります。

ChatGPTの始め方の記事を参考に、翻訳しましょう。

※長くて途中で出力結果が切れてしまうので、2回に分けて翻訳してもらいました。
　また、続けて入力すると、1回目の翻訳の影響を変に受けてしまったので、
　2回目の翻訳の前に「New Chat」をして初期化しました。

できました。念のため、全出力結果も以下に記載しておきます。「test_ja.srt」とします。

1
00:00:00,000 --> 00:00:03,360
第1章　ウサギの穴の中へ

2
00:00:03,360 --> 00:00:10,960
アリスは姉の傍らに座って何もすることがなく、とても退屈していた。

3
00:00:10,960 --> 00:00:18,960
数回、姉の読んでいる本を覗き込んでみたが、絵や話は何一つなかった。

4
00:00:18,960 --> 00:00:25,200
アリスは、絵や話のない本なんて、何の役に立つのかと思った。

5
00:00:25,200 --> 00:00:33,600
暑い日だったため、アリスはとても眠くて愚かな状態で、自分なりに考えていた。

6
00:00:33,600 --> 00:00:39,600
ヒナギクの鎖を作る楽しみが、立ち上がってヒナギクを摘む手間をする価値があるかどうかを検討していた。

7
00:00:39,600 --> 00:00:44,600
すると、突然ピンク色の目をした白いウサギが近くを走っていくのが見えた。

8
00:00:44,600 --> 00:00:51,400
それはあまりにも珍しいことではなく、アリスもそれほど変に思わなかったが、

9
00:00:51,400 --> 00:00:57,000
ウサギが自分で言ったのを聞いて、ああ、ああ、遅れてしまうと言ったのを聞いたのでした。

10
00:00:57,000 --> 00:01:03,400
後で彼女がそれを考えたとき、彼女はこれに驚くべきだったと思いました。

11
00:01:03,400 --> 00:01:07,200
しかし、当時はそれがすべて自然に思えました。

12
00:01:07,200 --> 00:01:14,600
しかし、ウサギが実際にウエストコートのポケットから時計を取り出して見て、そして急いで去ったとき、

13
00:01:14,600 --> 00:01:25,400
アリスは驚いて立ち上がり、ウサギがウエストコートのポケットやそれから取り出す時計を持っているウサギを以前に見たことがないということが彼女の頭をよぎりました。

14
00:01:25,400 --> 00:01:29,600
そして好奇心に燃えながら、彼女はそれに続いてフィールドを走りました。

15
00:01:29,600 --> 00:01:36,600
そして幸いなことに、彼女はヘッジの下の大きなウサギの穴に飛び込むときにちょうど間に合いました。

16
00:01:36,600 --> 00:01:39,800
もう一瞬で、アリスはその後ろに飛び込んで、

17
00:01:39,800 --> 00:01:44,600
再び世界から出る方法を一度も考えずにいます。