Whisper + ChatGPT　簡単に書き起こし・要約

この2つを用いて、文字起こし＋要約までを実践したいと思います。

Whisperで文字起こし

以前の記事でも記載した方法で、まず、文字起こしを行います。

同じく、ひろゆきさんの動画を、サンプルとして取り扱います。
https://youtu.be/u9eXBAnETVI

Google Colaboratoryにて、以下のコードを実行します。
詳しい方法については、こちらを参考にしてください。

最初に、「編集」→「ノートブックの設定」から、
ハードウェアアクセラレートを「GPU」に設定しましょう。

以下のコマンドを入力し、Shift+Enterを押して実行しましょう。
GPUの情報が出てくれば、正常に設定変更できています。

!nvidia-smi

今回は、IDや時間は出力せず、文章だけ出力させています。

! pip install git+https://github.com/openai/whisper.git
import whisper
model = whisper.load_model("large")

! pip install yt-dlp
! rm input.mp3 
! yt-dlp -x --audio-format mp3 https://youtu.be/u9eXBAnETVI -o "input.mp3"

result = model.transcribe("input.mp3")
#result = model.transcribe("input.mp3", verbose=True)

#import pandas as pd
#pd.DataFrame(result["segments"])[["text"]]

segments = result["segments"]

for data in segments:
   print(data["text"])

以下の文章が出力されるはずです。

次は文章をコピーして、ChatGPTで要約してもらいましょう。

文字起こしされた文章を、ChatGPTに投げ込んで、要約してもらいます。
一部の表現に対して、ChatGPTから注意書きが出てきました。文章の内容まで判断していることが分かります。

「以下の文章を要約して」

ちゃんと要約されて出てきました。

Whisperでは、modelでlargeを使用した場合、
すでに”ケバ取り”（あー、えー、などの取り除き）は、ほぼ済んだ状態で出力されています。

さらにChatGPTを使えば、出力された文章を的確に要約してもらうことができます。

非常に強力な組み合わせです。副業の際には、活用していきたいと思います。