Whisper + ChatGPT 簡単に書き起こし・要約
2023年3月6日
2023年7月16日
Whisperを使用した音声・動画の自動書き起こしについて、記載しました。
また、ChatGPTについても、記載しました。
この2つを用いて、文字起こし+要約までを実践したいと思います。
Whisperで文字起こし
以前の記事でも記載した方法で、まず、文字起こしを行います。
同じく、ひろゆきさんの動画を、サンプルとして取り扱います。
https://youtu.be/u9eXBAnETVI
Google Colaboratoryにて、以下のコードを実行します。
詳しい方法については、こちらを参考にしてください。
最初に、「編集」→「ノートブックの設定」から、
ハードウェアアクセラレートを「GPU」に設定しましょう。
以下のコマンドを入力し、Shift+Enterを押して実行しましょう。
GPUの情報が出てくれば、正常に設定変更できています。
!nvidia-smi
今回は、IDや時間は出力せず、文章だけ出力させています。
! pip install git+https://github.com/openai/whisper.git
import whisper
model = whisper.load_model("large")
! pip install yt-dlp
! rm input.mp3
! yt-dlp -x --audio-format mp3 https://youtu.be/u9eXBAnETVI -o "input.mp3"
result = model.transcribe("input.mp3")
#result = model.transcribe("input.mp3", verbose=True)
#import pandas as pd
#pd.DataFrame(result["segments"])[["text"]]
segments = result["segments"]
for data in segments:
print(data["text"])
以下の文章が出力されるはずです。
次は文章をコピーして、ChatGPTで要約してもらいましょう。
ChatGPTで要約
文字起こしされた文章を、ChatGPTに投げ込んで、要約してもらいます。
一部の表現に対して、ChatGPTから注意書きが出てきました。文章の内容まで判断していることが分かります。
「以下の文章を要約して」
ちゃんと要約されて出てきました。
Whisperでは、modelでlargeを使用した場合、
すでに”ケバ取り”(あー、えー、などの取り除き)は、ほぼ済んだ状態で出力されています。
さらにChatGPTを使えば、出力された文章を的確に要約してもらうことができます。
非常に強力な組み合わせです。副業の際には、活用していきたいと思います。