Whisper + ChatGPT 簡単に書き起こし・要約

Whisperを使用した音声・動画の自動書き起こしについて、記載しました。
また、ChatGPTについても、記載しました。

この2つを用いて、文字起こし+要約までを実践したいと思います。

Whisperで文字起こし

以前の記事でも記載した方法で、まず、文字起こしを行います。

同じく、ひろゆきさんの動画を、サンプルとして取り扱います。
https://youtu.be/u9eXBAnETVI

Google Colaboratoryにて、以下のコードを実行します。
詳しい方法については、こちらを参考にしてください。

最初に、「編集」→「ノートブックの設定」から、
ハードウェアアクセラレートを「GPU」に設定しましょう。

以下のコマンドを入力し、Shift+Enterを押して実行しましょう。
GPUの情報が出てくれば、正常に設定変更できています。

!nvidia-smi

今回は、IDや時間は出力せず、文章だけ出力させています。

! pip install git+https://github.com/openai/whisper.git
import whisper
model = whisper.load_model("large")
! pip install yt-dlp
! rm input.mp3 
! yt-dlp -x --audio-format mp3 https://youtu.be/u9eXBAnETVI -o "input.mp3"
result = model.transcribe("input.mp3")
#result = model.transcribe("input.mp3", verbose=True)
#import pandas as pd
#pd.DataFrame(result["segments"])[["text"]]

segments = result["segments"]

for data in segments:
   print(data["text"])

以下の文章が出力されるはずです。

次は文章をコピーして、ChatGPTで要約してもらいましょう。


ChatGPTで要約

文字起こしされた文章を、ChatGPTに投げ込んで、要約してもらいます。
一部の表現に対して、ChatGPTから注意書きが出てきました。文章の内容まで判断していることが分かります。

「以下の文章を要約して」

ちゃんと要約されて出てきました。


Whisperでは、modelでlargeを使用した場合、
すでに”ケバ取り”(あー、えー、などの取り除き)は、ほぼ済んだ状態で出力されています。

さらにChatGPTを使えば、出力された文章を的確に要約してもらうことができます。

非常に強力な組み合わせです。副業の際には、活用していきたいと思います。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

eleven − 10 =