Whisper　高速化したfaster-whisperを簡単に動かしてみる

2023年3月25日

2024年1月18日

Whisper　音声・動画の自動書き起こしAIを無料で、簡単に使おうの記事を紹介していましたが、高速化された「Faster-Whisper」が公開されていましたので、Google Colaboratoryで実装していきます。

また、「large-v2」と言うアップデートされたモデルが提供されていました。
こちらも合わせて使用してみたいと思います。

Faster-Whisper
1. Large-v2 model on GPU
Fast-Whisperの実装
Fast-Whisperで字幕ファイルを作成する

Faster-Whisper

これまでのWhisperとの違いを記載していきたいと思います。
Faster-Whisperから引用します。

faster-whisper is a reimplementation of OpenAI's Whisper model using CTranslate2, which is a fast inference engine for Transformer models.

This implementation is up to 4 times faster than openai/whisper for the same accuracy while using less memory. The efficiency can be further improved with 8-bit quantization on both CPU and GPU.

faster-whisperは、OpenAIのWhisperモデルを、Transformerモデルの高速推論エンジンであるCTranslate2を使って再実装したものです。

この実装は、同じ精度でopenai/whisperより最大4倍高速で、かつ少ないメモリしか使用しません。CPUとGPUの両方で8ビット量子化を行うことで、さらに効率を向上させることができます。

Large-v2 model on GPU

Implementation	Precision	Beam size	Time	Max. GPU memory	Max. CPU memory
openai/whisper	fp16	5	4m30s	11325MB	9439MB
faster-whisper	fp16	5	54s	4755MB	3244MB

CTranslate2と言う高速推論エンジンで変換したモデルを実装することで、
処理速度が約4倍に早くなって、メモリーの使用率は約1/3になったみたいです。

Fast-Whisperの実装

最初に、「編集」→「ノートブックの設定」から、
ハードウェアアクセラレートを「GPU」に設定しましょう。

以下のコマンドを入力し、Shift+Enterを押して実行しましょう。
GPUの情報が出てくれば、正常に設定変更できています。

!nvidia-smi

続けてコードを記載してきます。
これまでのWhisperの使用方法については、Whisper　音声・動画の自動書き起こしAIを無料で、簡単に使おうを参照ください。

!pip install git+https://github.com/guillaumekln/faster-whisper.git
!apt install libcublas11

from faster_whisper import WhisperModel

model_size = "large-v2"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")

# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

以前のCHATGPT + SHOTCUT　半自動で動画を作成してみようの記事で使用した動画を用います。

! pip install yt-dlp
! rm input.mp3 
! yt-dlp -x --audio-format mp3 https://youtu.be/1XQVbMz4j-0 -o "input.mp3"

segments, info = model.transcribe("input.mp3", beam_size=5)

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

うん、早いぞ。
これまでのWhisperとは出力結果の吐き方が異なるのかな？（要勉強です…）

Fast-Whisperで字幕ファイルを作成する

コードのみ備忘録として記載しておきます。

!pip install git+https://github.com/guillaumekln/faster-whisper.git
!apt install libcublas11

from faster_whisper import WhisperModel

model_size = "large-v2"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")

# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("input.mp3", beam_size=5)

! pip install srt

from datetime import timedelta
from srt import Subtitle
import srt


subs = []
 
for data in segments:
    index = data.id + 1
    start = data.start
    end = data.end
    text = data.text
    sub = Subtitle(index=1, start=timedelta(
                            seconds=timedelta(seconds=start).seconds,
                            microseconds=timedelta(seconds=start).microseconds),
                            end=timedelta(
                            seconds=timedelta(seconds=end).seconds,
                            microseconds=timedelta(seconds=end).microseconds),
                            content=text, proprietary='')
 
    subs.append(sub)

with open("test.srt", mode="w", encoding="utf-8") as f:
    f.write(srt.compose(subs))

!cat test.srt

Fast-Whisperは、WhisperModel(“large-v2”)のようなモデルを読み込む場合、対応するCTranslate2モデルはHugging Face Hubから自動的にダウンロードしているとのことです。

もし変換したCTranslate2モデルが手元に欲しい場合は、以下のコマンドで作成することが可能です。
実行後「whisper-large-v2-ct2」フォルダに変換されたモデルが作成されます。

!pip install git+https://github.com/guillaumekln/faster-whisper.git
!pip install transformers

!ct2-transformers-converter --model openai/whisper-large-v2 --output_dir whisper-large-v2-ct2 --quantization float16 --low_cpu_mem_usage
# !ct2-transformers-converter --model openai/whisper-large-v2 --output_dir whisper-large-v2-ct2 --quantization int8_float16 --low_cpu_mem_usage
# !ct2-transformers-converter --model openai/whisper-large-v2 --output_dir whisper-large-v2-ct2 --quantization int8 --low_cpu_mem_usage

この変換したモデルを用いてfast-whisperを動かす場合、「model_size」を作成されたフォルダのパスに変更するだけでOKです。

!pip install git+https://github.com/guillaumekln/faster-whisper.git

from faster_whisper import WhisperModel

# 変換されたモデルの格納されたフォルダを指定する
model_size = "whisper-large-v2-ct2/"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")

# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

以後は、先ほどと同じになりますので、省略します。

確かに早いですしメモリの使用量が少ないので、ローカルで動かすことを考えると便利です。
ひとまず、ここまで。

この記事の投稿者最新記事

kaji0620

中国発のLLM Xwin-LM　ローカル環境で動かしてみた 2023年10月31日
Python　PDFファイルをテキストファイルに変換してみる 2023年7月2日
Rinna社の日本語特化GPT言語モデル　Google Colabの無料枠で動かしてみた　 2023年7月2日
ReazonSpeech　日本語に適した音声認識モデル・自動書き起こしAIを試してみた 2023年4月30日
Dolly 2.0 + Hugging Face + googletrans　LLMを翻訳機能と合わせてみた 2023年4月22日

7件のコメント

ay 2023年6月6日返信

こんにちは。
とても有用な記事ありがとうございます！

質問なのですが、以下を実行したところ、https://huggingface.coに接続できないという旨のエラーが出てしまいました。

ct2-transformers-converter –model openai/whisper-large-v2 –output_dir whisper-large-v2-ct2 –quantization float16

原因は社内環境のため、外部にアクセスできないからなのですが、この変換作業をローカルで実行する方法はありますか？
必要なファイル等は、ネットワーク環境から移動して持って来ることが出来ます。
kaji0620 2023年6月6日返信

コメントありがとうございます。
私も勉強中の身で、正しい回答となっているか不安なところがありますが、

①Whisperの実行をローカル環境で実行できれば良い、と言うことであれば、
変換作業をGoogle colaboratory等の環境で実行してしまい、
変換されたモデルをダウンロード、ローカル環境にコピーしてしまう、のが良いかと思います。
（USBメモリ等に入れられる程度と思いますので）

②変換作業そのものをローカルで実行したい場合、下記のURL
https://github.com/guillaumekln/faster-whisper
にて、「–model」オプションに直接モデルのパスを入力することも可能との記載がありました。
「The option –model accepts a model name on the Hub or a path to a model directory.」

本家のモデルをダウンロードし、ローカルにコピーして、
その後、「–model」オプションで、保存したディレクトリを指定して実行することで可能かと思います。
（実際に試していないので、推測のお話となること、ご了承ください）

お役に立てれば幸いです。
もし、結果等が分かりましたら、お知らせ頂けると嬉しいです。
ay 2023年6月7日返信

ご回答ありがとうございます！
Googleコラボは社内からは利用出来ないので、②の方法で実施してみようと思います。
本家のモデルはどこからダウンロード出きるのでしょうか？
kaji0620 2023年6月7日返信

①本家のWhisperのモデルは下記のリンクからダウンロードできます。
https://huggingface.co/openai/whisper-large-v2/tree/main
ただ、サイズの大きいファイルが3つほどあるので、
どのファイルをどのように格納すれば良いのか、勉強不足のためやってみないと分かりません。
②一方で、既に変換済みのモデルは、下記のリンクからダウンロードできそうです。
https://huggingface.co/guillaumekln/faster-whisper-large-v2/tree/main
変換作業を飛ばしてFaster-Whisperをとりあえず動かせれば良い場合は、
こちらからダウンロードして実行できそうです。
（こちらも実際に実行していないので、やってみないと分からないのが実情です・・・）
お役に立つ情報になっていれば幸いです。
- ay 2023年6月9日返信
  
  ありがとうございます！
  試してみたいと思います！
- ay 2023年6月19日返信
  
  時間が出来たので試してみました。
  ②の既に変換済みのモデルでうまくいきました！
  ありがとうございます！
  
  ただ、CPUだけだとやはりそんなに速くはないみたいですねー。
  - kaji0620 2023年6月20日返信
    
    ご連絡ありがとうございます！まずは動いてよかったです！！
    最近オープンソースのAIがたくさん出てきているのですが、GoogleColabで動かせないケースが多く、GPUを多めにした環境を整えようかと検討中です。しかし、予算が…と動けずにいます。
    良き方法があれば、載せていきますので、引き続きよろしくお願いします！

副業を始めるおじさんの記録

Whisper　高速化したfaster-whisperを簡単に動かしてみる

Faster-Whisper

Large-v2 model on GPU

Fast-Whisperの実装

Fast-Whisperで字幕ファイルを作成する

7件のコメント

コメントするコメントをキャンセル

Whisper 高速化したfaster-whisperを簡単に動かしてみる

Faster-Whisper

Large-v2 model on GPU

Fast-Whisperの実装

Fast-Whisperで字幕ファイルを作成する

7件のコメント

コメントする コメントをキャンセル

Whisper　高速化したfaster-whisperを簡単に動かしてみる

コメントするコメントをキャンセル