AI 31 10月 2023 中国発のLLM Xwin-LM ローカル環境で動かしてみた 2023年9月にOpenAIの生成AI「GPT-4」を上回る性能をうたってリリースされたXwin-LM。中国科学院や清華大学の研究者らが開発したようです。ロゴ格好よし。 GitHub、Hugging Face上で公開されているので、実際に使って試してみました。 Google Colabolatory… 続きを読む
AI 2 7月 2023 Rinna社の日本語特化GPT言語モデル Google Colabの無料枠で動かしてみた 久しく更新できていませんでした。 2023年5月にRinna社が公開した日本語に特化した36億パラメータを持つ対話GPT言語モデルを実行して行きます。GPUメモリサイズに応じて、model読み込みのオプション変更できるようです。 指定なし torch_dtype=torch.float16 load… 続きを読む
AI 30 4月 2023 ReazonSpeech 日本語に適した音声認識モデル・自動書き起こしAIを試してみた Whisperについて、高速化したfast-whisperについては、過去に記事を書いてきました。 今回は、ReazonSpeech(約19,000時間の放送音声からなるラベル付き日本語音声コーパス)を用いて文字起こしをして行きたいと思います。 ちなみに、精度に関してはWhisper Large-v… 続きを読む
AI 22 4月 2023 Dolly 2.0 + Hugging Face + googletrans LLMを翻訳機能と合わせてみた 前回の記事で、Dolly2.0が日本語を入力してもうまく応答してくれませんでした。Google翻訳の機能と合わせて応答の精度が向上するのか、試してみたいと思います。 (さらに…)… 続きを読む
AI 16 4月 2023 Dolly 2.0 + Hugging Face オープンソース+商用利用可能なLLM(Language Large Model)を試してみる オープンソースの商用利用可能なLLMのDolly 2.0が公開されましたので、Google Colaboratoryを使用して実際に試していこうと思います。Hugging Faceを通して公開されているため、簡単に使用することができます。 (さらに…)… 続きを読む
AI 25 3月 2023 Whisper 高速化したfaster-whisperを簡単に動かしてみる Whisper 音声・動画の自動書き起こしAIを無料で、簡単に使おうの記事を紹介していましたが、高速化された「Faster-Whisper」が公開されていましたので、Google Colaboratoryで実装していきます。 また、「large-v2」と言うアップデートされたモデルが提供されていまし… 続きを読む
AI 21 3月 2023 Stable Diffusion + Hugging Face 自動お絵かきAI 上手な使い方 以前にSTABLE DIFFUSION + HUGGING FACE 自動お絵かきAI 簡単に使ってみたの記事を書きましたが、いまいちプロンプト(絵を作成するときの文字)作成が難しいです。今回、多少、上手に作成するためのコツが少し分かったので、説明していこうと思います。 また、生成した画像の背景除去… 続きを読む
AI 19 3月 2023 ChatGPT + Shotcut 半自動で動画を作成してみよう 昨今話題のChatGPTを用いて、ほぼ自動で動画を作成してもらおう、と言うのが目標です。過去に記載した内容を踏まえて進めて行くと、以下の流れになります。()内は、参考となる過去の記事へのリンクです。 自動で台本をAIに作成してもらい(ChatGPT 上手な使い方) ナレーションの音声もAIに作成して… 続きを読む
AI 18 3月 2023 Stable Diffusion (img2img) + Hugging Face 画像を元に自動お絵かきAI 簡単に使ってみた 前回は、文字(prompt)を元にした自動お絵かきAIの記事を書きました。今回は、画像を元にした自動お絵かきAI(img2img)の記事を書きたい思います。 前回の記事の中から、必要な部分のみ再度記述して、画像を元にした自動お絵かきAI(img2img)の手順について書いていきます。 (さらに&he… 続きを読む
AI 13 3月 2023 pyopenjtalk , Tacotron2 , gTTS 音声合成AIを簡単に使ってみた 今回は、Whisper(音声・動画の自動書き起こしAI)とは逆に、文章から音声を作成する合成音声AIを使ってみました。 2つのライブラリを使用して、比較もしてみました。 pyopenjtalk : OpenJTalkをベースとしたテキスト処理フロントエンド まさにAIが話していると分か… 続きを読む