無料・オフラインで音声・動画を文字として書き起こす「Vibe」、OpenAIのWhisperを使ってWindows・macOS・Linuxで動作可能でYouTubeにも対応

音声ファイルや動画からの文字起こしはAIによって簡単にできるようになりましたが、文字起こしができるAIをPCにセットアップするのはやや面倒です。オープンソースの文字起こしツールの「Vibe」はWindows・macOS・Linuxであれば誰でも簡単にインストール可能で、NVIDIA・AMD・Apple GPUで実行できるように最適化されています。Vibeを使えば完全にオフラインでの文字起こしが可能で、データがデバイスから外部に漏れることはありません。
Vibe.
https://thewh1teagle.github.io/vibe/
thewh1teagle/vibe: Transcribe on your own!
https://github.com/thewh1teagle/vibe
Vibeは記事作成時点で、バージョン3.0.5がリリースされています。今回はWindows環境にインストールするため、リリースページから「vibe_3.0.5_x64-setup.exe」をダウンロードします。ファイルサイズは約24MBです。

インストーラーを起動。「Next」をクリック。

インストール場所を指定したら「Next」をクリックします。インストールに必要な容量は約86.7MBでした。

インストールが終わったら「Next」をクリックします。

Vibeが起動します。初回起動時は、OpenAIのWhisperのLargeモデル(V3)がダウンロードされます。

起動するとこんな感じ。「Language」で「Japanese」を指定し、「Select File」をクリックして文字起こししたいファイルを選択します。

今回は、以前に朗読した「我輩は猫である」の音声を読み込んでみました。「Transcribe」をクリック。

すると、画面下部に文字起こししたテキストが表示されました。漢字の誤変換はあるものの、文字起こしの精度はほぼ修正がいらないレベル。

テキスト出力欄の左上では「コピー」「保存」「文字」の右寄せを行うことができます。

右上では、出力の形式を選択可能。

選択できるのはテキスト形式のほか、HTML、PDF、DOCX、SRT、VTT、JSONです。

画面左上のケバブアイコンをクリックし「Setting」で、設定を行えます。

設定画面では、文字起こしを行うAIモデルを選択できます。デフォルトではWhisperのLargeモデル(V3)のみがインストールされていますが、別のモデルもダウンロードが可能。「Customize」の欄で、「Download Models」をクリックします。

すると、ウェブブラウザが起動してモデルのダウンロードページにアクセスできました。今回はMediumモデルをダウンロードするため、Mediumモデルの「Magic Setup」をクリックします。

すると、ブラウザから「vibeを開きますか?」と尋ねられるので、「vibeを開く」をクリック。

「モデルをHugging Faceからダウンロードしますか?」と聞かれるので、「はい」をクリックするとモデルのダウンロードが自動的に始まります。

ダウンロードが終了後、プルダウンメニューを見ると、モデルが追加されていました。

また、画面上部のマイクアイコンのタブをクリックすると、リアルタイムで録音して文字起こしすることが可能。マイクとスピーカーの設定を行ったら、「Record and transcribe」をクリック。

マイクで録音した音声が、そのまま文字起こしモードに読み込まれます。

芥川龍之介の「羅生門」の冒頭を読み上げてMediumモデルで文字起こしをしたところがこんな感じ。誤変換はあるものの、ちゃんと文字起こしできているかなという印象。

しかし、芥川龍之介の「歯車」を読み上げたものを録音して文字起こししたところ、なぜか最後に「ありがとうございました」と、一切話していない言葉が勝手についてくることがありました。

画面上部の右にあるクリップアイコンのタブでは、YouTubeの動画やオンライン上の音声ファイルを文字起こしすることができます。利用にはyt-dlpのインストールが必要ですが、初回起動時に自動でインストールされました。使い方は簡単で、文字起こししたいURLを入力欄に貼り付けて、「Download and transcribe」をクリックするだけ。なお、今回読み込んだ動画はこれ。

音声ファイルがyt-dlpによって自動的にダウンロードされ、文字起こしが行われました。

・関連記事
ウェブブラウザのみで無料の録音・文字起こしができる「EasyRec.app」を使ってみた - GIGAZINE
OpenAIが日本語にも対応した音声文字起こしモデルやテキスト読み上げモデルをリリース、無料で読み上げモデルを試せるデモも登場したので使ってみた - GIGAZINE
無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた - GIGAZINE
無料&セルフホスト可能なブラウザ上で操作できる文字起こしツール「Transcription Stream」レビュー - GIGAZINE
Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた - GIGAZINE
無料で使えるChatGPT公式のiOSアプリ登場、文字起こしAIのWhisperで音声入力も可能 - GIGAZINE
文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK - GIGAZINE
・関連コンテンツ
in AI, ソフトウェア, レビュー, Posted by log1i_yk
You can read the machine translated English article 'Vibe' is a free, offline audio and vide….







