2025年07月31日 08時00分レビュー

無料・オフラインで音声・動画を文字として書き起こす「Vibe」、OpenAIのWhisperを使ってWindows・macOS・Linuxで動作可能でYouTubeにも対応

音声ファイルや動画からの文字起こしはAIによって簡単にできるようになりましたが、文字起こしができるAIをPCにセットアップするのはやや面倒です。オープンソースの文字起こしツールの「Vibe」はWindows・macOS・Linuxであれば誰でも簡単にインストール可能で、NVIDIA・AMD・Apple GPUで実行できるように最適化されています。Vibeを使えば完全にオフラインでの文字起こしが可能で、データがデバイスから外部に漏れることはありません。

Vibe.
https://thewh1teagle.github.io/vibe/

thewh1teagle/vibe: Transcribe on your own!
https://github.com/thewh1teagle/vibe

Vibeは記事作成時点で、バージョン3.0.5がリリースされています。今回はWindows環境にインストールするため、リリースページから「vibe_3.0.5_x64-setup.exe」をダウンロードします。ファイルサイズは約24MBです。

インストーラーを起動。「Next」をクリック。

インストール場所を指定したら「Next」をクリックします。インストールに必要な容量は約86.7MBでした。

インストールが終わったら「Next」をクリックします。

Vibeが起動します。初回起動時は、OpenAIのWhisperのLargeモデル(V3)がダウンロードされます。

起動するとこんな感じ。「Language」で「Japanese」を指定し、「Select File」をクリックして文字起こししたいファイルを選択します。

今回は、以前に朗読した「我輩は猫である」の音声を読み込んでみました。「Transcribe」をクリック。

すると、画面下部に文字起こししたテキストが表示されました。漢字の誤変換はあるものの、文字起こしの精度はほぼ修正がいらないレベル。

テキスト出力欄の左上では「コピー」「保存」「文字」の右寄せを行うことができます。

右上では、出力の形式を選択可能。

選択できるのはテキスト形式のほか、HTML、PDF、DOCX、SRT、VTT、JSONです。

画面左上のケバブアイコンをクリックし「Setting」で、設定を行えます。

設定画面では、文字起こしを行うAIモデルを選択できます。デフォルトではWhisperのLargeモデル(V3)のみがインストールされていますが、別のモデルもダウンロードが可能。「Customize」の欄で、「Download Models」をクリックします。

すると、ウェブブラウザが起動してモデルのダウンロードページにアクセスできました。今回はMediumモデルをダウンロードするため、Mediumモデルの「Magic Setup」をクリックします。

すると、ブラウザから「vibeを開きますか？」と尋ねられるので、「vibeを開く」をクリック。

「モデルをHugging Faceからダウンロードしますか？」と聞かれるので、「はい」をクリックするとモデルのダウンロードが自動的に始まります。

ダウンロードが終了後、プルダウンメニューを見ると、モデルが追加されていました。

また、画面上部のマイクアイコンのタブをクリックすると、リアルタイムで録音して文字起こしすることが可能。マイクとスピーカーの設定を行ったら、「Record and transcribe」をクリック。

マイクで録音した音声が、そのまま文字起こしモードに読み込まれます。

芥川龍之介の「羅生門」の冒頭を読み上げてMediumモデルで文字起こしをしたところがこんな感じ。誤変換はあるものの、ちゃんと文字起こしできているかなという印象。

しかし、芥川龍之介の「歯車」を読み上げたものを録音して文字起こししたところ、なぜか最後に「ありがとうございました」と、一切話していない言葉が勝手についてくることがありました。

画面上部の右にあるクリップアイコンのタブでは、YouTubeの動画やオンライン上の音声ファイルを文字起こしすることができます。利用にはyt-dlpのインストールが必要ですが、初回起動時に自動でインストールされました。使い方は簡単で、文字起こししたいURLを入力欄に貼り付けて、「Download and transcribe」をクリックするだけ。なお、今回読み込んだ動画はこれ。