ソフトウェア

FFmpegに「OpenAIのWhisperを用いた文字起こし機能」が追加される予定


マルチメディアツールの「FFmpeg」にOpenAIの文字起こしAI「Whisper」を用いた文字起こし機能が追加されることが明らかになりました。記事作成時点ではFFmpeg 8.0のリリースが準備中の段階で、文字起こし機能もFFmpeg 8.0に含まれる予定です。

[FFmpeg-devel] [PATCH] Whisper audio filter
https://ffmpeg.org/pipermail/ffmpeg-devel/2025-July/346391.html

FFmpeg 8.0 Merges OpenAI Whisper Filter For Automatic Speech Recognition - Phoronix
https://www.phoronix.com/news/FFmpeg-Lands-Whisper

FFmpegはオープンソースで開発されているマルチメディアツールで、「動画や音声のエンコード・デコード」「動画から指定範囲を切り出し」「連番画像から動画を作成」といった多種多様な機能を備えています。FFmpegは単体のコマンドラインツールとして利用できるほか、各種アプリやウェブサービスの内部でも動作しており、多くの人が直接的もしくは間接的にFFmpegの恩恵を受けています。


そんなFFmpegにOpenAIのWhisperを用いた文字起こし機能が追加されることが明らかになりました。Whisperは日本語にも対応した文字起こしAIで、録音ファイルを読み込ませるだけでかなり高精度な文字起こしが可能。Whisperのモデルデータは無料で公開されており、PCにダウンロードしてローカル実行することもできます。

無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE


FFmpegに追加される文字起こし機能は、「--enable-whisper」というオプションを指定してビルドすることで利用可能になります。この際、Whisperを各種アプリで使えるようにするライブラリ「whisper.cpp」をPC内に準備しておく必要があります。

文字起こし機能はJSONファイルやSRTファイルへの出力に対応しているほか、GPUアクセラレーションにも対応しています。FFmpegの文字起こし機能に関するコードは以下のリンク先で確認できます。

git.ffmpeg.org Git - ffmpeg.git/commit
https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b


また、文字起こし機能のパッチ制作者であるVittorio Palmisano氏による使い方解説記事が以下のリンク先で公開されています。

Run Whisper audio transcriptions with one FFmpeg command | by Vittorio Palmisano | Jun, 2025 | Medium
https://medium.com/@vpalmisano/run-whisper-audio-transcriptions-with-one-ffmpeg-command-c6ecda51901f


記事作成時点ではFFmpeg 8.0のリリースに向けた準備が進んでいる段階で、準備が計画通りに進めば2025年8月中にリリースされます。

この記事のタイトルとURLをコピーする

・関連記事
ついにFFmpegがWebRTCサポートを統合、OBSで1秒未満の超低遅延配信が実現&最新コーデックの選択可能&サーバー不要の配信すらも可能に - GIGAZINE

無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE

無料・オフラインで音声・動画を文字として書き起こす「Vibe」、OpenAIのWhisperを使ってWindows・macOS・Linuxで動作可能でYouTubeにも対応 - GIGAZINE

文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK - GIGAZINE

MozillaがOpenAIのWhisperベースの高性能文字起こしAI「Whisperfile」を開発中 - GIGAZINE

Appleの新しい文字起こしAPI「SpeechAnalyzer」がスピードテストでOpenAIのWhisperを圧倒 - GIGAZINE

in ソフトウェア, Posted by log1o_hf

You can read the machine translated English article FFmpeg to add transcription functionalit….