2025年08月18日 12時35分ソフトウェア

NVIDIAが音声AIの開発に役立つ100万時間の音声データセットを公開＆実際にトレーニングした文字起こしAIモデルも公開

NVIDIAが約100万時間の音声を含むデータセット「Granary」を公開しました。Granaryにはクロアチア語やエストニア語などヨーロッパの25の言語が含まれており、音声AIの多言語化に貢献します。

NVIDIA Releases Open Dataset, Models for Multilingual Speech AI | NVIDIA Blog
https://blogs.nvidia.com/blog/speech-ai-dataset-models/

文字起こしや自動翻訳に役立つ音声AIモデルは数多く登場していますが、英語などのメジャーな言語を対象としたものが多く、話者の少ない言語への対応は遅れがちです。話者の少ない言語はAIの学習に必要不可欠なデータセットそのものが少ないという事情があり、音声AIの多言語化の課題となっていました。

NVIDIAが公開したGranaryはクロアチア語、エストニア語、マルタ語といったヨーロッパの25の言語の音声を含むデータセットです。Granaryには合計100万時間分の音声データが収録されており、そのうち65万時間が音声認識、35万時間が音声翻訳に最適化されています。データセットは以下のリンク先で配布されています。

nvidia/Granary · Datasets at Hugging Face
https://huggingface.co/datasets/nvidia/Granary

音声データセットを作成するには、「録音データに正確な文字起こしテキストなどのラベルを付与する」という多大な労力を伴う作業が必要です。NVIDIAはこの問題を解決するべく、人間による作業不要で音声データにラベルを付けられるパイプラインも開発しています。NVIDIAが開発したパイプラインの詳細は以下のリンク先で公開されています。

NeMo-speech-data-processor/dataset_configs/multilingual/granary at main · NVIDIA/NeMo-speech-data-processor · GitHub
https://github.com/NVIDIA/NeMo-speech-data-processor/tree/main/dataset_configs/multilingual/granary

さらに、NVIDIAはGranaryを用いてトレーニングした高品質文字起こしモデル「NVIDIA Canary-1b-v2」とリアルタイム文字起こしモデル「NVIDIA Parakeet-tdt-0.6b-v3」も公開しました。NVIDIA Canary-1b-v2は文字起こしモデルの性能を測定する「Open ASR Leaderboard」の多言語の性能部門で最高スコアを獲得しています。

nvidia/canary-1b-v2 · Hugging Face
https://huggingface.co/nvidia/canary-1b-v2