ソフトウェア

NVIDIAが音声AIの開発に役立つ100万時間の音声データセットを公開&実際にトレーニングした文字起こしAIモデルも公開


NVIDIAが約100万時間の音声を含むデータセット「Granary」を公開しました。Granaryにはクロアチア語やエストニア語などヨーロッパの25の言語が含まれており、音声AIの多言語化に貢献します。

NVIDIA Releases Open Dataset, Models for Multilingual Speech AI | NVIDIA Blog
https://blogs.nvidia.com/blog/speech-ai-dataset-models/

文字起こしや自動翻訳に役立つ音声AIモデルは数多く登場していますが、英語などのメジャーな言語を対象としたものが多く、話者の少ない言語への対応は遅れがちです。話者の少ない言語はAIの学習に必要不可欠なデータセットそのものが少ないという事情があり、音声AIの多言語化の課題となっていました。


NVIDIAが公開したGranaryはクロアチア語、エストニア語、マルタ語といったヨーロッパの25の言語の音声を含むデータセットです。Granaryには合計100万時間分の音声データが収録されており、そのうち65万時間が音声認識、35万時間が音声翻訳に最適化されています。データセットは以下のリンク先で配布されています。

nvidia/Granary · Datasets at Hugging Face
https://huggingface.co/datasets/nvidia/Granary


音声データセットを作成するには、「録音データに正確な文字起こしテキストなどのラベルを付与する」という多大な労力を伴う作業が必要です。NVIDIAはこの問題を解決するべく、人間による作業不要で音声データにラベルを付けられるパイプラインも開発しています。NVIDIAが開発したパイプラインの詳細は以下のリンク先で公開されています。

NeMo-speech-data-processor/dataset_configs/multilingual/granary at main · NVIDIA/NeMo-speech-data-processor · GitHub
https://github.com/NVIDIA/NeMo-speech-data-processor/tree/main/dataset_configs/multilingual/granary


さらに、NVIDIAはGranaryを用いてトレーニングした高品質文字起こしモデル「NVIDIA Canary-1b-v2」とリアルタイム文字起こしモデル「NVIDIA Parakeet-tdt-0.6b-v3」も公開しました。NVIDIA Canary-1b-v2は文字起こしモデルの性能を測定する「Open ASR Leaderboard」の多言語の性能部門で最高スコアを獲得しています。

nvidia/canary-1b-v2 · Hugging Face
https://huggingface.co/nvidia/canary-1b-v2


nvidia/parakeet-tdt-0.6b-v3 · Hugging Face
https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

この記事のタイトルとURLをコピーする

・関連記事
FFmpegに「OpenAIのWhisperを用いた文字起こし機能」が追加される予定 - GIGAZINE

無料・オフラインで音声・動画を文字として書き起こす「Vibe」、OpenAIのWhisperを使ってWindows・macOS・Linuxで動作可能でYouTubeにも対応 - GIGAZINE

NVIDIAがロボット開発のための仮想世界構築ツールを大幅アップデート&ロボットに世界を認識させるための視覚言語モデル(VLM)もリリース - GIGAZINE

AMDが画像生成AI「Nitro-T」をリリース、32基のInstinct MI300Xでゼロから1日未満でトレーニング可能 - GIGAZINE

in AI,   ソフトウェア, Posted by log1o_hf

You can read the machine translated English article NVIDIA releases 1 million hours of speec….