Nvidia、欧州言語向けAI強化のための大規模オープンデータセットを公開

Nvidiaは欧州言語の高品質AI翻訳開発を支援する大規模オープンデータセット『Granary』を公開した。

最新の更新 20252025-08-25T07:08:08Z

シリコンANGLEによると、地球上の7,000以上の言語のうち、人工知能モデルでサポートされているのはごくわずかです。そこでNvidiaは、欧州言語向けの高品質AI翻訳開発を支援するため、大規模なAI対応オープンデータセットとモデルを発表しました。新しいデータセット『Granary』は、100万時間以上の多言語音声、65万時間の音声認識データ、35万時間の音声翻訳データを含むオープンソースコーパスです。Nvidiaの音声AIチームはカーネギーメロン大学やFondazione Bruno Kesslerの研究者と協力し、未ラベル音声や公開音声データをAI学習に利用可能な情報へと変換しました。Granaryには、欧州連合の24の公用語に加え、ロシア語やウクライナ語を含む25の欧州言語が収録され、データが限られているクロアチア語、エストニア語、マルタ語なども含まれています。

Nvidia、欧州言語向けAI強化のための大規模オープンデータセットを公開

好きかもしれない