生成AIはデジタル格差により膨大な人類知識を見落とすことが研究で判明
生成AIモデルはインターネット上のデータに依存するため、デジタル化されていない膨大な人類の知識を取りこぼしていることが研究で明らかになった。
最新の更新
【カリフォルニア】インターネット上のデータを用いて学習された生成AIモデルは、デジタル化されていない、もしくはオンラインで過小評価されている膨大な領域の人類知識に触れる機会がほとんどないことが研究で明らかになった。
たとえば、Common Crawlのデータでは英語が44%を占め、世界人口の7.5%が話すヒンディー語はわずか0.2%、世界で8,600万人の話者を持つタミル語は0.04%に過ぎない。世界の言語の約97%はコンピューティングにおいて「低リソース」と分類されている。
2020年の研究では、88%の言語がAI技術で極端に無視されており、それらを現代のAIに対応させるには非常に大規模な努力が必要であると指摘されている。北アメリカ、北西アマゾニア、ニューギニアの薬用植物に関する調査では、12,495件の異なる利用法のうち75%以上が、特定の地域言語にのみ存在する独自の情報であった。
研究者によれば、大規模言語モデルは「モード増幅」と呼ばれる現象を通じて支配的なパターンを強化してしまい、少数言語や低リソース情報がさらに過小評価される結果となる。
好きかもしれない
- NordVPN、Linux用GUIアプリをオープンソース化し透明性と利便性を向上
- OpenAI、12月より年齢確認済みユーザー向けにChatGPTで官能コンテンツ解禁へ
- Fedora、コミュニティの反発を受けて32ビットサポート廃止計画を撤回
- マイクロソフト、データセンター向けマイクロ流体チップ冷却技術を発表、性能3倍向上
- SKハイニックス、Nvidia Rubin AI GPU向け初のHBM4で先行 – 競合をリード
- AIモデルが有害な太陽風を従来比で高精度に数日前から予測
- 米最高裁、ミシシッピ州のソーシャルメディア年齢制限法の施行を認める
- EUの規制圧力でAppleがSiriの代替を許可か、AI競争での遅れ懸念