2025年09月08日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

大規模データと次世代インフラの展開

Hugging Faceが3兆トークンの大規模PDFデータセット「FinePDFs」を公開し、質の高い科学論文や法律文書を含むLLM訓練資源を提供開始しました。

一方で技術インフラ面では、OpenAIのGreg Brockman氏がLLM事前学習インフラの複雑さについて言及。NVIDIAの次世代チップ「Rubin」は前倒しリリースの噂と共に消費電力増加の課題も浮上しています。

これらのトピックから、AI業界における基盤技術の急速な進化と直面する課題が見えてきます。それでは各ニュースの詳細を見ていきましょう。

目次

  1. Hugging Face、3兆トークンのPDFデータセット「FinePDFs」を公開
  2. OpenAIのGreg Brockman氏、事前学習インフラの難しさを語る
  3. NVIDIA次世代チップ「Rubin」前倒し投入か、消費電力増の噂も
  4. Amazon、AIチップの「設計」も内製化か 台湾で人材採用【続報】
  5. OpenAIのハルシネーション論文に反響、「単なるエラー」との指摘も【続報】
  6. 新ベンチマークClockBench、LLMのアナログ時計読解能力の低さを露呈
  7. 200万トークンのコンテキスト長を持つ謎のLLMが登場
  8. GitHub、自然言語でのActionsワークフロー記述を試行

Hugging Face、3兆トークンのPDFデータセット「FinePDFs」を公開

  • Hugging Faceが、これまでアクセスが困難だったPDF形式の文書から抽出した、3兆トークンに及ぶ大規模テキストデータセット「FinePDFs」を公開しました。
  • 科学論文や法律文書など、質の高い情報源を含むこのデータセットは、今後のLLMの性能向上に大きく貢献すると期待されています。
Thomas Wolf: (翻訳) これは巨大です。誰もが最先端のAIモデルをトレーニングできるようにするための基礎的な作業を継続し、「FinePDFs」をリリースできることを嬉しく思います。これまでPDFに閉じ込められていた3Tトークンのテキストデータで、間違いなく、公開されているデータの中で最高品質のものです。

Thomas Wolf: (翻訳) 1ペタバイト以上のPDFファイルから精巧に抽出された3兆トークン。Finewebデータセットに新たに追加されたFinePDFをリリースしました。

clem 🤗: (翻訳) すごくかっこいい!

OpenAIのGreg Brockman氏、事前学習インフラの難しさを語る

  • OpenAIの共同創業者であるGreg Brockman氏が、LLMの事前学習インフラ構築について言及しました。
  • その複雑さ、抽象化設計、運用性、そしてシステムと機械学習への深い理解が求められる、ソフトウェアエンジニアリングにおける最も挑戦的でやりがいのある問題の一つだと語っています。
Greg Brockman: (翻訳) 事前学習インフラストラクチャの構築は、複雑さの管理、抽象化の設計、運用性/可観測性、およびディープシステムとMLの理解における演習です。ソフトウェアエンジニアリングにおける最もトリッキーでやりがいのある問題のいくつかを反映しています。それが本当に楽しいのです!

NVIDIA次世代チップ「Rubin」前倒し投入か、消費電力増の噂も

  • NVIDIAの次世代AIチップ「Rubin」について、以前報じられた遅延の噂とは対照的に、リリースが前倒しされるとの新たな観測が浮上しました。
  • この噂によると、消費電力も当初予想の1,800Wから2,300Wへと大幅に増加する可能性が指摘されています。
  • 消費電力の増加は、サーバーの冷却技術に対する要求を一層高めることになり、関連業界の動向にも注目が集まります。
Jukan: (翻訳) 噂:NVIDIAはRubinの発売を加速させ、消費電力は予想される1,800Wから2,300Wに上昇しました。

パウロ: Rubin 早い 2026H2には出荷されそうね

Amazon、AIチップの「設計」も内製化か 台湾で人材採用【続報】

  • AmazonのAIアクセラレータ内製化に関する続報です。
  • これまで外部に委託していたチップ設計の主要部分を社内で完結させる動きを強めていると報じられました。
  • 開発の効率化と最適化が狙いとみられ、台湾ではASIC設計チームの人材採用を拡大しているとのことです。
Jukan: (翻訳) 「最近の設計のほとんどは、我々がこのリソース能力を持っているので、ほとんどを自分たちで行っています。」非常に興味深い。私も以前、AWSが以前AlchipとMarvellが担当していた作業のかなりの部分を引き継いだと言及しました。

パウロ: Amazon 次のAIアクセラレータ 内製強化へ

パウロ: Amazon 台湾 ASICチーム採用中 マネージャーからデザインエンジニアまで 作る気満々

OpenAIのハルシネーション論文に反響、「単なるエラー」との指摘も【続報】

  • 先日報じたOpenAIのLLMハルシネーション論文に対し、開発者コミュニティから様々な意見が寄せられています。
  • 論文では訓練データや評価手法の問題が指摘されていましたが、一部からは「単なる統計的な分類エラー」といった厳しい指摘も出ています。
Shinichi Takaŷanagi: OpenAIが「何故LLMがハルシネーションするのか?」の分析レポートを公開。事前学習では学習の仕組み上不可避、事後学習では正解/不正解の二値評価が”取り敢えず答える”行動を強化していると指摘、解決には“不確実性の正当評価”が必要と提言 Why language models hallucinate

Odashi: ただのエラーだと最初から言われているものに誰かがhallucinationなどという大層な名前を付けたせいで業界が何年も混乱させられている例

Haider.: (翻訳) LLMが幻覚を見る理由は、それらが言語モデルだからです。幻覚を防ぐことはできません。幻覚を減らす唯一の方法は専門化です。モデルが一般的であればあるほど、幻覚は多くなります。openAIはGPT-5と最近の研究論文でうまくやりました。もし修正すれば

新ベンチマークClockBench、LLMのアナログ時計読解能力の低さを露呈

  • アナログ時計の時刻を読み取る能力を測る新しい視覚的推論ベンチマーク「ClockBench」が公開されました。
  • 人間の正答率が平均89.1%であるのに対し、テストされた11の主要LLMのうち最高性能のGemini 2.5 Proでも13.3%と、現行モデルの課題が浮き彫りになっています。
Kol Tregaskes: (翻訳) Gemini 2.5 Proは、アナログ時計の読み取りに関するClockBenchで13.3%の精度でトップに立ちました。180個のカスタム時計と720個の質問でテストされ、視覚的推論のギャップが浮き彫りになりました。モデルはタイムシフトのようなフォローアップには優れていますが、ローマ数字やミラーリングなどの機能には苦労しています。

Chubby♨️: (翻訳) 「時計」ベンチマークは、モデルが時間を認識する能力を測定します。90%未満の人しか時計を読めないことに驚くべきか、それとも現在最高のモデルが14%の精度を超えていないことに驚くべきか、私にはわかりません。とにかく、クールなベンチマークです!

200万トークンのコンテキスト長を持つ謎のLLMが登場

  • 200万トークンという広大なコンテキスト長を持つ、2つの新しいステルスLLMが観測され、話題となっています。
  • その正体については、xAIのGrokではないかとの憶測が飛び交っており、AI開発の最前線での競争の激しさを示唆しています。
Bindu Reddy: (翻訳) 最近、2Mトークンのコンテキスト長を持つ2つのステルスLLMが登場しました。現在、LiveBenchで新しいSonomaモデルを評価しています。結果と、その正体に関する予測を公開する予定です。私の予想はGrokです!🔥

Tech Dev Notes: (翻訳) 200万のコンテキスト長。もうすぐ良い生活が送れるだろう。

GitHub、自然言語でのActionsワークフロー記述を試行

  • GitHubが、自然言語で指示するだけでGitHub Actionsのワークフローを記述できる機能を実験していることが明らかになりました。
  • この機能は、生成AIを用いて自然言語の指示をYAML形式のワークフローファイルに変換するもので、CI/CDパイプラインの構築を大幅に簡素化する可能性があります。
Publickey: ブログ書きました: GitHub、自然言語でGitHub Actionsワークフローを記述可能にする試み。生成AIで自然言語をYaml形式にコンパイル

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください