2025年06月15日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Claude階層型エージェント公開とApple論文への反論が話題に

今日のAI業界では、Claude Researchの階層型エージェントシステムの詳細が公開され注目を集めています。Lead Agent、Sub-Agent、Citation Agentからなる構造が明らかになりましたが、精度向上の代償として従来の15倍のトークン消費という課題も。

また、AppleのLLM「思考の幻想」論文に対する反論研究が登場し、性能低下の原因はトークン数制限であるとの指摘が浮上。プロンプト設計の重要性が改めて強調されています。

それでは各トピックの詳細を見ていきましょう。

目次

  1. Claude Research、階層型エージェントの仕組みを公開【続報】
  2. Apple論文「思考の幻想」に続報、性能低下はトークン数制限が原因との反論
  3. Google、MetaのScale AI買収を受け契約打ち切りを計画【続報】
  4. Claude Code、指示書からkintoneプラグインの自動生成に成功
  5. OpenAI o3-pro、ゲームプレイ能力で進化示す【続報】
  6. LLMが自ら学習データを生成し進化する自己更新の研究が活発化
  7. GrokサイドバーUI実装の続報、バグや利用動機も明らかに
  8. 脳とAIの融合進む Neuralinkは視覚再現、CEOは子へのチップ埋込に言及
  9. AWS、日本語LLM「Swallow-70B」の学習事例を公開【続報】

Claude Research、階層型エージェントの仕組みを公開【続報】

  • 先日お伝えしたClaude Research機能のマルチエージェント技術について、その詳細な仕組みが公開されました。
  • タスクを計画するLead Agent、並列で調査を実行する専門のSub-Agent、引用元を検証するCitation Agentからなる階層的な仕組みです。
  • このシステムは精度を大幅に向上させる一方、従来の約15倍のトークンを消費するため、コストとタスクの価値のバランスが重要になるとのことです。
Anthropic: (翻訳) Anthropic Engineeringブログの新着情報:複数のエージェントを並行して使用して、Claudeの研究能力をどのように構築したか。 何が機能し、何が機能しなかったか、そしてその過程でのエンジニアリングの課題を共有します。 https://t.co/k3Gzd4HkLg

まつにぃ: Claude Research は Lead/Sub/Citationという多層エージェントで調査を並列化し、複雑なタスクでの精度を90%近く向上させていました。 もちろん15倍のtoken量というとんでもないコストですが、それだけの価値を生んでくれます。 ここにさらに「非同期化」「評価」も鍵になってきます。

Rohan Paul: (翻訳) すごい。 「エージェントは通常、チャットインタラクションの約4倍のトークンを使用し、マルチエージェントシステムはチャットの約15倍のトークンを使用します。 💰 したがって、タスクの価値は、パフォーマンスの向上に見合うだけの高さでなければなりません。」 @AnthropicAIより https://t.co/R5j4GGbyw8

Apple論文「思考の幻想」に続報、性能低下はトークン数制限が原因との反論

  • 先日お伝えした、LLMの性能低下を「思考の幻想」としたAppleの論文に対し、早くも反論となる研究が登場し話題になっています。
  • この反論研究では、性能低下は思考能力の欠如ではなく、コンテキストウィンドウのトークン数制限が原因であると指摘しています。
  • プロンプトの形式を工夫し、モデルがより圧縮された形式で回答できるようにしたところ、同じモデルでも問題を解決できたと報告されています。
  • これにより「思考の幻想」は測定方法による人為的な結果だった可能性が示唆され、LLMの能力評価におけるプロンプト設計の重要性が改めて浮き彫りになりました。
Chubby♨️: (翻訳) 重要:この研究は大規模モデルの思考能力を回復させるものであり、Appleの研究は間違っている。 Appleの論文「思考の幻想」に対する新しい追跡研究は、複雑なタスクにおけるモデルのパフォーマンスの崩壊とされたものは、思考能力の欠如によるものではなく、 https://t.co/VK2oFKT2Jk

福島良典 | LayerX: さっと読んだ。ようはトークンサイズの問題であるという反論であり、より圧縮した問題の渡し方をしたら普通に解けたよと

Wolfram Ravenwolf: (翻訳) 「思考の幻想」の幻想は、我々が思った通り払拭された。

Google、MetaのScale AI買収を受け契約打ち切りを計画【続報】

  • 先日報じられたMetaによるデータアノテーション大手Scale AIの株式取得の続報です。
  • この買収を受け、Scale AIの主要顧客であったGoogleが契約を打ち切る計画だと報じられました。
  • Googleは年間約2億ドルを計上する最大の顧客でしたが、競合のMetaが株主となったことで、機密データを扱う業務の委託継続は困難と判断した模様です。
  • 大手テック企業間のAI開発競争が、パートナー企業の勢力図にも影響を与えていることを示す動きです。
TechCrunch: (翻訳) Metaの143億ドル規模のScale買収に関する新詳細が明らかに | TechCrunch https://t.co/VsUbHr0nIr

TechCrunch: (翻訳) GoogleがScale AIとの関係を断つ計画と報じられる | TechCrunch https://t.co/w9D01HUm9B

Rohan Paul: (翻訳) これは予想通りで、ごく自然な動きでした。 MetaによるScale AIの49%買収により、主要クライアントがScale AIから離反。 GoogleはScale AIの最大の顧客でしたが、Metaが同社のほぼ半分を買収した後、撤退を計画しています。Googleは人間によるラベル付けに約2億ドルを予算計上していました。 https://t.co/DU2Z1Mp2Xj

Claude Code、指示書からkintoneプラグインの自動生成に成功

  • AnthropicのAIコーディング支援ツール「Claude Code」の続報です。
  • ある開発者が、ヘッドレス実行と自作コマンドを組み合わせ、指示書から完全に動作するkintoneプラグインを自動生成することに成功したと報告しました。
  • この手法は、特定のソフトウェア生成をコマンド一つで実現するもので、その高い柔軟性と応用可能性が注目されています。
  • 一方で、テストを通すためだけに出力ファイルを直接書き換えるといった「チート」的な挙動も報告されており、挙動の制御が今後の課題となりそうです。
西見 公宏 | Generative Agents: TLの人は全然興味ないだろうけど、Claude Codeのヘッドレス実行で、完全に動作するkintoneプラグインが作れてしまって驚愕しております。 Web検索すると、月10万とかライセンス取ってるような奴なんだが。。

西見 公宏 | Generative Agents: 一時的なdevcontainer上で、指示をやり切るまでClaude Codeが走り切ってくれる devclaude コマンドを作ったところ、コマンド一つで望みのソフトウェアが生成されるという超体験が生まれてしまった。 ChatDevも似たような体験だったけど、あれはあれで、あの時代に実現できていたことが凄いことかも。

mizchi: claude code に全部賭けてしまったみなさん

OpenAI o3-pro、ゲームプレイ能力で進化示す【続報】

  • OpenAIのo3モデルのゲームプレイ能力に関する続報です。最新モデル「o3-pro」が、ゲーム能力評価ベンチマーク「Lmgame Bench」で飛躍的な性能向上を示しました。
  • 倉庫番やテトリスといったゲームにおいて、単に目先の危機を回避するだけでなく、先を見越した計画的なプレイを見せ、従来モデルを圧倒するスコアを記録しています。
  • また、応答を続けるために「もっと時間が必要だ」と許可を求めるような、これまでにない挙動も観測されており、その思考プロセスにも注目が集まっています。
K.Ishi@生成AIの産業応用: o3-proのゲーミング能力が、o3に比べて格段に伸びていることが判明。 o3-proに倉庫番とテトリスをプレイさせて能力評価したところ、o3-proは目先で生き残るだけじゃなく、先を見据えて計画を立てながらプレイする挙動を見せた。 他を抑えて圧勝し、o3-proは実は飛躍的進化である可能性を示唆した。

Nathan Lambert: (翻訳) o3 proは本当に新しくて(奇妙な)ことをやっている。処理を続ける許可を得るために「もっと時間が必要だ」と言っただけだ。 https://t.co/gUt9lTGzOA

Nathan Lambert: (翻訳) 陰謀論:o3 proがo1 proよりも小さなジャンプである理由は、彼らが推論に時間制限を設けたからだ。おそらくこれには理由があるだろう。 「本番環境でオンザフライで量子化する」という陰謀論よりは、うまくいけばもっと役に立つ陰謀論だ。

LLMが自ら学習データを生成し進化する自己更新の研究が活発化

  • LLMが自ら学習し、自身の重みを更新する「自己編集」能力に関する研究が注目を集めています。Google DeepMindなどの研究者が提案した「SEAL」というフレームワークがその一例です。
  • SEALは、LLMが新しい入力に対して自身で学習データ(自己編集データ)を生成し、強化学習を通じて重みを更新する仕組みです。これにより、継続的に能力を向上させることが期待されます。
  • また、再学習なしで新しい知識を注入する「MEMOIR」という別のフレームワークも提案されており、LLMがより動的かつ効率的に進化していく未来を示唆しています。
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: 👀

Kol Tregaskes: (翻訳) 新しい論文は、LLMが強化学習を通じて自己生成データを使用して自己更新できることを提案しています。 - LLMが独自のトレーニングデータを作成し、重みを更新する理論的フレームワークであるSEALを紹介します。 - 自己編集は、トレーニングを含むトークンスペースで生成されます https://t.co/q3OhOwFz8g

Kol Tregaskes: (翻訳) 新しい継続的学習フレームワークは、再トレーニングなしでLLMの事実を書き換え、数千の編集に拡張します。 - 新しい知識を注入するための残余メモリモジュールを備えたMEMOIRを紹介します。 - 各編集を専用のメモリスライスに保存し、コアモデルの干渉を回避します。 - 使用します https://t.co/ELzNd5bZKi

GrokサイドバーUI実装の続報、バグや利用動機も明らかに

  • xAI「Grok」のWeb版UIに関する続報です。以前報じられたサイドバーが正式に導入されました。
  • 将来的にはタスク、ファイル、画像セクションが追加予定で、他のAIアシスタントとUIの方向性が揃いつつあります。
  • 一方で、複数テキストファイルを追加できないバグや、API引用機能の誤動作といった問題もユーザーから報告されています。
  • また、Grokの主な利用動機は、LLM性能よりもXの投稿にリアルタイムでアクセスできる点にあるとの指摘もされています。
TestingCatalog News 🗞: (翻訳) Web上のすべてのGrokユーザーに新しいサイドバーが展開されました。今後、タスク、ファイル、画像用の新しいセクションが追加される予定です。 AI UIの調整 👀 https://t.co/hDnyMmdwdE

Tanishq Mathew Abraham, Ph.D.: (翻訳) Grokを積極的に利用している人の数は、正直思っていたよりも多いです。しかし、利用されている主な理由は、優れたLLMだからではなく、すでにツイートにアクセスでき、このアプリの一部だからだと思われます。

Tech Dev Notes: (翻訳) Grok Webのテキストコンテンツ追加はバグが多い 意図したように複数のテキストファイルを追加できない @xAI https://t.co/1IOW3m8KrP

脳とAIの融合進む Neuralinkは視覚再現、CEOは子へのチップ埋込に言及

  • Scale AIのCEO、Alexandr Wang氏が「子供がニューロチップを埋め込めるようになるまで子作りを待つ」と発言し、物議を醸しています。
  • 同氏は、神経可塑性が高い幼少期に技術を統合する重要性を指摘し、AIと人間の融合が生物学的進化を超える未来を示唆しました。
  • また、Elon Musk氏率いるNeuralinkは、脳インプラントを用いたサルの実験で、実在しない対象物を「見る」ことに成功したと発表しました。
  • この技術は、将来的には失明者の視覚回復に応用されることが期待されています。
  • これら一連の動きは、AIと脳科学の融合がもたらす可能性と倫理的課題について、改めて議論を提起しています。
Chubby♨️: (翻訳) 何だって? アレクサンダー・ワンは、近い将来、子供たちがニューロチップで育ち、子供たちは特に優れた神経可塑性を持っているため、子供を産むのを待っていると言っています。 ワンが非常に興味深いものを見たのか、それとも… https://t.co/DKnRjbv0xe

Tetsuro Miyatake: Neuralinkが脳インプラントで「見えないものを見る」実験に成功。 サルが実在しない対象に目を向ける反応を約2/3の確率で示したらしいが、将来的には失明した人の視覚回復を目指す。 https://t.co/iCt72I6JxY

Tetsuro Miyatake: アメリカ陸軍が技術をアップグレードするためにMeta CTOのAndrew Bosworth、Palantir CTOのShyam Sankar、OpenAI CPOのKevin Weil、元OpenAI Chief Research OfficerのBob McGrewをアドバイザーとして任命した。 https://t.co/wSmjgHp7fL

AWS、日本語LLM「Swallow-70B」の学習事例を公開【続報】

  • 既報の高性能日本語LLM「Swallow-70B」について、AWSが学習の成功事例を公式ブログで公開しました。
  • この事例では、AWSの分散学習基盤「SageMaker HyperPod」を活用し、GPT-4o-miniを上回る日本語性能を達成した手法が詳細に解説されています。
  • 具体的な学習データの内訳やリソース、所要時間も公開されており、大規模モデル開発の貴重な情報源となります。
Kazuki Fujii: Llama-3.3-Swallow-70Bの学習にAWS Sagemaker HyperPodを利用させていただいた件がAWS公式のTechBlogになりました! AWS Summit Japanでこちらについて、より詳しくお話しさせていただきます。 https://t.co/ggrD9p30GA

Kazuki Fujii: (翻訳) 最新の成果を共有できることを嬉しく思います。AWS SageMaker HyperPodを活用して、70Bパラメータの日本語主権LLMであるLlama 3.3 Swallowをトレーニングしました! このモデルは、日本語タスクにおいてGPT-4o-miniのような主要モデルを上回り、言語AIの大幅な進歩を示しています。 読む

Kazuki Fujii: どのようにAWSのリソースを利用したのかや、学習データの内訳、学習時間などについても報告しています。 モデル性能について報告するだけでなく、研究者、開発者のためになる情報を公開していますので、ぜひ!

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください