2026年05月10日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
Claude Mythosのベンチマーク測定限界到達とDeepSeekの巨額資金調達
AnthropicのClaude Mythosが自律実行ベンチマークで測定限界に達し、実務応用の進展が期待されています。
また、中国DeepSeekによる評価額500億ドルでの巨額資金調達や、xAIのGPU貸与の背景と社内再編の動向も注目を集めています。
本日の主要なトピックを順番に確認してまいりましょう。
目次
- Claude MythosがMETRで測定限界に到達【続報】
- DeepSeekが評価額$50Bで資金調達へ【続報】
- xAIのGPU貸与の背景と社内再編の動き【続報】
- AIエージェントの出力にHTMLを推奨する声
- CodexにHooksや移行機能追加、自動化事例も【続報】
- BaiduがERNIE 5.1発表、学習コスト大幅削減
- GrokモバイルにConnectors等追加【続報】
- Hermes AgentがOpenRouter利用率首位に【続報】
- Schmidhuber氏の過去の論文をAIで再現するプロジェクトが話題
- macOS向けAI操作ツールPeekaboo 3.0リリース
Claude MythosがMETRで測定限界に到達【続報】
- AIエージェントの自律実行時間を測るMETRベンチマークの続報です。
- AnthropicのClaude Mythos Previewが、50%成功率でのタスク遂行可能時間が少なくとも16時間と評価されました。
- 80%の成功率でも3時間以上のタスク遂行能力を示し、既存のベンチマークでは測定不能な領域に突入したと驚きの声が上がっています。
- 人間が1時間程度で処理できるソフトウェアタスクであれば失敗率はほぼ0%になるとされ、実務への応用がさらに進むと期待されています。
Miles Brundage: (翻訳) 2026年3月の限られた期間に、リスク評価のためにClaude Mythos Previewの初期バージョンを評価しました。私たちのタスクスイートにおいて、50%の成功率でのタイムホライズンは少なくとも16時間(95%信頼区間8.5時間〜55時間)と推定され、これは新しいタスクなしで測定できる上限に達しています。
Alex Albert: (翻訳) 私たちがMETRに提供した初期のClaude Mythos Previewのスナップショットは、80%の成功率ベンチマークにおいて、次に優れたモデルの2倍以上のタイムホライズンを持っています。
K.Ishi@生成AIの産業応用: Claude Mythosがついに性能測定不能の領域に突入した。 AI性能のメジャーなベンチマークである「タスク遂行可能時間」で、Claude Mythosは統計的な性能測定限界である16時間を超えてしまい、測定不能となった。 AIの進化は既に、1年前に生まれたベンチマークが想定していない次元へと突入している。
DeepSeekが評価額$50Bで資金調達へ【続報】
- 中国のAI企業DeepSeekの資金調達に関する続報です。
- 評価額500億ドルで最大73.5億ドルの資金調達を目指していると報じられました。
- 創業者のLiang Wenfeng氏個人が30億ドルを出資するとされており、中国のAIスタートアップとして過去最大規模の調達ラウンドとなります。
- 同社の最新モデル「DeepSeek V4」は低コストで高い性能を実現しており、専用推論エンジン「ds4」の公開などオープンソース界隈でも高く評価されています。
Rohan Paul: (翻訳) The Informationによると、DeepSeekは評価額500億ドルで70億ドルという巨額の資金調達を行っており、中国のAI資金調達ラウンドとして過去最大となります。創業者のLiang Wenfeng氏は個人的に30億ドル(ラウンドの40%)を出資し、90%の所有権を維持します。
The Information: (翻訳) 独占:DeepSeekは、純粋な研究から商業化へと移行する中で、中国のAIスタートアップとして過去最大となる可能性のある最大73億5000万ドルの資金調達を目指しています。
Bindu Reddy: (翻訳) 🚨 オープンソースAIは文字通り止められない 🚨 Redisの伝説的な創業者(Antirez)が、DeepSeek v4 Flash専用に構築されたカスタムネイティブ推論エンジン「ds4」をリリースしました。これは驚天動地です!
xAIのGPU貸与の背景と社内再編の動き【続報】
- xAIからAnthropicへのGPU貸与に関する続報です。
- メンフィスに構築した22万基のGPUクラスタを貸与した背景として、異種GPUの混在による効率低下やデータ転送のボトルネックが指摘されています。
- 自社での学習よりも、トークン生成のために貸し出す方が合理的だったとの見方が出ています。
- また、SpaceXによるCursor買収の動きに伴い、xAI社内ではCursor従業員とのミーティングやレイオフが行われるなど、AI戦略の再構築が進められています。
Jukan: (翻訳) なぜxAIは22万基のGPUクラスタをAnthropicに引き渡したのか?xAIがColossus 1を丸ごとAnthropicに引き渡すという決定の技術的背景は、見た目以上に興味深いものです。xAIはメンフィスのColossus 1データセンターに22万基以上のNVIDIA GPUを展開していました。
パウロ: 非常に良いポストでした NVIDIAのデータ転送ライブラリの10万クラスタ以上の問題 GB200/300とH100/200の混在によるGPUの待ち問題 仰る通り、異種GPUの効率よい稼働は非常に難しく、それだったらAnthropicにトークン生成のため貸した方がよさそうです
The Information: (翻訳) 独占:SpaceXがコーディングスタートアップCursorを600億ドルで買収するオプションを確保してからわずか数週間後、xAIは新たなレイオフと従業員の離職に直面しています。イーロン・マスクが会社を再編しAI戦略を再考する中、Cursorの従業員はすでにxAIチームとのミーティングを開始しています。
AIエージェントの出力にHTMLを推奨する声
- Anthropicのエンジニアが、AIエージェントの出力フォーマットとしてMarkdownの代わりにHTMLを使用し始めたことが話題になっています。
- Markdownはプレーンテキストでの読み書きには適しているものの、数百行を超えると人間の認知限界に達し、表現力に欠けるという課題が指摘されています。
- 一方でHTMLとCSSを駆使すれば情報密度を高く保ちつつ視認性を向上させることができ、AIとの協働においてよりリッチなインターフェースを構築できると賛同を集めています。
Oikon: Anthropicのエンジニアが、Markdown ファイルを書くのをやめて、Claude Codeに HTML を生成するように切り替えた話📝
Kenn Ejima: うーん、これは唸らされる内容だ! どうせ人間が編集しないならmarkdownの「プレーンテキストのままでも人間に読み書きしやすい」という特徴はあまり活かせず、表現力の不足が目立ってくる。数百行が認知限界。 一方のHTMLはCSSなどを駆使すれば情報密度を高くして読みやすさをキープできる。
Charly Wargnier: (翻訳) 🚨 Thariq Shihipar氏によると、HTMLは新しいMarkdownです。Thariq氏はClaude Codeのリードエンジニアです。彼は文字通りMarkdownファイルを書くのをやめ、代わりにClaude Codeを使ってHTMLを生成するように切り替えました。
CodexにHooksや移行機能追加、自動化事例も【続報】
- OpenAIのCodexアプリに関する続報です。
- エージェントループに独自のスクリプトを注入できる「Hooks」サポートが追加されました。
- 他のエージェントツールからの設定やプラグインの移行を支援するインポート機能も実装されています。
- ユーザーからは、領収書のダウンロードから経費精算フォームの入力までを完全自動化した事例が報告され、実用性の高さが絶賛されています。
🚨 AI News | TestingCatalog: (翻訳) CodexアプリにもHooksサポートが追加されます! > HooksはCodexの拡張フレームワークです。エージェントループに独自のスクリプトを注入できるようになります。
Vaibhav (VB) Srivastav: (翻訳) Codexが他のエージェントからの移行をサポートするようになりました!既存の設定を検出し、設定/スキル/プラグインのインポートチェックリストを作成し、ガイド付きチャットを開いて移行を完了させます。ぜひお試しください!
Vaibhav (VB) Srivastav: (翻訳) Codexは文字通り私の経費精算を行い、月初からの請求書をダウンロードし、経費スプレッドシートを更新し、実際のフォームへの入力をすべて自動で行いました。状態追跡にDrive & Sheetsプラグイン、請求書追跡にGmailプラグイン、実際の操作にChrome拡張機能を使用しました。
BaiduがERNIE 5.1発表、学習コスト大幅削減
- Baiduが最新の基盤モデル「ERNIE 5.1」のプレビュー版をリリースしました。
- ERNIE 5.0の事前学習基盤をベースに構築されており、同等の他社モデルと比較して約6%の事前学習コストで開発されたと報告されています。
- 検索、推論、クリエイティブライティング、エージェント機能が強化されています。
- LMSYSのSearch Arenaリーダーボードで4位にランクインする健闘を見せています。
🚨 AI News | TestingCatalog: (翻訳) BaiduがErnie 5.1プレビューをリリースし、Search Arenaで4位にランクインしました。> ERNIE 5.0の事前学習基盤の上に構築された最新の基盤モデルは、検索、推論、知識Q&A、クリエイティブライティング、およびエージェント機能をアップグレードしています。
Chubby♨️: (翻訳) 待って、中国のERNIE 5.1はほぼSOTAなのに、同等のモデルの約6%の事前学習コストしか使っていないの?? ERNIE 5.0の事前学習基盤:Baiduによると、ERNIE 5.1はより強力な検索、推論、知識Q&A、クリエイティブライティング、エージェント機能を達成しつつ、
GrokモバイルにConnectors等追加【続報】
- xAIのGrokモバイルアプリに関する続報です。
- 外部サービスと連携する「Connectors」機能が追加され、スマホから直接メール取得やカレンダー整理、Notion操作などが可能になりました。
- さらに、Web版で先行公開されていた「Imagine Agent Mode」のネイティブUIもテストされており、モバイルでのエージェント機能が強化されています。
🚨 AI News | TestingCatalog: (翻訳) 見逃した方へ:GrokモバイルアプリでもConnectorsが利用可能になりました。
🚨 AI News | TestingCatalog: (翻訳) iOS版GrokアプリのImagine Agent Modeをいち早くご紹介!ユーザーはモバイルに最適化されたネイティブUIを通じてImagine Agentを使用し、より複雑なワークフローを必要とする画像や動画を生成できるようになります。
🚨 AI News | TestingCatalog: (翻訳) iOS版GrokでのSkillsの動作 👀 * まだ利用できません
Hermes AgentがOpenRouter利用率首位に【続報】
- Nous Researchの「Hermes Agent」に関する続報です。
- OpenRouterのグローバルトークンランキングで、これまで首位だったOpenClawを抜き1位を獲得しました。
- オープンソースのエージェントモデルに対する需要の高さと競争の激化を示しています。
Charly Wargnier: (翻訳) ワオ。Hermes AgentがOpenRouterのグローバルトークンランキングで1位になりました 👀
🚨 AI News | TestingCatalog: (翻訳) Hermes vs OpenClaw 🥊 Hermes AgentがグローバルなOpenRouterトークンランキングでOpenClawを追い抜き、1位を獲得しました。トークンは新しい通貨です!
Schmidhuber氏の過去の論文をAIで再現するプロジェクトが話題
- AI研究の権威であるJürgen Schmidhuber氏が1990年から2025年までに発表したすべての論文を、AIコーディングアシスタントを用いて再現するプロジェクトが公開されました。
- VAEとRNNを用いた「World Models」の完全な実装など、複雑なアーキテクチャもトイ環境で動作する形で再現されています。
- AIツールを活用することで、過去の難解な研究成果を迅速に実装・検証できる事例として開発者の間で高く評価されています。
hardmaru: (翻訳) AIコーディングアシスタントを使用して、Schmidhuberのすべての論文(1990-2025)を再現します。素晴らしいプロジェクトです!私とSchmidhuberによる「World Models」の論文さえも、完全なVAE + RNNワールドモデルの実装を備えたトイ環境で再現しました。
macOS向けAI操作ツールPeekaboo 3.0リリース
- macOS向けのAIコンピュータ操作ツール「Peekaboo 3.0」がリリースされました。
- アクションファーストのコンピュータ操作や、スクリーンショットとUI検出の統合、CLIおよびMCPでのJSON出力のクリーン化など、大幅なアップデートが含まれています。
- 開発者は「昨年から開発を始めていたが、ついにAIモデルの性能が追いついた」と述べており、最新モデルの能力を引き出すツールとして注目されています。
Peter Steinberger 🦞: (翻訳) Peekaboo 3.0が公開されました。2.0以来の最大のリリースです。⚡ アクションファーストのmacOSコンピュータ操作 👁️ 統合されたスクリーンショットとUI検出 🧩 CLIとMCP全体でのクリーンなJSON 🛠️ より良いスナップショット。昨年からこれを始めましたが、モデルの性能が十分ではありませんでした。今は十分です。