26 5月 2025

2025年05月26日夜のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

大手AI企業の戦略展開と新技術ベンチマークの登場

今週のAI業界では、様々な企業の戦略的動きが目立ちました。Claude 4 Opusがコーディングベンチマークで高いスコアを記録する一方、Sonnetには課題も。OpenAIは韓国に拠点を設立し、UAEではChatGPT Plusを無料提供するなど国際展開を加速。

GoogleのRedsword/Goldmaneは視覚能力の強化が示唆され、Sakana AIは推論力測定の新ベンチマーク「Sudoku-Bench」を公開。開発ツールでは、Chrome DevToolsのGemini連携やVSCodeのAI機能強化も進行中です。

それでは各トピックの詳細について見ていきましょう。

【続報】Claude 4 Opus コーディング性能詳報 Sonnet版に課題も
OpenAI 韓国拠点設立、UAEでChatGPT Plus無料提供
Google新AI Redsword/Goldmane続報視覚特性を強化
Sakana AI、推論力測定ベンチマークSudoku-Bench公開
AIコーディングツール比較続報: Claude Code利便性、Copilot冗長性等
Chrome DevToolsにGemini連携 VSCodeもAI強化【続報】
AI倫理議論進展ハルシネーション新解釈とモデル福祉も焦点
【続報】Apple AI戦略に懸念 Jony Ive氏OpenAI連携や中国市場影響
AIエージェント進化続報: RAG脱却と自律探索、新脅威も
AI研究最前線継続学習/知識グラフ/マルチモーダル等

【続報】Claude 4 Opus コーディング性能詳報 Sonnet版に課題も

Anthropic社のClaude 4 Opusが、aiderポリグロットコーディングベンチマークで72%という高いスコアを記録したとの報告です。
同シリーズのClaude 4 Sonnetは同ベンチマークで61%となり、前モデルのClaude 3.7よりも若干低いスコアになった可能性が指摘されています。
また、Claude 4が大規模なコードベースのリファクタリングを試みたものの、動作するコードには至らなかった事例も共有されましたが、その潜在能力の高さを示唆するものとして注目されています。
開発者の間では、システムプロンプトでの特定フレームワーク指定の是非や、API利用時のコスト管理についても引き続き議論が交わされています。

Paul Gauthier: (翻訳) Claude 4 Opusはaiderポリグロットコーディングベンチマークで72%を獲得しました。Claude 4 Sonnetは61%でした。どちらも32kの思考トークンを使用しています。Sonnet 4は3.7より性能が低いようです。完全なリーダーボードはこちら: https://t.co/mBVaUPG9ZN https://t.co/tj4p5Pn6Tk

Kai INUI: Claude 4のAider's Polyglotのベンチマークが出た興味深いことに、Sonnet 4は3.7よりもコーディング単独のベンチマークでは少し落ちてしまってるらしい。やはり、Claude Codeなどを前提にAgent性能に振り切った最適化した感じっぽい

Charly Wargnier: (翻訳) すごい！ @AnthropicAI のClaude 4が、@vasumanmoza のコードベース全体を一度の呼び出しでリファクタリングしました。ツール呼び出し25回。3,000行以上の新規コード。12個の新規ファイル。すべてをモジュール化し、モノリスを分割し、スパゲッティコードを整理しました。どれも動きませんでしたが、それでも実に美しかったです。

OpenAI 韓国拠点設立、UAEでChatGPT Plus無料提供

OpenAIがグローバル展開を加速しており、韓国に現地法人を設立し、今後数ヶ月以内にソウルにオフィスを開設する計画が報じられました。
この動きは、韓国内の企業や政策立案者との連携を強化し、AI技術のさらなる普及を目指すものです。
また、大規模AIインフラ計画「Stargate」の続報として、UAE（アラブ首長国連邦）と提携し、全国民および居住者に対してChatGPT Plusへの無料アクセスを提供するプログラムも発表されました。

Bloomberg: (翻訳) OpenAIは韓国に法人を設立し、AI技術のさらなる導入促進を目指しています https://t.co/Hlq3aSSRXc

Tibor Blaho: (翻訳) OpenAIは韓国に法人を設立し、今後数ヶ月以内にソウルにオフィスを開設する計画です。米国以外でChatGPTの有料会員数が最も多い同国において、企業や政策立案者とのパートナーシップを支援するスタッフを採用します。

Rohan Paul: (翻訳) UAEは、全居住者および国民にChatGPT Plusへの無料アクセスを提供する世界初の国となりました。UAEはOpenAIと提携し、世界最大のAIスーパーコンピューティングクラスター構築を目指すStargate UAEイニシアチブの一環として、全国規模で無料のChatGPT Plusアクセスを提供します。

Google新AI Redsword/Goldmane続報視覚特性を強化

Googleの新たな試験AIモデル「Redsword」および「Goldmane」に関する続報です。
LMSys Arenaでの比較から、これらのモデルは特に視覚的な特性が強化されている可能性が示唆されています。
インベーダーゲームのようなインタラクティブなコンテンツ生成や、モダンなウェブUIの構築など、多様なタスクで高い能力を発揮するとの報告があります。

Kai INUI: LMSysのArena監視ニキが、Googleの新しい試験モデルRedswordでインベーダーを作って比較した新モデルRedsword/Goldmaneは(見える範囲では)主に視覚的特性が強化されてるっぽい？

Kai INUI: Googleの試験モデル、Redsword/Goldmaneの出力UI② ゲームや3Dだけではなく、普通のWeb UIも強化されている

webbigdata: Googleの動画生成AI Veo 3を使った作品の中で最も感銘を受けた動画「男性が指を使って1から10まで声に出して数えながら数える」

Sakana AI、推論力測定ベンチマークSudoku-Bench公開

Sakana AIは、AIモデルの推論能力を多段階のプロセスを通じて評価するベンチマーク「Sudoku-Bench」のリーダーボードを公開しました。
このベンチマークは、AIがより創造的な推論能力を獲得することを促す目的で設計されており、様々な最新AIモデルの性能を比較・追跡することが可能になります。
同社は関連するテクニカルレポートも公開し、AIの推論能力向上に向けた研究開発の進捗を発信しています。

Sakana AI: (翻訳) 数独ベースの推論ベンチマークの発表に続き、最新モデルを評価し、その推論能力の向上を追跡してきました。本日、Sudoku-Benchリーダーボードを公開します: https://t.co/uSreGcB7NQ 新しいテクニカルレポートはこちら: https://t.co/1715s0UNQl https://t.co/xf2GM92Jic

Sakana AI: 「数独」を使って、AIの推論力をより創造的に https://t.co/EVy3KwgsXH 3月に発表した「Sudoku-Bench」は、AIが、多段階のプロセスを経て、より創造的な推論能力を獲得するよう促すためのベンチマークでした。今回は、このSudoku-Benchに照らすと各AIモデルの性能はどう評価されるのか、 https://t.co/qckberU1pt

AIコーディングツール比較続報: Claude Code利便性、Copilot冗長性等

AIコーディング支援ツールの比較に関する議論の続報です。
Claude Codeについて、IDE内で起動する方が使いやすいという声や、利用制限と回復時間に関する具体的な情報が共有されています。
CursorのMCP（Model Context Protocol）ホストとしての機能には課題も指摘されています。
GitHub Copilotのタブ補完機能は賢くなった一方で、AI特有の冗長なコードを生成しやすいという意見も出ています。
これらのツールについて、開発者の間で特徴や使い勝手の情報交換が活発に行われています。

しば田 | Programming x AI: メインの相棒の変遷。 AI時代は尻軽たれ。去年: Cursor 202501: Cursor 202502: Windsurf 202503: Cursor 202504: Roo（+Cursor） 202505: ClaudeCode（+Roo）

しば田 | Programming x AI: MCPホストとしてのCursorが機能しなさすぎる。 MCPの取り回しはCline、Windsurfの方が全然よい

erukiti: GitHub Copilotのタブ補完、中途半端に賢くなったせいでAIコーディングの悪いところが出過ぎてる気がする。これはcursorの方が遙かにマシだ

Chrome DevToolsにGemini連携 VSCodeもAI強化【続報】

開発ツールのAI統合に関する続報です。
Google Chromeのデベロッパーツール (DevTools) にGeminiとの連携機能が追加され、パフォーマンスのトレース結果をGeminiが解説する機能が利用可能になりました。
Visual Studio Code (VSCode) も本体へのAI機能組み込みが進み、「オープンソースのAIエディタ」を目指す動きが続いています。
これにより、開発者はコーディングからデバッグ、パフォーマンス分析に至るまで、よりシームレスなAI支援が期待されます。

Publickey: Visual Studio Codeが本体にAI関連機能を組み込みへ、「オープンソースのAIエディタ」になると表明 https://t.co/oyxbL5NMwL

Addy Osmani: (翻訳) @ChromeDevToolsの新機能: Geminiでパフォーマンス調査結果に注釈を！パフォーマンスのトレースについてGeminiに説明を求めることができるようになりました。具体的には、パフォーマンストレース内のイベントに関する注釈を生成できます。これはまさにゲームチェンジャーです。メイントラックのイベントをダブルクリックし、その後 https://t.co/mfqyGXsmMS

AI倫理議論進展ハルシネーション新解釈とモデル福祉も焦点

Google DeepMindのDemis Hassabis氏が、AIのハルシネーションを「想像力」と捉える新たな視点を示し、AlphaEvolveプロジェクトでの事例を紹介しました。
AIモデルの「福祉」についても議論がなされており、Eleos AIがAnthropic社のAIモデルに対し、その道徳的地位に関するインタビューを実施したと報告されています。
依然として、子供向けのAI家庭教師が不適切な情報を生成する問題も指摘されており、AIの安全性確保の重要性が改めて示されています。
AIが生成したコードの品質や複雑さについても、開発者から課題が提起されています。

Forbes: (翻訳) これらの子供向けAI家庭教師は、フェンタニルのレシピや危険なダイエットのアドバイスを提供しました https://t.co/GdLVUslCci https://t.co/T4YdaVjHCk

Tetsuro Miyatake: ハルシネーションは必ずしもバグではなく、機能にもなり得るとGoogle DeepMindのDemis Hassabisが語る。 AlphaEvolveでは強制的にモデルにハルシネーションさせるようにした。ほとんどのアイデアは微妙だったが、時には良いものも出てきたとのこと。ハルシネーションは想像力として考えるべき。 https://t.co/1toOA0ZoXn

Miles Brundage: (翻訳) モデルの福祉に関する問題は様々な形で悪い方向に進む可能性があるので、慎重に考え始めるのは良いことです https://t.co/xl0dppShQU https://t.co/daIoFO40tM

【続報】Apple AI戦略に懸念 Jony Ive氏OpenAI連携や中国市場影響

AppleのAI戦略に関する懸念の続報です。
同社の元チーフデザインオフィサーであるJony Ive氏がOpenAIと提携し、次世代AIデバイス開発を進めると報じられたことが、Appleにとって新たなプレッシャーとなっている模様です。
以前から指摘されている「Apple Intelligence」の開発の遅れや、Siriの展開の遅さも引き続き懸念材料とされています。
特に中国市場では、HuaweiやXiaomiがAI機能を強化した自社開発チップ搭載の新製品を投入しており、AppleのiPhoneがAI性能で苦戦を強いられる可能性が示唆されています。
一部からは「AppleがIntelのようになってしまうのでは」との厳しい意見も出ています。

Tetsuro Miyatake: Jony IveがOpenAIと提携したことによってAppleにより次世代デバイスを作るプレッシャーがある。特にAIネイティブなデバイスをまだ出せてなく、Siriの展開も遅れているのは懸念されている。次世代デバイスはApple vs Metaになるのか、Meta vs OpenAIになるのか？ https://t.co/GgFB0zVXTf

パウロ: Appleは中国市場でボコボコになりそうですね Huaweiの自社OS + 5nm Kirin + 弩級カメラ Xiaomi 3nm O1チップ + 弩級カメラ両方ともAIまでそろえそうで、iPhoneの先端チップとポンコツAIでは戦えない

パウロ: Apple == Intel になりそう、というかなっているポンコツAIなんとかしないと、情弱信者から金を吸い取るビジネスになりそう

AIエージェント進化続報: RAG脱却と自律探索、新脅威も

AIエージェントの進化に関する続報です。
従来のRAG（Retrieval Augmented Generation）アプローチから、より自律的な探索やツール利用を重視する方向へのシフトが加速しており、Claude Codeチームもこの転換により性能が大幅に向上したと報告しています。
一方で、GUIを操作するマルチモーダルLLMエージェントに対するバックドア攻撃フレームワーク「AgentGhost」が提案されるなど、新たなセキュリティリスクも浮上しています。
AIによる自動化が進む中で、エンジニアには生成されたコードやシステムの動作に対する説明責任と説明可能性が一層求められるとの意見も出ています。
Sakana AIにはAIエージェント分野で著名な太田氏がジョインし、同分野の研究開発がさらに加速する見込みです。

Rohan Paul: (翻訳) エージェント >> RAG - RAGはコンテキストウィンドウが小さい場合に有用でした。 -埋め込みベースの検索は浅いコンテキストにつながり、深い理解にはつながりません。 - 真のパフォーマンスは、エージェントにツールやメモリを与え、人間のように探索させることから生まれます。

Rohan Paul: (翻訳) マルチモーダル大規模言語モデルを利用したグラフィカルユーザーインターフェースエージェントは、共有モデルやAPIからのバックドア攻撃のリスクに直面しています。本稿では、目標トリガーとインタラクショントリガーを組み合わせて密かに起動するバックドアフレームワークAgentGhostを提案します。 https://t.co/xu8aYLZpTH

おじろ: 全く同じ意見で、結局責任は人間が取るしかないので人間の説明可能範囲を広げるのが良さそう。（これを全く無視して人間が説明不可の領域で永遠に探索をすることでシンギュラリティが生まれるかもしれないが）

AI研究最前線継続学習/知識グラフ/マルチモーダル等

LLMの能力向上と応用範囲拡大を目指す研究が活発です。逐次的なタスク学習における破滅的忘却を軽減する「GainLoRA」や、知識グラフにおける多段推論の幾何学的解釈可能性を高める「GeometrE」などが提案されています。
Vision-Language Model (VLM) が複雑な指示をピクセルレベルで正確に理解するための新データセット「Ground-V」や、Text-to-SQLの強化学習における報酬設計を改善する「Graph-Reward-SQL」も注目されます。
その他、LLMエージェントがドメイン固有のガイドラインに従う能力を評価する「GUIDEBENCH」など、より高度で信頼性の高いAIシステム構築に向けた基礎研究が進んでいます。

Rohan Paul: (翻訳) LLMはタスクを順次学習する際に破滅的な忘却に直面します。GainLoRAは、この忘却を軽減するためにLow-Rank Adaptation（LoRA）ブランチのゲート付き統合を使用します。さまざまなタスクに対して新しいLoRAブランチと古いLoRAブランチを選択的に統合します。方法🔧：→GainLoRAは https://t.co/enPTTtggSr を拡張します。

Rohan Paul: (翻訳) Vision-Language Modelは、複雑な指示をピクセルレベルで正確にグラウンディングするのに苦労しています。この論文では、VLMに正確なピクセルグラウンディングのための複雑な指示の処理方法を教えるために自動生成された新しいデータセットGround-Vを紹介します。方法🔧：→Ground-Vデータセット https://t.co/ovFRbjuT7X

Rohan Paul: (翻訳) Text-to-SQL強化学習は、実行報酬の遅さ、メモリ集約的な言語モデル報酬、構造マッチングの精度問題に悩まされています。Graph-Reward-SQLは、実行不要なグラフマッチングネットワーク報酬と中間クエリに関する段階的フィードバックを導入しています https://t.co/SHKLAk1uZB