2026年02月05日 夜のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
GPT-5.2が自律実行でSOTA達成、OpenAI Codexが100万ユーザー突破
OpenAIのGPT-5.2が自律タスク実行で6.6時間の新記録を達成し、METRベンチマークで首位を奪還しました。同じくOpenAIのCodexはアクティブユーザー100万人を突破し、GitHub/VSCodeへの統合を完了しています。
一方、Metaの次期モデル「Avocado」は社内で「最高性能」と評価され、事前学習を完了。ChatGPTは外部アプリ連携の標準仕様「MCP Apps」に完全対応しました。
それでは、本日の主要トピックを詳しくご紹介します。
目次
- OpenAI Codex、GitHub/VSCodeに統合 100万AUU突破
- GPT-5.2、自律実行6.6時間でMETR首位奪還【続報】
- Metaの次期モデル「Avocado」社内で最高性能と評価【続報】
- ChatGPT、外部アプリ連携「MCP Apps」に完全対応【続報】
- NVIDIA Blackwell上のvLLM、H200比で推論速度が最大5倍に
- LangSmith、実験比較ビューを刷新しモデル評価を効率化
OpenAI Codex、GitHub/VSCodeに統合 100万AUU突破
- OpenAIのコーディング支援AI「Codex」の続報です。アクティブユーザーが100万人を突破したことが発表されました。
- GitHub Copilot Pro+およびEnterpriseを通じて、GitHubとVSCode上でCodexエージェントが利用可能になりました。
- あわせて、Codexの内部アーキテクチャや、各種IDEとの連携を可能にするApp Serverの技術詳細も公開されています。
Sam Altman: (翻訳) Codexのアクティブユーザーが100万人を突破しました!
OpenAI Developers: (翻訳) エージェントHQでCodexが選択できるようになりました。@GitHubと@codeからアクセスできます。
OpenAI Developers: (翻訳) ⚙️ Codexハーネスの内部 Codexアプリ、Codex CLI、Codexウェブアプリ、IDE統合(@Code、Xcode、@JetBrainsなど)を含むすべてのCodexサーフェスは、内部で同じCodexハーネスによって動作しています。 私たちは、JSON-RPCであるCodex App Serverの詳細を共有しています。
GPT-5.2、自律実行6.6時間でMETR首位奪還【続報】
- AIの自律的なタスク実行時間を競うMETRベンチマークの続報です。
- OpenAIのGPT-5.2-highモデルが、人間が約6.6時間かかるタスクを介入なしで完了できる能力を持つと推定され、新たな最高性能(SOTA)を達成しました。
- これは以前トップだったAnthropicのClaude 4.5の記録(約4時間49分)を大幅に更新するものです。
- AIの自律的な問題解決能力が飛躍的に向上していることを示す結果として、多くの注目を集めています。
Lisan al Gaib: (翻訳) 新しいMETR 80% SOTA:GPT-5.2-highが55分。GPT-5.1-Codex Max、Gemini 3 Pro、Opus 4.5のグループから初めて抜け出したモデル。https://t.co/nSef4eqhEV
Chubby♨️: (翻訳) 指数関数的すぎて、文字通り壁のように見えます。GPT-5.2 highがタスク期間の新記録を樹立しました。しかもxhighですらありません。https://t.co/qTzhl7CMq7
Greg Brockman: (翻訳) 長期間タスク向けのgpt-5.2:
Metaの次期モデル「Avocado」社内で最高性能と評価【続報】
- 以前、開発中と報じられたMetaの次期AIモデル、コードネーム「Avocado」の続報です。
- The Informationの報じたところによると、このモデルは社内メモで「これまでで最も高性能な」モデルであると説明されていることが明らかになりました。
- 既に事前学習を完了しており、トップクラスのオープンソースベースモデルを上回る性能を示しているとされています。
The Information: (翻訳) 独占記事:社内メモによると、Metaは最近、コードネーム「Avocado」という新しいAIモデルがこれまでで「最も高性能」であるとスタッフに伝えた。 @jyoti_mann1 の記事で詳細を読む👇 https://t.co/nS2mWj1rxj
TestingCatalog News 🗞: (翻訳) The Informationによると、Metaの次期モデルAvocadoは、社内で「これまでで最も高性能」と評価されているとのこと。もうすぐ?👀 https://t.co/Bc8p0wvYAe
Bindu Reddy: (翻訳) 社内では、Metaは新しいモデルAvocadoが史上最高の事前学習済みモデルだと言っている!! - The Informationによる報道
ChatGPT、外部アプリ連携「MCP Apps」に完全対応【続報】
- 以前より報じてきた、ChatGPTの外部アプリケーション連携機能に関する続報です。今回、連携を標準化する仕様「MCP Apps」への完全対応が正式に発表されました。
- この仕様は、昨年10月にプレビュー版が公開された「Apps SDK」をベースに策定されたものです。
- 仕様に準拠したアプリはChatGPT内でシームレスに動作し、開発者は一度の開発で様々なプラットフォームへの展開が可能になります。
OpenAI Developers: (翻訳) ChatGPTはMCP Appsに完全対応しました。私たちはMCP委員会と協力し、ChatGPT Apps SDKをベースにMCP Apps仕様を作成しました。これにより、仕様に準拠したアプリはすべてChatGPTでも動作するようになります。https://t.co/ybvgXsNX0o
NVIDIA Blackwell上のvLLM、H200比で推論速度が最大5倍に
- NVIDIAの最新GPU「Blackwell」上で、オープンソースの推論エンジン「vLLM」がさらなる性能向上を達成したと報告されました。
- GB200 NVL72上でMoEモデルを動作させた場合、PrefillでGPUあたり毎秒26,200トークン、Decodeで毎秒10,100トークンという高いスループットを実現しています。
- これは前世代のH200と比較して、半分のGPU数で3〜5倍のスループット向上に相当し、大規模モデルの推論コスト削減に大きく貢献することが期待されます。
NVIDIA AI Developer: (翻訳) 👀 @vllm_project は、NVIDIA Blackwell での大規模推論の基準を引き上げており、NVFP4 を使用して、DeepSeek R1/V3/V3.1 を含む DeepSeek スタイルの MoE モデル用の GB200 NVL72 で、プリフィルで GPU あたり毎秒 26.2K トークン、デコードで GPU あたり毎秒 10.1K トークンを達成しています。緊密...
LangSmith、実験比較ビューを刷新しモデル評価を効率化
- LLMアプリケーション開発フレームワークのLangChainが提供する「LangSmith」に、実験比較ビューが刷新されました。
- この新機能により、プロンプトやモデルの変更といった異なる実験の結果を並べて比較し、性能の改善や悪化(リグレッション)を迅速に把握できます。
- 新しいモデルが登場した際に、既存のLLMパイプラインの性能がどう変化したかを効率的に評価するのに役立ちます。
LangChain: (翻訳) 💫 LangSmithの実験比較ビュー 💫 LLMアプリを反復開発する際(モデルやプロンプトの変更など)、異なる実験を並べて比較することで、何が変更されたかを素早く理解できます。再設計された実験比較ビューでは、リグレッションや改善点を明らかにすることができます。https://t.co/UVXAMKECje
Harrison Chase: (翻訳) 新しいモデルが出たとき(sonnet 5とか?)、自分のエージェントやLLMパイプラインのパフォーマンスが良くなったか悪くなったかを確認したいですよね。どうすればいいでしょう?Langsmithです!そして、そのためのビューをさらに改善しました。