2025年12月21日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Claude 4.5が長時間タスクで新記録、コーディングモデルの進化が加速

AnthropicのClaude Opus 4.5が長時間タスク性能で約4時間49分の新記録を達成し、GPT-5を上回りました。

一方、OpenAIのGPT-5.2 Codexは大規模コードベースでの安定性が高く評価され、開発者から絶賛の声が上がっています。また、AnthropicのClaude CodeにはLSPサポートが追加され、IDE並みの開発体験が実現しつつあります。

それでは、本日の主要トピックを詳しくご紹介します。

目次

  1. Claude 4.5、長時間タスク性能でGPT-5を抜き新記録
  2. GPT-5.2 Codex、大規模コードベースでの安定性が高評価【続報】
  3. Claude Code続報: LSPサポートでIDEのような開発体験へ
  4. CodexのSkills機能が公式サポート、ChatGPTにも搭載へ
  5. vLLMとNVIDIA Blackwellの連携で推論性能が33%向上
  6. Anthropic、モデルの安全性評価ツール「Bloom」を公開
  7. ChatGPT、Sora連携でXmasビデオを生成する新機能

Claude 4.5、長時間タスク性能でGPT-5を抜き新記録

  • 以前GPT-5が他を圧倒していた長時間タスク性能の分野で、AnthropicのClaude Opus 4.5が新記録を達成しました。
  • METRのベンチマークにおいて約4時間49分という記録で、AIエージェントが自律的にタスクを実行できる時間を示す指標です。
  • ただし、より短いタスクにおける安定性ではGPT-5.1に及ばないとの分析もあり、モデル間の競争は続いています。
松本 勇気 (Yuki Matsumoto) | LayerX CTO: (翻訳) 私たちのタスクでは、Claude Opus 4.5の50%タイムホライズンは約4時間49分(95%信頼区間は1時間49分から20時間25分)であると推定しています。他の最近のモデルの評価はまだ進行中ですが、これは現在までに公開された中で最も長いタイムホライズンです。

Chubby♨️: (翻訳) Anthropicは、Claudeで2025年の真の勝者です。 4時間49分で、自律的に動作する最長のAIエージェントです(50%タイムホライズン)。 しかし、Opus 4.5の80%タイムホライズンはわずか27分で、過去のモデルと同様で、GPT-5.1-Codex-Maxの32分を下回っています。 要するに、競争は続いています。

Shakeel: (翻訳) 昨日、METRの時間軸タスクにおけるAIモデルの性能が今年4倍に向上したと書きました。 実際には7倍だったことが判明しました。 今年のAIの進歩が鈍化しているという話にもかかわらず、物事は継続しているという昨日の私の主張がさらに有効になったと思います。

GPT-5.2 Codex、大規模コードベースでの安定性が高評価【続報】

  • 先日、性能について賛否両論が報じられたOpenAIのコーディングモデル「GPT-5.2-Codex」の続報です。
  • OpenAIのGreg Brockman氏をはじめ多くの開発者から、特に大規模で複雑なコードベースで安定して動作する点が絶賛されています。
  • 一部では、GPT-3.5から4への進化よりも劇的な変化だと評する声も上がっており、ソフトウェア開発の生産性向上が期待されます。
Greg Brockman: (翻訳) gpt-5.2 codexは、大規模で実世界のコードベースでうまく機能します

Greg Brockman: (翻訳) CodexのGPT-5.2 💪

Haider.: (翻訳) gpt-5.2 codexは、大規模で雑然としたコードベースでも非常に安定しています。 軌道から外れることなく永遠に実行でき、生成したものを捨てることはめったにありません。 唯一の欠点は、実行中に他の作業を始めてしまい、クォータを使い果たしてしまうほど時間がかかることです。

Claude Code続報: LSPサポートでIDEのような開発体験へ

  • AnthropicのAI開発アシスタント「Claude Code」の続報です。
  • 新たにLSP (Language Server Protocol) をサポートし、定義ジャンプやリファクタリングといったIDEのような機能が利用可能になりました。
  • 開発効率のさらなる向上が期待されていますが、現在は特定バージョンで有効化する必要があるなど、まだ不安定な面もあるようです。
Oikon: Claude Code 2.0.74 https://t.co/I3yOmEX2G3

azukiazusa: Claude Code の LSP サポート https://t.co/ojVJAL1Dkd

ML_Bear: ClaudeCodeにLSP来たのめちゃくちゃいいのでは?定義ジャンプとかをClaudeCodeがしやすくなるってことよね? Pluginから入れられるとのことでとりあえずPythonとTypeScriptのやつを入れてみた😇

CodexのSkills機能が公式サポート、ChatGPTにも搭載へ

  • 以前お伝えした、OpenAIのコーディングアシスタント「Codex」のSkills機能に関する続報です。
  • この機能が公式にサポートされ、ユーザーは「$.skill-name」という形式で特定のスキルを直接呼び出せるようになりました。
  • プロンプトに応じてCodexに適切なスキルを選択させることも可能です。
  • また、この機能はChatGPTにも「hazelnuts」というコードネームで搭載が予定されており、GPTをスキルに変換するエディタも提供される見込みです。
Greg Brockman: (翻訳) codexは現在、https://t.co/b7hv3woe7S標準に従ってスキルをサポートしています。

Kazuhiro Sera (瀬良): OpenAI の Codex が Skills をサポートするようになりましたので、ぜひ試してみてください!詳しくは引用しているポストのスレッドをご覧ください。

Tibor Blaho: (翻訳) ChatGPTにもスキル(コードネーム「hazelnuts」)が登場します。スラッシュコマンドとして利用でき、スキルエディタやカスタムGPTをスキルに変換するオプションも含まれます。

vLLMとNVIDIA Blackwellの連携で推論性能が33%向上

  • vLLMプロジェクトとNVIDIAの協力により、NVIDIA Blackwell GPU上での推論スループットがわずか1ヶ月で最大33%向上したと報告されました。
  • これによりトークンあたりのコストが大幅に削減され、大規模言語モデルの運用効率がさらに高まります。
  • ソフトウェアの改善によってハードウェアの性能を最大限に引き出すNVIDIAのエコシステムの強みを示す事例として注目されています。
Dylan Patel: (翻訳) SemiAnalysis InferenceMAXによると、Blackwell上のGPT OSSは、@vllm_projectと@nvidiaの素晴らしい仕事のおかげで、わずか1ヶ月でドルあたりのトークン数が33%増加しました。

パウロ: こういうソフトウェアの改善でトークン生成スループットがどんどん上がっていくのがNvidiaの強み 以下、日本語訳 vLLMは、同じGPUプラットフォームでさらに高い推論性能を提供します。 わずか1か月で、NVIDIAと協力して@nvidia BlackwellのGPUごとの最大スループットを最大33%向上させました --

パウロ: これが開発者がたくさんいるプラットフォームの恐ろしいところです。 世の中にいる多数の天才がGPU+CUDA+Pytorchを最適化する。 その結果、どんどんネットワーキングとGPU内部の演算機が働き物になるので効率が上がり続けるんです。

Anthropic、モデルの安全性評価ツール「Bloom」を公開

  • Anthropicが、フロンティアAIモデルの行動的な不整合を評価するためのオープンソースツール「Bloom」をリリースしました。
  • Bloomは、研究者が特定の振る舞いを指定し、自動生成されたシナリオ全体でその頻度と深刻度を定量化することを可能にします。
  • AIの安全性を確保し、意図しない挙動を防ぐための重要な取り組みとして注目されます。
Anthropic: (翻訳) フロンティアAIモデルの行動の不一致評価を生成するためのオープンソースツールであるBloomをリリースします。 Bloomを使用すると、研究者は行動を指定し、自動生成されたシナリオ全体でその頻度と重大度を定量化できます。 詳細はこちら:https://t.co/TwKstpLSy3

Haider.: (翻訳) Anthropicはその規模から予想されるよりもはるかに多くのことを行っています。 opus 4.5はgemini 3と同等で、一部の分野では優れていますが、他の分野では劣っています。 claude codeは、私たちが本当に感銘を受けた最初の自律型ソフトウェアエンジニアリングツールでした。 彼らはソフトウェアエンジニアリングにほとんどの労力を注いでいます。

ChatGPT、Sora連携でXmasビデオを生成する新機能

  • OpenAIがクリスマスに向けた新機能を発表しました。
  • ChatGPTでプレゼントの絵文字「🎁」を送信すると、「Connector OpenAI Santa」というアプリが起動します。
  • この機能は、ユーザーの自撮り写真やChatGPTとの過去の対話内容をもとに、Soraがパーソナライズされたホリデービデオを生成するものです。
Tibor Blaho: (翻訳) ChatGPTに🎁の絵文字を送ると、「Connector OpenAI Santa」という新しいアプリを使って、あなたのセルフィーを基にSoraでオリジナルのホリデービデオを作成してくれます。

Chubby♨️: (翻訳) OpenAIが今年のクリスマスに素敵なプレゼントを用意してくれていることを忘れないでください :)

まつにぃ: あ、これがOpenAIのクリスマスプレゼントね笑 https://t.co/2fIPtvRgMu

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください