2025年12月24日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
GPT-5.2が推論で人間超え、NVIDIAのAI SSD開発加速
GPT-5.2ベースのシステムが推論ベンチマークで人間を超える75%の正答率を達成し、AI能力の新たな段階を示しました。
ハードウェア面では、NVIDIAがPhisonとの提携でAI SSD開発を推進。EpochAIの分析では、AI能力の向上ペースが2024年に倍増したことも明らかになっています。
また、ChatGPTとReplitの統合による開発体験の進化、中国オープンLLMの躍進など、多方面で動きが見られます。
では、本日の主要トピックを詳しくご紹介します。
目次
- GPT-5.2ベースのシステム、推論能力で人間超えを達成
- NVIDIAの「AI SSD」開発、SK Hynixに加えPhisonも参加【続報】
- MS、AIでC/C++をRustへ全面移行計画
- Claude Code続報: コンテキスト理解とタスク並列実行が鍵
- AIの能力向上ペースが2024年に倍増、EpochAIが報告
- ChatGPT内で直接アプリ開発が可能に、Replitが統合
- 中国オープンLLMの躍進続く、ZhipuがGLM-4.7を発表
- GoogleのAI、カスタムハードでOpenAIより高効率と報道
- 医療AIの性能評価スイート「Medmarks」が公開
GPT-5.2ベースのシステム、推論能力で人間超えを達成
- AIの推論能力を測る「ARC-AGI-2」ベンチマークの続報です。
- Poetiq社が開発したGPT-5.2ベースのシステムが、人間を超える75%の正答率を記録し、これまでの最高記録を約15ポイント上回りました。
- OpenAIの共同創業者であるGreg Brockman氏もこの結果に言及しており、モデルの推論能力が飛躍的に向上したことを示唆しています。
Greg Brockman: (翻訳) ついにGPT-5.2 X-Highを搭載した我々のシステムをARC-AGI-2で実行する時が来ました!\n\n以前と同じPoetiqハーネスを使用し、完全なPUBLIC-EVALデータセットでGPT-5.2 X-Highを使用して、1問題あたり8ドル未満で最大75%という結果を確認しました。これは以前のSOTAを約15パーセントポイント上回っています。
TestingCatalog News 🗞: (翻訳) 速報🚨: GPT-5.2 X-HighをベースにしたPoetiqシステムが、ARC-AGI-2ベンチマークで人間のベースラインを突破しました。\n\n1ヶ月で65%から75%へ🤖
Chubby♨️: (翻訳) つまり…ARC-AGI-2ベンチマークも75%で飽和したということですね。\n\nベンチマークは新しいものが作られるよりも早く飽和していきます。
NVIDIAの「AI SSD」開発、SK Hynixに加えPhisonも参加【続報】
- 以前お伝えしたNVIDIAとSK HynixによるAI向けメモリ開発の続報です。
- 新たにSSDコントローラー大手のPhisonが提携に加わり、GPUに直接接続する新しい規格の「AI SSD」を開発していることが明らかになりました。
- CPUを介さずGPUに直接データを供給することで、推論時のメモリボトルネックを解消し、性能の大幅な向上を目指します。
パウロ: Nvidia HBMやSOCAMM2に続いて、SSDも独自のインターフェイスとプロトコルでGPUにロックインさせる気ですね。そして恐ろしいほどの性能をPhisonとSK Hynixに要求 このパターン何度も見たけど強いんだよなぁ https://t.co/5BCH6B9cRT
パウロ: これハイパースケーラーから見たら、自前のストレージ使えないので、かなり嫌なんです。 ただ、恐らくGPUにCPUなどを介さず直接DMA転送ができ、どの転送中に非同期演算処理が走ってめちゃくちゃ性能が出るので、採用せざるを得ないかなと予想しています。
パウロ: CXLは本当に死んだのかもね
MS、AIでC/C++をRustへ全面移行計画
- Microsoftが、社内のC言語およびC++で書かれたコードを2030年までにすべてRustに置き換えるという野心的な目標を掲げていることが明らかになりました。
- Microsoftの著名なエンジニアであるGalen Hunt氏がLinkedInで言及したもので、AIとアルゴリズムを組み合わせて大規模なコードベースを書き換える戦略とのことです。
- 「エンジニア1人が1ヶ月で100万行のコードを処理する」という目標も掲げられており、AIを活用した開発プロセスの変革を目指しているようです。
Rohan Paul: (翻訳) すごい。マイクロソフトは2030年までにすべてのCおよびC++コードをAIで一掃し、すべてをRustに置き換えることを目指しています。\n\n彼らの新しい「北極星」メトリック:エンジニア1人、1ヶ月、100万行のコード。\n\nマイクロソフトの著名なエンジニアであるGalen Hunt氏はLinkedInの投稿で次のように書いています。\n\n「私の目標は
Chubby♨️: (翻訳) マイクロソフトは「2030年までにマイクロソフトからCとC++のすべての行をなくす」という目標を設定しました。\n\n「私たちの戦略は、AIとアルゴリズムを組み合わせてマイクロソフトの最大のコードベースを書き換えることです」
Claude Code続報: コンテキスト理解とタスク並列実行が鍵
- AI駆動開発ツール「Claude Code」の続報です。開発者の間でより高度な活用方法が議論されています。
- モデルがどの情報を参照しているかを理解する「コンテキストウィンドウ」の仕組みを解説した記事が注目を集めています。
- タスクの並列実行方法も共有されており、Subagentsやgit worktreeを利用するアプローチが紹介されています。
Oikon: Claude Codeのコンテキストウィンドウの中身について、分かりやすく書かれているので、5.5分だけ使って読んでみてください↓ https://t.co/cHOOpXEHgE
Oikon: 【Day23】Claude Codeの並列実行 #claude_code_advent_calendar Claude Codeは自律的にタスクをこなせるため、並列実行を積極的に使っていきたい。並列実行には主に2つのアプローチがある: ・同じブランチで並列実行(Subagents) ・別のブランチで並列実行(git worktree) 前者は、Claude Code https://t...
masuidrive: ClaudeCodeでExpo使ってスマホアプリ作るの楽しいな。画面が小さくてUIが型化されているから、小気味よく作れる。
AIの能力向上ペースが2024年に倍増、EpochAIが報告
- AI研究機関のEpochAIが、フロンティアAIモデルの能力向上ペースが2024年に入ってから約2倍に加速しているとの分析結果を発表しました。
- 同機関のインデックスによると、これまで年間約8ポイントだった能力向上値が、2024年4月頃から年間約15ポイントに急増したとのことです。
- この加速は、推論能力を重視したモデルの登場や、フロンティアラボでの強化学習への注力強化と時期が一致していると見られています。
Miles Brundage: (翻訳) 2024年、AIの能力は加速しました!Epoch Capabilities Indexによると、フロンティアモデルの改善は年間約8ポイントから年間約15ポイントへとほぼ倍増しました。
Chubby♨️: (翻訳) Epochのデータによると、AIの進歩はほとんどのアナリストの予想よりも速く加速し、2024年から能力の向上がほぼ倍増しました。\n\nこれは、フロンティアAIが着実に改善しているだけでなく、予想よりも速い成長段階に入っていることを示唆しており、その主な要因は
Rohan Paul: (翻訳) フロンティアモデルの能力向上は24年4月頃に大幅に加速したようで、2024年4月には90%の加速が見られました。基本的にはほぼ2倍の速さの進歩です。これは、推論モデルの台頭と、フロンティアラボでの強化学習への注力強化と「ほぼ一致」しています。
ChatGPT内で直接アプリ開発が可能に、Replitが統合
- ChatGPT内で直接アプリケーションを構築できる新機能「Replit in ChatGPT」が発表されました。
- ユーザーは開発環境のセットアップやタブの切り替えなしに、チャットで指示を出すだけでアプリを開発できます。
- この統合により、アイデアを即座に形にすることが可能になり、開発のハードルがさらに下がることが期待されます。
Greg Brockman: (翻訳) ChatGPTのReplitアプリ:
まつにぃ: ReplitまでGPTのappに入ったのね。 このまま全アプリケーション飲み込みそう。 ただ一番欲しいのは蓄積できるNotionとかGitへの今以上の密結合かもしれない。 どの会話セッションでも持ち込める共通のリポジトリとかディレクトリでも可能。
中国オープンLLMの躍進続く、ZhipuがGLM-4.7を発表
- 中国発の高性能オープンソースLLMの躍進が続いており、新たにZhipu AIの「GLM-4.7」とMiniMax社の「MiniMax M2.1」が登場しました。
- 両モデルは特にコーディングや推論タスクで高い性能を示し、クローズドなモデルとの差を急速に縮めていると評価されています。
- これらのモデルはOllamaなどでも利用可能になっており、開発者コミュニティでの活用が期待されます。
Haider.: (翻訳) 24時間も経たないうちに、非常にSOTAなオープンソース/ウェイトモデルが2つ登場しました: - GLM 4.7 - MiniMax M2.1 特にコーディングと一般的な推論において、大規模なクローズドラボとの差は急速に縮まっています。中国の戦略は単純です:強力なベースモデルを出荷し、スタートアップや研究者が利用できるようにすることです。
TestingCatalog News 🗞: (翻訳) MiniMax M2.1が正式に発表され、SWE-multilingualで72.5%のスコアを記録しました。「SWE-multilingualで72.5%、新たにオープンソース化されたVIBE-benchで88.6%のスコアを記録した、SOTAの10B活性化OSSコーディング&エージェントモデル」
まつにぃ: MiniMAX2.1が来たので、触ってみる。 音声部分すごく好きなので、コーディングも期待です。
GoogleのAI、カスタムハードでOpenAIより高効率と報道
- GoogleとOpenAIのAI開発競争に関する続報です。
- The Informationによると、Googleはカスタムサーバーハードウェアの存在により、OpenAIよりも効率的にAIを運用できる優位性を持っていると報じられています。
- 背景として、Googleは2025年に総計算能力の約半分をクラウド部門に割り当てる計画であり、OpenAIのリーダー層はユーザーがChatGPTとGeminiの差をほとんど感じていないことに懸念を示していると伝えられています。
The Information: (翻訳) Googleは、拡大を維持し顧客にサービスを提供するため、2025年に総計算能力の約半分をクラウド部門に割り当てる予定です。記事を読む:
The Information: (翻訳) Googleはカスタムサーバーハードウェアのおかげで、OpenAIよりも効率的にAIを運用できます。OpenAIのリーダーたちは今、ユーザーがChatGPTとGoogleのGeminiの間にほとんど違いを見出せないことを懸念しています。詳細はこちら:
Evan: (翻訳) 2025年にGoogle $GOOGLが採用したAIソフトウェアエンジニアの20%が元従業員だったことをご存知ですか?
医療AIの性能評価スイート「Medmarks」が公開
- 医療分野でのAI活用に関する続報です。新たに、医療AIの能力を評価するオープンソースの評価スイート「Medmarks v0.1」がリリースされました。
- LLMを医療相談に利用する個人の体験談も報告されるなど、活用の幅が広がる中で、客観的な評価基準の重要性が増しています。
- 専門家からは、AIの役割は単なるチャットボットに留まらず、医療従事者の支援や科学的発見の推進にあるとの声も上がっています。
Chubby♨️: (翻訳) ChatGPTは命を救います。もう1年以上、まずAIに相談し、次にAIの評価を受けてからでなければ医者にはかかっていません。AIなしの医療は怠慢です。
Tanishq Mathew Abraham, Ph.D.: (翻訳) 3ヶ月前に入社してからこの手強い取り組みを率いてくれた@benjamin_warnerによる素晴らしい仕事です。彼がSophontチームに加わってくれて嬉しく思います!
Haider.: (翻訳) gpt-5以降、openaiモデルは医療アドバイスに非常に優れています。ほとんどの人がAIについて見逃しているのは、その最も重要な仕事がチャットボットではないということです。実際に医療分野で人々を助けることができます。そのため、医療用に構築されたモデルを増やし、科学的発見をさらに推し進める必要があります。