2026年01月25日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

GPT-5.2 Proが数学ベンチで新記録、AIエージェント開発の新潮流

GPT-5.2 Proが高難度数学ベンチマークで31%を達成し、過去最高を更新しました。数学者からも高い評価を得ています。

一方、Claude in ExcelがProプラン向けに一般公開され、OpenAIのCodexもJetBrains IDEに対応。開発環境へのAI統合が加速しています。

さらにOpenAI共同創業者が「エージェントファースト開発」を提唱し、AI主導の開発手法に注目が集まっています。

各トピックの詳細について、以下でご確認ください。

目次

  1. 【続報】GPT-5.2 Pro、数学ベンチで記録を更新 31%達成
  2. 続報: Claude in Excel、Proプランで一般提供開始
  3. OpenAIのCodexがJetBrains IDEに対応
  4. AI Agentの「Skills」規格、Cursor IDEも対応
  5. Sakana AI、Google提携巡る報道に反論 DeepMindも関与と主張【続報】
  6. DeepMind CEO、AI投資の過熱に「バブル」と警鐘
  7. [続報] ByteDance、2026年のAI投資を6.7兆円に増額
  8. AIの数学能力、コーディングや推論能力と強い相関
  9. Alibaba、Qwen Chat採用のTTSモデル「Qwen3-TTS」をOSS公開
  10. OpenAI共同創業者、エージェントファースト開発を提唱

【続報】GPT-5.2 Pro、数学ベンチで記録を更新 31%達成

  • GPT-5.2 Proの数学的能力に関する続報です。
  • 高難度の数学ベンチマーク「FrontierMath Tier 4」で31%のスコアを記録し、以前の最高スコア29.2%を更新しました。
  • さらに、ベンチマークの問題に含まれていた誤りを指摘するなど、その高度な推論能力が示されています。
  • この結果に、数学者からもその能力を高く評価する声が上がっています。
Greg Brockman: (翻訳) 数学用gpt-5.2 pro: (引用ツイート: FrontierMath Tier 4で新記録!GPT-5.2 Proが31%のスコアを記録し、これまでのハイスコア19%から大幅にジャンプアップしました。数学者のコメントを含む詳細は続きをお読みください。https://t.co/i5nj1kTcMt)

Chubby♨️: (翻訳) GPT-5.2 ProがFrontierMathベンチマークの31%を達成したこと(過学習なし)は信じられないほど素晴らしいことですが、それ以上に、新しい問題を直接解決する方法や、最も優秀な数学者たちがGPT-5.2の能力に感銘を受けていることに感銘を受けます。私は https://t.co/dyRWqCdrxL (引用ツイート: FrontierMath Tier 4で新記録!GPT...

Greg Brockman: (翻訳) GPT-5.2 ProがTier 4の数学問題の1つに欠陥があると指摘しました: (引用ツイート: だから、問題があると言われたときは、聞いてみようと思いました。ある問題では、解がない場合(実際にはあるのですが)、モデルに-1を提出するように指示しています。Proは-1を提出し、著者に確認したところ...致命的なタイプミスがありました!それはこれらのケースの1つでした: https:/...

続報: Claude in Excel、Proプランで一般提供開始

  • 以前、金融サービス向けにベータ版として提供されていたClaudeのExcel統合機能が、Proプラン向けに一般公開されました。
  • Excel内で直接Claudeを利用でき、複数ファイルのドラッグ&ドロップ対応や、既存セルの上書き防止、長時間のセッションに対応する自動圧縮機能などが含まれています。
  • Microsoft 365 Copilotに先駆けての提供となり、スプレッドシート作業のさらなる効率化が期待されます。
Yuchen Jin: (翻訳) AnthropicはMicrosoft 365 Copilotの前にどうやってこれをリリースしたのですか? (引用ツイート: Claude in ExcelがProプランで利用可能になりました。Claudeはドラッグアンドドロップで複数のファイルを受け入れ、既存のセルを上書きするのを避け、自動圧縮でより長いセッションを処理します。始める: https://t.co/cAMDXM1h7r...

TestingCatalog News 🗞: (翻訳) Claude in ExcelがProユーザー向けに展開中👀 https://t.co/OWbpsLbAGc (引用ツイート: Claude in ExcelがProプランで利用可能になりました。Claudeはドラッグアンドドロップで複数のファイルを受け入れ、既存のセルを上書きするのを避け、自動圧縮でより長いセッションを処理します。始める: https://t.co/cAMDXM1h7...

まつにぃ: 正直Claude in ExcelとかなくてもXML単位で分解して数値取って編集とか図にしたり出来るので、この辺は自作した方が圧倒的に良い。 Skillsでできる事は100%自作できるので、流れやフォーマットも相まってそっちの方が融通がきく。 PPTXやWord然り。 (Quote Tweet: Claude in Excel is now available on Pro plans. Clau...

OpenAIのCodexがJetBrains IDEに対応

  • OpenAIのコーディング支援AI「Codex」が、JetBrains製の統合開発環境(IDE)内で利用可能になりました。
  • IntelliJ、PyCharm、WebStorm、RiderなどのIDEで、ChatGPTプランを通じてGPT-5.2 Codexの機能を利用し、コードの計画、作成、テスト、レビュー、出荷までをエディタ内で完結できます。
  • また、Codexが内部でどのように動作しているか(エージェントループ)についての技術的な詳細もブログで公開されています。
Greg Brockman: (翻訳) JetBrains IDE向けCodex: (引用ツイート: Codexが@jetbrains IDE内で実行されるようになりました。コードエディタを離れることなく、コードの計画、作成、テスト、レビュー、出荷ができます。本日より、GPT-5.2 Codexを搭載したIntelliJ、PyCharm、WebStorm、RiderでChatGPTプランと共にCodexを使用できます。htt...

Romain Huet: (翻訳) Codexが内部でどのように機能するかに興味がある場合は、エージェントループに関する詳細な解説を公開しました。ハーネスが推論、ツール呼び出し、コンテキスト管理をどのように調整するかを詳しく説明しています。https://t.co/jEuU8RDajz

Kenn Ejima: ガチでCodexでしか解けない問題ってあるんですよね… 自分も1年に1回ぐらいしか遭遇しないレースコンディションの超レアなエッジケースとか、コスパが合わなくて長年ダラダラ放置しててClaude Codeであれこれやっても全然ダメだったのに、Codexが一発で解決してしばらく放心状態になった (Quote Tweet: まじか。。。Codex。。。3年前から解けなかった delations conv...

AI Agentの「Skills」規格、Cursor IDEも対応

  • 以前からお伝えしているAIエージェントの能力を定義する共通規格「Agent Skills」の続報です。
  • 新たにAIネイティブなIDEであるCursorがAgent Skillsに対応し、主要なIDEでのサポートが広がっています。
  • 特定の機能を持つ「スキル」を組み合わせる開発スタイルが、さらに浸透していくと見られます。
まつにぃ: Cursorも正式にSkillsが来たことにより主要IDEのほとんどがSkillsと SubAgentを携えていますね。 良いことだ。 Skills万歳。 (Quote Tweet: Agent Skills are now available in Cursor. Skills let agents discover and run specialized prompts and code. h...

Kenn Ejima: Manim Skillsで @3blue1brown 風のビジュアライゼーション、作り放題じゃないか 何度でもいうけど、inputとoutputが同じフォルダーで input > output > input > ... というループをゴール達成まで無限にループさせる、という単純さがAIエージェントの本質なので 動画制作も絶対こっちに来るよね (Quote Tweet: New hot skill...

まつにぃ: ああそうか、Skillsこそセマンティック検索もしたら良いのか。 そうなりそう。 毎回全SkillsのDescription全文読み込んでたら、一定量までしかSkills貯めれないですもんね。

Sakana AI、Google提携巡る報道に反論 DeepMindも関与と主張【続報】

  • 先日お伝えしたSakana AIとGoogleの戦略的パートナーシップについて、提携内容の詳細を巡り情報が錯綜しています。
  • 一部で「Google Cloud Japanによる投資でDeepMindは無関係」との見方に対し、Sakana AI側が「DeepMindも積極的に関与」と反論しました。
  • AIスタートアップと巨大テック企業との提携における、情報発信の難しさが浮き彫りになった形です。
シェイン・グウ: サカナAIとGoogleの提携はGoogleCloudJapanがリードした小規模の計算資源投資です。日本とアメリカの記事は意図的に誇張されてると思いDeepMindのトップに連絡し、担当者も特定しました。Google本社やDeepMindとサカナAIの共同開発予定は現在ありません。以上。

Miles Brundage: (翻訳) ここで奇妙なことが起こっています (引用ツイート: @shanegJP シェイン・グウ様 こちらの投稿を驚きと困惑とともに拝見しております。一点、本提携にはGoogle DeepMindも積極的にご関与いただいております。 @GoogleDeepMind を含むGoogleの素晴らしいチームの皆様と今後連携させていただけることは、変わらず心より楽しみにしております。 @demishas...

Takami Sato: 某氏に関しては彼が日本であのポジションを取りたかったんだろうなというのは痛いほど伝わってくるが、ビジネス上は腸煮えくり返っていても笑顔で握手できる感じじゃないと評判が落ちる一方よな。退職エントリで会社の悪口書いちゃ駄目なのと一緒で将来どんな絡み方するかわからないんだから

DeepMind CEO、AI投資の過熱に「バブル」と警鐘

  • Google DeepMindのCEOであるデミス・ハサビス氏が、現在のAI業界への投資の一部が「バブルのようだ」と警鐘を鳴らしました。
  • 同氏は、一部の投資レベルが商業的な現実から乖離していると指摘し、将来的な市場の調整の可能性を示唆しています。
  • この発言は、AI分野のトップランナーが業界の過熱ぶりに懸念を示したものとして注目されています。
Financial Times: (翻訳) FT独占:Google DeepMindの責任者であるデミス・ハサビス卿は、AI業界の一部における熱狂がますます「バブルのようだ」と警告する一方、その規模と技術により、この巨大テックグループはあらゆる潜在的な報いに対して有利な立場にあると主張した。https://t.co/fj0rN6DbPc https://t.co/NfckqdcgZt

Financial Times: (翻訳) DeepMindのデミス・ハサビスCEO、AI投資は「バブルのようだ」と警告 https://t.co/W4wW2vNQ2f

Financial Times: (翻訳) Google DeepMindの責任者であるデミス・ハサビス卿はFTに対し、テクノロジー業界の一部の投資レベルは商業的現実から乖離していると語った。https://t.co/27WGX6UrVF https://t.co/KLNYG4ZTH1

[続報] ByteDance、2026年のAI投資を6.7兆円に増額

  • ByteDanceのAI投資に関する続報です。2026年の設備投資額を3000億人民元(約6.7兆円)に大幅増額したと報じられました。
  • これは以前報じられた230億ドル規模の投資計画を大きく上回るもので、AI開発に必要な計算資源やストレージへの投資が中心とみられています。
  • Agentic AIの登場によるAIの実需の爆発的な増加を背景に、中国のテック企業が再び投資を加速させていることが伺えます。
パウロ: ByteDanceの2026年の設備投資は 3000億人民元 6.7兆円 マーケットの予想を大幅に上回る 計算資源とストレージですね 中国ビックテックも再加速っ (Quote Tweet: 字节跳动已大幅上调其2026年资本支出目标至3000亿元人民币,几乎是此前市场预估1600-1800亿元的两倍。预计其中超过一半将用于海外市场。 https://t.co/252TbT94XQ)

Jukan: (翻訳) ByteDanceは今年、設備投資を3,000億人民元に増額したと報じられています。私の観点からは、$VNETはこの恩恵を大きく受ける態勢にあるように見えます。https://t.co/bslzCf4OT5

パウロ: Agentic AIでAI実需が爆発

AIの数学能力、コーディングや推論能力と強い相関

  • AIモデルの数学的能力と、コーディングや推論といった他の能力との間に強い相関関係があることが、EpochAIの研究によって示されました。
  • 研究によると、数学ベンチマークのスコアが高いモデルは、他の分野のベンチマークでも高いスコアを出す傾向があり、その相関係数は0.68に達するとのことです。
  • これは、AIの様々な能力の根底に共通の要因が存在することを示唆しており、「数学ができるAIは結局すべて賢い」という見方が広がっています。
K.Ishi@生成AIの産業応用: 「三角関数なんて社会に出たら役に立たない」はAIの世界でも誤りだった。数学能力の高いAIは数学だけに特化しているのかと思いきや、実はコーディングや推論などの他の能力も高い。EpochAIはそれらの異分野間の能力に相関係数0.68という強い相関があることを突き止めた。数学がわかるAIは結局全部賢い https://t.co/JaSF6P8x86 (Quote Tweet: Models that a...

Lisan al Gaib: (翻訳) GPQA Diamondは素晴らしいベンチマークだったと思います (引用ツイート: 数学のベンチマークが得意なモデルは、コーディングや推論のベンチマークも得意な傾向があり、AIの能力を左右する共通の要因があることを示唆しています。AIのベンチマークスコアは、ドメイン内(0.79)とほぼ同じくらいドメイン間(0.68)で相関があることがわかりました。https://t.co/dEiiL0...

Alibaba、Qwen Chat採用のTTSモデル「Qwen3-TTS」をOSS公開

  • 先日、AlibabaのチャットAI「Qwen Chat」に搭載されたとお伝えした音声読み上げ機能の基盤となる、高品質テキスト読み上げ(TTS)モデル群「Qwen3-TTS」がオープンソースで公開されました。
  • VoiceDesign、CustomVoice、Baseを含む5つのモデルが公開され、10言語に対応し、自由な音声デザインやクローニングが可能です。
  • 同チームは、リアルタイムでのスムーズな体験を実現するため、vLLMプロジェクトと協力してストリーミング推論への対応も進めているとのことです。
Qwen: (翻訳) Qwen3-TTSについて多くの質問をいただいていますので、簡単な最新情報をお知らせします!🎙️ 1️⃣ ストリーミングはサポートされていますか?ストリーミング推論を有効にするために@vllm_projectと協力しています。vLLMチームに感謝します!スムーズでリアルタイムな体験を近いうちにお届けしますので、ご期待ください。2️⃣ 一貫した声のトーン?使用 (引用ツイート: Qwen...

Qwen: (翻訳) ありがとう🥰 (引用ツイート: ComfyUI-Qwen-TTS: - 音声合成、音声クローニング、音声デザイン - 10言語と低遅延ストリーミングをサポート。https://t.co/LvgfNs8BFq https://t.co/Q1Teh1mTFO)

Itomaru: 🗣️ Qwen3-TTS https://t.co/J5LqOHh73q

OpenAI共同創業者、エージェントファースト開発を提唱

  • AIによるソフトウェア開発の進化に関する議論が続く中、OpenAIの共同創業者Greg Brockman氏が「エージェントファースト」という新たな開発アプローチを提唱し、注目を集めています。
  • このアプローチは、開発の主役を人間からAIエージェントに据えるもので、開発のハードルを下げ「誰でも簡単に開発できる」ようになると同時に、専門家が「より多くのものを構築できる」ようになり、開発の上限を引き上げる効果が期待されると述べています。
  • AIエージェントが開発プロセスを主導することで、ソフトウェア開発の生産性と創造性が飛躍的に向上する未来が示唆されています。
Greg Brockman: (翻訳) エージェントファーストのソフトウェアエンジニアリングが、人々が創造できるものの下限(誰でもはるかに簡単に構築できる)と上限(専門家がはるかに多くのものを構築できる)の両方を引き上げる方法は、感動的です。

Bindu Reddy: (翻訳) ホワイトカラーの仕事を自動化するには、高度なエージェントシステムが必要です。- 無限のメモリ - 何千ものツールを使いこなす能力 - 継続的な学習 - 任意に長時間実行されるタスクを実行する能力 - オンザフライの学習と理解 - マルチモーダル

Masahiro Tanaka: コーディングAIで、人生をかけて培った技術の相当の割合が、あっという間に無価値になった。 一方で、何年ぶりか分からないほど、ソフトウェアを作ることにわくわくする。つまらない作業は激減し、楽しい部分が残ってる。寝る間も惜しい。 でも、この楽しい部分も、すぐにAIに取られちゃうのかな?

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください