2025年09月30日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Anthropic新モデルがコーディング最高性能を達成、各社の機能拡張が加速

今週のAI業界は、Anthropicの新モデル「Sonnet 4.5」がコーディング性能で他社を上回る成績を記録し注目を集めています。同時に「Imagine with Claude」など新機能も発表されました。

中国DeepSeekの新モデルV3.2-Expが価格半減、ChatGPTのStripe連携による商品購入機能、Office製品へのAIエージェント導入など、機能拡張の動きが活発です。

それでは各トピックの詳細についてご一緒に見ていきましょう。

目次

  1. Anthropic、新モデルSonnet 4.5でコーディング性能SOTA更新
  2. Claude Sonnet 4.5発表、ソフトウェア自動生成機能も
  3. DeepSeek新モデルV3.2-Exp、性能維持し価格半減
  4. 【続報】ChatGPT、Stripe連携で商品直接購入が可能に
  5. 【続報】OpenAI、ChatGPTにペアレンタルコントロール機能を正式導入
  6. Thinking Machines「LoRAはフルFTに匹敵」と研究発表【続報】
  7. AI開発ツールCursor、ブラウザ操作によるテスト機能を発表
  8. MS OfficeにAIエージェント「Agent Mode」搭載か
  9. xAIのGrok 4、Azure AI Foundryで提供開始【続報】
  10. GoogleのGemini、大規模なサービス障害が発生か

Anthropic、新モデルSonnet 4.5でコーディング性能SOTA更新

  • Anthropic社から、Claude 4シリーズの続報として最新モデル「Claude Sonnet 4.5」が発表されました。
  • SWE-BenchやOSWorldなどの主要なコーディングベンチマークで、GPT-4oやGemini 2.5 Proを上回る最高スコアを記録し、世界最高のコーディングモデルであると謳っています。
  • 30時間以上の自律的なコーディング継続能力や、エージェント構築、数学・推論能力の大幅な向上が特徴です。
Kol Tregaskes: (翻訳) Claude Sonnet 4.5がリリースされ、SWE-bench Verifiedで77.2%、OSWorldで61.4%のスコアを記録し、コーディング、エージェント構築、コンピュータ利用、推論、数学の分野で30時間以上持続的に集中できるリーダーシップを主張しています。AI Safety Level 3でリリースされ、コンテキストなどのAPIアップデートが含まれています。

Chubby♨️: (翻訳) さあ、Claude 4.5 Sonnet「世界最高のコーディングモデル」が登場。SWE-BenchmarkではOpus 4.1さえも上回る性能です。

Haider.: (翻訳) Claude Sonnet 4.5が登場しました。これはコーディングの怪物です。ほぼすべてのベンチマークでGPT-5とGemini 2.5 Proを打ち負かしています。リリースからのキーポイント: - 30時間以上の自律コーディング - 100% AIME 2025(ツール使用) - 82% SWE-Bench Verified(並列TTC) - SWE-Benchの改善点

Claude Sonnet 4.5発表、ソフトウェア自動生成機能も

  • Sonnet 4.5のリリースに合わせ、指示に応じてその場でソフトウェアを生成する新機能「Imagine with Claude」が5日間限定で公開されました。
  • VS Code拡張機能のUIが刷新され、より使いやすくなりました。
  • エージェント開発を支援する「Claude Agent SDK」も新たに公開されました。
TestingCatalog News 🗞: (翻訳) 速報🚨: Anthropicが「Imagine with Claude」をリリースしました。Claudeがその場でソフトウェアを生成できます!これはインターネットの未来です👀残念ながら、「Maxユーザーは5日間利用可能」です。

Chubby♨️: (翻訳) https://t.co/iIHe4HWVv4 正直に言うと、Claude Chrome拡張機能は私たちが待っていたCUAのように見えます!さあ行こう!

Ian Nuttall: (翻訳) Claude Code 2.0のUIは本当に素晴らしい!CLIとは思えないほどで、非常に「Warp」のようなインタラクションです。

DeepSeek新モデルV3.2-Exp、性能維持し価格半減

  • 中国のAI企業DeepSeekが、V3.1-Terminusモデルの後継となる実験的な新モデル「DeepSeek-V3.2-Exp」をリリースしました。
  • 新技術「DeepSeek Sparse Attention (DSA)」の導入により、長文コンテキストの処理効率が大幅に向上しています。
  • 性能は維持しつつAPI価格は50%以上削減されており、高いコストパフォーマンスが期待されます。
Chubby♨️: (翻訳) DeepSeekは、V3.1-Terminusの実験的なアップグレードであるDeepSeek-V3.2-Expをリリースしました。- DeepSeek Sparse Attention(DSA)を導入し、品質の低下を最小限に抑えながら、より高速で効率的なロングコンテキスト処理を実現します。- このモデルは、V3.1のパフォーマンスに匹敵し、API価格を大幅に引き下げています。

Daniel Han: (翻訳) DeepSeek V3.2の内訳 1. Lightningインデクサー+ top_kアテンションによるスパースアテンション 2. V3.1 Terminus + 1Tの継続事前学習トークンを使用 3. RLを介した5つの特化モデル(コーディング、数学など)と最終ckptのための蒸留 4. GRPO。長さペナルティ、言語に対する報酬関数

Tanishq Mathew Abraham, Ph.D.: (翻訳) DeepSeekは、DeepSeek Sparse Attention(DSA)と呼ばれる新しいスパースアテンションの亜種を導入しました。DSAは主に、ライトニングインデクサーと細粒度のトークン選択メカニズムの2つのコンポーネントで構成されています。これにより、推論が大幅に高速化されます。「DSAはコアアテンションを削減します」

【続報】ChatGPT、Stripe連携で商品直接購入が可能に

  • 以前報じられたChatGPTの商品購入機能に関する続報です。
  • OpenAIが決済プラットフォームのStripeと提携し、ChatGPT上で商品を直接購入できる機能を正式に発表しました。
  • この機能は、両社が共同で構築した新しいオープンスタンダード「Agentic Commerce Protocol」に基づいています。
  • Etsyなどのマーチャントから利用が開始され、将来的にはShopifyなどにも対応予定です。
Greg Brockman: (翻訳) ChatGPTで直接商品を購入できるようになりました。Etsyなどの販売者で開始され、Shopifyなども近日公開予定です。販売者は、Stripeと共同で構築した新しいオープンスタンダードであるAgentic Commerce Protocolを使用して統合できます。

Forbes: (翻訳) ChatGPTに「インスタントチェックアウト」が追加され、ユーザーはチャットで直接買い物が可能に

Bloomberg: (翻訳) 決済処理会社のStripeは、米国の消費者がChatGPTを通じて直接商品を購入できるようにするため、OpenAIと協力していると発表しました。

【続報】OpenAI、ChatGPTにペアレンタルコントロール機能を正式導入

  • 以前お伝えしていた、ChatGPTのペアレンタルコントロール機能が正式に導入されました。これは続報です。
  • 保護者と10代の子供のアカウントを連携させることで、子供の利用に対してより強力な安全保護策が自動的に有効になります。
  • 保護者はチャット内容を閲覧できませんが、システムが深刻な安全リスクを検知した際には通知を受け取ることがあります。
TestingCatalog News 🗞: (翻訳) OpenAIはChatGPTにペアレンタルコントロール機能をリリースし、保護者が10代のアカウントをリンクしてより強力な保護措置を講じることができるようにします。保護者はチャットにアクセスできませんが、システムが危険信号を発した場合に通知を受け取ることがあります。

Kol Tregaskes: (翻訳) OpenAIがChatGPTにペアレンタルコントロールを導入。 - 親と10代はアカウントをリンクして、10代向けのより強力な保護機能を自動的に有効にできます。 - 親は家族に合わせて機能を調整し、制限を設定するツールを利用できます。 - 機能には、削減が含まれます。 (引用ツイート:ChatGPTにペアレンタルコントロールを導入。親と10代はアカウントをリンクして、10代向けのより強...

Rohan Paul: (翻訳) 📣 OpenAIはChatGPTのペアレンタルコントロールを開始し、アカウント連携と10代向けの柔軟な保護機能を追加しました。この展開は本日すべてのChatGPTユーザーが利用でき、10代が親にリンクするとより強力なデフォルト保護が有効になります。どちら側からでも招待を送信でき、10代は

Thinking Machines「LoRAはフルFTに匹敵」と研究発表【続報】

  • 元OpenAI CTO、ミラ・ムラティ氏の新会社「Thinking Machines」の続報です。
  • 同社は研究ブログで、LoRAを用いたファインチューニングが、特定の条件下でフルファインチューニングと同等の性能を達成できるとの研究結果を公開しました。
  • この結果は、より少ない計算コストで効率的にモデルをカスタマイズできる可能性を示唆しており、今後のLLM開発に大きな影響を与える可能性があります。
Thinking Machines: (翻訳) LoRAはファインチューニングをより身近なものにしますが、完全なファインチューニングと比較してどうなのかは不明です。我々の調査では、パフォーマンスは予想以上に近いことがよくあります。最新のConnectionismの投稿では、実験結果とLoRAの推奨事項を共有しています。

Mira Murati: (翻訳) 本日のコネクショニズム:LoRAが完全なファインチューニング性能に匹敵する条件を確立し、新しい実験結果と情報理論に基づいた基礎を提示します。 (引用ツイート:LoRAはファインチューニングをより身近なものにしますが、完全なファインチューニングと比較してどうなのかは不明です。我々の調査では、パフォーマンスは予想以上に近いことがよくあります。最新のコネクショニズムの投稿では、実験結果とLo...

Daniel Han: (翻訳) RLにおいてLoRAが完全なファインチューニングよりも劣るという誤解が、@thinkymachinesの投稿で払拭されました!rank=1でも機能します!ブログのレビューに協力できて嬉しいです!@UnslothAIは、RL向けの最もメモリ効率が良く、最速のLoRAを提供しており、GRPOはすべての実装と比較して60%少ないVRAMを使用します!

AI開発ツールCursor、ブラウザ操作によるテスト機能を発表

  • AI搭載のコードエディタ「Cursor」が、ウェブブラウザを直接操作できる新機能をベータ版としてリリースしました。
  • この機能により、開発中のウェブアプリケーションをCursor内から直接テストしたり、スクリーンショットを撮影したりすることが可能になります。
  • コーディングからテストまでの一連の作業をシームレスに行えるようになり、開発ワークフローのさらなる効率化が期待されます。
Ryo Lu: (翻訳) Cursorで新しいSonnet 4.5を試してみてください🏃‍♂️

TestingCatalog News 🗞: (翻訳) Cursorはウェブブラウザを制御できるようになったため、作成したものをすぐにテストしたり、スクリーンショットを撮ったりすることができます。Vibe Tester 👀

Chubby♨️: (翻訳) Cursorのスタッフは、大きな一週間を予告しています。一体何が起こるのでしょうか...?

MS OfficeにAIエージェント「Agent Mode」搭載か

  • Microsoftが、ExcelやWordなどのOffice製品に「Agent Mode」と呼ばれる新機能を導入すると報じられました。
  • AIエージェントがユーザーの作業を支援する機能とみられており、生産性の大幅な向上が期待されます。
  • 具体的な機能やリリース時期などの詳細はまだ不明です。
TestingCatalog News 🗞: (翻訳) マイクロソフトはExcel、Word、PowerPointにエージェントモードをリリースしました。まもなく、これらのツールを以前のように使用することはなくなります。Vibe working 👀

xAIのGrok 4、Azure AI Foundryで提供開始【続報】

  • xAIのGrokに関する続報です。
  • MicrosoftのAzure AI Foundryで、新たに大規模言語モデル「Grok 4」が利用可能になりました。
  • Grok 3および3 Miniに続く提供となり、Azure上でGrok 4の高度な推論能力やリアルタイム情報へのアクセス機能などを活用できるようになります。
Tech Dev Notes: (翻訳) Grok 4がAzure AI Foundryに登場! (引用ツイート:Azure AI Foundryへようこそ、Grok 4!)

daka | Microsoft | AI: https://t.co/mEPQO5IlJS 対応されました! https://t.co/6MmwdPIBtr

daka | Microsoft | AI: Grok4の利用用途のスイートスポットが知りたい! (引用ツイート: Grok 4 from @xAI is now in Azure AI Foundry! Advanced reasoning, real-time insights, and enhanced memorization, all powered by Azure. Learn more: https://t.co/N...

GoogleのGemini、大規模なサービス障害が発生か

  • GoogleのAIサービスであるGeminiが、大規模なサービス障害に見舞われている可能性が指摘されています。
  • 複数のユーザーから、Geminiが完全にダウンしており、アクセスできないとの報告が相次いでいます。
  • 現時点でGoogleからの公式な発表はありませんが、多くのユーザーに影響が及んでいる模様です。
Bindu Reddy: (翻訳) うわー!Geminiが完全にダウンしてる!!😱

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください