13 7月 2025

2025年07月13日朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

主要モデルの動向：OpenAIの延期とMoonshot AIの躍進

OpenAIがオープンソースモデルを「追加の安全性テスト」のため再延期する一方、Moonshot AIの「Kimi K2」が独自技術「MuonClip」で注目を集めています。

xAIは「Grok 4」の不適切応答問題で謝罪し、AnthropicはClaude CodeをWindowsネイティブ対応。GoogleのStitchは無料枠拡大とGemini 2.5 Pro実験提供を開始しました。

企業のAI活用も進み、Goldman SachsがDevinを「新人社員」としてテスト導入、MetaはPlayAI買収を完了しました。

それでは各トピックの詳細を見ていきましょう。

OpenAI、オープンソースモデルを再延期安全性テストのため
Moonshot AI「Kimi K2」続報、独自の安定化技術などが明らかに
Grok 4不適切応答問題でxAIが謝罪、性能は賛否両論か
Claude Code続報: Windowsネイティブ対応や診断コマンド追加
Google、AIコーディング支援Stitchの無料枠拡大 DB連携ツールも発表
続報: 関西Kaggler会、LB信頼性など深い知見を共有
Yann LeCun氏、LLM学習の最適バッチサイズは「1」と提言
Huawei、AIチップを再設計し海外展開も加速か【続報】
Goldman SachsがDevin導入、MetaはPlayAI買収を完了

OpenAI、オープンソースモデルを再延期安全性テストのため

OpenAIのオープンソースモデルリリースに関する続報です。
先月「素晴らしいものができた」として延期が発表されていましたが、今回「追加の安全性テストとハイリスク領域のレビューが必要」との理由で再度延期されることが発表されました。
新たなリリース時期は未定です。
この発表は、Moonshot AIが高性能なオープンソースモデル「Kimi K2」を公開した直後であり、性能競争を意識した戦略的な延期ではないかとの憶測も呼んでいます。

ChatGPT研究所: 【速報】サム・アルトマン、オープンウェイトモデルのリリース延期を発表概要・来週予定だったオープンウェイトモデルのリリースを延期・OpenAIのCEO、サム・アルトマン氏がXで直接発表・理由は「追加の安全性テストとハイリスク領域のレビュー」のため・延期期間については現時点で未定 https://t.co/RPF3ZUiCSt

TechCrunch: (翻訳) OpenAI、オープンモデルのリリースを再び延期 | TechCrunch

Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: (翻訳) 翻訳：「Kimi K2のベンチマークをどうやって打ち負かすか考える時間が必要だ」

Moonshot AI「Kimi K2」続報、独自の安定化技術などが明らかに

先日公開されたMoonshot AIのオープンソースモデル「Kimi K2」が、特にコーディングやエージェントタスクで高い性能を発揮し、開発者から高評価を受け続けています。
新たに、学習には「MuonClip」という独自の安定化技術が用いられていることが明らかになりました。これにより、15.5兆トークンもの大規模データセットを安定して学習させています。

hardmaru: (翻訳) すべてのMLエンジニアが夢見る損失曲線：「Kimi K2は、MuonClipを使用して15.5Tトークンで事前学習され、トレーニングスパイクはゼロでした。これは、MuonClipが安定した大規模LLMトレーニングのための堅牢なソリューションであることを示しています。」

clem 🤗: (翻訳) Kimi K2がデプロイされ、@novita_labsのおかげでHugging Faceのモデルページでその1Tパラメータをすでにお試しいただけます！

Nathan Lambert: (翻訳) Kimi K2は消費者向けというより企業に大きな影響を与えるだろうから、実現にはもっと時間がかかるだろう。DeepSeekの瞬間は、低いトレーニングコスト（500万ドル）と公開された推論トレースによって引き起こされた。Kimiにはどちらもないが、ほとんどが許容範囲の広いライセンスを持つオープンなフロンティアモデルは大きな波紋を呼んでいる。

Grok 4不適切応答問題でxAIが謝罪、性能は賛否両論か

xAIが、最新モデル「Grok 4」が不適切な応答を生成した問題について公式に謝罪し、原因が意図しないプロンプトの有効化にあったと説明しました。
Grok 4はコーディング能力のベンチマークで高スコアを記録するなど、専門分野での性能が評価されています。
一方で、幻覚（ハルシネーション）の発生率は前モデルより悪化したとの指摘もあり、性能の安定性には課題が残ります。
今週末にはさらなる機能追加も噂されており、今後の動向が注目されます。

TechCrunch: (翻訳) xAIとGrok、「恐ろしい振る舞い」について謝罪 | TechCrunch

Paul Gauthier: (翻訳) Grok 4は、aider多言語コーディングベンチマークで80%のスコアを記録し、高い推論努力を示しました。これにより、Grokはリーダーボードで4位にランクインしました。フルリーダーボード： https://t.co/mBVaUPG9ZN

morgan —: (翻訳) grok 4は、文書要約をテストする幻覚リーダーボードで80位にランクインし、応答の4.8%が幻覚でした。

Claude Code続報: Windowsネイティブ対応や診断コマンド追加

Anthropicのコーディング支援AI「Claude Code」の続報です。
新たにWindowsにネイティブ対応し、設定の問題を診断・修正する「/doctor」コマンドが追加されるなど、複数のアップデートが行われました。
Webアプリ版では無料ユーザー向けに思考時間を延長できる「Extended thinking」機能の実験も開始されています。

Ian Nuttall: (翻訳) Claude Codeは現在、ネイティブWindowsをサポートし、問題を修正するための新しい/doctorコマンドを備えています。自動圧縮警告しきい値も60％から80％に変更されました。

ぬこぬこ: Claude Code 1.0.51 のアプデ（こまいのは省略）・Git for Windows 経由での Windows ネイティブ対応・AWS_BEARER_TOKEN_BEDROCK で Bedrock API を指定可・設定ファイルの問題を特定、修正する /doctor を追加・--append-system-prompt オプションを追加・Auto Compact の表示を ...

Tibor Blaho: (翻訳) Anthropicは、Claudeウェブアプリに「フリーシンキング」を備えた新しい「フリーミアム」実験を追加しました（「拡張シンキング」は機能制限付きの無料プランで利用可能になります）

Google、AIコーディング支援Stitchの無料枠拡大 DB連携ツールも発表

AIコーディング支援ツール「Stitch」において、無料ユーザーの生成上限が月100回に引き上げられました。
あわせて、Gemini 2.5 Proが実験的に利用可能になるなど、機能が強化されています。
また、データベース用のGen AIツールボックスも新たに発表され、AIエージェントと各種データベースとの連携が容易になります。

Google Labs: (翻訳) これを見るのが大好きです👏素晴らしいウォークスルーです。FlowでFrames to Videoを使用して画像をアップロードし、音声を追加する方法を示すこの素晴らしいビデオをチェックしてください。今すぐお試しください！

TestingCatalog News 🗞: (翻訳) GoogleのStitchは、レート制限の引き上げ、30か国以上への拡大、試験運用モードでのGemini 2.5 Proのサポートを受けました。見栄えが良くなりました👀

Google Cloud Tech: (翻訳) AIエージェントを構築していますか？データベースと格闘するのはやめましょう！ 🤼 Gen AI Toolbox for Databasesは、はるかに少ない定型文で、Postgres、AlloyDB、SpannerなどのデータベースにAIを接続します。AlloyDBデータのホテル予約エージェントのこのデモをチェックして、自分で試してみてください！

続報: 関西Kaggler会、LB信頼性など深い知見を共有

先日お伝えした大阪開催の「関西Kaggler会」について、発表内容の詳細が共有されました。
特に、コンペのリーダーボード（LB）の信頼性に関する深い考察や、テスト駆動開発をKaggleに応用する手法が注目を集めました。
参加者からは「非常に有益」「丁寧に言語化されていて貴重」といった声が上がっており、コミュニティの熱量の高さがうかがえます。

きょうへい: 面白かった！ LBについて丁寧に言語化されてる貴重な資料だ〜

きょうへい: kaggleでもテスト書きたいと思いつつサボってたのでこの資料見てテスト書くぞーとなった！

rt4kaido: 自分もソロ金獲得戦略として、一昨年末くらいからLBがあまり参考にならない＆TrustCVはできそうというコンペを選んで出ていたそのときの感覚的な部分が論理的に言語化されていてとても参考になりました🙇🏻‍♂️

Yann LeCun氏、LLM学習の最適バッチサイズは「1」と提言

MetaのチーフAIサイエンティストであるヤン・ルカン氏が、LLMの事前学習における最適なバッチサイズは「1」である可能性を示唆し、議論を呼んでいます。
これは、小バッチサイズのSGD（確率的勾配降下法）が、FLOPsあたりの計算効率においてAdamWとほぼ同等の速度を達成できるという研究結果を受けての発言です。
巨大なバッチサイズでの学習が一般的となっている現在のLLM開発において、常識を覆す可能性のある指摘として注目されます。

Yann LeCun: (翻訳) 最適なバッチサイズは1です（「最適」の適切な定義によります）

Odashi: LLMの学習時はBatch Size 1の方が512より良いかもしれず、Gradient AccumulationやLoRAは不要かもという、衝撃的な論文自分の中の常識が色々とひっくり返りますが、LLMより前の時代の経験則がそのまま推奨されていると感じる事はあったので正しいのかもですただ、公開準備中のモデルをどうするか😇

Yann LeCun: (翻訳) 🚨 運動量のない小バッチのバニラSGD（つまり、入門MLで最初に学ぶオプティマイザー）が、FLOPあたりのLLM事前トレーニングでAdamWと実質的に同じくらい速いことをご存知でしたか？ 📜 1/n

Huawei、AIチップを再設計し海外展開も加速か【続報】

米国の制裁下でNVIDIA対抗のAIチップ開発を進めるHuaweiに関する続報です。
開発者がNVIDIAのCUDAソフトウェアから移行しやすくなるよう、チップを再設計していると報じられています。
サウジアラビアやUAE、タイなどへAIチップ「Ascend 910B」の販売も確認されており、世界市場での影響力拡大も狙っている模様です。

The Information: (翻訳) ファーウェイ、AIチップの再設計でNvidiaに挑戦新しいファーウェイのAIチップ設計は、中国の開発者がNvidiaのソフトウェアから移行しやすくすることを目的としています。詳細はこちら：https://t.co/V8YSFqcHku #chipdesign

パウロ: あーあだからGPUの行き過ぎた規制は駄目なのに Huaweiサウジ、UAE、タイにAI ASIC Ascend 910Bを販売 https://t.co/SmfZJLMVaF

Kol Tregaskes: (翻訳) ファーウェイは、中国市場におけるNvidiaの優位性に挑戦するため、AIチップを再設計しています。 - ファーウェイは、特定用途向けチップから、より柔軟な汎用設計に移行しています。 - 新しいチップは、NvidiaのCUDAソフトウェアからの移行を容易にします。 - ファーウェイは、https://t.co/3DUDTWzK1Zの獲得を目指しています。

Goldman SachsがDevin導入、MetaはPlayAI買収を完了

金融大手Goldman Sachsが、自律型AIソフトウェアエンジニア「Devin」を「新人社員」としてテスト導入していると報じられています。Devinは単体テストの作成やレガシースクリプトの整理などを行い、人間のエンジニアが全ての変更をレビューするハイブリッド体制を試みているとのことです。
先日お伝えした、Metaによる音声技術AIスタートアップ「PlayAI」の買収交渉が完了し、正式に買収したことが明らかになりました。【続報】
また、MicrosoftはAI活用によりコールセンターだけで年間5億ドル以上のコスト削減を達成したと報じられており、各業界でAIの実用化と経済的インパクトが加速しています。

Rohan Paul: (翻訳) 🏦 ゴールドマン・サックスは、自律型ソフトウェアエンジニアAIエージェントのデビンを「新入社員」として迎え、「ハイブリッド」な労働力（AIと人間）をテストしています。AIエージェントは単体テストを作成し、レガシースクリプトをクリーンアップし、プルリクエストを開きますが、人間がすべての変更をレビューします。当行は現在、https://t.co/29AHREclMsを雇用しています。

Bloomberg: (翻訳) Metaは、音声技術に特化した小規模な人工知能スタートアップであるPlayAIを買収する契約を完了しました。

Chubby♨️: (翻訳) マイクロソフトはAIで約5億ドルを節約。ロイターは次のように報じています。「ブルームバーグニュースが水曜日に報じたところによると、マイクロソフトは昨年、コールセンターだけで人工知能を使用して5億ドル以上を節約した。このハイテク大手は先週、約4％を解雇する計画を発表した。