27 7月 2025

2025年07月27日朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

謎の高性能モデル続々登場、GPT-5の登場か

LM Arenaで「zenith」「summit」など未知の高性能モデルが続々と登場し、GPT-5の前触れではないかと話題になっています。

一方、GoogleのNotebookLMには動画からスライドと音声を自動生成する新機能が、AlibabaのQwen3-coderはOpenRouterのランキングでGrok-4を上回る性能を示しました。

GoogleのAIは月間トークン処理量が1京を突破し、中国では家庭用ロボットや国産GPUの登場など、ハードウェア面での進展も見られます。

それでは各トピックの詳細について見ていきましょう。

LM Arenaの謎モデル続報、zenith等がGPT-5かと話題に
NotebookLM、動画からスライドと音声を自動生成か【続報】
AlibabaのQwen3-coder、OpenRouterのランキングでGrok-4超え【続報】
Devin Meetup Tokyo開催、Excel操作など具体的な活用事例が報告
GoogleのAI、月間トークン処理量が1京を突破【続報】
Grokにチーム機能と自動モデル選択機能を追加【続報】
中国で家庭用ロボットや国産GPUが相次ぎ登場
Kaggle atmaCupが終盤戦へ、情報共有がさらに活発化【続報】

LM Arenaの謎モデル続報、zenith等がGPT-5かと話題に

LLM評価基盤「LM Arena」で続いている、正体不明の高性能モデル出現に関する続報です。
先日の「Lobster」に続き、新たに「zenith」「summit」などOpenAI製を名乗るモデルが複数登場し、話題となっています。
特に「zenith」「summit」は既存モデルを大幅に上回る性能から、近く公開が噂されるGPT-5の関連モデルではないかと見られています。
EUのAI法規制が8月2日に迫っていることもあり、来週にも正式発表があるのではと期待が高まっています。

今井翔太 / Shota Imai@えるエル: LMarenaにGPT-5、あるいはOpenAIが予告しているオープンモデルと思われる謎のモデルが放流されたということで、休日返上の緊急テスト中 zenithがGPT-5の最上位モデル、次点がsummitか。実際に試したsummitは既存モデルと比べても隔絶した性能で、zenithがそれ以上なら、確かにこれはGPT-5にふさわしい

ʟᴇɢɪᴛ: (翻訳) LM ArenaでのzenithモデルSVGテスト。これを作った研究室はどこであれ、とてつもない仕事をした。

Kol Tregaskes: (翻訳) Zenith = GPT-5？

NotebookLM、動画からスライドと音声を自動生成か【続報】

GoogleのAIノートアプリ「NotebookLM」の動画概要生成機能に関する続報です。
リーク情報によると、動画を要約してテキストや画像を含むスライド形式のビデオを自動生成する「Video Overviews」機能が搭載される見込みです。
生成されたビデオには、女性の声によるナレーションも付与されると報じられています。
この機能により、講義動画の要約や学習コンテンツの作成が大幅に効率化されると期待されています。

TestingCatalog News 🗞: (翻訳) 速報🚨: NotebookLMに今後搭載されるビデオ概要の初見。これまでにわかっていること: ビデオ概要は、テキスト、画像、その他のビジュアルを含むビデオスライドの形式で表示され、女性の声でナレーションが付けられます。以下のサンプルをご覧ください👀

まつにぃ: 前々から噂されていたNotebookLMのVideo Overviewsが内部テストで確認されました。スライド静止画とテキストを女性音声が読む学習動画を自動生成し、Audio Overviewsしている様子です。ニュースキャスター的に来るかと思いましたが、まずはスライドライクな感じなんですね。

Chubby♨️: (翻訳) これはすごい。notebookLMを使えば、近いうちに講義に出席できるようになる、いわば音声講義と生成されたスライドだ。

AlibabaのQwen3-coder、OpenRouterのランキングでGrok-4超え【続報】

以前お伝えしたAlibabaのコーディング特化LLM「Qwen3-coder」の続報です。
LLMの性能評価プラットフォームOpenRouterのプログラミングランキングで、xAIの「Grok-4」を上回る性能を示しました。
Kimiと並ぶ高評価を獲得しており、中国勢オープンソースモデルの性能向上が注目されます。

OpenRouter: (翻訳) Qwen3 CoderがプログラミングプロンプトランキングでGrok 4を追い抜きました。Kimiとタイです！

今井翔太 / Shota Imai@えるエル: あとこれは副産物でわかったことなんですが、Qwen3-coderの性能もちょっとおかしい。こんなのが中国勢にホイホイとオープン化されたら、さすがにOpenAIやAnthropicもきついのではないだろうか。

Rohan Paul: (翻訳) Qwenの夏です。新しいオープンソースのQwen3-235B-A22B-Thinking-2507が多くのベンチマークでトップに立ちました。AIME25の数学では92.3を記録し、OpenAI o3とほぼ同レベルで、ほとんどのオープンモデルを上回っています。Apache-2.0 - 235Bの総パラメータを搭載し、Mixture-of-Expertsを使用することでトークンあたりわずか...

Devin Meetup Tokyo開催、Excel操作など具体的な活用事例が報告

AIソフトウェアエンジニア「Devin」のミートアップが東京で開催され、多くの開発者が参加しました。
イベントでは、DevinがPythonコードを生成してExcelファイルの読み書きを自動化するデモや、既存のSaaS開発に組み込んだ事例などが共有されました。
Devinをシニアレベルのエンジニアに近づけるためには「質問させる」能力が重要であるといった、より高度な活用法についても議論されました。

てつ / AI Man: Devin くん Python コードゴリゴリ書いて Excel 読み取りだけじゃなくて記入もしてくれた！これはセキュリティチェックシートが捗りそう #DevinMeetupTokyo https://t.co/chfVHL8n5s

kami: ■ 少人数でも回る！DevinとPlaybookで支える運用改善（株式会社CAM 石川さん）社内の運用体制: - 約10名のバックエンドエンジニアで約40のマイクロサービスを運用 - 関連リポジトリ40個以上、バージョンアップ作業が大きな負担課題: -

てつ / AI Man: Devin をシニアレベルに持っていくためには、質問させるようにする、というのすごく納得のいく答えだなー #DevinMeetupTokyo

GoogleのAI、月間トークン処理量が1京を突破【続報】

7月24日の決算発表の続報です。Googleが提供するAIモデル群が、先月1ヶ月間で処理したトークン量が1京に達したことが明らかになりました。
この数値は5月と比較して2倍以上に増加しており、Google検索のAI要約機能や各種APIを通じて、同社のAIが驚異的な規模で利用されていることを示しています。
Googleは100万基のTPUと50万基のH100を運用中との情報もあり、圧倒的な計算資源がこの利用拡大を支えています。

K.Ishi@生成AIの産業応用: １京トークン！？ GoogleのAIのトークン処理量がエグいことになってる。１京トークンってことは、100トークン程度のメッセージが10兆回！？内訳が気になるところだが、・巨大なデータを処理している・Googleの検索結果で表示する機能が大量に使われているあたりか。これがたった2ヶ月で2倍…！ https://t.co/nWH2SUi4lU

パウロ: Google は100万基のTPU v7と50万基のH100をオンラインで運用中 40-60万基のGB200を年末までに導入予定まさに最強

Google AI: (翻訳) 見逃した方のために、今週リリースされたものはこちらです 🚀🚀🚀 —Geminiが国際数学オリンピックで金メダル基準を達成 —Gemini 2.5 Flash-Liteが安定し、開発者およびエンタープライズ顧客向けに一般提供開始 —@GooglePhotosで写真を動画に変換できるようになりました

Grokにチーム機能と自動モデル選択機能を追加【続報】

xAIのAIチャットボット「Grok」の続報として、複数の新機能が明らかになりました。
エンタープライズ向けと見られる、複数ユーザーで利用可能な「チーム」機能が開発中です。
Web版には最適なモデルを自動選択する「Unified model」が、iOSアプリには同様の「Auto」モードが追加され、利便性が向上しています。

TestingCatalog News 🗞: (翻訳) xAIはWeb版Grokの「チーム」機能に取り組んでいます！エンタープライズ限定になるのでしょうか？👀

TestingCatalog News 🗞: (翻訳) iOS向けGrokアプリに「Auto」モード付きの新しいモデルセレクターが追加されました！

Rohan Paul: (翻訳) GrokがWebで統合モデルを展開しました。質問の難易度を見て、組み込みの動的推論に基づいて適切なモードを選択します。

中国で家庭用ロボットや国産GPUが相次ぎ登場

中国の家電大手ハイアールが、同社初となる家庭用ヒューマノイドロボットを発表しました。AIを活用した家事支援などが期待されます。
また、中国企業が開発した6nmプロセスのGPU「Lisuan 7G106/7G105」が発表され、一部のベンチマークではNVIDIAのRTX 4060を上回る性能を示したと報じられています。
ロボットや半導体など、ハードウェア分野における中国のAI関連技術の発展が注目されます。

Chubby♨️: (翻訳) 中国の家電ブランド、ハイアールが初の家庭用ヒューマノイドロボットを発売。これはすごい。

Chubby♨️: (翻訳) 中国、初の6nm GPUをゲームとAI向けに発売。Lisuan 7G106 12GBと7G105 24GBで、最大24TFLOPs。合成ベンチマークではRTX 4060より高速で、『黒神話：悟空』も4K高設定でプレイ可能なFPSで動作。locallamaより。

久保田雅也@Coalis: すごいな、中国でNvidiaのGPU修理業者が続々生まれてる件。壊れても修理して使う輸出規制するほど、強くなる https://t.co/r4har5tgfH

Kaggle atmaCupが終盤戦へ、情報共有がさらに活発化【続報】

先日お伝えしたUdemyスポンサーのKaggleコンペ「atmaCup」が終盤戦を迎えています。
SNS上では、ベースラインのノートブックや試行錯誤の過程が共有されるなど、参加者による情報共有がさらに活発化しています。
コンペ運営事務局も参加者としてサブミットするなど、コミュニティ全体でイベントを盛り上げています。

fufufukakaka: Overfitting? Nay, it' called winning 現在の順位は 2位です。 https://t.co/kQ2nGYyh8K #atmaCup

野川の側: baseline notebookを公開しました！ [CV: 0.6856 / LB: 0.6758] LightGBM example https://t.co/dMki5P6ovq #atmaCup

chumajin: python初心者のはず (?) なのに、運営事務局、自らやって、背中見せてるの偉すぎる。 LBに運営事務局いました　笑 #atmacup #udemy