05 7月 2025

2025年07月05日朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Grok-4のベンチマーク成績とGemini 2.5 Proの花火アート

今週のAI業界では、xAIの次期モデル「Grok-4」が複数のベンチマークで既存モデルを上回る成績を記録したとのリーク情報が注目を集めています。

一方、GoogleのCEO Sundar Pichai氏は独立記念日に合わせてGemini 2.5 Proで生成したフラクタル花火の画像を公開し話題に。AIコーディングツール「Cursor」のAPI制限強化に開発者から不満の声が上がる中、X社はCommunity NotesにAI活用を開始しました。

それでは各トピックの詳細を見ていきましょう。

【続報】xAIのGrok-4、複数ベンチマークでSOTA達成か
Google CEO、Gemini 2.5 Proによるフラクタル花火画像を投稿
AIコーディングツールCursor、API制限強化で開発者から不満の声
X、ファクトチェック機能Community Notesの下書きにAI導入
2024年の生物医学論文、13%超がAIで執筆か研究報告
LangChain Academy、受講者数が10万人を突破

【続報】xAIのGrok-4、複数ベンチマークでSOTA達成か

xAIの次期モデル「Grok-4」に関する続報です。内部ベンチマークとされる情報がリークされました。
Humanity's Last Exam (HLE) やGPQA、SWE-Benchなど複数のベンチマークで、既存の主要モデルを上回る、あるいは同等以上のスコアを記録したとされています。
リーク情報によると、HLEでは45%（推論あり）、GPQAでは87-88%、SWE-Benchでは72-75%（Grok-4 Code）という驚異的なスコアが示されています。
この情報は、先日発表されたGrokの大幅な改善と合わせて、次期モデルへの期待を大きく高めています。

ʟᴇɢɪᴛ: (翻訳) Grok-4およびGrok-4 Codeのベンチマーク - HLEで35%、推論ありで45%!! - GPQAで87-88% - SWE Benchで72-75% (Grok 4 Code)

TestingCatalog News 🗞: (翻訳) 速報🚨: Grok 4はSOTA（最高水準）になるでしょう🤖 - HLEで35%、推論ありで45% - GPQAで87-88% - SWE Benchで72-75%（Grok 4 Codeの場合） * これは公式のベンチマークではなく、リークされたスコアとウェブ上の他のモデルの結果に基づいて私がプロットしたものです。

まつにぃ: Grokの内部ベンチマークが公開されました。・Humanity’s Last ExamはなんとGemini 2.5、o3の2倍近く・知識レベル、数学能力でもTop ・コーディング能力でもOpus 4と競り合うと言う現世代の中では最高値を叩き出しています。勿論数値だけなので実際どうかはこれからですが、これは期待ですよ。

Google CEO、Gemini 2.5 Proによるフラクタル花火画像を投稿

GoogleのCEOであるSundar Pichai氏が、独立記念日に合わせて、Gemini 2.5 Proで生成したというフラクタルアートの花火の画像をXに投稿しました。
この投稿は5000件以上の「いいね」を集め、多くの注目を浴びています。
CEO自らが最新モデルの能力を示すことで、その性能をアピールする狙いがあるとみられます。

Sundar Pichai: (翻訳) 7月4日おめでとうございます🇺🇸！Gemini 2.5 Proでフラクタル花火を創ってみました:)

AIコーディングツールCursor、API制限強化で開発者から不満の声

AIコーディングアシスタント「Cursor」で、API呼び出しのレートリミットが最近厳しくなったと複数の開発者が報告しています。
頻繁に利用制限に達し開発作業に支障が出ているとの声や、VSCodeのCopilotとClaude 3.5 Sonnetを組み合わせる方が生産性が高いという意見も出ています。
この状況を受け、開発ツールの選択を巡る議論が活発化しています。

まつにぃ: 昨日くらいからCursorのレートリミット到達が露骨に早く& 多くなったので、何かしら調整しているかもしれませんね。ただ止まるとほぼ何もできず、Autoモデルはどれかわからないので、潔くClaude Code or Gemini CLI使ってます。うまく調整できて落ち着いたらいいですね。

Vaibhav (VB) Srivastav: (翻訳) Cursorがこれまでの価格設定に関するタイムラインのメルトダウンにまだ対応していないのは少し懸念される。

Kenn Ejima: そう、VSCode + Github CopilotのClaude Sonnet 4ってCursor版よりも自走力高いのよね。たまにサボるけど動き時は動作確認とかもミニテスト書いてターミナルで走らせてサクサク進めてくれる。昨日のClaude Code落ちてる時に改めて比較してみて思った。Tabの差はあるけど。またVSCodeに戻ろうかな…

X、ファクトチェック機能Community Notesの下書きにAI導入

X(旧Twitter)は、誤情報対策機能である「Community Notes」の提案下書きをAIが作成するAPIを導入しました。
これまで人間による提案の承認率は3%と低く、承認の遅さが課題でした。
AIの活用により、より迅速なファクトチェックが実現することが期待されています。

Rohan Paul: (翻訳) Xは、人間が52,000回の試行のうちわずか3%しか承認しなかったことを受け、コミュニティノートの下書きを作成する🤖AIを導入し、より迅速なファクトチェックを目指しています。コミュニティノートでは、ユーザーはバイラル投稿の下にコンテキスト行を追加できます。提案がほとんど通らず、承認が遅いため、誤った主張が広まる可能性があります。 Xは現在、外部チームに…

2024年の生物医学論文、13%超がAIで執筆か研究報告

2022年11月のChatGPTリリース以降、科学論文の執筆スタイルが大きく変化したという研究結果が報告されました。
1500万件のPubMed抄録を分析した結果、2024年の生物医学分野の論文では13.5%以上がLLMを利用して執筆されたと推定されています。
AIが学術研究の現場にも急速に浸透している実態が明らかになりました。

Rohan Paul: (翻訳) 2024年に生物医学論文の13%がAIを執筆に利用「世界が変われば、人間が書く文章も変わる。2022年11月のChatGPTのリリースにより、人間の文章は前例のない変化を遂げた」 🧬 チームは1500万件のPubMed抄録をスキャンし、最近の論文の13.5%以上をLLMが形成したことを示しています。

LangChain Academy、受講者数が10万人を突破

LLMアプリケーション開発フレームワーク「LangChain」が提供するオンライン学習プラットフォーム「LangChain Academy」の受講者数が10万人を突破したことが発表されました。
新たに、自律的に動作するエージェントを構築するための「Ambient Agents」コースも公開されています。
LLM開発スキルの需要の高まりを反映しており、開発者コミュニティの活発さがうかがえます。

LangChain: (翻訳) 🎉 LangChain Academyの学生が10万人を突破しました！🎉 この大きな節目を皆さんと一緒にお祝いできることを嬉しく思います。初めてのLLM搭載アプリを構築している方も、本番エージェントをスケーリングしている方も、私たちと一緒に学んでいただきありがとうございます🤓 新しいAmbient Agentsコースでは、その方法を学ぶことができます。