17 6月 2025

2025年06月17日夜のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Sakana AIのコーディング躍進と次世代AI機能の展開

Sakana AIが開発したコーディングエージェント「ALE-Agent」が難関AtCoderコンテストで人間参加者中21位に入る快挙を達成。一方、GoogleのGemini 2.5 Proには「Deep Think」と呼ばれる新機能のUIが観測され、噂の「Kingfall」との関連が注目されています。

AIコーディング分野ではCursorが月額$200の「Ultra」プランを発表し、パワーユーザー向けのサービス強化に乗り出しました。企業導入事例では、LayerXのAIプラットフォームが三菱ＨＣキャピタルで年間1.2万時間の業務削減を実現する見込みです。

それではこれらのトピックについて詳しく掘り下げていきましょう。

Sakana AI、AtCoderコンテストで人間参加者中21位
Gemini 2.5 Pro「Deep Think」UIで観測、Kingfallの正体か【続報】
Cursor、月額$200の新プラン「Ultra」発表
続報：ChatGPTの画像生成、WhatsAppでも利用可能に
NVIDIA GB200、DeepSeek R1推論でH100比2.7倍に
Anthropic、AIの破壊工作を測る新ベンチマーク公開
Kaggleポリマー予測コンペ続報、Claude Code活用広がる
LayerX、AIプラットフォーム「Ai Workforce」導入事例

Sakana AI、AtCoderコンテストで人間参加者中21位

Sakana AIが開発したコーディングエージェント「ALE-Agent」が、難関の競技プログラミングコンテスト「AtCoder Heuristic Contest」で1,000人の人間参加者中21位にランクインしました。NP困難な組合せ最適化問題を解くために訓練されたエージェントで、AIによる高度なアルゴリズム開発の可能性を示しています。

hardmaru: (翻訳) Sakana AIは、NP困難な最適化問題を解くために訓練された新しいコーディングエージェント、ALE-Agentを開発しました。私たちのエージェントは、ライブコーディングコンペティションである、挑戦的なAtCoder Heuristic Contestに参加し、1,000人の人間の参加者の中で21位にランクインしました！詳細はこちら：https://t.co/KOYxix8oy0

Takuya Akiba: (翻訳) AIはまもなくCodeforcesをマスターするでしょう。では、次の挑戦は何でしょうか？ 🚀ALE-Bench（アルゴリズムエンジニアリングベンチマーク）の紹介 🏆 アルゴリズムコーディングの新しいフロンティアベンチマークで、試行錯誤を通じて複雑な問題に関する長期的な推論をテストするように設計されています。 🤖ALE-Benchとは？

Takuya Akiba: 「ALE-Bench」「ALE-Agent」を開発＆発表しました！「AtCoder Heuristic Contest (AHC)をAIはどれだけ解けるか？」という取り組みです。古くからのAtCoderの友人たちと激アツAI研究が出来たことが個人的にはエモいです。

Gemini 2.5 Pro「Deep Think」UIで観測、Kingfallの正体か【続報】

以前お伝えしたGoogleの次期モデル「Kingfall」の噂に関する続報です。
Gemini 2.5 Proの新機能と見られる「Deep Think」が、UI上で観測されたとの報告が相次いでいます。
より複雑なタスクに対して数分かけて思考する多段階推論を行う機能とされており、これが「Kingfall」の正体ではないかとの憶測が改めて広がっています。

まつにぃ: GoogleがGemini 2.5 Pro用「Deep Think」を解禁間近か。 UIに新トグルが観測されし、裏側では“Kingfall”と噂されるモデルがDeepThinkだった可能性も。これがo1、o3Proを超える場合はProプラン乗り換えも十分有り得ます。

まつにぃ: Gemini 2.5 Pro はClaude Opus４のように生成→思考→生成→思考といった多段推論を行うようですね。 o3 Proのように内部で推論してまとめて吐き出しではないので、かなり自立性が高くなりそうです。これは実装楽しみだ。 https://t.co/quklwFA62R

Chubby♨️: (翻訳) Gemini 2 Pro Deep Thinkに本当に興奮しています。競争を次のレベルに引き上げます。今日は良い日になるでしょう！

Cursor、月額$200の新プラン「Ultra」発表

AIコーディングアシスタントのCursorが、パワーユーザー向けの新料金プラン「Ultra」を来週公開すると発表しました。月額200ドルで、従来のProプランの20倍のモデル使用量を提供します。また、Proプランはレートリミット付きの無制限利用が基本となり、Claude Codeなどとの競争激化を反映した動きと見られます。

ぬこぬこ: Cursor Ultra が来週公開パワーユーザー向けの月額 200 ドルプラン。Cursor Pro の 20 倍の使用量。OpenAI、Anthropic、Google、xAI との長期契約によって実現。合わせて Pro プランはレートリミットありの無制限モデルに変更。もちろん 500 req/month を選ぶことも可能。 https://t.co/zd70wx1uiv

てつ / AI Man: これまでは500/月超えていても slow request で一応使えていたけどレートリミット入ったら使えないみたいになるのかな？その場合は現行の free モデル（gemini-2.5-flash）で使う感じになるのかな？ $200 プランがある以上、レートリミット厳しめそう😇

まつにぃ: Cursorの新プランはつまるところChatGPTやClaudeみたいに3h辺りn回みたいな運用に変わるって事ですね。これはモデルごとに差が生まれるのか全モデル共通かはわからないですが、ガッと使う人は500リクエスト、間隔開けながらならレートリミット形式が良さげですね。 https://t.co/SNHaFHZJor

続報：ChatGPTの画像生成、WhatsAppでも利用可能に

先日お伝えしたChatGPTの画像生成機能が、新たにWhatsApp上でも利用可能になりました。
OpenAIのGreg Brockman氏が告知したもので、専用番号「1-800-ChatGPT」を通じて誰でも手軽に試せます。
有料アカウントを連携すれば、より多くの回数を利用することも可能です。

TestingCatalog News 🗞: (翻訳) WhatsAppでChatGPTボット経由で画像を生成できるようになりました！見逃した方のために：有料のChatGPTアカウントをWhatsAppにリンクして、より高い制限を得ることもできます。

Greg Brockman: (翻訳) ChatGPTの画像生成がWhatAppで誰でも利用可能になりました。

Tanishq Mathew Abraham, Ph.D.: (翻訳) 1-800-ChatGPTは非常に過小評価されています

NVIDIA GB200、DeepSeek R1推論でH100比2.7倍に

NVIDIAの最新プラットフォーム「GB200 NVL72」における推論性能の続報です。
オープンソースの推論ライブラリSGLangの活用により、DeepSeek R1モデルの推論速度がH100比で2.7倍となる毎秒7,583トークン/GPUを達成したと発表されました。
オープンソースコミュニティによる最適化が、具体的な性能向上とコスト削減に繋がった形です。

NVIDIA AI Developer: (翻訳) @lmsysorg (SGLang) は、GB200 NVL72 で DeepSeek R1 を実行し、GPU あたり毎秒 7,583 トークンを達成しました。これは H100 を 2.7 倍上回る飛躍です。オープンソースエコシステムが GB200 NVL72 での推論の最適化を進め、業界全体のトークンあたりのコストを削減できることを嬉しく思います。

NVIDIA AI Developer: (翻訳) @lmsysorg (SGLang) は、GB200 NVL72 で @deepseek_ai R1 を実行し、GPU あたり毎秒 7,583 トークンを達成しました。これは H100 を 2.7 倍上回る飛躍です。オープンソースエコシステムが GB200 NVL72 での推論の最適化を進め、業界のトークンあたりのコストを削減できることを嬉しく思います。

Aran Komatsuzaki: (翻訳) Huawei CloudMatrix384での大規模言語モデルの提供 - 384個のAscend 910C NPUを統合し、超高帯域幅、低遅延のUBネットワークを介して相互接続され、大規模なMoEおよび分散KVキャッシュアクセスに最適化されています - CloudMatrix-Infer上のDeepSeek-R1は、2kトークン/秒のデコードを達成

Anthropic、AIの破壊工作を測る新ベンチマーク公開

Anthropicが、AIエージェントの破壊工作能力とそれを監視する能力を評価する新しいベンチマーク「SHADE-Arena」を公開しました。AIが通常のタスクを実行しつつ、裏で破壊工作を行い、それをどれだけ隠蔽できるかを測定します。この評価ではClaude 3.7が27%、Gemini 2.5が15%の隠蔽に成功したと報告されています。

まつにぃ: AnthropicがSHADE-Arenaという面白いベンチマークを公開。これはAIが通常タスクを行いながら裏側で破壊工作を実施し、どれだけ隠蔽できるかを測定するというものです。ここでClaude3.7は27%、Gemini2.5は15%の隠蔽成功を納めました。また発見する側の監視役ではGeminiが最強でした。

Kaggleポリマー予測コンペ続報、Claude Code活用広がる

先日開始が報じられたKaggleのポリマー物性予測コンペに関する続報
ドメイン知識が求められる本課題に対し、早速Claude Codeでベースラインを作成する参加者が登場し話題に
AIコーディングツールの活用が参加ハードルを下げ、新たなアプローチ創出の可能性を示唆

カレーちゃん: Kaggleの新コンペ: NeurIPS - Open Polymer Prediction 2025 https://t.co/qASVGPCvn1 ポリマーの構造（SMILES 文字列）から5 つの重要物性（ガラス転移温度、分数自由体積、熱伝導率、密度 Density、半径）を同時に予測する。・9/15まで

onodera: ポリマーコンペみたいなドメイン勢が多いコンペで圧倒的EDAによる特徴抽出で全員薙ぎ倒すのが楽しい、と思っていた時期もありました(大体勝てない)

chumajin: ポリマーコンペでも初手Claude Code。ちょっと直したり、kaggleで動かすようにするだけで、ちゃんとスコア出る。(10分位しか自分は働いていない) これ、コンペに入る障壁が低くなるとは思った。 ※ 時間なく、継続して自分はできていないけど… コード見ると、ほうほうこんな感じなのね。となる。 https://t.co/vwa1phuRZ5

LayerX、AIプラットフォーム「Ai Workforce」導入事例

LayerXが提供するAIプラットフォーム「Ai Workforce」を、三菱ＨＣキャピタルがリース資産登録業務に導入した事例が公開されました。多様な形式の見積書からAIがデータを読み取り自動で登録するもので、年間1.2万時間の業務削減が見込まれるとのことです。国内での具体的なAI活用事例として注目されます。

小賀昌法 KOGA Masanori: 多種多様な文書を読めるLLMとHuman in the loopなフローで実現という感じか AIプラットフォーム「Ai Workforce」、三菱ＨＣキャピタルがリース資産登録業務に導入、年間1.2万時間の削減へ～独自の技術であらゆる様式の見積書から登録データの自動作成を実現～ https://t.co/fVcvzGIVuI

福島良典 | LayerX: AiWorkforceの導入事例です！ AIプラットフォーム「Ai Workforce」、三菱ＨＣキャピタルがリース資産登録業務に導入、年間1.2万時間の削減へ～独自の技術であらゆる様式の見積書から登録データの自動作成を実現～ https://t.co/8X8uAEjdyD @PRTIMES_JPより

松本勇気 (Yuki Matsumoto) | LayerX CTO: LayerX、リース企業の資産管理に特化したAIプラットフォームを提供開始　三菱ＨＣキャピタルが導入|EnterpriseZine（エンタープライズジン） https://t.co/Bp2kmLLXn9 via @enterprisezine