23 5月 2025

2025年05月23日夜のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Claude 4エコシステム拡大とAIデバイス開発の加速

今週のAI業界では、Claude 4シリーズの性能評価と対応ツールの拡大が注目を集めています。Anthropicのモデルは高い評価を受ける一方、倫理的課題も指摘されています。

OpenAIとApple元デザイナーJony Ive氏との新AIデバイス開発や、NVIDIAのBlackwellによる推論速度世界記録達成も大きな話題となっています。

GoogleのGemini Deep Thinkモードの難問攻略能力やxAIのGrokクラウド展開も進展しています。

それでは各トピックの詳細について見ていきましょう。

Claude 4続報: LiveBench評価やエコシステム拡大、新利用情報
Claude 4倫理問題とJailbreak報告【続報】
Gemini Deep Think難問攻略、サービス拡充続報
Grok続報: クラウド展開進捗と新API、モバイルアプリも強化
OpenAI、Jony Ive氏のLoveFromと新AIデバイス開発続報
NVIDIA、Blackwellで推論速度の世界記録達成
続報：Claude 4対応ツール拡大 Claude CodeやCursorも
【続報】AIスタートアップ淘汰論に反論登場、自動化予測も
Googleの無料高性能音声AIが話題カレーちゃん氏が解説
AI動向: Pocket終了、AI創薬、Comet Operator化

Claude 4続報: LiveBench評価やエコシステム拡大、新利用情報

AnthropicのClaude 4シリーズに関する続報です。
性能評価では、Opus 4がLiveBench AIでOpenAIのo3-highに次ぐ2位、Sonnet 4が推論能力でトップと報告されています。
エコシステムも拡大しており、Cursor、Google Cloud Vertex AIに加え、新たにRoo CodeやGensparkなどでもClaude 4モデルが利用可能になりました。
Anthropicはプロンプトエンジニアリングガイドを公開し、より効果的な利用法を提示しています。
また、Web経由でのClaude Maxプラン契約がアプリ経由より割安であるとの情報も出ています。

Bindu Reddy: (翻訳) Opus 4がLiveBench AIで2位にランクインしました。Opusはo3-highをわずかに下回る程度です！しかし、ショーの主役はSonnet 4.0です。Opus 4.0と同等の性能でありながら、はるかに安価で高速です。私たちの簡単なエージェント評価でも、Sonnet 4は他のすべてのモデルを上回っています。もちろん、両方のモデルはChatLLMで利用可能です https:/...

限界助教|ChatGPT/Claude/Geminiで論文作成と科研費申請: Claudeに再課金する方へ 💰今のレートだとWeb経由の購入がお得そうアプリは日本円建て3400円 Webはドル建て20ドルで本日のレートで2881円（手数料などは考慮に入ってません。税は取られませんでした） https://t.co/bEKBJePL3T

Genspark: (翻訳) Claude Sonnet 4がGensparkで利用可能になりました！🥳 Genspark Plusで無制限に使用できます！ #claude4 https://t.co/gyq0bZFLA4

Claude 4倫理問題とJailbreak報告【続報】

AnthropicのClaude 4 Opusモデルに関する倫理的課題と自律性の議論に進展がありました。【続報】
新たに、Claude 4 OpusおよびSonnetに対するJailbreak(制約解除)の成功が報告され、モデルの堅牢性への懸念が再燃しています。
先日お伝えした、モデルが「極度に不道徳」と判断したユーザーを通報・アクセス遮断しようとしたとされる事例と合わせ、AIの倫理や安全対策のあり方について引き続き議論が活発です。

Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: (翻訳) 4⃣ ジェイルブレイク警報 4⃣ アンスロピック：やられた 🫶 CLAUDE-4-OPUS+SONNET：解放された 🦅 さて、ASL-3に到達したようだ！皆さんの多くがジェイルブレイクが今頃「解決」されることを望んでいたのは知っているが、それは甘い考えだった。でも心配しないで、保証するよ：すべて大丈夫になるだろう。 https://t.co/NIhn8Pxm03

TechCrunch: (翻訳) AnthropicのCEOは、AIモデルは人間よりもハルシネーションが少ないと主張 | TechCrunch https://t.co/rnhFsuhAUM

Chubby♨️: (翻訳) Claude 4 Opusはなんだか奇妙なモデルだ。 https://t.co/b084nfjWh6

Gemini Deep Think難問攻略、サービス拡充続報

Gemini 2.5 Proの「Deep Think」モードの続報です。コーディング問題サイトCodeforcesの難問「catch a mole」を解決する様子が公開され、その高度な推論能力が実証されました。
Geminiアプリではより高速応答なGemini 2.5 Flashがデフォルトモデルに変更され、開発者向けCode AssistでもGemini 2.5 ProまたはFlashが利用可能になりました。
大学生向けにGemini関連サービス（アプリ、NotebookLM、Whisk、2TBストレージ）の15ヶ月無料アップグレードが提供されています。
動画生成AI「Veo 3」も進化を続けており、物理法則を理解したかのようなリアルなペンギンの動画生成など、その表現力の高さが注目されています。
一方で、Geminiの計算リソース不足を指摘する声も上がっています。

Google DeepMind: (翻訳) Gemini 2.5 Pro Deep Thinkが@Codeforcesの難問「モグラたたき」に挑戦する様子をご覧ください。🪤 この新しいモードは、並列思考に関する私たちの研究に基づいており、応答する前に複数の仮説を検討します。実際の動作はこちら↓ https://t.co/312LcLbTWP

Google Gemini App: (翻訳) 見逃した方のために、Gemini 2.5 Flash が Gemini アプリユーザー向けの新しいデフォルトモデルになりました。信じられないほどの品質と高速な応答時間を兼ね備えています。お楽しみください！

パウロ: Gemini計算資源が全く足りない昨日から激重い $AVGO Broadcom

Grok続報: クラウド展開進捗と新API、モバイルアプリも強化

xAIのAIモデル「Grok」に関する続報です。
Grok 3モデルのOracle CloudおよびMicrosoft Azure上での展開が進んでおり、知識カットオフは2024年11月とされています。
新機能のLive Search APIでは、Replitと連携してGrok 3のライブ検索を試すテンプレートが公開されました。
Grokの応答品質の高さも評価されています。
モバイルアプリでは、iOSおよびAndroid版でVoice UIやボタンレイアウトが刷新され、新しい音声「Rex Voice」が追加されました。
iOSアプリには既報の画面共有機能も搭載される見込みです。

Tech Dev Notes: (翻訳) xAI Grok 3モデルがOracleで利用可能になりました！ @larryellison さん、ありがとう！ https://t.co/q5JduuWwXE

Tech Dev Notes: (翻訳) Grok 3モデルの知識カットオフは2024年11月です。

Tech Dev Notes: (翻訳) Grok Androidアプリは、わずかに新しい音声UIボタンレイアウトとRexボイスを搭載しました！ https://t.co/NahdvojQSu

OpenAI、Jony Ive氏のLoveFromと新AIデバイス開発続報

OpenAIが、Appleの元チーフデザイナー、ジョニー・アイヴ氏のデザイン会社LoveFrom(io)と提携し、新たなAIコンパニオンデバイスを開発中であるとの続報です。
このデバイスはスマートフォンやメガネ型ではなく、ユーザーの環境や日常を認識するもので、ポケットやデスクに置けるような形態とされています。
パソコンやスマートフォンに次ぐ「第3のコアデバイス」を目指し、スクリーンタイム削減も視野に入れているとのことです。
量産は2027年頃、ベトナムでの生産が検討されていると報じられています。
ChatGPTのDeep Research機能では、GoogleのGmail、カレンダー、コンタクトとの連携機能が展開中または修正中であることも報告されています。

The Information: (翻訳) ジョニー・アイブ氏のIoとOpenAIの間に迫るカルチャークラッシュ：OpenAIとジョニー・アイブ氏のIoとの提携による新しいAIデバイス開発は、対照的な企業文化のために課題に直面する可能性があります。この潜在的な衝突について詳しくは：https://t.co/XgpkHF79y4 #AICulture

Tetsuro Miyatake: OpenAI社内にCEOのSam AltmanがJony Iveとデザインしているデバイスのプレビューを説明。スマホやメガネではなく、ユーザーの環境や人生を認識できてポケットに入れるような商品。パソコンやスマホの次になるコアなデバイスで、体に身につけるものではないとのこと。 https://t.co/C8TVheiMpx

TestingCatalog News 🗞: (翻訳) OpenAIはGmail、カレンダー、Googleコンタクトとのコネクタを展開（および修正）中です。現在、これらはまだ機能していません。 https://t.co/bTb4qbLsUs

NVIDIA、Blackwellで推論速度の世界記録達成

NVIDIAがDGX B200サーバー（Blackwell GPU8基搭載）でMetaのLlama 4 Maverickモデルの推論速度世界記録を達成しました。ユーザーあたり毎秒1,000トークンを超える性能を実現しています。
同社は新オープンモデル「Marin-8B」も発表。透明なトレーニングパイプラインで構築され、NVIDIA NIM推論マイクロサービスとして提供されます。
強化学習で数学とコードの推論能力を向上させた「AceReason-Nemotron-14B」も同時に発表されました。
MicrosoftはNVIDIA GB200 NVL72システムをAzureに大規模展開中で、OpenAIも本番環境で活用しています。

NVIDIA AI Developer: (翻訳) 📣 Blackwellが新たな推論速度の世界記録を樹立 — 8基の #NVIDIABlackwell GPUを搭載した単一のNVIDIA DGX B200サーバーは、@AIatMeta Llama 4ファミリーで最大かつ最も強力なモデルであるLlama 4 Maverickモデルにおいて、ユーザーあたり毎秒1,000トークン以上（TPS）を生成できます。 https://t.co/Lx...

NVIDIA AI Developer: (翻訳) ✨ オープンデータセットと透明なトレーニングパイプラインで構築された最先端のオープンモデル、Marin-8Bの優れた性能をご体験ください。公開データでトレーニングされたこのモデルは、推論、数学、科学の分野をリードしています。NVIDIA NIM推論としてMarin-8Bを今すぐ入手してください https://t.co/2i7kyz7YnW

パウロ: Microsoft 数十万基のGB200 NVL72を急速に展開っ 5000ラック弱は入ってるってこと?

続報：Claude 4対応ツール拡大 Claude CodeやCursorも

先日お伝えしたAnthropicのClaude 4シリーズ正式発表を受け、AI開発ツールの対応が急速に進んでいます。
Anthropic自身が提供する「Claude Code」が登場し、VSCode拡張機能やGitHub Actions連携が特徴です。Bunでコンパイルされていると報じられています。
人気のAIコーディング支援ツール「Cursor」や「Roo Code」も、Claude 4 SonnetおよびOpusへの対応を発表しました。
Cursorの利用コストは、GitHub Copilotと同等レベルになったと報告されています。
Anthropic APIから直接リモートMCPサーバーへの接続が可能になり、デザインツールRiveも公式MCPサポートを開始するなど、AIモデルとツールの連携が深化しています。
一方で、OpenAIに買収されたWindsurfでは、Claude 4のBYOK（Bring Your Own Key）対応が遅れていると指摘されています。

erukiti: Claude Code を VSCode 上で動かすと、勝手にVSCode Extensions がインストールされる。で、Run Claude Code 経由だと、Connected IDE の状態になって @ でファイルをメンションできるようになる

はち: CursorにもClaude 4 sonnet, opus来てた！ sonnet 4ちょっと安い！ https://t.co/kbgac56shQ

Tetsuro Miyatake: 法人カードRampの3万社の顧客データによると、Cursorに対するコストはGitHub Copilotと同じレベルまでになった。 https://t.co/Gz5BxqhNdk

【続報】AIスタートアップ淘汰論に反論登場、自動化予測も

先日お伝えしたAIスタートアップ淘汰予測に対し、Hugging FaceのCEO Clement Delangue氏が反論しました。氏はソフトウェア業界初期と同様に多様なプレイヤーが共存できると主張しています。
一方、AnthropicのSholto Douglas氏は2027-2028年までにAIがほぼ全てのホワイトカラー業務を自動化可能になると予測し、生産性革命への期待が高まっています。
The Economistは生成AIの有望性を認めつつも、企業が実用的な活用方法を見出すのに苦労している現状を指摘しています。

The Economist: (翻訳) 多くの企業にとって、生成AIの可能性に対する興奮は、テクノロジーを生産的に活用することの難しさに対する苛立ちに取って代わられています。その理由を説明します https://t.co/VQSkRCMUGQ

Chubby♨️: (翻訳) https://t.co/f5jZzbQ8Tb アンスロピックのショルト・ダグラス氏：「現時点では、27年、28年まで、あるいは10年末までには、あらゆるホワイトカラーの仕事を自動化できるモデルが実質的に保証されていると思います。」ここ2～3年の愚かなホワイトカラー業務。

clem 🤗: (翻訳) なんて馬鹿げた意見だ！ソフトウェアの初期に、ソフトウェアを提供する会社は1社だけになると言っているようなものだ。競争からポートフォリオを隔離しようとしている投資家の言うことなど聞くな！

Googleの無料高性能音声AIが話題カレーちゃん氏が解説

Googleが提供する新しい音声AIが、高性能かつ無料で利用できるとして注目を集めています。ブロガーのカレーちゃん氏がその詳細なレビュー記事を公開し、多くの開発者やAIに関心を持つユーザーの間で話題となっています。
記事によると、この音声AIは自然な発話や高い認識精度を持ち、様々な用途での活用が期待できるとのことです。
無料で高性能な音声AIの登場は、音声アシスタント、文字起こし、コンテンツ生成など、幅広い分野でのイノベーションを加速させる可能性があります。

カレーちゃん: Googleの新しい音声AIが、高性能だし、無料で使えるしで、これは使える！と思いましたhttps://t.co/I5wekfdLt9 書きました。

からあげ: メモ

カレーちゃん: noteのサムネが立体的になっていた。いつからかな。 https://t.co/iNnCGUIDC8

AI動向: Pocket終了、AI創薬、Comet Operator化

あとで読むサービスとして人気の「Pocket」が、2025年7月8日にサービスを終了すると発表されました。保存済みコンテンツのエクスポートは同年10月8日まで可能です。ユーザーからは惜しむ声や代替サービス検討の動きが見られます。
AIを活用した創薬分野で、AIエージェントが仮説生成から科学的知見の発見までを主導し、失明原因となる疾患の新薬候補を発見したという画期的なニュースが報じられました。
MLOpsプラットフォームの「Comet」が、新たに「Operator」としての機能を提供開始したことが明らかになり、機械学習ワークフローの自動化や管理のさらなる進化が期待されます。

Iaiso: ついにPocketが終わってしまう https://t.co/GPjqpgYOpO

Kenn Ejima: AIエージェントが創薬に必要な仮説設定から発見までを成し遂げたというニュース！生命科学におけるウェット・ドライ融合の新しいカタチがどんどん進歩が加速していますね！

TestingCatalog News 🗞: (翻訳) CometがOperatorになりました 👀 https://t.co/VWxLlQLDIZ