27 5月 2025

2025年05月27日朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Claudeとエージェント開発の進展：AIコーディング新時代へ

AI技術が新たな段階へ進化する兆しが各所に見られています。Claude Sonnet 4のコスト効率評価や新たなコード活用事例が注目を集め、AIコーディングツールではClineとWindsurfが高評価を獲得。

Mistral AIのエージェント参入やOpenAIのインフラ強化など、大手各社の動きも活発化。GoogleはLyria音楽生成やImagen 4の統合を進め、LLM研究では推論能力強化に向けた新手法も続々と登場しています。

それではこれらのトピックについて、より詳しく掘り下げていきましょう。

Claude Sonnet4コスト効率とCode新活用事例
AIコーディングツール続報：ClineとWindsurf好評、エージェント開発進展
AIエージェント開発続報: Mistral参入、新評価指標も
Gemini API続報 Lyria音楽生成 Imagen4統合
LLM研究続報: J1-7B、RATE-FTなど推論強化の新手法
OpenAI、フロンティアクラスタ運用エンジニア募集 AIインフラ強化へ
Veo3続報: 高品質作例「Plastic」公開、高速版開発の噂も
xAI Grok：フォロワー400万達成、Grok 3.5に期待
JSAI2025続報: LayerX等企業発表や新セッションも

Claude Sonnet4コスト効率とCode新活用事例

Anthropic社のClaude Sonnet 4について、性能評価に加えコスト効率の観点からの議論が注目されています。
Claude Codeの新たな活用事例として、リバースエンジニアリングを試みた記事や、GitHub AppでのCode Actionsテストが報告されました。
これらの情報は、Claudeシリーズのより実践的な評価と応用方法の深化を示すものとして関心を集めています。

Ian Nuttall: (翻訳) sonnet 4はaiderベンチマークでは3.7より低いですが、私にとっては雰囲気テストは合格です。geminiは依然として素晴らしいですが、時々非常に信頼性が低いです。コストを気にしないなら、o3は難しい問題には驚くほど良いです。予算重視の雰囲気コーダーにはdeepseek。選択肢が本当に増えました！ https://t.co/NGST4ttpix

Kai INUI: claude-codeをリバースエンジニアリングした人の記事。2025/3/7時点 (npmで配布された、ただのuglifyされたJavaScriptなので普通に読める。) ユーザクエリを半ばヒューリスティックに区分けし、entrypointそのものを変えているのは面白い https://t.co/0DLSvZYt23 https://t.co/pZ7RCmSfGl

Aadit Sheth: (翻訳) Anthropicは文字通り、プロンプトエンジニアリングに関する90分のマスタークラスを公開しました。 https://t.co/L0jlNBNDoO

AIコーディングツール続報：ClineとWindsurf好評、エージェント開発進展

AIコーディング支援ツールの進化に関する続報です。MCPに対応したツールの中で、特にClineとWindsurfが取り回しの良さで高評価を集めています。
既報のCursorのMCPホスト機能の課題やGitHub Copilotのコード冗長性については引き続き指摘されていますが、自律コーディングエージェントの研究が大きく進展しています。
特にCline登場以降の半年間で開発者の知見が飛躍的に向上し、AI活用が新たなフェーズに入りつつあると評価されています。

しば田 | Programming x AI: MCPホストとしてのCursorが機能しなさすぎる。 MCPの取り回しはCline、Windsurfの方が全然よい

erukiti: GitHub Copilotのタブ補完、中途半端に賢くなったせいでAIコーディングの悪いところが出過ぎてる気がする。これはcursorの方が遙かにマシだ

mizchi: 自律コーディングエージェントの研究、去年末にCline出てからこの半年の成果が人類の知見の8割だと思ってる

AIエージェント開発続報: Mistral参入、新評価指標も

Mistral AIがチャットサービス「Le Chat」にエージェント機能を展開し、同分野への大手プレイヤー参入が続いています。
Metaによる自動テスト生成に関する論文発表や、開発ツールClineでの再現が注目され、より自律的な開発支援への期待が高まっています。
LLMエージェントの生涯学習能力を評価する初のベンチマーク「LifelongAgentBench」が登場し、継続的な能力向上研究が加速しています。

Chubby♨️: (翻訳) Le Chatにエージェント機能が登場。 @MistralAI が何かを準備中です。 (引用ツイート: 速報🚨: Mistral AIがLe Chatにエージェント機能を展開。エージェントの機能が新しい外観で刷新され、通常のチャットで利用可能なすべてのツールとコネクタを使用できるようになりました。世界最速のエージェント？👀 https://t.co/FkJPXDyfxE)

mizchi: 面白かった。自分はこの Meta の自動テスト生成の論文に可能性感じてる、というか実際に手元のClineで再現してるので、これが未来の原型と思ってます https://t.co/PGJfOnQRMy (引用ツイート: 【発表してきました】ソフトウェアテストのグローバルトレンド 2025 #scrumniigata / software-test global trend 2025 http...

Rohan Paul: (翻訳) LLMエージェントはステートレスに動作し、タスク間で知識を蓄積することができません。既存のベンチマークはエージェントを静的に評価するものであり、生涯学習を評価するものではありません。LifelongAgentBenchは、大規模言語モデルエージェントの生涯学習を体系的に評価する初のベンチマークです。https://t.co/ijslUruL7P

Gemini API続報 Lyria音楽生成 Imagen4統合

GoogleのGemini APIとAI Studioに関する続報です。
対話型音楽生成モデル「Lyria RealTime」がGemini API経由で利用可能になり、デモアプリも公開されました。
最新の画像生成モデル「Imagen 4」がGeminiAppに統合され、より詳細でニュアンス豊かな画像生成が期待されます。
Google AI Studioの「Prompt DJ」機能も話題となっています。
また、Gemini APIの月間トークン処理量が480兆に達したことも報告され、GoogleのAI基盤の規模を示しています。

Google AI Developers: (翻訳) 🎶 Lyria RealTimeは、誰もがリアルタイムでインタラクティブに音楽を作成、制御、演奏できる、新しい実験的なインタラクティブ音楽生成モデルです。Gemini API経由で利用可能で、Google AI Studioでデモアプリを試すことができます。https://t.co/TfWZbeXyAx https://t.co/Es4y8ScvHe

Google Cloud Tech: (翻訳) それは些細なことです（Imagen 4から生成された細部）。 (引用ツイート: Imagen 4、@GeminiApp へようこそ 😎 最新かつ最も高性能な画像生成モデルは、よりリアルなディテール、より優れたテキスト出力🔠、そしてよりニュアンスのある色彩と細やかなディテールを備えた豊かな画像へと大きな飛躍を遂げました🎨。本日よりお試しいただき、あなたの作品を見せてください https:...

からあげ: Google AI StudioのPrompt DJ、楽しすぎるのですが。無限に遊べそう。実は、自分が作りたかったのコレだった感ある https://t.co/C5tpVBwfmd https://t.co/OtAvXAPFJ3

LLM研究続報: J1-7B、RATE-FTなど推論強化の新手法

大規模言語モデル（LLM）の能力向上と安全性確保に向けた新たな研究成果が続々と報告されています。
LLMを裁判官として活用する「J1-7B」モデルや、プロンプトインジェクション攻撃に対する体系的な研究など、脆弱性対策の進展が見られます。
特に注目されるのは、LLMの幻覚（ハルシネーション）検出精度を高める「RATE-FT」や、自然言語・コード・真理表を組み合わせて論理的問題解決能力を向上させる「Mixture-of-Thought (MoT)」など、推論能力と信頼性向上への取り組みです。
ソースコードの微妙な脆弱性を検出するマルチエージェントフレームワーク「VulTrial」も発表され、LLMの応用範囲拡大に伴う課題解決へのアプローチが多様化しています。

Rohan Paul: (翻訳) この論文では、14のオープンソースLLMに対するプロンプトインジェクション攻撃を調査し、それらの脆弱性をよりよく理解するための新しい評価指標と斬新な攻撃手法を提案しています。方法🔧：→ 攻撃成功確率（ASP）メトリックは、成功した攻撃を考慮して攻撃の有効性を評価します。 https://t.co/s5bNaoohR0

Rohan Paul: (翻訳) この論文では、より優れた判断性能と透明性のためのシンプルなテスト時スケーリングを可能にする新しい手法で訓練された、LLM裁判官「J1-7B」を紹介します。方法🔧：→ このモデルは、反省ステップを含む特別にキュレーションされたデータセットで教師ありファインチューニングを受けます。→ https://t.co/PHoHJ9wk0s

Rohan Paul: (翻訳) LLMは、特に長いテキストにおいて、事実と異なる情報やハルシネーションを生成し、既存の検出には外部ツールが必要です。この論文では、モデルを根拠に基づいて訓練することで検出精度を向上させる、根拠と補助タスクによるファインチューニング強化（RATE-FT）を紹介します。https://t.co/Y9gCDxUc3B

OpenAI、フロンティアクラスタ運用エンジニア募集 AIインフラ強化へ

OpenAIが、最先端のコンピューティング環境であるフロンティアクラスタの運用に携わるフルスタックエンジニアの募集を開始しました。
これは、同社がAI研究開発のインフラ強化に引き続き注力していることを示唆しています。

Greg Brockman: (翻訳) OpenAIのフロンティアクラスタで最先端のコンピューティングに取り組む仕事に応募してください（素晴らしいチームメイトと一緒に働くチャンスもあります）： (引用ツイート: OpenAIのフロンティアクラスタは巨大なだけではありません。すべてのコンポーネントとプロトコルが最先端です。クラスタ管理は、複雑さを乗りこなし、誰も見たことのない問題を発見することに尽きます。専門のフルスタックポジ...

The Information: (翻訳) ioとOpenAIによるAIデバイスの初期コンセプトには、スクリーンレスで音声制御のハンドヘルドデバイスやAI対応の家庭用品などが含まれています。議論されている潜在的なデザインをご覧ください：https://t.co/XgpkHF79y4 #AInnovation

The Information: (翻訳) JPMorgan、OpenAIデータセンターに70億ドル以上を融資へ。アビリーンデータセンタープロジェクトに関与する企業は、将来のAIデータセンター拡張のために追加で116億ドルを確保しました。AIインフラへのこの増大する投資についてお読みください：https://t.co/IO7KHK6VEP

Veo3続報: 高品質作例「Plastic」公開、高速版開発の噂も

Googleの動画生成AI「Veo3」に関する続報です。
高品質な作例が引き続き公開されており、特に「Plastic」と題された作品はその表現力で注目を集めています。
Veo3のような高度な動画生成AIの普及は、マーケティング業界に大きな影響を与える可能性が指摘されています。
さらに、GoogleがVeo3のより高速で安価なバージョンとなる「Fast版」を開発中であるとの噂も出ており、今後の展開が期待されます。

Chubby♨️: (翻訳) https://t.co/xQnckdBkQM これは私が見た中で最高のAIビデオです。そして、私たちがどれだけ進歩したかを示しています。Veo3は転換点です。これは史上最悪のモデルになるでしょう。これから良くなる一方です。そして、インディークリエイターは素晴らしいものを創造するでしょう。 (引用ツイート: これはPlasticです。Veo3で作成しました。ネタバレは次の投稿で。読む前...

TestingCatalog News 🗞: (翻訳) GoogleはすでにVeo 3のFastバージョンに取り組んでいます。うまくいけば、はるかに手頃な価格で登場するでしょう。https://t.co/1Fu2Kh1CP5 (引用ツイート: Veo 3にはFast (TEST) 版が追加されたようです 🤔 https://t.co/KOLI6P5gjK)

Chubby♨️: (翻訳) マーケティング業界は困難な時期に直面しています。Veo3は現在広く使用されています https://t.co/GWC90FjeJ1

xAI Grok：フォロワー400万達成、Grok 3.5に期待

xAIのチャットボット「Grok」に関する話題が増えています。公式Xアカウントのフォロワーが400万人を突破したことが報告されました。
開発チームが遅くまで作業している様子から、近く「Grok 3.5」がリリースされるのではないかとの期待の声が上がっています。
一方で、Grokの音声機能がWeb検索にアクセスできるにも関わらず「情報が不十分」と応答する不具合も指摘されており、改善が求められています。

Tech Dev Notes: (翻訳) @grok アカウントのフォロワーが400万人に！ https://t.co/jRuvYaaI3O

Kol Tregaskes: (翻訳) xAIの人たちが遅くまで作業している。これは一つのことしか意味しない。Grok 3.5はもうすぐだ。😀 https://t.co/C6oeXbQd0U (引用ツイート: locked in)

Tech Dev Notes: (翻訳) Grok Voiceはウェブ検索にアクセスできるにもかかわらず、「情報が不十分です」と誤って応答します。@xAI さん、修正してください。https://t.co/KPgQTc8PXA

JSAI2025続報: LayerX等企業発表や新セッションも

人工知能学会全国大会（JSAI2025）に関する続報です。
既報の「人工知能とコンペティション」企画セッションに加え、LayerXやチューリングがAI活用事例やVision Language Modelに関するランチョンセミナーを企画していることが明らかになりました。
その他、ニュース記事配信や生成的推薦に関する個人の研究発表も予定されており、大会への期待が高まります。

u++: 人工知能学会全国大会 #JSAI2025 では、以下の企画セッションと 2 発表に関わっています！木金に現地に行くので、よろしくお願いします🙏 ①KS-23 人工知能とコンペティション ②ニュース記事の配信形態が読者の閲覧行動に与える影響の分析 ③生成的推薦の人気バイアスの分析：暗記の観点から

Yu Yamaguchi | チューリング CTO: チューリング、JSAI2025でプラチナ＆冠スポンサーになっています。明日5/27（火）12:30~、G会場にてランチョンセミナー「Vision Language Modelで挑む自動運転AI」を開催します。ランチ付きですので、ぜひご参加ください🍱 現地参加組はチューリング飯も募集中です！ https://t.co/zrwVykMr0f

shimacos: 明日からJSAIに参加します！学生の方ぜひランチ行きましょう！！明日のインダストリアルセッション1ではLayerXのAI・機械学習活用について私から発表させていただきますので、そちらにもご参加ください！ https://t.co/sX8Sw8xTwE (引用ツイート: JSAI2025に参加する学生さん限定で5/28、5/29にLayerXランチ会を開催します！ LayerXの機械学習エンジニ...