2025年05月28日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

大手AIサービス続々と音声機能強化、市場競争加速

今週のAI業界では、主要プレイヤーによる音声機能の強化が顕著です。Claude無料版のWeb検索開始と音声対話ベータ版ロールアウト、Gemini 2.5 FlashのネイティブAPI音声出力対応、Grok Web版のボイスモード開発情報など、音声インターフェースの充実が進んでいます。

一方、OpenAIのo3モデルがポケモンゲームで高度な視覚・計画能力を実証し、Google新音楽AIやVeo3の話題も。企業動向では、Salesforceが約80億ドルでInformaticaを買収する大型案件も合意に至りました。

それでは各トピックの詳細を見ていきましょう。

目次

  1. Claude続報:無料版Web検索開始、モバイル音声(β)も
  2. OpenAI o3 ポケモン実況で能力示す、新サインイン機能開発中か【続報】
  3. Gemini 2.5 Flash、Live APIで音声出力対応【続報】
  4. Google新音楽AI発表 Veo3はDeepMindアクセス増
  5. Grok Web版 ボイスモードと新サイドバー開発中とのリーク
  6. LangChain、AIエージェントのEval駆動開発提唱 GitHub連携も強化
  7. Salesforce、データ大手Informaticaを約80億ドルで買収合意
  8. AIエージェント開発競争続報: 新AI秘書Mesmer等登場、Embodied AIレッドチームも
  9. LLM研究: 報酬なし強化学習Intuitor、テキストLLMマルチモーダル化
  10. 【続報】AIと雇用議論 スキル必須論と実態、米で求人減も

Claude続報:無料版Web検索開始、モバイル音声(β)も

  • Anthropic社のAI「Claude」の無料プラン全ユーザーに対し、Web検索機能の提供が開始されました。
  • また、Claudeモバイルアプリ(iOS/Android)では、音声で対話できるモードがベータ版としてロールアウト開始。こちらも続報です。
  • これにより、テキスト入力に加え音声でのインタラクションが可能になり、利便性向上が期待されます。
Anthropic: (翻訳) Claudeのウェブ検索機能が、無料プランの全ユーザーにご利用いただけるようになりました。

TestingCatalog News 🗞: (翻訳) 速報🚨: Claudeモバイルアプリで音声モード(ベータ版)が展開中です!

Alex Albert: (翻訳) 音声機能の初期実装ですが、すでに非常に楽しく便利だと感じています。 気に入った点(良い点も悪い点も)を教えていただければ、将来さらに改善していくことができます!

OpenAI o3 ポケモン実況で能力示す、新サインイン機能開発中か【続報】

  • OpenAIの最新AIモデル「o3」に関する続報です。
  • o3がゲーム「ポケモン レッド」をリアルタイムでプレイするデモが公開され、その高度な計画能力や視覚分析能力が注目されています。
  • このデモでは、o3が次の手を計画しその理由を説明、マップを視覚的に分析し記憶する様子が示されました。
  • 別途、TechCrunchはOpenAIがChatGPTアカウントでサードパーティ製アプリにサインインできる新機能を開発中である可能性を報じました。
OpenAI Developers: (翻訳) o3がポケモンをプレイする様子をライブでご覧ください。次の手を計画し、その理由を説明し、マップを視覚的に分析し、記憶に保存する様子をご覧ください。 この配信をまとめてくださったコミュニティメンバーの@Clad3815さん、ありがとうございます! https://t.co/DoediYfaJA

TechCrunch: (翻訳) OpenAIはまもなく、他のアプリに「ChatGPTでサインイン」できるようにするかもしれません | TechCrunch https://t.co/et8sIT5fi3

Gemini 2.5 Flash、Live APIで音声出力対応【続報】

  • Googleの軽量モデル「Gemini 2.5 Flash」のプレビュー版に、Live APIを介したネイティブ音声出力機能が新たに追加されました。
  • この機能により、開発者はよりシームレスで自然な音声対話アプリケーションを構築できるようになります。
  • 前回報告された思考(thinking)機能との組み合わせにより、音声インターフェースでも複雑なタスクに対応可能になると期待されています。
Google AI Developers: (翻訳) Gemini 2.5 Flashプレビュー版で、Live API経由のネイティブ音声出力がサポートされ、シームレスで自然な音声対話と高度な音声コントロールが可能になりました。この音声モデルの新しい実験的な思考バージョンは、より複雑なタスクのための推論機能をサポートします。 https://t.co/SglDbCqBJC

Kai INUI: Gemini 2.5 Flashの音声ライブAPIに、音声出力が追加された ニアリアルタイムでの会話をすることが出来るように。 (あんまLive API試してなかったから試してみよう) (引用ツイート: Gemini 2.5 Flash Preview now supports native audio output via the Live API for seamless, natura...

Google新音楽AI発表 Veo3はDeepMindアクセス増

  • Googleの動画生成AI「Veo3」は依然として注目されており、その登場によりGoogle DeepMindへのアクセスが急増していると報告されています。
  • これに続き、Googleはリアルタイムでインタラクティブな音楽生成・演奏が可能な新しい音楽実験プロジェクトを発表したとの情報があり、マルチモーダルAIの進化がさらに加速しそうです。
Chubby♨️: (翻訳) 人々は文字通りVeo-3のせいで精神的に参っているようです https://t.co/ym5oZDYZGr

K.Ishi@生成AIの産業応用: Veo 3の作る動画には、他の動画生成AIにはない没入感がある。 これまでの動画生成AIはどうしても安っぽさが拭えなかったが、Veo 3の作り出す動画はまるで映画のワンシーンのようで、グッと惹きつけられる何かを持っている。 おそらく映画制作用途に特化させて学習しているのだろう。高いのも納得だ。 (引用ツイート: Googleストリートビューで行きたい場所のスクショを撮って、Veo 3で音声...

Chubby♨️: (翻訳) https://t.co/mzXak9kRQy Googleが新しい音楽実験を開始します。リアルタイムでのインタラクティブな音楽生成 - 作成、制御、演奏、すべてライブで行えます。Veo-3に続く次のブレークスルーは、今回は音楽でしょうか?

Grok Web版 ボイスモードと新サイドバー開発中とのリーク

  • xAIのAIモデル「Grok」のWeb版に関する続報として、新たなリーク情報が報じられました。
  • TestingCatalog Newsによると、Web版にボイスモードと新しいサイドバーがまもなく追加される見込みです。
  • ボイスモードは初期開発段階とされ、Webブラウザ上での音声対話機能の搭載が期待されています。
  • 新しいサイドバーのデモとされる情報も共有されており、GrokのWebインターフェース改善が進んでいる模様です。
TestingCatalog News 🗞: (翻訳) 速報🚨: xAIはGrokボイスモードをウェブに追加する作業を進めています! まだ初期開発段階のようであり、カメラや画面共有機能なしで提供される可能性が高いです。 情報提供:@legit_api https://t.co/nH0iRYbsZI

Tech Dev Notes: (翻訳) Grok Webにまもなく新しいサイドバーが搭載されます! https://t.co/J8y9aUFrST

Tech Dev Notes: (翻訳) GrokのWeb版新サイドバーのデモ: https://t.co/HtiOydlaHs

LangChain、AIエージェントのEval駆動開発提唱 GitHub連携も強化

  • AIエージェント開発フレームワークLangChainが、AIエージェントの本番運用における課題解決策として「Eval駆動開発」を提唱しました。
  • 同社CEOのHarrison Chase氏は、開発ライフサイクル全体で3種類の評価(Eval)を用いることの重要性を強調しています。
  • 併せて、LangSmithのプロンプトをソフトウェア開発ライフサイクル(SDLC)と統合し、プロンプト変更時にGitHub等へ自動同期する新機能も発表されました。
LangChain: (翻訳) 👀 AIエージェント本番運用の最大のブロッカーを解決する方法! LangChain CEOのハリソン・チェイスがそのアプローチを明らかにします:開発ライフサイクル全体で3種類の評価を使用する評価駆動開発。フルビデオはこちら: https://t.co/gzzKmgoDd8 https://t.co/FWZoh5Qtt1

LangChain: (翻訳) ⚒️ LangSmithプロンプトをSDLCと統合 LangSmithではすでにプロンプトのテスト、バージョン管理、共同作業が可能です。今回、プロンプト変更時のWebhookトリガーにより、GitHubや外部DBへの自動同期、CIの起動が可能になりました。 📓 ドキュメント: https://t.co/yEYcAy1ZvB https://t.co/kGisHEWlRe

Harrison Chase: (翻訳) プロンプトをコード内に記述するのは便利ですが、非開発者が新しいプロンプトを試したり更新したりする簡単な場所があることも同様に便利です。この統合は両方の長所を活かしており、LangSmithでプロンプトを繰り返し変更し、GitHub/コードに同期できます。

Salesforce、データ大手Informaticaを約80億ドルで買収合意

  • Salesforceが、エンタープライズ向けデータ管理ソフトウェア大手のInformaticaを約80億ドル(負債込み)で買収することで合意したと報じられています。
  • この買収は、SalesforceにとってAI戦略を強化し、顧客データプラットフォームの能力を向上させる狙いがあると見られています。
  • 以前にも買収交渉が報じられていましたが、今回改めて合意に至った模様で、データ統合・管理市場における大きな動きとして注目されます。
TechCrunch: (翻訳) SalesforceがInformaticaを80億ドルで買収 | TechCrunch https://t.co/8ugFlLXCAx

Bloomberg: (翻訳) Salesforceは、以前の試みが失敗に終わってからわずか1年余りで、Informaticaを約80億ドルで買収することに合意しました https://t.co/OFVdpqmMOh

Bloomberg: (翻訳) SalesforceがInformatica買収交渉を再開したと報じられています。今日の株価上昇・下落銘柄についてはStock Moversでご確認ください https://t.co/Q4i5sBFdm3

AIエージェント開発競争続報: 新AI秘書Mesmer等登場、Embodied AIレッドチームも

  • AIエージェントの開発競争に関する続報です。
  • 新たに、製品・エンジニアリングチーム向けのAI Chief of Staffを謳う「Mesmer」が登場しました。
  • 無料・無制限・オープンソースで高いベンチマーク性能を持つとされるDeep Research Agent「fubea.cloud」も注目されています。
  • Embodied AI(身体性を持つAI)開発者向けに、ロボットのレッドチームを無償で行うという呼びかけもあり、安全なAI開発への意識が高まっています。
  • これらの動きは、AIエージェントの多様な分野での実用化が一層進んでいることを示唆しています。
Nathan Lambert: (翻訳) 数年前にこのようなエージェントが登場すると言っていたすべての人々へ、その予測に敬意を表します。これらのエージェント的なLMは、たくさんの新しいアプリやツールを構築するための非常に素晴らしいプラットフォームです!最近のモデルには、まだ活用されていない多くの機能があります。

Taro Fukuyama: (翻訳) Mesmer (YC X25)への投資に興奮しています🎉 製品およびエンジニアリングチーム向けのAI参謀長、Mesmerをご紹介します。ようやく、すべての会議の責任を負わせる相手ができました。 Glio (YC S13) および Origin Financial (現在4億ドル以上) の創設者たちの共通の不満から生まれました。チームの拡大=さらなる https://t.co/eKxC0...

Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: (翻訳) ‼️ ロボットのためのレッドチーム ‼️ 身体性AIを構築していますか? 今後18ヶ月以内にAIを搭載したロボット(人型、四足歩行、その他)を出荷する予定なら、私がレッドチームを行います。無料で。 もう一度言います:無料です。ゲームへの愛(そして人命)のために、純粋な敵対的テストを行います。

LLM研究: 報酬なし強化学習Intuitor、テキストLLMマルチモーダル化

  • UC Berkeleyから、外部からの報酬信号なしにLLMが自己の信頼感を最適化することで複雑な推論を学習できる「Intuitor」プロジェクトが発表され、強化学習の新たなアプローチとして注目されています。
  • テキストデータのみで学習したLLMが、最小限のファインチューニングで画像や音声を理解しエンコーダーとして機能できる可能性を示唆する研究が提案されています。
  • 記事に関する質問応答を通じて要約の精度を向上させる「QAプロンプティング」といった手法も提案されています。
Chubby♨️: (翻訳) 重要:外部報酬なしで推論を学習する UCバークレー校のIntuitorプロジェクトは、外部報酬信号に頼らずに学習するという根本的に新しいアプローチをとるため、強化学習のさらなる発展における重要な進歩を示しています。

Rohan Paul: (翻訳) この論文は、テキストのみで訓練されたLLMが、読むだけで画像や音声を理解でき、最小限のファインチューニングでエンコーダーとして機能することを示しています。 方法🔧: →入力画像または音声波形を重複しないパッチに分割します。 →各パッチをベクトルにフラット化します。 https://t.co/E1aHaRUDsA

Rohan Paul: (翻訳) この論文では、QAプロンプティングを紹介します。最初にモデルに記事に関する質問をします。次に、記事と回答を使用して要約を生成します。これにより重要な事実が強調され、ROUGEスコアで最大29%精度が向上します。方法🔧: →候補となる質問をサンプリングし https://t.co/rWZ3bwV6Xd

【続報】AIと雇用議論 スキル必須論と実態、米で求人減も

  • AIと雇用に関する議論に新たな動きです。
  • ノルウェー政府系ファンドCEOは「AIを使わない従業員は昇進も就職もできない」とAIスキルの必須化を強調しました。
  • 一方で、The Economist誌は「AIが仕事を奪っている証拠は今のところほとんどない」と異なる視点を示しています。
  • また、アメリカの調査ではAI導入による技術系エントリー職減少の可能性も報告され、議論は多角化しています。
Bloomberg: (翻訳) 「AIを使うか使わないかは任意ではない。使わなければ昇進することはないし、仕事も得られないだろう」と、ノルウェー政府系ファンドのCEO、ニコライ・タンゲン氏はインタビューで語った。同氏は、AIの利用に抵抗する従業員に将来はないと見ている。 https://t.co/k2DgQrSqyv

The Economist: (翻訳) これまでのところ、人工知能が仕事を奪っているという証拠はほとんどありません。実際には正反対です https://t.co/rR9c8zVxjW https://t.co/As8Hu8wFuR

TechCrunch: (翻訳) AIはすでにテクノロジー分野の入門レベルの仕事を縮小させている可能性がある、と新しい調査が示唆しています | TechCrunch https://t.co/ZMfHlF2But

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください