2025年08月29日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

OpenAIの単一音声モデル実現とAI研究最前線

OpenAIが従来の多段処理を単一モデルで実現する音声API「gpt-realtime」を正式発表。大幅な低遅延化で自然な音声対話の構築が可能になります。

一方、AI研究の最前線ではKarpathy氏が「LLM-first」な知識表現を、Andrew Ng氏は「並列エージェント」によるAI性能向上を提唱し注目を集めています。

MicrosoftもMAI-Voice-1とMAI-1-Previewを発表、Anthropicはユーザーデータでの学習方針を変更するなど、業界の動きが活発化。

それでは各トピックの詳細を見ていきましょう。

目次

  1. OpenAI新音声APIの続報 単一モデルで低遅延対話を実現
  2. Karpathy氏、LLMファーストな知識表現を提唱
  3. Andrew Ng氏、AI性能向上の鍵として「並列エージェント」を提唱
  4. Anthropic、ユーザーデータでのAIモデル学習を発表
  5. Microsoft、新AIモデルMAI-Voice-1とMAI-1-Previewを発表
  6. Kaggle最終モデル、全データ学習かアンサンブルか
  7. OpenAIに加えPerplexityなどもSerpApiを利用

OpenAI新音声APIの続報 単一モデルで低遅延対話を実現

  • 先日発表されたOpenAIの新しい音声モデルに関する続報です。開発者向けにspeech-to-speechモデル「gpt-realtime」とRealtime APIのアップデートが正式に発表されました。
  • 最大の特徴は、従来の音声認識(STT)→大規模言語モデル(LLM)→音声合成(TTS)という処理を単一モデルで完結させる点です。これにより、大幅な低遅延化を実現し、より自然な音声対話の構築が可能になります。
  • また、画像入力や通話転送機能にも対応しており、音声AIエージェント開発の可能性を大きく広げるものと期待されます。
OpenAI: (翻訳) 開発者向けの最高のspeech-to-speechモデルであるgpt-realtimeと、Realtime APIのアップデートをご紹介します。 https://t.co/giS4K1yNh9

Greg Brockman: (翻訳) 新しいspeech-to-speechモデルとその他のプラットフォームの改善点:

Vaibhav (VB) Srivastav: (翻訳) gpt-realtimeのリリースに関するいくつかの注意点:連鎖したSTT→LLM→TTSを単一の音声入力/音声出力モデルに置き換える(低遅延、より豊かなニュアンス)- これは巨大だと思う🔥 ベンチマークについて(GPT4o-realtimeと比較): > BigBench(推論)で82.8%対65.6%のスコア > MultiChallengeで30.5%対20.6%

Karpathy氏、LLMファーストな知識表現を提唱

  • AI研究者のAndrej Karpathy氏が、人間が読むための知識(教科書など)を、LLMが直接学習・実践できる形式に変換する「LLM-first」アプローチの可能性について言及し、大きな注目を集めています。
  • これにより、LLMが単にテキストを読むだけでなく、能動的に学習し、練習し、評価されるという新しいパラダイムが生まれる可能性が示唆されています。
Andrej Karpathy: (翻訳) 人間の知識、センサー、アクチュエーターを、人間第一で人間が読めるものから、LLM第一でLLMが読めるものへと変換することは、非常に多くの可能性を秘めた美しい分野であり、多くのことができる... 最近私が夢中になっている一例 - すべての教科書のpdf/epubには、完璧な https://t.co/KmIdMI96ws がある

Rohan Paul: (翻訳) Karpathyの本当にクールなアイデア。教科書からの無限の合成データ拡張、人間は不要。モデルがPDFを読むだけでなく、実際に勉強し、練習し、採点されるように、教科書やコースをLLMファーストの形式で再構築する。合成ジェネレーターは教師を正直に保つ。

Andrew Ng氏、AI性能向上の鍵として「並列エージェント」を提唱

  • AI研究の第一人者であるAndrew Ng氏が、AIの能力をスケールさせるための新たな方向性として「並列エージェント」の重要性を提唱しています。
  • 複数のエージェントを並列で実行するアプローチは、テスト時の計算量を増やすことでAIの性能を向上させる手法として注目されています。
  • この手法により、単一のエージェントでは困難だった、より複雑なタスクの解決が進むと期待されます。
Andrew Ng: (翻訳) 並列エージェントは、AIをスケールアップするための重要な新しい方向性として浮上しています。AIの能力は、より多くのトレーニングデータ、トレーニング時間の計算、およびテスト時間の計算によってスケールアップしてきました。複数のエージェントを並列で実行することは、さらにスケールを拡大し、改善するための手法として成長しています。

Anthropic、ユーザーデータでのAIモデル学習を発表

  • Anthropicが、ユーザーが明示的にオプトアウトしない限り、チャット履歴などのユーザーデータでAIモデルの学習を開始すると発表しました。
  • この変更は9月28日から適用される予定で、ユーザーにはポップアップで選択が求められます。
  • AIの性能向上とプライバシーのバランスについて、改めて議論を呼びそうです。
TestingCatalog News 🗞: (翻訳) The Vergeによると、Anthropicは明示的にオプトアウトしなかったユーザーのデータでAIモデルのトレーニングを開始するとのこと。トレンドに乗っていますね👀 https://t.co/6pkrJmG3d4

TechCrunch: (翻訳) Anthropicはユーザーデータの取り扱い方法にいくつかの大きな変更を加えています。ユーザーは9月28日までに行動を起こす必要があります。https://t.co/0NpaDSm9c9

TestingCatalog News 🗞: (翻訳) 既存のユーザーに新しいポップアップが表示され、9月末までに選択するよう促されます。Grove 👀 https://t.co/fsZgPDOay1

Microsoft、新AIモデルMAI-Voice-1とMAI-1-Previewを発表

  • Microsoftが、自社開発の新しいAIモデル「MAI-Voice-1」と「MAI-1-Preview」を発表しました。
  • MAI-Voice-1は音声モデルで、Copilot DailyやPodcastsで既に利用されています。
  • MAI-1-PreviewはLMSys Arenaで利用可能で、今後Copilotのチャット機能にも統合される予定です。
TestingCatalog News 🗞: (翻訳) 速報🚨: Microsoftは新しいCopilot Audio Expression Labsプロジェクトと2つの新しいモデル、MAI-Voice-1とMAI-1-Previewを発表しました。 - MAI-Voice-1はCopilot DailyとPodcastsにも搭載されています - MAI-1-Previewは現在LMArenaで利用可能で、まもなく一部のチャットを引き継ぐ予...

Kaggle最終モデル、全データ学習かアンサンブルか

  • Kaggleコミュニティで、最終提出モデルをCVのアンサンブルにするか、全データで再学習(full train)するかが再び議論になっています。
  • 全データで学習し、シード平均を取るアプローチが有効ではないかという意見や、各Foldが早期停止した平均ラウンド数を参考にするといったTipsが共有されています。
pocket: こういう類の、初めて機械学習で精度を高めたくなった時に直面するような疑問は、大体kaggleのdiscussionかJackさんの資料に書いてある。 全データでSA。round数どうするかという問題には各FoldがESで止まった平均をデータ量に比例して増やして止めるのが教義。

pocket: ちなみにさっきのポストについて書いてるJackさんの資料探してたんだけど見つからなかった。 もしかして最近の人、Jackさんの資料なしでMLやるの?そんなの絶対無理じゃん...

OpenAIに加えPerplexityなどもSerpApiを利用

  • 以前報じられたOpenAIによるGoogle検索結果のスクレイピングサービス「SerpApi」の利用に続き、PerplexityやCursorといった他の主要AIスタートアップも同サービスを利用していることが明らかになりました。
  • 多くのAIチャットボットがリアルタイムのWeb情報を提供するために、サードパーティのスクレイピングサービスに依存している実態が浮き彫りになっています。
Stephanie Palazzolo: (翻訳) Google検索のスクレイピング結果を販売する、オースティンを拠点とする小さなスタートアップ、SerpApiをご存じないかもしれません。しかし、OpenAI、Cursor、Perplexityなど、あなたのお気に入りのAIスタートアップは知っています。3社すべてがSerpApiを利用して、自社製品にリアルタイムのWeb情報を提供しています:https://t.co/X9Msuky17C

The Information: (翻訳) AIアジェンダ:ChatGPT、Cursor、Perplexityが利用するGoogleスクレイピングスタートアップに会う Google検索をスクレイピングする小さなスタートアップが、いかにしてOpenAI、Cursor、Perplexity、Metaを顧客にしたのか。 @steph_palazzolo の記事はこちら👇 https://t.co/LAI3O9Dxwv

The Information: (翻訳) OpenAIや他のAIスタートアップは、SerpApiのサービスを利用してGoogleの検索結果をスクレイピングし、チャットボットに最新情報を提供しています。SerpApiのビジネスの約40%は、Cursor、Perplexity、Meta PlatformsなどのAIスタートアップからのものです。詳細はこちら:

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください