2026年01月16日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

OpenAIの並列エージェント開発とオープン化への動き

GPT-5.2が数百の並列エージェントでブラウザを自律構築したことが判明し、大規模AI開発の新局面を示しています。

OpenAIは複数LLMを扱える「Open Responses」仕様を発表し、ベンダーロックインからの脱却を推進。一方でハードウェア開発やAI音声詐欺の拡大など、業界の多様な動きも見られます。

では、本日の各トピックを詳しくご紹介していきます。

目次

  1. [続報] GPT-5.2のブラウザ構築、数百の並列エージェントで実現
  2. Thinking Machines LabからOpenAIへの人材流出に続報
  3. OpenAI、複数LLMを扱える新仕様「Open Responses」発表
  4. Google、オープンな翻訳モデル群「TranslateGemma」を公開
  5. Kaggleが新機能発表、Google CloudもAIガイド公開
  6. GPT-5.2-Codex API利用報告、安定性と速度に賛否【続報】
  7. OpenAI、AIデバイス開発を本格化か【続報】
  8. LangChain、エージェントにファイルシステム経由の記憶機能を追加
  9. AIによる音声クローン詐欺が米国で拡大、FTCが警告

[続報] GPT-5.2のブラウザ構築、数百の並列エージェントで実現

  • 先日報じられたGPT-5.2によるブラウザ自律構築の続報です。単一のエージェントではなく、数百のAIエージェントを並列で協調させ実現したことが明らかになりました。
  • 各エージェントはプランナー、ワーカー、ジャッジといった役割を分担しており、自律型AIによる大規模開発の新たな可能性を示しています。
Kenn Ejima: 凄すぎワロタ\n\n(以下翻訳)\n\nGPT-5.2を使ってCursorでブラウザを作りました。1週間ノンストップで動き続けてました。300万行以上のコードで、数千のファイルにわたっています。

Chubby♨️: (翻訳) なんてこった:CursorのCEOは、数百のGPT-5.2エージェントを協調させ、1週間でブラウザをゼロから自律的に構築したと述べた。\n\n「私たちはCursorでGPT-5.2を使ってブラウザを構築しました。それは1週間中断することなく稼働しました。\n\n数千のファイルにまたがる300万行以上のコードです。レンダリングエンジンは...

Yuchen Jin: (翻訳) 多くの人は、1つのエージェントが300万行以上のコードを書いたと思っています。\n\nそうではありません。数百の並行エージェントでした。\n\nCursorのブログからの重要な学び:\n- 多くのエージェントを対等な立場で自己調整させるのはうまくいかない\n- 明確な役割分担(プランナー、ワーカー、ジャッジ)の方がうまくいく\n- GPT-5.2は実行する

Thinking Machines LabからOpenAIへの人材流出に続報

  • 先週お伝えした共同創業者3名の復帰に続き、Thinking Machines Labから新たに2名の技術スタッフが退社し、うち1名がOpenAIに復帰したと報じられました。
  • フロンティアAI研究所間の激しい人材獲得競争を象徴する出来事として注目されています。
Chubby♨️: (翻訳) なんてこった:ミラ・ムラティの「Thinking Machine Lab」の共同創業者6人のうち3人がOpenAIに復帰した。\n\n何がこの動きを促したのか、何としても知りたい。お金?OpenAIでの研究のブレークスルー?ミラとの意見の相違?

Stephanie Palazzolo: (翻訳) @erinkwooとの新しいニュース:Thinking Machines Labのドラマは続く...さらに2人のAIスタッフが退社:モデルアーキテクチャに取り組む研究者のLia Guyと、インフラエンジニアのIan O'Connell。LiaはOpenAIに復帰します。\n\n詳細はこちら:

Chubby♨️: (翻訳) 再びOpenAIへ\n\nThinking Machines Labから2人の技術スタッフが退社し、数日前にシニアリーダーたちもOpenAIに戻ったのに続く、驚くべき退社の波が続いています。\n\nAI研究者のLia GuyはOpenAIに復帰し、インフラエンジニアのIan O’Connellは...

OpenAI、複数LLMを扱える新仕様「Open Responses」発表

  • OpenAIが、複数のプロバイダーのLLMを相互運用可能なインターフェースを構築するためのオープンソース仕様「Open Responses」を発表しました。
  • これにより、開発者は特定のベンダーにロックインされることなく、様々なLLMを組み合わせたアプリケーションを容易に構築できるようになります。
  • OllamaやOpenRouterなども早速この仕様への対応を表明しています。
OpenAI Developers: (翻訳) 本日、Open Responsesを発表します。これは、オリジナルのOpenAI Responses APIの上に構築された、マルチプロバイダーで相互運用可能なLLMインターフェースを構築するためのオープンソース仕様です。\n\n✅ デフォルトでマルチプロバイダー\n✅ 実世界のワークフローに有用\n✅ 断片化することなく拡張可能

OpenRouter: (翻訳) 私たちは@OpenAIインテグレーションのためにOpen Responsesを標準化します。統一されたリクエスト/レスポンススキーマは、マルチモーダル入力、インターリーブ推論、その他の高度な機能のサポートを開発者とユーザー双方のために改善します!

ollama: (翻訳) OllamaはOpen Responsesをサポートしました!

Google、オープンな翻訳モデル群「TranslateGemma」を公開

  • Googleが、Gemma 3をベースにした新しいオープンな翻訳モデル群「TranslateGemma」をリリースしました。
  • 4B、12B、27Bの3つのパラメータサイズで提供され、55言語をサポートしています。
  • 品質を犠牲にすることなく効率性を重視して設計されており、Kaggle上でも利用可能になっています。
Kaggle: (翻訳) 🤖 Kaggleで利用可能になりました!\n\n詳細はこちら: https://t.co/vpRNjidi8o

TestingCatalog News 🗞: (翻訳) Googleは、4B、12B、27BのパラメータサイズのTranslateGemmaモデル群をリリースしました。55言語をサポートし、エラー率が低減されています。

Chubby♨️: (翻訳) GoogleがTranslateGemmaをリリース、これはかなりクールです:\n\n- Gemma 3ベースの新しいオープン翻訳モデル、4B、12B、27Bのパラメータサイズで利用可能\n\n- 55言語をサポートし、さらなる研究のために約500の追加言語ペアでトレーニング\n\n- 印象的な効率性

Kaggleが新機能発表、Google CloudもAIガイド公開

  • Kaggleが、コミュニティによるベンチマーク作成を可能にする新機能「Community Benchmarks」をローンチしました。
  • これにより、ユーザーは独自の評価基準でモデルの性能を競い合えるようになります。
  • また、Google CloudもKaggle上でAIエージェントに関する学習ガイドを公開し、注目を集めています。
onodera: Kaggleではじめる大規模言語モデル入門をご恵贈頂きました。著者に沢山のGMやMasterを迎え、LLM時代のNLPコンペの解き方が実際のコンペを例に詳細に説明されています。これからNLPコンペを始める人だけでなく既にある程度の実力がある人にも薦められる一冊です。 https://t.co/x2s2ylzurr

u++: 人工知知能学会主催のコンペ「JAPAN AI CUP」を開催します🚀 Kaggle 上で開催する予測部門では、生活協同組合コープさっぽろ提供のデータで機械学習モデルの性能を競っていただきます。予測部門は中高生/一般に分かれていますが、誰でも参加可能です! https://t.co/X3YMkQRn6d

Kaggle: (翻訳) 見逃した方のために👇\n\nCommunity Benchmarksをローンチしました!トップモデル上でAIベンチマークを構築、実行、共有できます - 完全に透明で再現可能です。\n\n詳細はこちら 👇

GPT-5.2-Codex API利用報告、安定性と速度に賛否【続報】

  • 先日APIが公開されたOpenAIのコーディングモデル「GPT-5.2-Codex」の続報です。
  • 開発者からは「1週間中断なしで自律的に動作した」という驚くべき報告が上がる一方、「タスクによっては動作が非常に遅い」という指摘も出ています。
  • その特性や最適な利用方法について、活発な議論が交わされています。
Haider.: (翻訳) すごい... gpt-5.2が1週間中断なしで自律的に稼働した。\n\nこれは今後のMETRの結果をさらに楽しみにさせる。\n\n現在、opus 4.5は人間が見積もった作業の約4時間49分を50%の成功率で処理できる。\n\n私の推測では:\n\n> gpt-5.2 xhighは約5時間30分かかるだろう。

Haider.: (翻訳) コーディングがこれまでになく楽しい。\n\ncodexに厄介なリファクタリングや難しいタスクを与え、ブラックミラーのエピソードをいくつか見て戻ってくると、完全に動作するソリューションができている。\n\n構造を整理し、エッジケースを修正し、ほとんどレビューと最終的な仕上げだけが残る。\n\nマージして、繰り返す。

Bindu Reddy: (翻訳) GPT 5.2 Codexは死ぬほど遅い。\n\nそこそこ難しい問題を解くのに無限の時間がかかっている...

OpenAI、AIデバイス開発を本格化か【続報】

  • 以前報じられた、OpenAIがJony Ive氏らとAIデバイス開発を検討している件の続報です。
  • 新たに、ロボティクスや消費者向けデバイスへの本格参入を目指し、米国のハードウェアサプライヤーとの連携を模索していると報じられました。
  • ソフトウェアだけでなく物理的なデバイスへの展開を具体化する動きとして注目されます。クラウドデータセンター向けのパートナー探しも同時に進めているとのことです。
Evan: (翻訳) OpenAIは、計画中のロボティクス、AIデバイス推進のために米国のサプライヤーを探していると報じられている - Bloomberg

Bloomberg: (翻訳) OpenAIは、米国のハードウェアサプライチェーンを強化し、消費者向けデバイス、ロボティクス、クラウドデータセンターへの進出のためのパートナーを探している。

LangChain、エージェントにファイルシステム経由の記憶機能を追加

  • LLMアプリ開発のLangChainが、エージェントの記憶機能を強化する新たなアプローチとして、ファイルシステムを利用する方法を提案しています。
  • これは同社が取り組む「OpenMemory」などに続く、エージェントの長期記憶に関する技術です。
  • モデルが慣れ親しんだファイル読み書きのインターフェースで過去の対話を記憶させ、継続的なタスク実行を可能にすることを目指します。
  • 実際のファイルシステムではなく、Postgresなどをラッパーで包み、仮想的なファイルシステムとして見せる仕組みであることも明かされています。
LangChain: (翻訳) 私たちはLangSmith Agent Builderにファイルシステムを使ってメモリを与えました。なぜなら?\n\n1. 繰り返しのタスク(メールのルーティング、ドキュメントの要約、採用活動など)を行うエージェントは記憶する必要があります。セッションごとに同じことを繰り返すべきではありません。\n\n2. モデルはすでにファイルの読み書きが得意です。\n\n私たちはメモリを...

Harrison Chase: (翻訳) ブログで明確にすべきでした(しかし今は離席中で携帯から記事を編集できません、イーロン何とかして):\n\n私たちは実際のファイルシステムは使っていません。Postgresを使っていますが、その上にラッパーを置いてLLMにファイルシステムとして公開しています。

Harrison Chase: (翻訳) コンテンツ作成エージェントにとって、記憶は非常に重要です - フィードバックを記憶し、学習する必要があります(最初の試みで適切なトーンを完璧に出すことはできません)。

AIによる音声クローン詐欺が米国で拡大、FTCが警告

  • 米国で、AIを用いて生成した偽の音声による「オレオレ詐欺」が拡大しており、連邦取引委員会(FTC)が警告を発しています。
  • 無言電話などで標的の声を数秒間録音し、それを元に声をクローンして家族になりすまし金銭を要求する手口が報告されています。
  • 近年の音声モデルは数秒の音声データで本人そっくりの声を再現できるため、日本でも同様の詐欺が発生する可能性があり、注意が呼びかけられています。
Kenn Ejima: 最近アメリカでは\n無言電話をかけて何か喋らせて切断し\nその録音から再現した同じ声のAIで\n家族にオレオレ詐欺をしかけるという\nヤバい手口がじわじわ広がってて\nFTCが警告してる\n\n最近の音声モデル\n数秒で自分の声をクローンできるもんな\n\n絶対日本にも来るから要注意\n\n https://t.co/zTUC3yVeJk

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください