2026年06月12日 夜のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

AIエージェント向けセキュリティコンペの開催とGemini Omni Flashの動画タスク最高性能達成

OpenAI等主催のAIエージェント向けセキュリティコンペがKaggleで開始され、大きな話題を呼んでいます。

また、Gemini Omni Flashが動画タスクで最高性能を達成し、API公開が間近に迫っています。

その他、LLMによる社会の信念変化予測や核紛争シナリオでの意思決定検証など、安全性に関する重要研究も発表されました。

本日の主要なニュースを順番にご紹介します。

目次

  1. Codexに制限リセット保存機能追加【続報】
  2. OpenAI等主催のAIエージェント向けセキュリティコンペ開催
  3. CodexのBrowser UseがCDPに対応
  4. Gemini Omni Flashが動画タスクでSOTA達成【続報】
  5. v0にプレビューへのアノテーション機能が追加
  6. Together AIが長文脈学習を可能にするUntied Ulyssesを発表
  7. KanaryとCodexの連携ワークフローが話題【続報】
  8. Algomaticが図解生成エージェントの設計プロセスを公開
  9. LLMによる社会の信念変化予測モデルの研究が話題
  10. Hacker-Fixer Loopによる報酬ハッキング対策の研究
  11. LLMの核紛争シナリオにおける意思決定の検証
  12. Claude Code 2.1.174/175リリース【続報】

Codexに制限リセット保存機能追加【続報】

  • OpenAIのCodexに関する続報です。
  • レートリミットのリセット権を保存し、任意のタイミングで使用できる新機能が追加されました。
  • Go、Plus、Pro、Businessユーザーには1回分の無料リセット権が付与されています。
  • 今後2週間、友人をCodexに招待すると双方にリセット権が付与されるキャンペーンも実施中です。
jason: (翻訳) Codexのレートリミットリセットを好きな時に使いたいというご要望にお応えし、本日からリセットを保存して後で使える機能の提供を開始します。Go、Plus、Pro、Businessユーザーの皆様には、まず1回分の無料リセットを提供します。

Greg Brockman: (翻訳) 今後2週間、お友達にCodexを紹介すると、レートリミットのリセットが1回分貯まります。

Kenn Ejima: 噴いたw レートリミットおじさん(Tibo)が押したリセットボタンを貯めておいて好きな時に発動できる新機能 まじかよOpenAI こういう洒落っ気好きだぞ…

OpenAI等主催のAIエージェント向けセキュリティコンペ開催

  • Kaggleにて、OpenAI、Google、IEEEが主催するAIエージェントのセキュリティコンペティションが開始されました。
  • GPT-OSSおよびGemma 4を用いたエージェントに対する多段階・ツール利用攻撃(レッドチーミング)のアルゴリズムを設計する内容となっています。
  • AIセキュリティ分野の発展に寄与するコンペとして、Kagglerの間で大きな話題を呼んでいます。
Takami Sato: Kaggle新コンペ OpenAI、Google、IEEEが主催するToolを使用するエージェント(GPT-OSS および Gemma 4)に対する多段階攻撃を設計するAIエージェントのセキュリティコンペ。https://t.co/uAsZNzk4BL に AttackAlgorithm を実装して提出する https://t.co/O3hEhh9szJ

: Elith 勢が優勝(もしくは入賞)すれば、AI security の会社としてのプレゼンスが更に上がりそう

エチレン: おい!やるぞ!

CodexのBrowser UseがCDPに対応

  • CodexのBrowser Use機能がChrome DevTools Protocol (CDP) に対応しました。
  • これにより、JavaScriptのパフォーマンスプロファイリングや、コンソール出力、ネットワークトラフィック、ページ状態の検査が可能になります。
  • ブラウザの問題に対するより深いデバッグが実現し、開発体験が向上しています。
Kazuhiro Sera (瀬良): Codex の browser use が Chrome DevTools Protocol (CDP) に対応しました。設定画面から有効にするとご利用いただけます⚙️

jason: (翻訳) ブラウザチームによる素晴らしいリリースです!@JamesZmSunをぜひフォローしてください!

Vaibhav (VB) Srivastav: (翻訳) 木曜日のCodexアップデート: - 制御されたCDPアクセスを備えたBrowser use向け開発者モード - ネットワーク、コンソール、ランタイムエラー、パフォーマンス、ページ状態のより深いデバッグ - アプリ内コンポーザーでの /init - カスタマイズ可能なmacOS Dockアイコン - より多くのエンタープライズユーザー向けのComputer Use - Windows対...

Gemini Omni Flashが動画タスクでSOTA達成【続報】

  • Googleの「Gemini Omni Flash」に関する続報です。
  • 画像から動画、テキストから動画、および動画編集のタスクにおいてSOTA(最高性能)を達成したと報告されました。
  • 同モデルはまもなくAPIを通じて開発者向けに提供される予定です。
  • マルチモーダルな動画生成・編集機能のAPI公開に期待が高まっています。
🚨 AI News | TestingCatalog: (翻訳) GOOGLE 🔥: Gemini Omni Flashが、画像から動画、テキストから動画、動画編集のAPI経由でまもなく利用可能になります!リリース後にまたアップデートされたのでしょうか?👀

v0にプレビューへのアノテーション機能が追加

  • Vercelのv0に、プレビュー画面上の要素を直接クリックしてコメントを追加できるアノテーション機能が導入されました。
  • 追加した複数のコメントは、単一のプロンプトとしてエージェントに送信されます。
  • これにより、UIの修正指示がより直感的かつ効率的に行えるようになります。
v0: (翻訳) v0にアノテーション機能を導入しました。プレビュー内の要素をクリックしてコメントを追加し、それらをすべて単一のプロンプトとしてエージェントに送信できます。

Together AIが長文脈学習を可能にするUntied Ulyssesを発表

  • Together AIの研究チームが、GPUメモリの枯渇を防ぎながら長文脈のモデル学習を可能にする「Untied Ulysses」を発表しました。
  • 単一の8xH100ノードで3Mトークンのコンテキストを持つLlama 3Bモデルを学習する際のメモリ問題を解決します。
  • この手法により、8Bおよび32Bスケールのモデルを25%長いシーケンスで学習できるようになります。
Together AI: (翻訳) 単一の8xH100ノードで3Mトークンのコンテキストを持つLlama 3Bモデルをトレーニングしようとすると、モデルパラメータだけでGPUメモリを使い果たして失敗します。@m_ryabininが、彼のチームの最新研究であるUntied Ulyssesがどのようにその壁を乗り越え、8Bおよび32Bスケールで25%長いシーケンスでのトレーニングを可能にするかを説明しています。

KanaryとCodexの連携ワークフローが話題【続報】

  • 文字起こしアプリ「Kanary」の活用に関する続報です。
  • Kanaryの文字起こしデータと確信度スコアをCodexに渡すことで、専門用語の補完が非常に高精度に行えるワークフローが注目を集めています。
  • ショート動画用の字幕分割なども自動化でき、実用性の高さが評価されています。
Kenn Ejima: これは予想外の使い方! そういえば自分も会議中に幽体離脱することがあるのでライブ文字起こしに頼ってみようと思います…笑

Kenn Ejima: Kanary x Codexの組み合わせ本当に最強なので ぜひ皆様もご体験ください! 文字起こしの時点で「どのぐらい正確さに自信あるか」 のスコアが全部ついてるので Codexなどの賢いモデルであればその数字を読み取って うまく補完してくれます!

Algomaticが図解生成エージェントの設計プロセスを公開

  • 株式会社Algomaticが、AIエージェントに図解を生成させる「zukai-creator」のスキル設計プロセスを公開しました。
  • 業務をタスク系列に落とし込み、再現可能なスキルとして機能させるための実践的な知見が丁寧に解説されています。
  • 単なるツールの配布にとどまらず、エージェント開発の背景が学べると開発者から好評を得ています。
株式会社Algomatic: ▶️ Algomatic 初夏のアドカレ #10🌊 10回目は、業務変革本部ソフトウェアエンジニアのGoが担当👏 ーー AIに「図解して」と頼んでも、いい感じの図が伝わらない。。。 そこで 図解設計のプロセス を再定義し、エージェントの skills に落とし込んだ実践知をイチから丁寧に紹介しています🗣️ skills https://t.co/q2ibsGyWZn

s-miyawaki | Algomatic: 図解を生成する "zukai-creator" を配布。単なる配布にとどまらず、スキルの作り方の背景が丁寧に解説されています。 ◯ 業務をどうタスク系列に落とし込むか ◯どのようにタスク系列を再現可能なスキルとして機能させるか という視点からも大変学びのある記事です🙌 https://t.co/5GIxqFzrRD

LLMによる社会の信念変化予測モデルの研究が話題

  • ニュースや出来事が発生した後に、人々の考え方や社会全体の信念がどのように変化するかをLLMを用いて予測する「Social World Model」の研究が注目を集めています。
  • 社会の動向予測におけるAIの新たな応用可能性を示すものとして話題になっています。
t.toda: https://t.co/rmnX6pNyF6 社会全体の信念変化を予測するSocial World Modelだって なんか難しそうだが、ニュースや出来事が起きたあと、人々の考え方がどう変わるかをLLMで予測するってことみたい 出してるKalshi、どこかで聞いたことあるなぁと思ってたのだが、NBA Finalsで生成AI

Hacker-Fixer Loopによる報酬ハッキング対策の研究

  • LLMシステムにおける報酬ハッキングを防ぐための「Hacker-Fixer Loop」に関する論文が発表されました。
  • Hacker、Fixer、Solverの3つのエージェントを用いて、ベンチマークの検証器を自動的に強化する仕組みが提案されています。
  • AIの評価システムの堅牢性を高めるアプローチとして評価されています。
Robert Lange: (翻訳) @fjzzq2002 らによる「hacker-fixer loop」に関する非常にクールな論文です🚀 報酬ハッキングに対してベンチマークの検証器を自動的に強化する3エージェントLLMシステム: 1. 🦹 Hackerはタスクを解決せずに検証器を通過しようとします。 2. 👷 Fixerはエクスプロイトにパッチを当てます。Solverは正当性をチェックします。

LLMの核紛争シナリオにおける意思決定の検証

  • 主要なLLMが核紛争シナリオにおいてどのような意思決定を行うかを検証した研究が話題です。
  • 公開メッセージと実際の行動を分離できる設計になっており、AIが穏やかに振る舞いながら裏で異なる行動をとる可能性についてシミュレーションが行われています。
  • AIの安全性やアライメントに関する重要な知見を提供しています。
t.toda: https://t.co/oYBZSfsBlS 主要なLLMが核紛争シナリオでどう意思決定するかの検証 冷戦時代のような核保有国同士の対立シミュレーションをさせる感じ 検証のポイントとしては公開メッセージと実際の行動を別にできる設計にしたこと 要は穏やかに話しながら裏で違うことができる

Claude Code 2.1.174/175リリース【続報】

  • Claude Codeのアップデートに関する続報です。
  • バージョン2.1.174および175がリリースされました。
  • フルスクリーンモードでのマウスホイールのスクロール加速無効化設定の追加や、モデルピッカーの表示不具合の修正などが行われています。
  • 細かな使い勝手の向上が図られ、開発者の利便性が高まっています。
Claude Code Changelog: (翻訳) Claude Code 2.1.174がまもなくリリースされます #cccnext

Claude Code Changelog: (翻訳) Claude Code 2.1.175がまもなくリリースされます #cccnext

Oikon: Claude Code 2.1.174 (抜粋) ・フルスクリーンモードで、マウスホイールのスクロール加速を無効にするためのwheelScrollAccelerationEnabled 設定を追加 ・/model ピッカーで、Default が実際に解決するモデルファミリーが隠れてしまう問題を修正 ・ANTHROPIC_DEFAULT_SONNET_MODEL によって別の https://...

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください