08 3月 2026

2026年03月08日朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

OpenAIがセキュリティAIをプレビュー公開、Claude 4.6が新ベンチマークで首位

OpenAIの脆弱性対策AI「Codex Security」がリサーチプレビューとして公開され、コードベースの脆弱性発見から修正案提案までを自動化します。

一方、Claude 4.6は新ベンチマーク「LisanBench」で1位・2位を独占し、高い推論能力を改めて証明しました。また、Karpathy氏による研究支援プロジェクト「autoresearch」や、Googleのアフリカ言語音声データセット「Waxal」も注目を集めています。

それでは、本日の主要トピックを詳しくご紹介していきます。

OpenAIの脆弱性対策AI「Codex Security」プレビュー公開
Karpathy氏、LLM研究プロジェクト「autoresearch」公開
【続報】GPT-5.4、長文コンテキストでの性能に課題
Google、アフリカ言語の大規模音声データセット公開
Claude 4.6、新ベンチマーク「LisanBench」でも首位獲得

OpenAIの脆弱性対策AI「Codex Security」プレビュー公開

以前お伝えしたOpenAIの脆弱性分析エージェント「Codex Security」が、リサーチプレビューとして公開されました。
このツールは、コードベース内の脆弱性を発見・検証し、修正案を提案することで、開発者のセキュリティ対策を支援します。
当初は法人向けプランが対象でしたが、後にChatGPT Proユーザーにも展開されることが告知されています。

OpenAI Developers: (翻訳) Codex SecurityはChatGPT Proアカウントでも利用可能になりました。

Greg Brockman: (翻訳) コードベースの脆弱性を見つけて修正するためのCodex Security:

TestingCatalog News 🗞: (翻訳) OpenAIは、セキュリティの脆弱性を発見・修正できる新しいアプリケーションセキュリティエージェント「Codex Security」を発表しました。\n\n「Codex Securityは、OpenAIのフロンティアモデルとCodexエージェントを活用しています。」

Karpathy氏、LLM研究プロジェクト「autoresearch」公開

Andrej Karpathy氏が、LLMの研究を加速させるためのプロジェクト「autoresearch」を公開しました。
これは、人間が研究の方向性を指示し、LLMが文献調査やコード作成、実験の実行といった反復的なタスクを自動で行うフレームワークです。
単一GPUで動作する約630行の自己完結型リポジトリとして提供されており、誰でも手軽に試すことができます。

Andrej Karpathy: (翻訳) 週末に遊べるように、「autoresearch」プロジェクトを新しい自己完結型の最小限のリポジトリにまとめました。基本的には、nanochat LLMトレーニングコアを単一GPU、1ファイルの約630行のコードに削ぎ落としたもので、人間が反復作業を行います。

【続報】GPT-5.4、長文コンテキストでの性能に課題

GPT-5シリーズに関する続報です。最新のGPT-5.4は1Mトークンという広大なコンテキストウィンドウを備える一方、その性能に課題が指摘されています。
ベンチマークによると、コンテキスト長が256kトークンを超えると精度が大幅に低下するとの報告があり、長文を扱う際の工夫が求められそうです。
また、思考の深さを最高設定の「xhigh」にすると逆に性能が低下するケースも報告されており、以前のモデルで指摘されたコストの問題に加え、性能面でも適切な設定の見極めが重要になります。

Kai INUI: GPT 5.4では1mの拡張コンテキストが登場したが、コンテキストの長さに対する耐性を測るベンチマークにおいて、256kトークン以降は如実にスコアが下がっていく。

Oikon: GPT-5.4で 1M コンテキストでもCompactionが推奨されているデータ。興味深い。

ML_Bear: context window 大幅に伸びてくると如実に性能落ちる感じがするからcompaction早めにかけた方が良い派だけど同じ感想の人いるかな？(もちろん用途によるとはおもう😇)

Google、アフリカ言語の大規模音声データセット公開

Googleが、アフリカの言語に対応した大規模な公開音声データセット「Waxal」をリリースしました。
このプロジェクトは2021年から進められており、26カ国以上で1億人以上に話されているサハラ以南のアフリカ27言語、2,400時間以上の高品質な音声データが含まれています。
アフリカで話されている2000以上の言語に対するデータ不足は、AIアプリケーション普及の大きな障壁となっており、このデータセットがその解消に貢献することが期待されます。

Jeff Dean: (翻訳) 私たちは2021年からWaxalデータセットプロジェクトに取り組んでおり、アフリカ言語で利用可能なデータ量を増やすことを目指しています。この公開音声データセットは、当初、26か国以上で1億人以上の話者がいるサハラ以南のアフリカ27言語を対象としています。🌍

Claude 4.6、新ベンチマーク「LisanBench」でも首位獲得

新たなベンチマーク「LisanBench」が公開され、AnthropicのClaude 4.6がその性能を改めて示しました。
同モデルは1位と2位を独占し、特に思考プロセスを伴う設定で他を圧倒、高い推論能力を証明しています。
GPT-5.4やGemini 3.1 Proも高いスコアを見せる中、Claude 4.6の優位性が際立つ結果となりました。

Lisan al Gaib: (翻訳) 要約： - Claude 4.6モデルはLisanBenchで1位と2位を独占し、圧勝 - GPT-5.4とGemini 3.1 Proも期待通りの性能を発揮 - Sonnet 4.6は推論なしでも驚異的なモデルで、多くのオープンソース推論モデルを上回る！

Lisan al Gaib: (翻訳) LisanBenchのスコアはOpus 4.6で急上昇中