2026年03月13日 夜のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
MetaのAvocado延期とGPT-5.4の躍進、軍事AI利用の新段階
Metaの次期AIモデル「Avocado」が性能懸念から5月以降に延期される一方、OpenAIのGPT-5.4はコーディングベンチマークで首位を獲得しました。
国内ではSakana AIが防衛装備庁と大型契約を締結。米軍がAnthropicのClaudeをイラン紛争で実戦投入するなど、AI軍事利用が新たな局面を迎えています。
では、各トピックの詳細をご覧ください。
目次
- Metaの次期AI「Avocado」性能懸念でリリース延期か【続報】
- Grok 4.20 Beta、ハルシネーション率22%と低さを記録【続報】
- 【続報】GPT-5.4、新コーディングベンチマークCursorBenchで首位
- Sakana AI、防衛装備庁と大型研究契約を締結
- OpenAIのCodexアプリにテーマ機能追加、自動化機能もGA
- Google AI StudioのAndroidアプリ版、I/O前に登場か
- OpenClaw続報: Alibaba参入で中国でのブーム加速
- 【続報】米軍、イラン紛争でAnthropicのAIを実戦投入
- 生成AIトラフィックシェア、GeminiがChatGPTを追撃 Grokも3位に
Metaの次期AI「Avocado」性能懸念でリリース延期か【続報】
- 以前お伝えしたMetaの次期AIモデル「Avocado」の続報です。性能への懸念からリリースが5月以降に延期されたと報じられました。
- 内部テストでは、Llama 4を上回るものの、性能はGemini 2.5と3の中間程度にとどまったとされています。
- この開発の遅れから、Metaが再びオープンソースモデル路線に回帰する可能性も指摘されています。
TestingCatalog News 🗞: (翻訳) 速報🚨: NYTによると、Metaは性能の低さからAvocadoモデルのリリースを5月まで延期しました。 個人的には、Metaはマルチモデルラッパーをやるべきだと思います。 次はスイカ?👀 https://t.co/a9HjoFUXjj
Lisan al Gaib: (翻訳) MetaのAIへの取り組みは無駄だ。彼らはGoogleやxAIよりもさらに遅れている。おそらくKimi-K2.5にさえも。 最終的に勝負するのはAnthropicとOpenAIだけだろう。
Kol Tregaskes: (翻訳) Metaは、Avocado AIモデルが推論、コーディング、ライティングの内部テストで基準に達しなかったため、計画されていた2026年3月の展開を少なくとも5月まで延期しました。 このモデルはMetaの以前のバージョンやGoogleのGemini 2.5を上回りましたが、後のGemini 3.0には及ばず、議論を呼んでいます。 https://t.co/xvLychNjYu
Grok 4.20 Beta、ハルシネーション率22%と低さを記録【続報】
- xAIの新モデル「Grok 4.20 Beta」に関する続報です。
- このモデルのハルシネーション(幻覚)率は22%で、Claude Haiku 4.5をも下回る低い数値を記録したと報告されています。
- 処理速度もGrok 4.1 Fastの2倍に向上しており、性能面での大きな改善が示されています。
Rohan Paul: (翻訳) Grok 4.20 Betaは22%という記録的なハルシネーション率を達成し、Claude Haiku 4.5を上回りました。 IFBenchでは82.9%(+29.2ポイント)でリードしています。出力は毎秒265トークンに達し、Grok 4.1 Fastの2倍の速さです。https://t.co/jROBoB6hBs
Haider.: (翻訳) xAIはここで信じられないことをやってのけた grok 4.20 (beta) は現在、トップのAIモデルの中で最も低いハルシネーション率を誇る grok 4.1の頃から言ってきたが、xAIは非常に大きなコンテキストでも着実にハルシネーションを減らしてきている。 生の知能では少し遅れているかもしれないが https://t.co/IediY8d22A
Tech Dev Notes: (翻訳) イーロンによると、Grok 4.20 Beta 3が登場します。 機能の向上とバグ修正が含まれる予定です。
【続報】GPT-5.4、新コーディングベンチマークCursorBenchで首位
- 先日リリースが報じられたOpenAIの最新モデル「GPT-5.4」の続報です。
- AIコーディングツール「Cursor」が提供するエージェントのコーディング能力ベンチマーク「CursorBench」において、正しさとトークン効率の両面で首位を獲得したことが発表されました。
- この結果は、GPT-5.4が複雑なコーディングタスクにおいて高い能力を持つことを改めて示唆しています。
OpenAI Developers: (翻訳) GPT-5.4は、効率的なトークン使用でCursorBenchの正しさにおいてリードしています。
Tibo: (翻訳) 最前線を押し広げています。参加したい方はぜひご参加ください。DMはいつでもどうぞ。
Wolfram Ravenwolf: (翻訳) 最初にGPT 5.4をOpenClawで@WolfBenchAIでテストしたとき、それはベンチマークで最悪のモデルでした!非常に運が悪かっただけではないことを確認するために、通常の5回ではなく10回の試行を実行しましたが、いや、それは単にダメでした。今、最新のOpenClawバージョンでは、最高のモデルです!📈
Sakana AI、防衛装備庁と大型研究契約を締結
- 日本のAIスタートアップSakana AIが、防衛装備庁の防衛イノベーション科学技術研究所と複数年にわたる大型の研究契約を締結したことを発表しました。
- この研究では、同社の強みである小規模視覚言語モデル(SVLM)や自律型AIエージェント技術を活用し、観測・報告・情報統合などの高速化を目指します。
- 今回の契約は、同社にとって金融分野に次ぐ、防衛・諜報分野が主要なコア領域となる重要なマイルストーンです。
hardmaru: (翻訳) Sakana AIは、日本の防衛省傘下の防衛イノベーション技術研究所から、複数年にわたる大規模な研究契約に選ばれました。 これは私たちにとって重要なマイルストーンです。金融と並んで、防衛と諜報が今や主要なコア重点分野となっています。
heartkilla: (翻訳) 私たちは防衛省と、小規模VLMとエージェントシステムに関する契約を結びました。 チームをとても誇りに思います。
OpenAIのCodexアプリにテーマ機能追加、自動化機能もGA
- 先日発表されたOpenAIのmacOS向け開発環境「Codex App」の続報です。
- 新たに、ユーザーが外観をカスタマイズできるテーマ機能が追加されました。
- また、これまでベータ版として提供されていたワークフロー自動化機能「Automations」が正式にリリースされました。
TestingCatalog News 🗞: (翻訳) OpenAIはCodexアプリのテーマをリリースし、Automationsを一般提供に昇格させました!カスタムテーマもサポートされています。 マトリックス👀 https://t.co/uRXPkOL9Jr
Tibo: (翻訳) 常にリリースし続けること。これは楽しくて素晴らしいもので、テーマの調整をとても楽しんだ。 そして心配しないで、私たちはもっと速く、より良いモデル、より多くの機能、そして最近私を驚かせた他のいくつかのことにも取り組んでいる。
Romain Huet: (翻訳) Codexが新しくなりました!💅 テーマを選ぶか、自分で作るか。あなたのCodexを見せてください!
Google AI StudioのAndroidアプリ版、I/O前に登場か
- 以前お伝えしたGoogleのAIモデル開発プラットフォーム「AI Studio」のモバイルアプリに関する続報です。
- Androidアプリ版が開発中であり、Google I/O前のリリースを目指していることが明らかになりました。
- 実現すれば、スマートフォンから直接AIモデルの実験やプロトタイピングが可能になり、モバイル環境でのAI開発がより手軽になることが期待されます。
TestingCatalog News 🗞: (翻訳) 速報🚨: GoogleはGoogle I/Oの前にAI StudioのAndroidアプリを開発する計画です! #APKPLZ 👀 https://t.co/j8Yy9ZxT0x
OpenClaw続報: Alibaba参入で中国でのブーム加速
- AIエージェント「OpenClaw」の中国でのブームが加速している続報です。
- Alibabaが数分で導入できる専用モバイルアプリをリリースするなど、大手テック企業の参入が相次いでいます。
- 過労気味の会社員が簡単なタスク処理に利用する事例も報じられており、実用段階に入りつつあることを示しています。
Bloomberg: (翻訳) アリババは、ユーザーがOpenClawを数分でインストールして展開できると主張する専用モバイルアプリをリリースし、中国のテクノロジーリーダー間の、バイラルなエージェントAIアシスタントから利益を得るための戦いを激化させています。https://t.co/82YySycKrP
Bloomberg: (翻訳) 中国の過労の人々は、セキュリティリスクにもかかわらず、小さな仕事を助けるためにOpenClawに群がっています。https://t.co/PytMRrHMQw
Bloomberg: (翻訳) OpenClawの登場は中国で興奮の波を巻き起こし、互換性のある製品が続々と登場し、同国をエージェントAIの最前線に押し上げる可能性があります。https://t.co/dpYvlcfvTq
【続報】米軍、イラン紛争でAnthropicのAIを実戦投入
- AIの軍事利用を巡り米国防総省と対立していたAnthropic社の動向に関する続報です。
- 米軍がイランとの紛争で、同社のAI「Claude」を含むシステムを本格的に活用していると報じられました。
- AIを用いて戦況を分析し、生死に関わる意思決定に役立てているとされており、AIの軍事利用を巡る議論が新たな段階に入りました。
Bloomberg: (翻訳) 米国は、AIを活用した戦争の未来を形作る可能性のある2つの劇的な動きを見せました。 @KatrinaMansonが、米国がシリコンバレーをAI戦争のビジョンにどのように取り込み、それが現在イランで展開されているかを説明します。https://t.co/nMrE70v7Up https://t.co/e4PcpdSCDa
Bloomberg: (翻訳) 米国はAIツールの導入によって可能になった激しさでイランへの攻撃を開始しました。今日のBig Takeポッドキャストでは、@katrinamansonと@mikeshepard4が、生死を分ける決断をAIに委ねることについて語ります。https://t.co/CtKmD1tWBe
Bloomberg: (翻訳) 米国は、AI戦争のビジョンを形成するために、Claudeやその他の人工知能システムに頼りました。イランでは、その戦略がリアルタイムで展開されています。 The Big Takeを読む ⬇️ https://t.co/C8xRkFT5oA
生成AIトラフィックシェア、GeminiがChatGPTを追撃 Grokも3位に
- 生成AIのウェブサイトトラフィックシェアに関する続報です。市場を独占していたChatGPTのシェアが縮小する一方、GoogleのGeminiが着実に差を詰める傾向が続いています。
- また、GrokとClaudeがDeepSeekを上回り、それぞれ3位と4位に浮上するなど、市場全体の競争環境が変化していることを示しています。
Rohan Paul: (翻訳) 生成AI市場は、ユーザー行動に明確な変化が見られます。これは、2月26日までの12ヶ月間のウェブサイトトラフィックデータに基づいています。 - ChatGPTはこの期間、圧倒的なリードでスタートしました。しかし、その支配的な市場シェアは着実に縮小しています。 - GoogleのGeminiは https://t.co/lhFF4jk27B