2025年12月19日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
OpenAIの新Codexモデル公開、GoogleとMistralも新モデル展開
本日はOpenAIの新コーディングモデル「GPT-5.2-Codex」の公開が注目を集めています。エージェント的なコーディングに最適化されたものの、性能に賛否が分かれる状況です。
また、Googleが関数呼び出し特化の小型モデル「FunctionGemma」を、Mistralがドキュメント理解のための「Mistral OCR 3」を発表。各社が得意分野で新モデルを投入しています。
加えて、AIエージェントの能力定義「Skills」の標準化が進展し、AnthropicもClaudeで対応を開始しました。
では、各ニュースの詳細をご覧ください。
目次
- OpenAI、新コーディングモデルGPT-5.2-Codex公開も性能に賛否
- Google、関数呼び出し特化の小型モデルFunctionGemmaを公開
- Mistral、新ドキュメント理解モデル「Mistral OCR 3」を発表
- Figure AIのCEO、新AIラボ「Hark」を1億ドルで設立
- AI Agentの能力定義「Skills」が標準化 OpenAIに続きAnthropicも採用
- GeminiのSynthID、AI生成動画の検知に対応【続報】
- Anthropic、AIによる感情的サポートへの取り組みを公開
- ByteDanceのAI「Seed」続報、PC操作モデル公開
- Kaggle、AIエージェント開発コンペの受賞者を発表
- Karpathy氏、LLMにはない人間の認知能力を語る
OpenAI、新コーディングモデルGPT-5.2-Codex公開も性能に賛否
- OpenAIのコーディング特化モデルの続報です。新モデル「GPT-5.2-Codex」が公開されました。
- エージェント的なコーディングやターミナル操作に最適化され、長期的なコンテキスト理解やツール呼び出し機能が向上しているとされています。
- しかし、一部のベンチマークで性能低下が報告されており、開発者からは性能向上に疑問の声も上がっています。
- Sam Altman氏は今後の改善に自信を見せており、動向が注目されます。
OpenAI: (翻訳) GPT-5.2-CodexがCodexで利用可能になりました。 実際のソフトウェア開発や防御的サイバーセキュリティにおけるエージェントコーディングの新たな標準を確立します。 また、複雑なタスクでより信頼性の高いパフォーマンスを提供し、大規模なプロジェクトでも効果的にスケールします。
Sam Altman: (翻訳) Codexは非常に優れたものになっており、急速に改善されるでしょう。来年、これを100倍良くする手助けをしたいなら、チームは人材を募集しています。クレイジーな冒険は保証付き、成功は確実です。
leo 🐾: (翻訳) OpenAIは、GPT-5.2-Codexが非常に大きな改善(そしてサイバーセキュリティ上の脅威)であるため、「より段階的な展開」が必要だと主張しました。 このモデルはごくわずかに優れているだけで、いくつかのシステムカード評価では実際には後退しています。彼らはその後…
Google、関数呼び出し特化の小型モデルFunctionGemmaを公開
- Googleが、関数呼び出し(Function Calling)に特化した270Mパラメータの小型モデル「FunctionGemma」をリリースしました。
- エッジデバイスでの動作を想定しており、高速かつプライベートなローカルエージェントの基盤となることが期待されています。
- OllamaやKaggleなどのプラットフォームでも利用可能になっており、開発者はすぐに試すことができます。
ollama: (翻訳) 🌎 GoogleのFunctionGemmaは、関数呼び出しのためにGoogleによってファインチューニングされた2億7000万パラメータのモデルです。 Ollamaの最新v0.13.5でお試しください。 ollama pull functiongemma モデルページの例はこちら👇👇👇
Patrick Loeber: (翻訳) もう一つの超効率的な270Mモデル!エッジデバイスで実行できる、カスタムで高速、プライベートなローカルエージェントへのさらなるトレーニングのための強力な基盤として設計されています🚀
Kaggle: (翻訳) 🤖 Kaggleで利用可能になりました! 詳細はこちら:
Mistral、新ドキュメント理解モデル「Mistral OCR 3」を発表
- Mistralが、ドキュメント理解のための新しいOCRモデル「Mistral OCR 3」を発表しました。
- フォームや低品質スキャン、複雑な表、手書き文字といった難しい入力に対しても、構造化されたテキストを出力できるとされています。
- 既存のエンタープライズ向けソリューションやAIネイティブのOCRシステムを上回る性能を主張しています。
TestingCatalog News 🗞: (翻訳) Mistralは、既存のエンタープライズ向け文書処理ソリューションやAIネイティブのOCRシステムを上回る性能を持つMistral OCR 3をリリースしました。
Chubby♨️: (翻訳) 素晴らしいアップデート:Mistral OCR 3はMistralの最新の文書理解OCRモデルで、OCR 2に対して全体で74%の勝率を主張しています。 フォーム、低品質のスキャン、複雑な表、手書きなどの困難な入力に対して、クリーンなテキストと構造(HTML形式の表を含むマークダウン)を出力します。
Figure AIのCEO、新AIラボ「Hark」を1億ドルで設立
- 人型ロボットを開発するFigure AIのCEOであるBrett Adcock氏が、新たにAIラボ「Hark」を設立したことが報じられました。
- Adcock氏の個人資金1億ドルで設立され、「人間中心のAI」の構築を目指すとのことです。
- 同氏はFigure AIのCEOも継続し、両社での活動を行っていくとしています。
Stephanie Palazzolo: (翻訳) 新着:ロボット工学のスタートアップFigure AIのCEOであるブレット・アドコック氏が、自身の個人資産1億ドルを資金源とする新しいAIラボ「Hark」を立ち上げます。このスタートアップは「人間中心のAI」の構築を目指しており、アドコック氏はFigureでの役職も継続します。
The Information: (翻訳) 独占記事:Figure CEOのブレット・アドコック氏が1億ドルの資金で新しいAIラボを立ち上げ @Steph_Palazzolo の記事で詳細を読む 👇
AI Agentの能力定義「Skills」が標準化 OpenAIに続きAnthropicも採用
- 以前お伝えした、AIエージェントの能力を定義する標準化の動きの続報です。
- この取り組みは「Agent Skills」と呼ばれ、OpenAIが関連リポジトリを公開したほか、AnthropicもClaudeの法人向けプランでSkillsの管理機能を提供開始しました。
- 開発者が宣言的にエージェントを定義し、様々な環境で実行可能にすることを目指しており、業界全体での採用が広がっています。
Alex Albert: (翻訳) エージェントスキルがオープンスタンダードになりました。 スキルが業界ですでに注目を集めているのを見るのは素晴らしいことであり、これにより誰もがスキルを構築し、貢献しやすくなります🚀
Lisan al Gaib: (翻訳) Agent Skillsのための新しいOpenAIリポジトリ
elvis: (翻訳) スキルこそがすべてだ! MCPのように、スキルの採用は信じられないほどの速さで進んでいます。 オープンスタンダードになるのは時間の問題でした。
GeminiのSynthID、AI生成動画の検知に対応【続報】
- AI生成画像の検知機能に続き、Geminiアプリの電子透かし技術「SynthID」が動画にも対応しました。
- 動画ファイルをアップロードするだけで、GoogleのAIツールで作成・編集されたものかを判定できます。
- AIによる偽情報の拡散防止に繋がり、コンテンツの信頼性を確認する手段として期待されます。
Google DeepMind: (翻訳) @GeminiApp に「この動画はAIで作られていますか?」と質問できるようになりました。🔍 ファイルをアップロードすると、SynthIDウォーターマークをチェックして、Googleのツールで作成または編集されたものかどうかを確認できます。 詳細はこちら →
Anthropic、AIによる感情的サポートへの取り組みを公開
- Anthropicは、同社のAIモデルClaudeがユーザーからの感情的なサポートを求める対話にどのように対応しているか、その取り組みを公開しました。
- AIが共感的かつ正直に対応できるよう、有害な出力を避けつつ、AIとしての限界を正直に伝えるなどの安全対策を講じていると説明しています。
- AIを幅広い用途で安全に利用するための継続的な努力の一環として、ユーザーからのフィードバックを重視しているとのことです。
Anthropic: (翻訳) 人々は感情的なサポートを含む、さまざまな理由でAIを利用します。 以下に、クロードがこれらの会話を共感的かつ誠実に処理できるようにするために私たちが行ってきた取り組みを紹介します。
ByteDanceのAI「Seed」続報、PC操作モデル公開
- TikTokを運営するByteDanceのAIモデル群「Seed」に関する続報です。
- 新たにブラウザやコンピュータ操作に特化したエージェントモデル「Seed 1.8」がリリースされました。
- 同分野は多くの企業が開発を進めており、ByteDanceの参入で競争の激化が予想されます。
Lisan al Gaib: (翻訳) ByteDanceがSeed 1.8をリリースしました。 彼らは本当に優れたブラウザ/コンピュータの使用法を持っています。
Kaggle、AIエージェント開発コンペの受賞者を発表
- データサイエンスプラットフォームのKaggleが、「Agents Intensive Capstone Project」の受賞12チームを発表しました。
- このコンペティションでは、参加者がAIエージェントを用いて創造的かつ技術的に優れたプロジェクトを開発し、その成果を競いました。
- 受賞プロジェクトの詳細はKaggleの公式ブログで公開されており、AIエージェント開発の最前線を知る良い機会となります。
Kaggle: (翻訳) 🏆 エージェント集中キャップストーンプロジェクトの受賞者を発表します!🎉 AIエージェントを使用して卓越した創造性と技術スキルを発揮した上位12チームを発表できることを嬉しく思います!彼らの革新的なプロジェクトをチェックし、提出物について詳しくはこちらをご覧ください:
Karpathy氏、LLMにはない人間の認知能力を語る
- AI研究者のAndrej Karpathy氏が、人間が持つ「food for thought(考える糧)」という認知能力について言及し、話題となっています。
- これは「じっくり考える価値のある事柄」を指し、アイデアや洞察で精神を満たす食事のようなものだと定義されています。
- 現在のLLMにはこれに相当する能力がなく、単に情報を処理するだけでなく、深く思索する能力が今後のAI開発における重要な課題であることを示唆しています。
Andrej Karpathy: (翻訳) 私は「考える糧」という表現が大好きです。人間が経験する具体的で神秘的な認知能力でありながら、LLMには同等のものがないからです。 定義:「考える価値のある、または検討する価値のある何か。アイデア、洞察、または問題であなたの心を養う精神的な食事のようなもの」