2025年12月16日 夜のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
GPT-5.2 Proの評価拡大とGemini 3 Proの自律推論能力
GPT-5.2 Proが要約やファクトチェックでも高評価を獲得し、実用性への期待が高まっています。一方、Gemini 3 Proはポケモンをクリアして効率的な自律推論能力を実証しました。
また、AIツール活用者の収入が非活用者より40%高いというデータも報告され、スキルアップデートの重要性が増しています。
それでは、本日の主要トピックを順に確認していきましょう。
目次
- 【続報】GPT-5.2 Pro、数学に加え要約やファクトチェックでも高評価
- Gemini 3 Pro、ポケモンクリアで自律推論能力を証明
- 【続報】NVIDIAのNemotron 3、開発者から高評価 Macでの動作も
- Google ADK、Maps連携による店舗検索エージェント構築事例が公開
- 【続報】PFN、開発中の軽量VLM「PLaMo-VL」を正式発表
- AI活用で収入40%増のデータ、非活用SEは採用しないとの声も
- Kaggleマウス行動コンペ、shake downに苦しむ声多数
【続報】GPT-5.2 Pro、数学に加え要約やファクトチェックでも高評価
- 先日報じた数学研究での高い評価に続き、GPT-5.2 Proが他の専門分野でも有用であるとの報告が相次いでいます。
- OpenAIのGreg Brockman氏をはじめとする研究者らが、複雑な定量的タスク、長文要約、ファクトチェックなどでも「有用性が一段階上がった」と評価しています。
- 特定分野での研究開発を加速させるツールとして、その実用性への期待がさらに高まっています。
Greg Brockman: (翻訳) 数学研究のためのGPT-5.2 Pro:
Greg Brockman: (翻訳) 複雑な定量的タスクのためのGPT-5.2 Pro:
Greg Brockman: (翻訳) ファクトチェックのためのGPT-5.2:
Gemini 3 Pro、ポケモンクリアで自律推論能力を証明
- Googleの最新モデルGemini 3 Proが、ゲーム「ポケットモンスター クリスタル」をクリアしたことが報告され、その高い自律推論能力が話題となっています。
- 旧モデルのGemini 2.5 Proでは達成できなかったタスクを、約半分のトークン消費でクリアしたとされており、モデルの効率と性能の飛躍的な向上を示しています。
- この成果は、具体的なタスクを通じてモデルの進化を分かりやすく示す事例として、多くの開発者やAI研究者の注目を集めています。
Chubby♨️: (翻訳) ポケベンチ:Gemini 3 Pro Gemini 3 Proは、Gemini 2.5 Proよりも50%少ないトークンを使用してポケットモンスタークリスタル(レッドを倒す)をクリアしました。 https://t.co/VM0px5xOh6
Rohan Paul: (翻訳) Gemini 3 Proの自律的推論能力は、Gemini 2.5 Proと比較して非常に優れています。 Gemini 3 Proはポケットモンスタークリスタルをクリアし、レッドを倒しましたが、Gemini 2.5 Proはバッジ4つで失速しました。Gemini 3 Proは、ターン数もトークン数も約50%少なく達成しました。すごいのは、それがまるで…のように振る舞ったことです。
Logan Kilpatrick: (翻訳) Gemini 3 Proがポケモンをプレイする vs 2.5 Pro(私たちはかつて2.5 Proに感銘を受けていました)
【続報】NVIDIAのNemotron 3、開発者から高評価 Macでの動作も
- 先週発表されたNVIDIAのオープンモデル「Nemotron 3」ファミリーの続報です。開発者から詳細なレビューや評価が報告されています。
- 特に30Bパラメータを持つ「Nano」モデルは、Mac上でのローカル実行も可能で、その速度と推論効率の高さが注目されています。
- アーキテクチャがDeepSeek v3と類似している点など、技術的な詳細に関する議論も活発に行われています。
Awni Hannun: (翻訳) Nvidiaの新しいNemotronモデルに関する公共サービスのお知らせ:エキスパートインデックスとスコアの選択は、微妙な違いが1つあるだけで、DeepSeek v3とまったく同じです(コード画像を参照)。変更がなくても定性的にまともなテキストを生成するため、デバッグがさらに困難になります。
パウロ: Nvidia Nemotron 3やべぇ 4-bit NVFP4 で学習されたんかっ 本当に次から次へと Inside NVIDIA Nemotron 3: Techniques, Tools, and Data That Make It Efficient and Accurate | NVIDIA Technical Blog https://t.co/m5mZb6PPzI
Awni Hannun: (翻訳) Nemotron 3 Nanoは、M4 Max上でmlx-lmを使用して快適に動作します。Macでのローカル使用に最適なモデルになる可能性があります。MoEとハイブリッドアテンションにより、非常に長いコンテキストでも高速です。4ビットモデルでリアルタイムに生成しています。
Google ADK、Maps連携による店舗検索エージェント構築事例が公開
- GoogleのAIエージェント開発キット「ADK」の新たな活用事例が注目されています。
- Googleマップの情報を利用する「Maps Grounding Lite MCP」と連携させ、店舗検索エージェントを構築する具体的な技術記事が開発者の間で共有されました。
- この事例は、Googleのサービスと連携した実用的なAIエージェントを容易に開発できる可能性を示しており、今後の活用が期待されます。
Kazunori Sato: Google ADK(AIエージェント開発フレームワーク)の紹介|hnagai https://t.co/wTULPxbpVa
Kazunori Sato: Google ADKとMaps Grounding Lite MCPで実現する店舗検索エージェント|Kazuki Hara https://t.co/pJVIrMbie8 #zenn
からあげ: ほえー > Google、全サービスでMCPサーバ提供へ まずはGoogleマップ、BigQuery、Google Compute Engineで https://t.co/DVAyDQjbjZ
【続報】PFN、開発中の軽量VLM「PLaMo-VL」を正式発表
- 以前、経済産業省のプロジェクト採択のニュースとしてお伝えした、PFNが開発する軽量な大規模視覚言語モデル(VLM)の続報です。同社は自律稼働デバイス向けの「PLaMo-VL」を正式に発表しました。
- このモデルは、PFNが開発したLLM「PLaMo」をベースにしており、視覚能力を評価する複数のベンチマークで同等規模のモデルの中で世界最高の性能を達成したとしています。
- ドローンやロボットなど、エッジデバイス上での高度な視覚認識・理解能力の実現が期待され、モニター企業の募集も開始されています。
Daisuke Okanohara / 岡野原 大輔: PLaMoをベースに開発したVLMである PLaMo-VL は、視覚能力を評価する VQAタスク や Visual Groundingタスク において、同等規模のモデルの中で世界最高の性能を達成してます。 これにより、ドローン、ロボット、自動車、監視カメラなどに、高度な視覚認識・理解能力を搭載することが可能となります。
AI活用で収入40%増のデータ、非活用SEは採用しないとの声も
- AIを使いこなす能力がキャリアを大きく左右する時代になりつつあります。
- AIツールを日常的に活用する労働者は、そうでない同僚に比べて収入が約40%高いというデータが報告されています。
- 著名な研究者からは「2025年現在、AIツールを使いこなせないソフトウェアエンジニアは採用しないだろう」との意見も出ており、スキルのアップデートが不可欠です。
Forbes: (翻訳) 雇用市場は急速に進化しており、昨日まで任意だったスキルが今日では必須になりつつあります。Tom's Guideの最近の分析によると、日常業務でAIを使用する労働者は、使用しない同僚よりも約40%多く収入を得ており、構築の真の経済的価値を示しています。
Haider.: (翻訳) フェイフェイ・リー氏は、学位よりも学習し適応する能力が今や重要だと語る。構造化された資格は、エンジニアが生産性を高めるために新しいツールをどれだけ早く採用するかということほど重要ではない。「2025年の現時点では、AI協調ツールを受け入れないソフトウェアエンジニアは採用しないだろう」
Kaggleマウス行動コンペ、shake downに苦しむ声多数
- 最近終了したKaggleのマウス行動トラッキングコンペでは、最終スコアが大きく変動する「shake down」に苦しんだ参加者の声が多く見られました。
- コンペ終了後、上位入賞者のアプローチや、うまくいかなかった試みなど、参加者による解法や振り返りの共有が盛んに行われています。
yu4u: くぅ…まさかのshake down…!お疲れ様でした!とても悔しいのでKaggleは卒業できない…! https://t.co/hZqi3l5N7f
yu4u: Lab, tracker, sparseなaction label, 自己-相互動作等の多様性をどう扱うかが面白いコンペでしたが、私は一つのモデルで全部予測するアプローチでした。ロスはCEで、train.csvに定義されていない動作のlogitsに-∞を加えることでラベルなしactionに対応しました。 https://t.co/ZwWBvTFTGw https://t.co/i5O5Lejac8
shinmura0: 🐭コンペ27位でした。残念。 https://t.co/fH1rKrZESI