2025年11月28日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
DeepSeek-Math V2が金メダル級性能で公開、動画生成AIに謎の新星
中国DeepSeekが数学オリンピック金メダルレベルの推論モデル「DeepSeek-Math V2」をオープンソース公開し、Geminiを上回る性能を示しました。
一方、謎の動画生成AI「Whisper Thunder」がVeo 3やSora 2 Proを抑えてリーダーボードのトップに躍り出ています。また、日本のPreferred Networksは岡野原大輔氏の社長就任を発表し、新体制での成長を目指します。
それでは、本日の主要トピックを順に確認していきましょう。
目次
- 数学特化モデル「DeepSeek-Math V2」がオープンソースで公開
- 続報: 関東Kaggler会が開催、複数コンペの知見を共有
- 謎の動画生成AI「Whisper Thunder」が性能評価でトップに
- 高評価のGemini 3 Pro、ハルシネーション等の課題が浮上
- AIエージェント開発が加速、LangChainは安全な実行環境を公開
- Preferred Networksが経営体制を刷新、岡野原氏が社長就任
- プロンプトの工夫で精度5-20%向上、定量的評価が鍵
- 物理学や癌治療など、新たなAI性能ベンチマークが複数登場
- Tencentが高性能OCR「HunyuanOCR」発表、NotebookLM活用術も
数学特化モデル「DeepSeek-Math V2」がオープンソースで公開
- 中国のAI企業DeepSeekが、数学的推論に特化したモデル「DeepSeek-Math V2」をオープンソースで公開しました。
- 国際数学オリンピック(IMO)金メダルレベルとされ、Googleの「Gemini DeepThink」を上回る性能をベンチマークで示したと報告されています。
- Hugging Faceでモデルのウェイトが公開され、誰でも利用可能になったことで大きな注目を集めています。
Lisan al Gaib: (翻訳) DeepSeekがDeepSeek-Math V2で復活 DeepSeek-V3.2-Exp-Baseをベースにした数学的推論モデル ProofBench BasicでIMO金賞を受賞したGemini DeepThinkモデルを上回る性能を発揮 https://t.co/Tzi6YFl9eS https://t.co/lEFG10h4IX
clem 🤗: (翻訳) 私が知る限り、IMO 2025の金メダリストモデルにアクセスできるチャットボットやAPIは存在しません。それが今日変わるだけでなく、@huggingfaceで@deepseek_ai Math-V2のApache 2.0オープンソースリリースでウェイトをダウンロードできます! 所有することを想像してみてください https://t.co/FbTcg1GcnE
まつにぃ: DeepSeek Math V2 とな。 中国でのDeepSeekのシェア半端ないので、めっちゃ注目。
続報: 関東Kaggler会が開催、複数コンペの知見を共有
- 先日開催をお伝えしたKaggleのオフラインイベント「関東Kaggler会」が開催されました。
- イベントでは「MAP」「Jigsaw」「Code Golf」といったコンペの振り返りが行われ、具体的な解法やアプローチが共有されました。
- 特に、LLMを活用した取り組みや、短いコードで課題を解くShort Codingの技術などが活発に議論された模様です。
kami: MAPコンペ発表メモ # 概要 (takaito san) - tascj san が1sub優勝して話題になったコンペ - 紹介記事:https://t.co/glQMVyjw1h - Eedi と似たタスク ## タスク設定 - 数学の4択問題に対して生徒が解答と解答根拠を答えるが、間違っていた場合どういう誤解に基づいて答えているのかを予測する -
kami: code golf メモ #kanto_kaggler # 概要 (inoichiさん) - ARC AGI の Training set 400問を解くことが出来る Python コードをなるべく短く書く ## short coding とは? - なるべく少ない文字数(バイト数)でプログラムを書く - https://t.co/EY38zK5hqM を見るとイメージ掴める ## ARC...
kami: Jigsaw メモ #kanto_kaggler # 概要 (takaitoさん) - Reddit のコメントとルールが与えられて、該当コメントがルールに違反しているか分類 - trainに出現するルールは2つ(例:法律に関するアドバイスするな) -
謎の動画生成AI「Whisper Thunder」が性能評価でトップに
- 新たな動画生成AI「Whisper Thunder」が、Artificial AnalysisのリーダーボードでVeo 3やSora 2 Proといった主要モデルを上回り、トップの性能評価を獲得したことが話題となっています。
- 開発元などの詳細は不明で、「ステルス」モデルとされており、その正体に関心が集まっています。
- このモデルの登場は、動画生成AI分野の競争がさらに激化することを示唆しています。
Kol Tregaskes: (翻訳) ステルス「Whisper Thunder(別名David)」画像から動画への変換モデルが、Veo 3、Veo 3.1、Sora 2 Pro、Kling 2.5といったモデルを抑え、AAのリーダーボードでトップに立ちました。https://t.co/wNTbVvE4zy
Chubby♨️: (翻訳) Veo 3を上回るtext2videoモデルがあるって?!気になる。https://t.co/EfZgsS7QJm
高評価のGemini 3 Pro、ハルシネーション等の課題が浮上
- 以前、コーディング能力などで高い評価をお伝えしたGoogleの最新モデル「Gemini 3 Pro」に関する続報です。
- 全体的な性能は高いと評価されつつも、ハルシネーション(もっともらしい嘘の情報を生成する現象)の発生が依然として課題として残っています。
- また、ソフトウェアエンジニアリングのベンチマーク(SWE-bench)における信頼性の低さも一部で指摘されており、今後の改善が期待されます。
Haider.: (翻訳) Gemini 3 proは期待を上回りましたが、2つの重要な分野でまだ及んでいませんでした。 > ハルシネーション > SWE-bench これらはモデルを真に役立つものにする最大の要素です。 ベースモデルは依然として非常に有能で賢いと感じますが、私にとってSWE-benchは信頼性がありません。
Lisan al Gaib: (翻訳) Gemini 3のローンチをうまく要約していると思います。 ほぼすべての点で優れたモデルであり、最も賢く、最も汎用性の高いモデルだと感じます。 しかし、ハルシネーション率とエージェントコーディングのパフォーマンスは改善する必要があります。
AIエージェント開発が加速、LangChainは安全な実行環境を公開
- AIエージェント開発がさらに活発化しており、LangChainが安全にコードを実行できる「Sandboxes for Deep Agents」を新たにリリースしました。
- また、Abacus AIやAmpといったコーディングエージェントは、高性能なGPT o3をデフォルトモデルとして採用し、性能向上を図っています。
- これにより、開発者はより安全かつ高性能な環境でエージェント開発を進められるようになります。
LangChain: (翻訳) ✨🏖️ ディープエージェント向けの新しいサンドボックスを使用すると、リモート環境で任意のコードとbashコマンドを安全に実行できます。 クリーンで再現性のある環境が必要な場合、並列または長時間実行タスクを実行したい場合、またはローカルマシンを信頼できないものから安全に保つ必要がある場合に役立ちます。
Bindu Reddy: (翻訳) High Effort Abacus AI Deep Agentを発表します。 ハッピー感謝祭!私たちはOpus 4.5に非常に興奮しており、Abacus AIのDeep Agentに組み込みました。 「High Effort」モードは、Opus 4.5、Gemini、GPT-5.1の思考を組み合わせて複雑な問題を解決します。 これまで素晴らしいものでした。
Lisan al Gaib: (翻訳) ampコーディングエージェントは、Claude 4.5 Opusを使用することで大幅な改善が見られます。https://t.co/DLcxDSSy5w
Preferred Networksが経営体制を刷新、岡野原氏が社長就任
- 日本を代表するAI企業であるPreferred Networks(PFN)が、11月26日付で経営体制を刷新したことを発表しました。
- 共同創業者で前CEOの西川徹氏が会長に、同じく共同創業者で前CTOの岡野原大輔氏が代表取締役社長に就任します。
- この新体制により、先端技術の研究開発と社会実装をさらに加速させることを目指すとしています。
Daisuke Okanohara / 岡野原 大輔: 今回の新体制で、私がPreferred Networksの代表取締役社長に就任しました。共同創業者で前CEOの西川も会長として引き続き連携し、各役割に集中して取り組んでいきます。社会実装をさらに加速し、多様な人材が挑戦できる強いチームを築き、技術を社会および顧客価値の最大化へとつなげていきます。
Daisuke Okanohara / 岡野原 大輔: (翻訳) 私はPreferred NetworksのCEOに就任しました。共同創業者で前CEOの西川氏は会長として引き続き留任します。私たちは共に、社会と顧客に提供する価値を最大化し、多様な人材が活躍できる強靭なチームを構築していきます。https://t.co/7L6vtkIldu
プロンプトの工夫で精度5-20%向上、定量的評価が鍵
- AIモデルの性能を最大限に引き出すプロンプトエンジニアリングの重要性が再び議論を呼んでいます。
- タスクによっては、プロンプトを工夫するだけで精度が5〜20%向上する可能性が指摘されています。
- 感覚的な評価(vibe eval)では効果を見過ごしがちで、定量的な評価の重要性が強調されています。
べいえりあ☔🌿: プロンプトエンジニアリング、やはり大事なのでは?(2カ月ぶりN回目)
べいえりあ☔🌿: プロンプトエンジニアリング、タスクにもよるけど大体5-20%くらい精度上がる印象を持っていて、ただそれくらいの上がり幅だとvibe evalしかしてないとちゃんと分からないですよね☺️(煽ってるわけではない)(決して煽ってない)
物理学や癌治療など、新たなAI性能ベンチマークが複数登場
- AIモデルの能力をより専門的な領域で測るための新しいベンチマークが複数公開されています。
- 大学院レベルの物理学の問題を解く「CritPt」や、実際の癌治療症例を時系列で扱う「MTBBench」などが登場しました。
- これにより、汎用的な能力だけでなく、特定分野での応用力をより深く評価する動きが活発化しています。
Kol Tregaskes: (翻訳) Artificial Analysisは、GoogleのGemini 3 Pro Previewが70の未発表の物理学の課題で9.1%の精度でトップに立ったCritPtベンチマークリーダーボードを公開しました。 - 11のサブフィールドにわたる大学院レベルの研究問題について、25以上のフロンティアAIモデルを評価します。 - LLMの限界を浮き彫りにします https://t.co/...
Rohan Paul: (翻訳) ここで非常に重要な新しいベンチマークが提案されています。 MTBBenchは、分子腫瘍ボードのように、AIが多くのデータタイプで時間とともに展開する実際の癌の症例を処理できるかどうかを実際にチェックする最初のテストを作成します。 MTBBenchは現実的な癌の決定を構築します https://t.co/WscM77zj5u
Tencentが高性能OCR「HunyuanOCR」発表、NotebookLM活用術も
- Tencentが商用APIを上回る性能を持つとされるOCRモデル「HunyuanOCR」を発表しました。10億パラメータと小型ながら、より大きなモデルに匹敵する性能を達成していると報告されています。
- 調査AgentとNotebookLMを組み合わせ、社内向けのスライド作成を効率化する活用術が共有されています。
Rohan Paul: (翻訳) 最新のOCRリーダーであるHunyuanOCRモデルの背後にある論文。 商用API、従来のパイプライン、およびより大きなモデル(例:Qwen3-VL-4B)を上回るパフォーマンスを発揮する、光学式文字認識用の小さな1Bビジョンと言語モデル。 多くの巨大な一般モデルに匹敵またはそれを上回ります。https://t.co/IkzA5X99Ji
松本 勇気 (Yuki Matsumoto) | LayerX CTO: 手元の情報調査Agentで大量の単一テーマの調査結果markdownを作り、NotebookLMに投げ込んでスライドテーマを渡したらいい感じにスライドが出来る世の中になってしまった。お客様向けは精度的に使えないけど、社内はこれでいい。