2025年11月18日 夜のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

Grok 4.1がLMArenaで首位、AI知能単価の劇的な低下

xAIの最新モデル「Grok 4.1」がLMArenaで1・2位を独占し、感情理解や創造性が向上。思考モードの有無で異なる2バージョンが確認されています。

一方、OpenAIのAltman氏は、AIの知能単価が驚異的に低下していると指摘。GPT-5.1は1年前のo3-previewと同等性能を300分の1のコストで実現したとのことです。

それでは、本日の主要トピックを順に確認していきましょう。

目次

  1. xAI Grok 4.1、LMArenaで1・2位独占【続報】
  2. Karpathy氏、LLM活用の新しい読書術を提唱
  3. S. Altman氏、AIの知能単価の劇的な低下に言及
  4. Kaggleサンタコンペ続報、開始直後から解答提出が活発化
  5. UI生成AI「v0」がMCPサポート、Stripe等と連携可能に
  6. Google NotebookLMのDeep Research機能、全ユーザーに提供開始【続報】
  7. OpenAI Codexイベント開催へ、Clineは音声モデル搭載

xAI Grok 4.1、LMArenaで1・2位独占【続報】

  • xAIの最新モデル「Grok 4.1」に関する続報です。コミュニティ運営のLLMリーダーボード「LMArena」で1位と2位を独占したことが明らかになりました。
  • 感情理解や創造的な文章生成能力が向上し、ハルシネーションが大幅に削減されたと報告されています。
  • 思考(Thinking)モードの有無で性能が異なる2つのバージョンが確認されており、API経由で株価などの外部情報を取得する機能も備えています。
Lisan al Gaib: (翻訳) Grok 4.1はlmarenaでElo 1483を記録し、他のすべてのモデルを完全に打ち負かしました。より高い感情的知性、優れた創造的な文章作成能力、そして幻覚の減少が特徴です。

Tech Dev Notes: (翻訳) Grok 4.1 Thinking(コードネーム「quasarflux」)がElo 1483で1位にランクイン。Grok 4.1(コードネーム「tensor」)がElo 1465で2位にランクイン。我々はLMArena Textを完全に支配しています。

まつにぃ: Grok4.1が来ましたね。 特に文章生成とEQに優れており、ハルシネーション率も大幅に低下。 元々Grokは表現豊かでしたが、よりそっちを強化してきました。 モデルカード:https://t.co/w2LTxoVZjw https://t.co/K2sYDppdqI

Karpathy氏、LLM活用の新しい読書術を提唱

  • OpenAIの著名な研究者であるAndrej Karpathy氏が、自身の読書習慣について語り、LLMの新しい活用法として注目を集めています。
  • ブログや書籍などを読む際に、まず自分で一読し、次にLLMで要約や説明をさせ、最後に対話形式で質疑応答を行うという3ステップを踏むとのことです。
  • この方法により、単に読むだけの場合よりも深く内容を理解できるとしており、LLMの主要なユースケースの一つになりつつあると述べています。
Andrej Karpathy: (翻訳) 私はLLMを使ってあらゆるもの(ブログ、記事、本の章など)を読む習慣がつき始めています。通常、1回目は手動で読み、2回目に「説明/要約」させ、3回目に質疑応答をします。そうすることで、次に進むよりもより良く、より深い理解で終わることが多いです。トップユースケースの一つに成長しています。

Charly Wargnier: (翻訳) そして、Karpathyは基本的に「vibe-reading」という言葉を生み出しました。

S. Altman氏、AIの知能単価の劇的な低下に言及

  • OpenAIのCEOであるSam Altman氏が、AIの「知能単価(price per unit of intelligence)」の低下率を、過去数年間一貫して過小評価してきたと述べました。
  • 引用したツイートでは、GPT-5.1が1年前のo3-previewと比較して、同程度の性能を300分の1のコストで達成したと指摘されています。
  • Altman氏はこの驚異的なコストパフォーマンスの向上を「クレイジーだ」と表現し、AI技術の急激な進化と普及の可能性を示唆しています。
Sam Altman: (翻訳) 知能単位あたりの価格の低下率は、ここ数年、私が最も一貫して過小評価してきたものです。1年で300倍というのはクレイジーです!

K.Ishi@生成AIの産業応用: アルトマン「知能あたりのコストの低下率を過小評価してきた」 アルトマンは年初の”10倍”効率化という予想から、最近”40倍”に修正した。 普通に考えれば良いことだが、OpenAIは「計算にはコストがかかる」という前提でインフラ整備に多額の資金を注ぎ込んでいる。 それが無駄になる可能性がある。 https://t.co/nOABlvq8ZQ

Kaggleサンタコンペ続報、開始直後から解答提出が活発化

  • 先日お伝えしたKaggleの恒例コンペ「Santa 2025」の続報です。
  • コンペは開始直後から大きな盛り上がりを見せており、参加者から早くも解答の提出や考察が活発に共有されています。
  • 暫定解を公開するユーザーや、リーダーボードのトップに立つユーザーも現れています。
カレーちゃん: Kaggleの新コンペ: Santa 2025 - Christmas Tree Packing Challenge 1〜200 個のクリスマスツリーを、できるだけ小さい正方形の箱に詰める https://t.co/u1BtpQmTaV

ざぶろう: とりあえず Checkerboard 的な解を公開した。それなりに強い初期解になりそう https://t.co/rzMkbuXMJH https://t.co/7zqmCLRvng

kambarakun: サンタコンペ、瞬間最大風速的にTOPを獲得。 1sub 1位は無理でした。 -- It's lonely here at the top. #kaggle - https://t.co/weHgX6zial https://t.co/zK8wkR3EFO

UI生成AI「v0」がMCPサポート、Stripe等と連携可能に

  • UIコンポーネント生成AI「v0」の続報です。
  • 新たにMCPをサポートし、Stripe、Supabase、Neon、Upstashといった外部サービスとの連携に対応しました。
  • これにより、自然言語でデータベース操作や収益に関する質問が可能になり、開発効率の向上が期待されます。
v0: (翻訳) v0はStripe、Supabase、Neon、UpstashのMCPをサポートするようになりました。データベースのクエリ、データのシード、収益に関する質問を、すべて自然言語でセットアップなしで行えます。

Harrison Chase: (翻訳) 「コードモード、またはプログレッシブディスカバリーは...MCPで実装可能です」これが実現したら嬉しいです。どのようなものになるでしょうか?MCPツールを検索するツールと、任意のMCPを呼び出すツールが1つずつ?

Google NotebookLMのDeep Research機能、全ユーザーに提供開始【続報】

  • 以前お伝えした、GoogleのAIノートツール「NotebookLM」の「Deep Research」機能が、全ユーザーに提供開始された続報です。
  • この機能は、アップロードした情報源に基づいて、より深い洞察や新たな発見を支援します。
NotebookLM: (翻訳) 良いニュースに遅すぎることはありません:NotebookLMのディープリサーチが正式に100%のユーザーに展開されました!ソース発見の未来が正式にここにあります🪄

OpenAI Codexイベント開催へ、Clineは音声モデル搭載

  • 12月5日に日経と共催で、OpenAIのコーディングツール「Codex」の最新動向に関するオフライン限定イベントが開催されます。
  • AIコーディングアシスタントのClineは、開発者の話し方に特化した音声モデル「Avalon」の搭載を発表しました。
  • またClineは、高性能なオープンモデル「MiniMax M2」を期間限定で無料提供することも明らかにしています。
Kazuhiro Sera (瀬良): 12/5(金)の NIKKEI Tech Talk で OpenAI が提供する AI コーディングツール Codex の最新情報を解説します!日経さん・西見さんとのパネルディスカッションもあります。 オフラインのみで人数が限られているので、お早めにご登録ください👉 https://t.co/CkiHKYxBNh

Cline: (翻訳) 私たちのチームはよくClineに話しかけているのが見られます。しかし、使用している音声モデルが開発者の言語を話さないと面倒です。Clineの音声モードは、エンジニアが実際に話す方法に合わせて調整された音声モデルである@aquavoice_のAvalonで動作するようになりました:「checkout dev」、

Cline: (翻訳) MiniMax M2がClineで再び無料になりました!インターリーブ思考によるコーディングとエージェントワークフローでトップランクのオープンモデルの1つです。高速な推論と複雑なタスクに対する効率性。期間限定で無料です。試してみる絶好の機会です。

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください