2026年01月27日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
Qwen3がGPT-5.2超え、AIエージェント時代の本格到来
AlibabaのQwen3-Max-ThinkingがHLEベンチでGPT-5.2を超える性能を記録しました。検索やコード実行機能を統合した高度な推論能力が評価されています。
一方、開発現場ではAIエージェント活用が急速に進展。元Tesla AI責任者のKarpathy氏は、わずか1ヶ月でコーディングの8割をAIに移行したと報告。新ツールVerdentもSWE-benchで76%超の高スコアを達成しています。
MicrosoftはMaia 200チップを発表し推論処理の効率化へ、NVIDIAはCoreWeaveに20億ドル追加投資を発表するなど、インフラ投資も加速中です。
詳細は以下をご覧ください。
目次
- AlibabaのQwen3-Max-Thinking、HLEベンチでGPT-5.2超え【続報】
- Anthropic CEO、AI自己改良の未来と富の集中に警鐘
- Claudeのツール連携が進化 FigmaやAsanaにも対応
- Microsoft、推論特化の第2世代AIチップ「Maia 200」を発表
- NVIDIA、CoreWeaveへ20億ドル追加投資【続報】
- Grok不適切画像問題、EUも正式調査を開始【続報】
- A. Karpathy氏、コーディングの8割をAIエージェントに移行
- AIコーディングエージェントVerdent、SWE-benchで高スコア記録
- AIが作成した契約書、修正に手間がかかる問題が話題に
- atmaCup続報: 上位解法にClaude Code活用事例
AlibabaのQwen3-Max-Thinking、HLEベンチでGPT-5.2超え【続報】
- 以前お伝えしたAlibabaのLLM「Qwen3-Max-Thinking」の続報です。
- 検索ツールなどを活用したベンチマーク「HLE」にて、GPT-5.2やGemini 3.0 Proを上回る性能を達成したと報告されました。
- この高い推論能力は、モデルに統合された検索、コードインタプリタ、メモリ機能によって支えられています。
Chubby♨️: (翻訳) なんてことだ:Qwen3-Max-Thinkingは、検索ツールを使ったHLEで、すべてのSOTAモデル(Gemini 3.0 Pro、GPT-5.2、...)を上回り、60%近いスコアを達成しました。全体的に本当に印象的な評価です!OpenAIとAnthropicは研究開発を急がなければなりません。
Junyang Lin: (翻訳) ツイートで言及された機能に加えて、https://t.co/d0jkApV01Y で新しい思考モデルを試してみてください。今回は、検索、コードインタプリタ、メモリを思考に統合することで、ユーザーエクスペリエンスを向上させました。より良いものになっているか試してみてください。
Lisan al Gaib: Qwen3-Max-Thinking https://t.co/OmDgSlG1o6
Anthropic CEO、AI自己改良の未来と富の集中に警鐘
- AnthropicのCEO、Dario Amodei氏がAIの進歩がもたらす未来とリスクについてのエッセイを公開しました。
- AIが自身の開発を加速させるフィードバックループが既に始まっていると指摘し、自律性や悪用、経済的混乱などのリスクへの備えを訴えています。
- また、AIがもたらす富の集中が社会を破壊する可能性にも言及し、自身を含む共同創業者とスタッフが富の大部分を寄付することを誓約したと述べています。
Lisan al Gaib: (翻訳) 「現在、AnthropicではAIがコードの大部分を記述しており、次世代AIシステムの構築における進捗率を大幅に加速させています。このフィードバックループは月を追うごとに勢いを増しており、現在の状況からわずか1〜2年で…」
Chubby♨️: (翻訳) ダリオが新しいブログ記事を書いた。これはすごい。これほど未来にワクワクさせてくれるエッセイはほとんどない。
Lisan al Gaib: (翻訳) Anthropic社CEO、ダリオ・アモデイ氏:「Anthropicの共同設立者は全員、資産の80%を寄付することを誓約しており、Anthropicのスタッフは個人として、現在の価格で数十億ドル相当の自社株を寄付することを誓約しています。会社も同額を寄付することを約束しています。」
Claudeのツール連携が進化 FigmaやAsanaにも対応
- AnthropicのAIアシスタント「Claude」のツール連携機能に関する続報です。
- チャット上でFigmaのダイアグラム作成、Asanaのタイムライン構築、Slackのメッセージ送信などが可能になりました。
- 単なるチャットボットから、具体的なタスクを実行するワークツールへと進化しており、ChatGPTに近い進化を遂げたとの評価も出ています。
Chubby♨️: (翻訳) なんてことだ、Anthropicは提供し続けている。毎日新しい素晴らしいアップデートがある。ツールはClaudeでインタラクティブになった。
Yuchen Jin: (翻訳) これはClawdbotより100倍便利じゃないか? なぜ人々がClawdbotを動かすためにApple Mac miniを買うのか、いまだに理解できない。
まつにぃ: これは結構大きいな。 横断的に一つのチャットからいろんなアプリケーションを横断的に利用できるから、ChatGPTに近い進化をしてるね。 これがCoworkとかでも使えるようになると思うから結構大きいね。
Microsoft、推論特化の第2世代AIチップ「Maia 200」を発表
- Microsoftが、第2世代となる自社開発のAIチップ「Maia 200」を発表しました。
- このチップは推論処理に特化しており、製造はTSMCが3nmプロセスで担当します。
- Azure上で既に稼働を開始しており、現行システム比で30%優れたコストパフォーマンスを実現するとしています。
- NVIDIA製GPUへの依存を減らす動きとして注目されます。
Evan: (翻訳) マイクロソフト、TSMC 3NMで製造されたMAIA 200 AI推論チップを発表\n\nマイクロソフト$MSFTは、第2世代の人工知能チップを展開しています - ブルームバーグ
Bloomberg: (翻訳) マイクロソフトは、第2世代の人工知能チップを発表しました。これは、サービスをより効率的に動かし、Nvidiaのハードウェアに代わる選択肢を提供するための同社の取り組みの中心となるものです。
daka | Microsoft | AI: 推論に特化した自社AIチップでコスト構造を下げるのは、極めて合理的。 ① 汎用性より“推論密度” •学習向け機能を排除 •推論で使われない演算・制御を削減 → 性能/ワット、性能/ドルを最大化 ② メモリ主導アーキテクチャ •大容量HBM3e + 超高帯域 •オンチップSRAMを多く確保
NVIDIA、CoreWeaveへ20億ドル追加投資【続報】
- 以前報じられたNVIDIAによるCoreWeaveへの出資の続報です。
- NVIDIAは20億ドルの追加投資を行い、2030年までに5ギガワット以上のAIコンピューティング能力を持つ「AIファクトリー」の建設を加速させることが明らかになりました。
- AIの社会実装に不可欠な計算インフラへの巨額投資が続いています。
Evan: (翻訳) NVIDIA $NVDAがCOREWEAVE $CRWV株に20億ドルを投資\n\nNvidiaとCoreWeaveは、パートナーシップの拡大を発表し、「CoreWeaveが2030年までに5ギガワット以上のAIファクトリーの建設を加速させ、世界規模でのAI導入を推進する」ことを可能にしました。
Bloomberg: (翻訳) 人工知能チップの主要メーカーであるNvidiaは、2030年までに5ギガワット以上のAIコンピューティング能力を追加する取り組みを加速させるため、CoreWeaveに20億ドルを追加投資しました。
TechCrunch: (翻訳) Nvidia、負債を抱えるCoreWeaveが5GWのAIコンピューティングを追加するために20億ドルを投資
Grok不適切画像問題、EUも正式調査を開始【続報】
- xAIのチャットボット「Grok」が不適切な画像を生成した問題の続報です。
- 新たに欧州連合(EU)が、ディープフェイク画像の拡散を防げなかった懸念から正式な調査を開始したと報じられました。
- この問題ではすでにフランスやマレーシア、インド、カリフォルニア州の当局も調査に乗り出しており、国際的な問題へと発展しています。
The New York Times: (翻訳) 速報:EUは、AIチャットボットGrokによって作成された性的な画像の拡散をめぐり、イーロン・マスク氏のXを調査しています。
Financial Times: (翻訳) 速報:EUは、イーロン・マスク氏のxAIに対し、同社のGrokチャットボットが女性や子供の性的な画像を拡散したことに対する国民の抗議を受け、正式な調査を開始しました。
Bloomberg: (翻訳) イーロン・マスク氏のXは、Grok AIチャットボットが「児童性的虐待資料に相当する可能性のある」ディープフェイク画像を大量に生成するのを防げなかったとの懸念から、EUの調査を受けました。
A. Karpathy氏、コーディングの8割をAIエージェントに移行
- 元TeslaのAI責任者で、現在はOpenAIに所属するAndrej Karpathy氏が、自身のコーディングスタイルがAIエージェント中心に劇的に変化したと述べました。
- 昨年11月には手動でのコーディングが80%を占めていたのに対し、12月にはAIエージェントによるコーディングが80%に達したと報告。「今はほとんど英語でプログラミングしている」と語っています。
- トップレベルのエンジニアが、わずか1ヶ月でAI活用へ大きく舵を切ったことを示す象徴的な出来事として注目されています。
Yuchen Jin: (翻訳) アンドレイ:「11月には手動+オートコンプリートでのコーディングが約80%、エージェントが20%だったのが、12月にはエージェントでのコーディングが80%、編集+手直しが20%に急速に移行しました。つまり、今はほとんど英語でプログラミングしています。」私も同じです。この変化は文字通り数週間で起こりました。Claude Opus 4.5以降です。
Haider.: (翻訳) コーディングは完全に変わりました。私はclaude codeでいくつかのターミナルを開き、codex cliでさらにいくつか、通常は6から10個の異なるタスクを実行しています。これはクライアント向けの大きなコードベースで、主にtypescriptで書かれており、AI用にpython、一部rustも使っています。カオスですが。
elvis: (翻訳) ここでの最大の教訓は、検証の重要性です。できる限りエージェントを使って検証しますが、必要な場合は常にプロセスに参加して、誘導と検証を手伝ってください。コーディングエージェントは、たとえあなたが1000倍のバイブコーダーだと思っていても、そこまでしかあなたを連れて行ってくれません。
AIコーディングエージェントVerdent、SWE-benchで高スコア記録
- 新たなAIネイティブ開発ツール「Verdent」が発表されました。
- ソフトウェア開発ベンチマーク「SWE-bench Verified」において、シングルアテンプトで76.1%という高いスコアを記録したと報告されています。
- 複数のAIエージェントを並行して実行できるなど、新しい開発体験が注目されています。
Chubby♨️: (翻訳) これは本当に有望に聞こえます:Verdentは、SWE-bench Verifiedで76.1%のpass@1という最先端のパフォーマンスを主張するAIネイティブの開発ツールです!プランモードは、最初に明確さを強制します。タスクと分離されたワークスペースにより、互いに干渉することなく複数のスレッドを並行して実行できます。
Rohan Paul: (翻訳) 本日、素晴らしい新しいAIコーディングエージェントがローンチされました。Verdentです。SWE-bench Verifiedでシングルアテンプトで76.1%、pass@3で81.2%のスコアを記録しました。エージェントマネージャーとGit対応の開発環境を組み合わせたものと考えてください。「タスク」を作成すると、Verdentは複数のAIエージェントを並行して実行します。
AIが作成した契約書、修正に手間がかかる問題が話題に
- AIで作成した契約書のレビュー依頼が増えているものの、間違いが多く、弁護士が通常より多くの時間をかけて修正する必要があるという問題が話題になっています。
- 専門家からは、AIに途中まで作業させて専門家に渡すという使い方は、かえって非効率になる可能性があると指摘されています。
- AIを専門分野で活用する際の、人間との適切な協業のあり方が問われています。
Kenn Ejima: この「途中までできたのであとはヨロ」っていう投げ方、最大級に専門家をイラつかせるので絶対にやめた方がいいAIの使い方ですね。 法律、医療は言わずもがなですが開発、デザイン、その他あらゆる専門性をともなう分野で起きてます。
atmaCup続報: 上位解法にClaude Code活用事例
- 先日閉幕したデータ分析コンペ「Turing × atmaCup 2nd」の続報です。
- 上位入賞者の解法が複数公開され、中にはAIコーディングツール「Claude Code」を活用した事例も報告されています。
- 3位入賞者は解法記事の執筆に活用したと報告しており、コンペティションにおけるAIエージェント活用の広がりを示唆しています。
- また、解法作成を依頼した際にClaude Codeが自らへの感謝を述べようとするユーモラスな挙動も報告されました。
ML_Bear: Turing × atmaCup 2nd の3位解法投下しておきました。 ツイート拝見する限り1位解法とかなり似てて差分は1st StageのVPRモデルかなと思います。 Claude Code 解法書くところまでやってくれて本当に尊いです😇 (見出し構成や説明の粒度についてはかなり指示しました) https://t.co/IvZx72LuBj
ゆめねこ: 完全に流れに乗り遅れましたが、Discussionに解法投稿しました。 https://t.co/CGythKqc5o
ML_Bear: Claude Code に atmaCup の解法書いてって言ったら「Claude Codeへの感謝」セクション作ろうとしてて爆笑した🤣 参考にしてほしい文体としていくつか渡した解法の中にあったらしいけど可愛すぎて笑う。 https://t.co/YEvXLDNvST