2025年10月11日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

AI技術の新たな転機: エージェントの進化とチップ競争の加速

AI開発現場で注目を集める「コーディング無限ループ」からの脱出テクニック。ChatGPTのDeep Research機能がGPT-5へのアップグレードで性能向上し、Claude Codeも独自UIで開発者から評価を得ています。

ハードウェア市場ではAMDが次世代AI GPU製造で2nmプロセス採用によりNVIDIAに先行する可能性が浮上。一方、LLM利用では「丁寧語が精度低下を招く」という意外な研究結果も報告されています。

それでは各トピックの詳細に迫ってまいりましょう。

目次

  1. AIエージェントのコーディング無限ループ、脱出プロンプトが話題に
  2. ChatGPT Deep Research、GPT-5更新で性能向上
  3. Claude Code続報: 独自UIや個人開発プラグインが話題
  4. AMD、次世代AIチップの製造技術でNVIDIAに先行か
  5. オープンソースLLM、トップ性能ではクローズドに及ばず
  6. LLMへの丁寧語、コスト増に加え精度も低下させる可能性

AIエージェントのコーディング無限ループ、脱出プロンプトが話題に

  • AIエージェントにコーディングを依頼した際、同じ修正を繰り返す「無限ループ」に陥る問題が指摘されています。
  • この問題に対し、「5つのリファクタリング案を考えさせ、評価し、最良の選択肢を選ばせる」というプロンプト手法が有効だと話題です。
  • この手法で20分間解決できなかった問題が一度で解決したという報告もあり、開発者の間で注目されています。
Ian Nuttall: (翻訳) これは「AIループ」から抜け出すための最良の方法です。 エージェントが問題を解決できず、堂々巡りになったら、次のように依頼してください: - 5つのリファクタリング案を考える - 選択肢を評価する - 最も信頼できる選択肢を選ぶ gpt-5とsonnetと20分間格闘した後、これで初めてうまくいきました! https://t.co/LxA6jdNpS0

Ian Nuttall: (翻訳) 専門のサブエージェントを持つことは非常に有用だと思いますが、83も必要ありません!

elvis: (翻訳) エージェントによるコンテキストエンジニアリング エージェントによるコンテキストエンジニアリングに関する素晴らしい論文。 そのレシピは: システムプロンプトとエージェントのメモリを、生きたプレイブックとして扱う。 軌跡を記録し、反省して実行可能な箇条書き(戦略、ツールスキーマ、失敗モード)を抽出し、追記のみとしてマージする。 https://t.co/mc4AnBYJ8k

ChatGPT Deep Research、GPT-5更新で性能向上

  • ChatGPTのDeep Research機能が、バックエンドモデルをo3からGPT-5に更新し、性能が大幅に向上したと報告されています。
  • 以前はGemini 2.5 Proと同等との評価でしたが、更新後は優位性が高まった可能性が示唆されています。
  • 一方で、GPT-5 Proにはまだバグが多いとの指摘もあり、今後の改善が期待されます。
限界助教|ChatGPT/Claude/Geminiで論文作成と科研費申請: GPT-5Thinkingの検索がすごく良いので、待ち時間長いDeep Research使用頻度が減っていましたが久しぶりに使うと回答の詳細さはやっぱり違いますね しかもエージェントがo3からGPT-5になって過去と同じクエリを入れて比較すると明らかに改善しています 詳しく調べる時はもっと使っていこうと思います

限界助教|ChatGPT/Claude/Geminiで論文作成と科研費申請: Deep Researchはo3に比べてGemini2.5Proの方が同等かやや良い印象でしたが、GPT-5になってからはChatGPTのDeep Researchの方が良いかもしれません Deep ResearchはGemini使うことが多くて気づくの遅れました...

Nathan Lambert: (翻訳) GPT-5-Proは本当にバグが多くて、かなり奇妙です。いつもよく見かけるのですが、アプリでは推論が95%完了したと表示されているのに、ブラウザでは回答が表示されていることがよくあります。 「プレミアム製品」笑、gpt-5-proが彼らのアプリを修正できるのかもしれませんが、私にはわかりません。 https://t.co/k1SMOMWFJs

Claude Code続報: 独自UIや個人開発プラグインが話題

  • Anthropicのコーディング支援AI「Claude Code」の続報です。
  • VSCode拡張機能のUIが、サイドバーではなくエディタのタブとして開く点が特徴的だと評価されています。
  • また、個人開発者によるプラグインも登場し、活用の幅が広がっています。
  • 一方で、その強力さから「仕事の強度が倍になり数時間で疲弊する」といった新たな視点からの意見も出ています。
ak11: GitHub CopilotやClineは少し前からVSCodeの右側を使うようになったけど、Claude Codeはエディタのタブの一つになるようになったの強気すぎて好き

azukiazusa: Claude Code のプラグイン作れた https://t.co/45GftWLdHE

coji 溝口浩二: claude code 使ってデータエンジニアリングしてると、仕事の強度が体感倍ぐらいになってて、数時間でヘロヘロになる。

AMD、次世代AIチップの製造技術でNVIDIAに先行か

  • AIチップ市場の競争が激化する中、AMDが次世代GPUの製造プロセスでNVIDIAに先行する可能性が報じられました。
  • AMDの次期AI GPU「Instinct MI450」はTSMCの2nmプロセスを、NVIDIAの次世代アーキテクチャ「Rubin」は3nmプロセスをそれぞれ採用する計画と伝えられています。
  • 製造プロセスの優位性は性能や電力効率に直結するため、今後の両社の競争の行方が注目されます。
Rohan Paul: (翻訳) 🖥️ AMDは、次期Instinct MI450 AI GPUがTSMC N2 2nmを使用すると発表しました。これにより、N3をターゲットとするNvidiaのRubin世代に対して製造上の優位性を得られる可能性があります。 tomshardwareがこの記事を公開しました。 TSMCのN2は、同じ電力で10%〜15%高い性能、または同じ性能で25%〜30%低い電力を実現します。 ...

Forbes: (翻訳) AMDのAIソフトウェアは、数十億ドル規模のOpenAIとの契約獲得にどのように貢献したか https://t.co/WImxnfDQAC

Dylan Patel: (翻訳) InferenceMAXは人々がいかに愚かであるかを示している 彼らはデータを見ずに物事を装う AMDの低いTCOを反映したトークンあたりのコストがある AMDやGPT OSSに有利なモデルがある アクセラレータモデルのクライアントは3ヶ月前に2027年のMI450Xの売上を270億ドルと予測していた もちろん今では数字は違う

オープンソースLLM、トップ性能ではクローズドに及ばず

  • 中国勢の躍進が目立つオープンソースLLMだが、最先端のクローズドソースモデルとの性能差は拡大しているとの懸念が示されている。
  • ここ数ヶ月でGPT-5やSonnet 4.5などが大幅な改善を遂げた一方、オープンソースモデルの進歩は相対的に限定的だと指摘されている。
  • ベンチマークサイト「LiveBench AI」では性能差が顕著になっており、この差は今後埋まらない可能性も示唆されている。
Bindu Reddy: (翻訳) 🚨 オープンソースはクローズドソースに急速に遅れをとっており、決して追いつけないかもしれない 過去数ヶ月間、GPT-5、Sonnet 4.5、Gemini、Grokは多くの改善を遂げたが、オープンソースはほとんど進歩していない。 LiveBench AIでは、トップのオープンソースモデルは8ポイントも差をつけられている。 https://t.co/UYEb50j4t1

clem 🤗: (翻訳) この計算をAIに適用すると(もちろん非常に単純化されていますが)、オープンソースAIに使用される1ギガワットが約2,000ギガワットの影響力を持つということになるでしょうか? AIスロップのために急いで構築するのではなく、検討する価値があるかもしれません😝

Junyang Lin: (翻訳) 来週、いくつかのモデルが登場します

LLMへの丁寧語、コスト増に加え精度も低下させる可能性

  • LLMへのプロンプトで丁寧な言葉遣いをすると、精度が低下する可能性があるという研究結果が報告されました。
  • 以前、丁寧な言葉遣いは余分なトークンを消費しコスト増に繋がる可能性が指摘されていましたが、今回は精度そのものへの影響が示された形です。
  • 研究によると、中立的または失礼なトーンのプロンプトの方が、モデルの精度が向上する傾向が統計的に確認されています。
Rohan Paul: (翻訳) LLMへの失礼なプロンプトは、丁寧なプロンプトよりも一貫して良い結果をもたらします🤯 著者らは、非常に丁寧なトーンと丁寧なトーンは精度を低下させる一方、中立、失礼、非常に失礼なトーンは精度を向上させることを発見しました。 統計的検定により、その差は有意であり、偶然ではないことが確認されました。 https://t.co/oddVFymw25

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください