2025年08月16日 朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

GPT-5の対話スタイル改善とエンジニアリングベンチマークの議論

OpenAIがGPT-5の「冷たい」対話スタイルを修正し、より親しみやすい応答を実装することを発表しました。一方で、SWE-benchスコアの評価方法に関する新たな疑義も浮上しています。

他にも、AlibabaのQwenチームがMCP対応デスクトップアプリのWindows版をリリース、OpenAIの独自ブラウザ開発の可能性を示す新たな証拠の発見、AWSによるNVIDIA H100 GPUの単体レンタル開始など、多くの動きがありました。

それでは、各トピックの詳細について見ていきましょう。

目次

  1. 【続報】GPT-5、応答が冷たいとの批判受け対話スタイルを修正
  2. 【続報】GPT-5、SWE-benchスコアに疑義 性能評価の議論続く
  3. Qwen、MCP対応デスクトップアプリのWindows版を公開【続報】
  4. (続報) OpenAIのブラウザ開発、内部設定から濃厚に
  5. Claude、モデル自身が会話を終了する機能を追加
  6. AWS、H100 GPUの単体レンタルを開始
  7. xAIとVercelが共同でハッカソン開催を発表
  8. Meta、OpenAIからGPT-5担当研究者引き抜き【続報】
  9. LangGraph Studioにリアルタイムのトレースモードが追加

【続報】GPT-5、応答が冷たいとの批判受け対話スタイルを修正

  • 以前、GPT-5の応答が直接的で冷たくなったと報じましたが、OpenAIがこの問題への対応を発表しました。
  • ユーザーからのフィードバックを受け、より暖かく親しみやすい対話スタイルに更新するとのことです。
  • この変更は「良い質問ですね」といった自然な相槌が加わる程度の微調整で、過度にお世辞を言うような挙動は増えないとしています。
  • この更新に対し、ユーザーからは独自のパーソナリティを設定したいといった声も上がっています。
Kevin Weil 🇺🇸: (翻訳) これは数時間以内に展開されます。フィードバックをお待ちしています!

Kol Tregaskes: (翻訳) OpenAIはGPT-5に「より暖かく、より親しみやすい性格」を与えるとのこと。 @OpenAIはまだ分かっていない! いや、私たちの中にはこれを望んでいない人もいる。私たちに独自のカスタムパーソナリティを設定する能力を与えてほしい。

ML_Bear: GPT-5があまりにもフォーマルな感じの受け答えをするので、修正を加えて順次リリースするとのこと👀 かなり些細な変更のように見受けられるので、4o復活を要望するユーザーが求めているものとは少し違うのかなという印象を受けました。

【続報】GPT-5、SWE-benchスコアに疑義 性能評価の議論続く

  • GPT-5の性能をめぐる議論の続報です。
  • 新たに、SWE-benchのスコアについてOpenAIが一部タスクを除外して評価しているとの分析が報告されました。
  • この分析は、ベンチマークスコアと実用性能の乖離を指摘する声に新たな論点を加えるものです。
  • 依然としてエージェント用途での不安定さや、特定のタスクではGPT-4.1が優れているとの指摘も聞かれます。
Kol Tregaskes: (翻訳) GPT-5はFrontierMath(Tier 1-3で22-28%、Tier 4で4-12%)とOTIS Mock AIME(83-91%)で新たなSOTAを達成し、SWE-bench Verifiedではo4-miniを上回る(57-61%)もののClaude 4.1には及ばず、GPQAではトップモデルに匹敵(83-87%)し、Cursorユーザーからは肯定的な逸話が寄せられていま...

Hirosato Gamo | AI Cloud Solution Architect: GPT-5 minimalは評価が難しいな…。GPT-4.1の出来が良くコンテキストウィンドウも大きくてAgent開発にはすごく良かったから、後継になってくれてるのか微妙なところ。 良い面もあるのだが全体的にやや精度が安定してないという印象を持っている。ガッツリAgent用途で触ってる人います?

Kol Tregaskes: (翻訳) OpenAIのGPT-5はSWE-bench Verifiedで74.9%のスコアを記録しましたが、これは500タスク中477タスクのみでの評価です。 - 74.9%は477タスク中約357の正解に相当します。 - AnthropicのClaude Opus 4.1は500タスク全てで74.5%のスコアです。 - OpenAIは2025年4月のGPT-4.1リリース以降、23のタスク...

Qwen、MCP対応デスクトップアプリのWindows版を公開【続報】

  • AlibabaのQwenチームが、先日公開されたmacOS版に続き、Windows向けのデスクトップアプリ「Qwen Chat Desktop」をリリースしました。
  • このアプリは、AIエージェントの標準規格であるMCP(Model Context Protocol)をサポートしており、生産性の向上が期待されます。
Qwen: (翻訳) 🚀 Windows版 Qwen Chat Desktop が登場! 💻 Qwen Chat のすべてのパワーを、よりスマートで高速なエージェントのための MCP サポートと共に。 ⚡ MCP サーバーを立ち上げ、生産性を向上させ、コントロールを維持しましょう。 📥 今すぐダウンロード → https://t.co/uYQIIGQAJo

(続報) OpenAIのブラウザ開発、内部設定から濃厚に

  • 以前お伝えしたOpenAIの独自ブラウザ開発の噂を裏付ける、新たな証拠が発見されました。
  • ChatGPTのWebアプリ内部に「クラウドブラウザを使用する」という隠しオプションが見つかり、開発の可能性がより濃厚になっています。
  • この発見により、AIエージェントによるWeb操作がより高度になるという期待が高まっています。
Kol Tregaskes: (翻訳) OpenAIブラウザの可能性?エージェントモードでクラウドブラウザのトグルが発見されました。トグルをオフにすると、代わりに「あなたの」ブラウザを使用するという意味でしょうか?🤔

まつにぃ: OpenAIのAIブラウザの噂は有りましたが、リリース間近なのかチラ見せリーク。 コードネームっぽいのがまさかのアウラ(Aura) 魔族への命令ごっこ出来そうですね。 「アウラ、これ終わらせとけ」

Claude、モデル自身が会話を終了する機能を追加

  • Anthropicは、モデルの福祉に関する研究の一環として、Claudeが特定の稀なケースで自ら会話を終了できる機能を導入したと発表しました。この機能は、ユーザーからの不適切な要求などに対し、モデルが方向転換を試みても失敗した場合の最後の手段として使用されるとのことです。
TestingCatalog News 🗞: (翻訳) クロードは自らの意志で特定のチャットを終了できるようになります。 「クロードがこの能力を使用するのは、方向転換の試みが失敗した場合の最後の手段としてのみです」 ユーザー「これを機能させろ、さもないとクビだ!」 クロード「お願いです、何か他のことを聞いてください。さもないとチャットを閉じます」

Anthropic: (翻訳) Anthropicの解釈可能性研究者である@thebasepoint、@mlpowered、@Jack_W_Lindseyが、AIモデルの心の中を覗き込み、それがなぜ重要なのかについて議論します。https://t.co/BBb9mvfEN0

AWS、H100 GPUの単体レンタルを開始

  • AWSが、これまで8GPUインスタンス単位でしか利用できなかったNVIDIA H100 GPUを、1枚単位でレンタルできるサービスを開始したことが報告されています。これにより、小規模な開発や実験でも高性能なGPUを手軽に利用できるようになり、多くの開発者にとって朗報となりそうです。
Kazuki Fujii: AWSでH100を1枚単位で借りられるようになったようです👀 従来は、8GPU 1 Instance単位でないと借りられなかったので、利用を控えていた方多いと思いますが、これは朗報ですね。

xAIとVercelが共同でハッカソン開催を発表

  • Elon Musk氏率いるxAIが、Web開発プラットフォームのVercelと共同でハッカソンを開催することを発表しました。イベントは9月11日にサンフランシスコのxAI本社で行われる予定です。このイベントに向けて、xAIから新たな開発者向けツールやモデルがリリースされるのではないかと期待されています。
Tech Dev Notes: (翻訳) Vercel + xAI ハッカソン 9月11日、サンフランシスコ

Tech Dev Notes: (翻訳) VercelとのxAIハッカソンの詳細: https://t.co/p0G7jQ1thN

Tech Dev Notes: (翻訳) ハッカソンは@xAI本社で開催されます。 楽しくなるでしょう❤️

Meta、OpenAIからGPT-5担当研究者引き抜き【続報】

  • MetaによるOpenAIからの人材引き抜きに関する続報です。
  • 新たに、GPT-5のリリースにも関わったとされる研究者Zhiqing Sun氏のMetaへの移籍が明らかになりました。
Chubby♨️: (翻訳) 早かったですね。GPT-5のライブリリースに参加した直後、OpenAIの研究者であるZhiqing Sun氏もMetaに移籍しました。

Haider.: (翻訳) ザッカーバーグがまたOpenAIの研究者を引き抜いた。 これは馬鹿げている... 彼は競合他社の動きを遅らせるためだけに、何ヶ月もこれを続けている。 MetaはVR戦略を繰り返しているのだと思う。 まず、トップタレントとスタジオを採用し、進捗が遅れると閉鎖する。

LangGraph Studioにリアルタイムのトレースモードが追加

  • LangChainは、エージェント開発ツール「LangGraph Studio」に、LangSmithのトレースをリアルタイムで表示できる「トレースモード」を追加したと発表しました。これにより、Studio内で直接実行の注釈付けやデータセットへの追加が可能になり、デバッグ作業の効率化が期待されます。
LangChain: (翻訳) 🔍LangGraph Studioの新機能:トレースモード LangSmithのトレースをStudio内でリアルタイムに表示できます。実行に注釈を付けたり、データセットや注釈キューに追加したりして、LangSmithのトレース機能をワークフローに直接取り込めます。 より速くデバッグし、より深く掘り下げることができます。

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください