2025年06月02日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
最新AI技術の競争激化:OpenAIのo3 Pro発表間近か
OpenAIが新モデル「o3 Pro」の発表を一部顧客に予告し、AI業界の競争が一層激化する兆しが見えています。一方、Anthropicの「Claude Code」は高評価を得る中で具体的な課題も表面化。
MLLMの推論能力向上に向けた研究も活発化し、複数の新ベンチマークが登場。xAIのGrokはMCP統合の可能性が報じられる中、LangChainからは「Open Agent Platform」などエージェント開発支援の新機能が発表されました。
さらに、コスト削減やプライバシー保護の観点から「オンデバイスAI」の重要性も高まっています。それでは各トピックの詳細を見ていきましょう。
目次
- OpenAI o3 Pro、一部顧客に近日発表を通知か【続報】
- Claude Code、高評価も利用時の具体的課題が表面化
- MLLMの推論能力向上へ研究活発化、新ベンチマークも
- xAI Grok、MCP統合か Mozart機能の噂も
- LangChain続報: Open Agent PlatformやAgentic Browser発表
- オンデバイスAIの重要性増す 低コスト・プライバシーに期待
- Kaggle、最適肥料予測コンペ開始
OpenAI o3 Pro、一部顧客に近日発表を通知か【続報】
- OpenAIが、同社のGPTモデルのPro版「o3 Pro」について、一部顧客に対し近日中に発表する旨を通知したと報じられました。これはo3 Proに関する続報です。
- この情報が事実であれば、AnthropicのClaudeシリーズやGoogleのGeminiシリーズとの競争が一層激しくなることが予想されます。
- AI業界のフラッグシップモデルの動向に注目が集まっています。
Chubby♨️: (翻訳) そろそろですね。(引用ツイート: OpenAIは一部の顧客に対し、o3-proが間もなく発表されることを既に通知しています https://t.co/ojdD4a8sYj)
TestingCatalog News 🗞: (翻訳) 今後数週間のウォッチリスト: - Grok 3.5 - Gemini 2.5 Pro (フル) - o3 Pro 今週末はとても静かになりました 👀
Claude Code、高評価も利用時の具体的課題が表面化
- Anthropicのコーディング支援AI「Claude Code」は、開発者から引き続き高い評価を得ています。
- 「自分以上にコードを書くのがうまい」との声や開発効率向上への期待が寄せられています。
- 一方で、入力中のテキストエリアが無効になる、特定の指示を誤解する、日本語入力が重いといった具体的な課題も明らかになりました。
- VSCode連携時のファイルパス取得の仕組みなど、技術的な側面への関心も続いています。
カレーちゃん: Claude Codeすごい良いし、完全に自分以上にコードを書くのがうまいので、役割分担しないとですね 1年もすればコストが1/10とかになるんだろうから、すごい人がたくさん並列でこれを使ってたくさんのアウトプットを出すようになる。
mizchi: effect systemの自作に ts-expect-error で受け付けちゃいけない型のテストを書いてるんだけど、claude code 何度言ってもこのts-expect-error を削除してテストパスしました!っと言ってくるの、ほんとのほんとにほんとにほんとにキレそう
Shakeel: (翻訳) 初めてClaude Codeを使ってみたけど、なんてこった、未来に生きてるみたいだ。
MLLMの推論能力向上へ研究活発化、新ベンチマークも
- マルチモーダル大規模言語モデル(MLLM)の推論能力、特に複雑な視覚的推論や長時間の論理的思考における課題解決に向けた研究が活発化しています。
- ルールベースの強化学習を用いた空間推論能力の向上や、論理的推論をより包括的に評価するための新ベンチマーク「MME-Reasoning」などが提案されています。
- また、ビデオコンテンツからの深い推論を評価する「VIDEOREASONBENCH」や、思考効率を測る「THINK-Bench」といった新たな評価軸も登場し、より人間らしい思考プロセスを持つAI開発への期待が高まっています。
Rohan Paul: (翻訳) マルチモーダルLLMは、タスク固有のトレーニングなしでは、知覚負荷の高い視覚的推論タスクに苦労します。この論文では、ジグソーパズルでルールベースの強化学習(RL)を使用してMLLMをトレーニングします。この方法は、視覚入力と構造化された報酬を通じてモデルに空間推論を教えます。
Rohan Paul: (翻訳) 既存のマルチモーダル大規模言語モデルのベンチマークは、カバレッジが限定的で推論の定義が不明確なため、論理的推論を完全に評価できていません。この論文では、3つの主要な推論すべてにわたってマルチモーダルLLMの推論を評価する包括的なベンチマークであるMME-Reasoningを提示します。
Rohan Paul: (翻訳) 既存のビデオベンチマークは、深い推論や視覚コンテンツへの強い依存を必要としないため、高度なLLMの評価が制限されています。この論文では、3つの難易度レベルで視覚中心の複雑なビデオ推論を評価する新しいベンチマークであるVIDEOREASONBENCHを紹介します。
xAI Grok、MCP統合か Mozart機能の噂も
- xAIが開発する大規模言語モデルGrokも、Model Context Protocol (MCP) の統合を進めている可能性が報じられています。
- Mozartと呼ばれる新しいツールコンポーザーの痕跡が見つかっており、これが最近追加されたGoogle CalendarやSlackとの連携機能を強化し、将来的にはより汎用的なツール連携基盤となることが期待されています。
- MCPは、AIエージェントが外部ツールやサービスと連携するための標準規格として注目されています。
TestingCatalog News 🗞: (翻訳) xAIもGrokのMCP統合に取り組んでいる可能性があります。「Mozart」機能の痕跡があります。これは、最近追加されたGoogleカレンダーやSlackとの統合を強化する新しいツールコンポーザーです。長期的にはより汎用的になることを意図している可能性があります(未確認)。
LangChain続報: Open Agent PlatformやAgentic Browser発表
- LangChainからAIエージェント開発・運用支援の新機能に関する続報です。
- 以前構想として発表された、ノーコードでAIエージェントを開発・運用できる「Open Agent Platform」が正式に発表されました。
- 加えて、軽量なウェブ自動化エージェント「Agentic AI Browser」や、QdrantとLangGraphを組み合わせた「Hybrid RAG Chatbot」のデモも公開されています。
LangChain: (翻訳) 🤖🚀 オープンエージェントプラットフォーム 直感的でノーコードのインターフェースを通じてAIエージェントを作成し、オーケストレーションします。このプラットフォームは、マルチエージェント監視、RAG機能、GitHub、Dropbox、メールとの統合を備えており、すべてLangChain + Arcadeエコシステムによって強化されています。視聴はこちら
LangChain: (翻訳) 🌐🤖 エージェント型AIブラウザ LangGraphで構築された軽量なウェブ自動化エージェントで、インテリジェントな設計と行動キャッシングを通じて強力な自動化を実現し、効率が純粋な計算能力に勝ることを証明しています。こちらでご確認ください 👉
LangChain: (翻訳) 🔍🤖 ハイブリッドRAGチャットボット 新しいカスタマーサポートシステムは、QdrantのminiCOILとLangGraphを組み合わせ、ハイブリッドなセマンティック検索とタームベース検索を通じて、正確で文脈に応じた応答を提供します。🔗 実装ガイドはこちら!
オンデバイスAIの重要性増す 低コスト・プライバシーに期待
- AIデータセンター増設が議論される一方、ユーザーデバイス上でAIを実行する「オンデバイスAI」の重要性が高まっています。
- 主な利点として、実行コストが無料であること、既存ハードウェアで高速動作が可能なこと、ユーザーがデータを完全に管理しプライバシーを保護できる点が挙げられます。
- AI利用料の高騰が課題となる中、オンデバイスAIはその解決策の一つとしても期待されています。
- ただし、iPhoneでローカルLLMを実行した際にデバイスが著しく高温になったとの報告もあり、実用化には課題も残ります。
clem 🤗: (翻訳) 誰もがAIデータセンターの増設が必要だと話していますが(特にそこから最も恩恵を受ける人々)、なぜオンデバイスAIについて話す人がいないのでしょうか?デバイス上でAIを実行すること: - 無料 - 高速で既存のハードウェアを活用 - 100%のプライバシーとコントロール(あなた
Rohan Paul: (翻訳) MLXを搭載したiPhone 16 ProでDeepSeek-R1-0528-Qwen3-8Bを実行。ただし、電話は非常に熱くなります。-----
Kaggle、最適肥料予測コンペ開始
- Kaggleで新しいコンペティション「Predicting Optimal Fertilizers(最適肥料予測)」が開始されました。
- このコンペティションはメダル対象ではなく、カーネル限定でもありません。
- 提出締切は協定世界時(UTC)で2025年6月30日23時59分となっています。
Kagoole: (翻訳) 新しい#kaggleコンペティション「Predicting Optimal Fertilizers」が開始されました。メダル:なし カーネル限定:なし 締切:2025-06-30 23:59:00+00:00