2025年05月02日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
Vibe Coding論争と外部ツール連携の進化
先週末から再燃したVibe Coding論争がKarpathy氏のブログをきっかけに拡大。AI支援開発の方法論や定義について開発者コミュニティで活発な議論が続いています。
一方、Claudeは「Integrations」機能を正式リリースし、多数の外部ツールとの連携を強化。GoogleのGeminiもGitHub連携機能のテスト展開が始まるなど、AIプラットフォームの機能拡張が加速しています。
GPT-4oはコーディングベンチマークで高評価を得る一方、実務性能との乖離も指摘されています。
それでは各トピックの詳細を見ていきましょう。
目次
- Vibe Coding論争再燃 Karpathy氏発端、定義巡り議論【続報】
- Claude続報: 外部ツール連携強化、Codeプラン統合
- GPT-4o、コーディングベンチマークで高評価も実務性能に疑問符
- GeminiにGitHub連携機能がテスト展開か、コード分析強化へ
- 【続報】Google AI Mode、米国全Labsユーザーに提供開始 待機リスト不要に
- FutureHouse、科学研究特化のAI Scientistエージェント公開
- 開発ツール動向: Obsidian人気、設定ファイル議論、AI開発でのテスト重要性
Vibe Coding論争再燃 Karpathy氏発端、定義巡り議論【続報】
- Andrej Karpathy氏のブログ記事をきっかけに、AI支援開発スタイル「Vibe Coding」に関する議論が再燃しています。【続報】
- AI支援開発ツール(Cursor, Bolt, Lovableなど)の活用法や、AI生成コードのテストの重要性が改めて議論されています。
- 一方で、「Vibe Coding」が具体的に何を指すのか、その定義を巡って開発者の間で意見が分かれています。
mizchi: バイブコーディングでTDDやるの、便利というか必須ぐらいの感覚
Andrej Karpathy: (翻訳) 最近、vibe codingハッカソンに参加し、その機会を利用してWebアプリ(認証、支払い、デプロイなどを含む)を構築しました。私はいじくり回しますが、Web開発のバックグラウンドはありません。そのため、アプリ以外にも、今日、完全なWebアプリをvibe codeするのがどのようなものか非常に興味がありました。そこで、書きました https://t.co/Y7F2N2PDp6
ぬこぬこ: Vibe Coding の誤解についての Simon Willison 氏の批判記事 Vibe Coding は「AI ツールを用いてコードを書く」ことではなく「コードの中身を気にせず AI でコードを生成する」こと。開発者ではない方がプログラミングを学ばずとも安全に効果的に問題解決できる手段という。 https://t.co/8H2irvz07d
Claude続報: 外部ツール連携強化、Codeプラン統合
- 既報のMCP統合(β)が「Integrations」機能として強化され、Jira, Confluence, Zapier, Cloudflareなど多数の外部ツールとの連携が正式に可能になりました。
- Research機能も強化され、Web検索やGoogle Workspaceに加え、連携した各種ツールも横断的に検索して回答を生成できるようになりました。
- 以前推測されていた通り、「Claude Code」がMaxプランに統合され、サブスクリプション内でAPI利用が可能になりました。
Kol Tregaskes: (翻訳) Deep ResearchがClaudeに登場、最大45分間調査します。また、アプリ連携も登場し、Zapierなどに接続できます。
ぬこぬこ: Anthropic が Integrations を発表、Research 機能をアプデ リモート MCP を用いた Integrations により、Claude Desktop に限らず Claude から各種ツールと連携、ビルトインのものは Jira、Confluence、Zapier、Cloudflare、Intercom、Asana、Square、Sentry、PayPal、Linea...
まつにぃ: Anthropicに新機能 ・Integrations: WEBアプリでのMCP接続が可能に。 ・ Research強化: Web検索だけでなくGoogle Workspaceなどの連携ツールを横断検索。 ・Claude code統合: Maxプランのみ、サブスク内にClaude code APIが内包されます。 MCPが来たことで、徐々にMaxプランの価値が出てきましたね!
GPT-4o、コーディングベンチマークで高評価も実務性能に疑問符
- OpenAIのGPT-4oが、コーディングベンチマーク「LiveBench-Coding」において、o3-HighやGemini 2.5 Proを上回るスコアを記録したと報告されています。
- しかし、このベンチマークはLeetCodeに特化している可能性があり、実務に近いとされるSWE-Benchでは依然としてo3が優位との指摘もあります。
- ベンチマークスコアと実際の開発現場での有用性との乖離について、開発者の間で議論が交わされています。
まつにぃ: GPT-4oがLiveBench-Codingで77.48点、o3-HighやGemini 2.5 Proを抜いたそうな。 しかしこれはLeetCode特化の数字で、実務系SWE-Benchではo3が72%、Geminiが63.8%、旧4oは33%なのでここは現状まだ不明。 4oも何か強いのかどうなのかよくわからないモデルになってきましたね。
Chubby♨️: (翻訳) Livebenchでは、GPT-4oがo3 highよりも上位にランクインしています。 何か腑に落ちない点があります。 ベンチマークはますます意味をなさなくなってきています。
まつにぃ: 多分最も信頼のおけるコーディングベンチの1つ。 最利用モデル群は納得の一言(4oおるんか!)で、急成長にo3やGrok3などが来てるのも面白いですね。 かなり場面場面で使い分けが効くモデルもあるので、この辺はユースケース詳細まで知りたくなっちゃいますね。
GeminiにGitHub連携機能がテスト展開か、コード分析強化へ
- GoogleのGeminiに、GitHubリポジトリと連携する機能が一部ユーザー向けに展開され始めているとの情報があります。
- この機能により、指定したGitHubリポジトリのコード(最大5,000ファイル/100MB)をGeminiが読み込み、内容の理解、改善提案、コードの書き込みなどが可能になると期待されています。
- 正式な発表はまだですが、今後のGoogle I/Oなどで詳細が明らかになる可能性があります。
TestingCatalog News 🗞: (翻訳) Github連携が一部のGeminiユーザーに展開されているようです。この機能は、フォルダアップロードと同様に機能する可能性があります。 h/t @iamcienlim
まつにぃ: GitHub連携が一部Geminiユーザーに公開開始されているとか? URL指定で最大5,000ファイル/100MBを読込み、コード理解・改善提案・書き込みが可能なようです。 5月のI/Oで正式発表されるかも。 GitHub関連も激しい戦いになりそうです。 https://t.co/TdahLyl8pt
Google AI Developers: (翻訳) @_philschmid によるこのステップバイステップガイドで、独自の Gemini ブラウザエージェントを作成しましょう ↓
【続報】Google AI Mode、米国全Labsユーザーに提供開始 待機リスト不要に
- Google検索の実験的機能「AI Mode」(旧SGE)が、米国のGoogle Labsユーザー全員に公開されました。【続報】
- これにより、これまで必要だった待機リストへの登録が不要となり、より多くのユーザーがAIによる検索結果の要約や対話型検索を試せるようになります。
- ショッピングや地域情報の検索など、新たな機能も追加されています。
TechCrunch: (翻訳) GoogleのAIモードがアクセス拡大と追加機能を取得 | TechCrunch
Google Labs: (翻訳) 🔍検索のAIモードが、米国のすべてのLabsユーザーで利用可能になりました!今すぐお試しください → https://t.co/zRyCHGiSAe
FutureHouse、科学研究特化のAI Scientistエージェント公開
- DeepMindも参画するスタートアップFutureHouseが、科学研究を加速するためのAIプラットフォーム「AI Scientist」を公開しました。
- 文献検索を行う「Crow」、レビューを行う「Falcon」、前例調査を行う「Owl」といった複数のAIエージェントが用意されており、研究プロセスを支援します。
- 現在はWebおよびAPIが無料で公開されており、生物学などの分野での活用が期待されています。
Kol Tregaskes: (翻訳) FutureHouseは、科学研究を加速するために、AI Scientistエージェント(Crow、Falcon、Owl、および実験的なPhoenix)を立ち上げました。これらのエージェントは、文献レビュー、仮説生成、実験計画などのタスクに優れており、超人的な能力を備えています。
TechCrunch: (翻訳) FutureHouseが科学を加速できると主張するAIツールをリリース | TechCrunch
まつにぃ: Deepmindも参入しるFutureHouseが「AI Scientist」プラットフォーム公開しました。 ・Crow: 汎用文献検索 ・Falcon: 文献レビュー ・Owl: 前例調査 といったAgent機能で、検索、要約、仮説生成を高速化させていくようです。 現在はWeb及びAPIが無料開放されています。
開発ツール動向: Obsidian人気、設定ファイル議論、AI開発でのテスト重要性
- 開発者の間で、日々の業務で利用するツールや技術に関する情報交換が活発です。
- Markdownエディタとして人気のObsidianは、VSCodeとの違いに戸惑う声もある一方、プラグインによるカスタマイズ性の高さが評価されています。
- 設定ファイル形式YAMLやTOMLの利用が増える中、パーサーごとの挙動の違いや解釈の曖昧さが指摘され、JSONの堅牢性を再評価する意見も出ています。
- AI支援開発(Vibe Coding)においては、テストコードの重要性やテストパターンの整備がAI活用の前提となることが改めて強調されています。
erukiti: 個人的にObsidianは、VSCodeと操作性の違いがどうしても嫌いなんだけど、daily noteが使いやすいのと、プラグイン導入してあれこれしたら使い勝手が良くなったあたりで、手放せなくなっている
mizchi: yaml も toml もパーサごとに挙動違うからなにも信じられない。 jsonがだるい気持ちはわかるが今はIDEやフォーマットが適当な入力を整形してくれるから別にjsonでいいと思う。$schema書けばIDE補完効くし
mizchi: バイブコーディングにはテストが大事だ、という話をしようとしたが、まずライブラリや環境ごとのテストパターンを揃えておかないとそもそもAI君自力でテストが何も書けねえということがわかった