2025年06月09日 夜のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

半導体業界の動向と日本語金融ベンチマークが注目集める

今週のAI業界は半導体関連の動きが活発です。QualcommがAlphawave IPを約24億ドルで買収し、NVIDIAのCEOが英国のAI人材を高く評価する一方でインフラ整備の必要性を指摘しました。

日本では、Sakana AIが日本語金融文書理解のベンチマーク「EDINET-Bench」を公開。また、GoogleのLLMによるコード移行効率化やChatGPTの品質問題、Claude Codeの続報なども話題となっています。

それでは各トピックの詳細に目を向けていきましょう。

目次

  1. Sakana AI、日本語金融ベンチマーク「EDINET-Bench」公開
  2. NVIDIA CEO、英国AI人材を評価もインフラに課題
  3. Qualcomm、英AI半導体Alphawaveを約24億ドルで買収
  4. Claude Code続報: 利用規約とAPIコストに新たな焦点
  5. Vertex AIでGemini 2.5 Pro最新版(06-05)提供開始【続報】
  6. Google、LLM活用し大規模コード移行で工数半減
  7. ChatGPT続報:指示従順性と日時処理に問題

Sakana AI、日本語金融ベンチマーク「EDINET-Bench」公開

  • Sakana AIが、日本語の金融関連文書の理解能力を測る新しいベンチマーク「EDINET-Bench」を公開しました。
  • 金融庁の電子開示システムEDINETの有価証券報告書を活用し、AIモデルが図表を含む長文から情報の整合性を判断する能力などを評価します。
  • 現実世界の複雑な文書を扱うタスクはAIにとって挑戦的であり、このベンチマークは今後の日本語LLM開発の指標となりそうです。
Sakana AI: 日本語金融ベンチマーク「EDINET-Bench」を公開 ブログ:https://t.co/JbH99eGrPE 論文:https://t.co/SVx3f6i9TJ 金融庁の電子開示システムであるEDINETの有価証券報告書を活用し、高度な金融タスクにてAIがどの程度対応できるかを測るための日本語金融ベンチマークを構築しました。 EDINET-Bench https://t.co/MFjq...

Takuya Akiba: Sakana AIから新しいベンチマーク「EDINET-Bench」公開です。現実世界の100〜200ページにわたる図表を含む文章から細かな整合性を判断するのはいい感じに難しそうで面白いベンチマークだと思います。

NVIDIA CEO、英国AI人材を評価もインフラに課題

  • NVIDIAのJensen Huang CEOが英国のAI人材を「世界の羨望の的」と高く評価する一方、AIインフラの不足が課題であると指摘しました。
  • 英国のKeir Starmer首相はHuang氏と会談し、技術とAIを経済成長計画の中心に据える方針を示しています。
  • 英国がAI分野での国際的な地位を確立するためには、人材育成に加え、計算資源などのインフラ整備が急務となりそうです。
Bloomberg: (翻訳) 英国のキア・スターマー首相は月曜日、Nvidiaの共同設立者であるジェンスン・フアン氏と共に出席する予定です。英国首相は、経済成長を促進するための政府計画の中心にテクノロジーと人工知能を据えています https://t.co/y1xJ870SdL

Bloomberg: (翻訳) NvidiaのCEOジェンスン・フアン氏は、英国の人工知能人材を「世界の羨望の的」と表現しました https://t.co/DJJBPEVl2q

Bloomberg: (翻訳) NvidiaのCEOジェンスン・フアン氏は、英国はAI企業が成功するための絶好の機会にあるものの、インフラが不足していると述べました。同氏はロンドン・テック・ウィークで英国のキア・スターマー首相と対談しました https://t.co/8B7RHaKG8J https://t.co/yW61Z1aILz

Qualcomm、英AI半導体Alphawaveを約24億ドルで買収

  • 米半導体大手Qualcommが、英国の半導体設計企業Alphawave IP Groupを約24億ドルで買収することで合意したと報じられました。
  • この買収は、QualcommのAI関連技術、特にデータセンター向けなどの高性能コンピューティング分野を強化する狙いがあると見られています。
  • AIチップ市場の競争激化を背景に、半導体業界での大型再編の動きが続いています。
Bloomberg: (翻訳) クアルコムは、人工知能向け技術を拡大するため、ロンドン上場の半導体企業アルファウェーブを現金約24億ドルで買収することに合意しました https://t.co/lTMUZU14d8

Financial Times: (翻訳) 米チップメーカーのクアルコム、英国のアルファウェーブを24億ドルで買収合意 https://t.co/WVENClMrF3

arutema47: AlphawaveってCarusone先生がCTOやってる。。wow。。

Claude Code続報: 利用規約とAPIコストに新たな焦点

  • AnthropicのAIコーディング支援ツール「Claude Code」に関する続報です。
  • 開発者からは既存の検証ツールとの連携や長文プロンプトによるカスタマイズ性が引き続き評価されていますが、新たに利用規約やAPIコストに関する情報が注目されています。
  • 特に、利用規約が競合サービスの開発を制限する可能性や、具体的なAPIコストが導入検討時の留意点として共有され始めています。
Kazunori Sato: Claude Codeが毎回pylintに怒られながらコード直してたり、たくさんのテストを実行して通らないところを直したりするのをみてると、コーディングという用途では既存の豊富な検証ツールと検証手法がLLMの弱点を大きく補ってるなと思う。

Odashi: Claude Codeの利用はCommercial Terms of Serviceに縛られるため、Anthropicに競合する何かを開発する用途には使えない。基盤モデルの開発者である自分は利用を禁止される可能性がある。

masuidrive: 1万文字超のプロンプトでClaude Codeをカスタムしたら超賢くてびっくりする!これだけ追従してくれると長いプロンプトも書きがいがあるなぁw 最初2万文字書いたけど、Claudeにレビューさせてシャープに半分した手法とプロンプトを公開。 # ポイント1: プロンプトは必ず自分で書く

Vertex AIでGemini 2.5 Pro最新版(06-05)提供開始【続報】

  • Google CloudのVertex AIにて、Gemini 2.5 Proの最新プレビューモデル「gemini-2.5-pro-preview-06-05」が利用可能になりました。このモデルは、先日Chatbot Arenaで首位を獲得したことが報じられています。
  • Vertex AIを通じてこの高性能モデルを試せるようになりましたが、一部ユーザーからは特定の条件下で動作が停止するとの報告も上がっており、プレビュー版としての安定性には注意が必要かもしれません。
Shohei Okada: Vertex AI でGemini 2.5 Pro の最新モデルである gemini-2.5-pro-preview-06-05 が登場 (Preview) Chatbot Arena (添付画像, lmarena-ai/chatbot-arena-leaderboard) でも堂々の一位! https://t.co/7xZpHOJUXu https://t.co/m1K24mDAeN

coji 溝口浩二: パラメータがややこしいツール。 gemini-2.5-pro-preview-06-05 だと止まっちゃうけど、 gemini-2.5-flash-preview-05-20 だと実行してくれた。

Google、LLM活用し大規模コード移行で工数半減

  • Googleが、LLMを活用して大規模なコードマイグレーション(コード移行)プロジェクトの全体工数を50%削減したとの調査結果を発表しました。
  • この取り組みでは、変更箇所の探索や変更要否の分類には検索技術や古典的な機械学習を活用し、コードの編集や検証といった工程でLLMを効果的に利用したとのことです。
  • LLMをソフトウェア開発ライフサイクルの特定フェーズに適用することで、大幅な生産性向上が期待できる事例として注目されます。
Shinichi Takaŷanagi: Googleが大規模コードマイグレーションをLLMを用いて全体工数50%削減(LLMのみ36%、LLM+人で38%)した調査結果。変更箇所探索・変更必要性分類はインデックスからの検索や古典的MLを活用。コードの編集・検証に対してLLM活用 Migrating Code At Scale With LLMs At Google https://t.co/HYRZr0XZin

ChatGPT続報:指示従順性と日時処理に問題

  • 先日お伝えしたChatGPTの機能進化に関する続報です。Advanced Voiceモードの向上が評価される一方で、新たにプロンプト指示への従順性低下や日時処理の精度低下といった応答品質の問題が報告されています。機能向上と安定した品質の両立が、今後のLLM開発における重要課題となっています。
こへっち: ChatGPTのAdvanced voiceモードがめっちゃリアルになってて、英会話の練習にめっちゃいい。 これまではアナウンサーみたいな綺麗すぎる英語で実践的な英会話の練習には物足りなかったけど、これはいい練習になる。

Chubby♨️: (翻訳) 私だけでしょうか、それとも最近ChatGPTのプロンプト追従性が著しく悪化していませんか? ChatGPTが指示に従わないため、ほぼ毎回プロンプトの特定の側面を繰り返さなければなりません。

Kol Tregaskes: (翻訳) なぜChatGPT(現在o3を使用中)は日付と時刻の扱いがこんなに下手なのでしょうか? これは全てのLLMに言えることかもしれませんが、苦痛です。 @OpenAIDevs さん、どうかこれを解決してください。プロンプトを実行するたびにこれを緩和し、モデルに繰り返し伝えなければなりません。

Subscribe to ML_Bear Times

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください