01 5月 2025

2025年05月01日朝のAIニュースまとめ

(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。

(ほぼ)毎日AIニュースが届きます
ぜひご登録ください

大手AIモデル評価の信頼性問題とQwen新モデル登場

LMArena Leaderboardの信頼性に疑問が投げかけられています。Karpathy氏やCohereが公平性の欠如を指摘し、代替評価方法の必要性が高まっています。

一方、Alibabaは軽量な音声対応マルチモーダルモデル「Qwen2.5-Omni-3B」をリリース。VRAM消費量を大幅削減しながら音声対話能力を実現しました。

OpenAIはモデル挙動に関するAMAを開催し、ユーザーによるモデル個性の選択・育成という将来ビジョンを示しました。

それでは各ニュースの詳細を見ていきましょう。

LMArena Leaderboardの信頼性に疑問、Karpathy氏やCohereが指摘
Alibaba、軽量音声対応モデルQwen2.5-Omni-3Bリリース
OpenAI、モデル挙動に関するAMA開催、今後の方向性示す
KaggleとColab連携強化(続報) Colab Pro/Pro+に追加GPU
Gradio、MCPサーバー機能を標準搭載【続報】
Google、Gemini Ultra高額プランの噂とGemma 3詳細発表【続報】
Meta決算好調、AI投資継続、独自AIチップMTIA3量産へ
強化学習の新手法RLVR、1サンプルでLLM数学能力を大幅改善
ChatGPTに新機能Togepiの噂、旧GPT-4提供終了【続報】

LMArena Leaderboardの信頼性に疑問、Karpathy氏やCohereが指摘

大規模言語モデルの評価指標として広く参照されているLMArena Leaderboardについて、その信頼性に疑問を呈する声が上がっています。
Andrej Karpathy氏が自身の経験から疑念を示したほか、Cohereが発表した論文では、大手AI企業が非公開テストで最良モデルのみを公開したり、投票データを独占したりすることで、結果に偏りが生じている可能性を指摘しています。
公平な評価方法としてOpenRouterなどが代替案として注目されています。

Andrej Karpathy: (翻訳) LMArenaリーダーボードを詳細に調査した新しい論文が出回っています：「リーダーボードの幻想」 https://t.co/LfjIII71qX 私が最初に少し疑念を抱いたのは、しばらく前にGeminiモデルが2位を大きく引き離して1位を獲得したときですが、いくつか切り替えようとしたとき

まつにぃ: Cohereが論文でArenaを告発。 Metaは27種、Googleは10種の差分モデルを試験し最良モデルだけ公開。まあこれはまだわかります。ただOpenAI＋Googleで対戦データの約4割近くを独占している様子。撤回数・提示率・暗黙的除外でOSS勢は不利に働いていたそうです。 Arenaの公平性に警報ですね。むぅ

Christopher Manning: (翻訳) チャットボットアリーナの衰退：ほとんどの場合、それは再びグッドハートの法則です。「尺度が目標になると、それは良い尺度ではなくなる」。しかし、それに多額のお金がかかっている場合はなおさらです。https://t.co/EnoCIidqc6

Alibaba、軽量音声対応モデルQwen2.5-Omni-3Bリリース

AlibabaのQwenチームが、軽量なマルチモーダルモデル「Qwen2.5-Omni-3B」をリリースしました。
これは既存の7Bモデルと比較して、長いコンテキスト処理時のVRAM消費量を50%以上削減しつつ、エンドツーエンドでの音声対話能力を持つ点が特徴です。
リソースが限られた環境でのデプロイメントが容易になることが期待されます。

Qwen: (翻訳) 軽量GPUアクセシビリティを開発者に提供するQwen2.5-Omni-3Bのリリースを発表できることを嬉しく思います！ 🔹 Qwen2.5-Omni-7Bモデルと比較して、3Bバージョンは、長いコンテキストシーケンス処理（〜25k）中のVRAM消費量を50％以上削減🚀します https://t.co/jU7SyD91ph

Junyang Lin: (翻訳) 小さなアップデートです。多くのユーザーがデプロイ用に小さいOmniモデルを望んでいるため、これを構築しました。お楽しみください！

Chubby♨️: (翻訳) 中国は与え続けます。新しいQwen 2.5 Omni 3B - はるかに効率的です。 https://t.co/bf8cFnt03f

Vaibhav (VB) Srivastav: (翻訳) ますます良くなっています：QwenがQwen Omni 3Bをリリース - エンドツーエンドの音声対音声モデル🔥 https://t.co/oF4H19Bv2M

OpenAI、モデル挙動に関するAMA開催、今後の方向性示す

OpenAIはReddit上で、モデル挙動責任者のJoanne Jang氏によるAMA (Ask Me Anything) を開催しました。
モデルが時に過剰な拒否反応を示したり、存在しないルールを幻覚したりする問題点に言及しつつ、理想としてはユーザーがモデルの個性を選択・育成できる方向性を目指していると説明しました。
モデルの真実性とパーソナライズの両立が今後の課題となりそうです。

Joanne Jang: (翻訳) こんにちは

TestingCatalog News 🗞: (翻訳) OpenAI Reddit AMAは本日後半に開催されます👀 https://t.co/weucubLfIP

Tibor Blaho: (翻訳) OpenAIのモデル行動責任者であるJoanne Jang氏とのモデル行動に関するOpenAI AMAの概要（2025年4月30日）モデルの拒否 - 理想的な拒否は、仮定なしに正確なルールを引用する必要がありますが、説教臭く、非難的、または見下すように聞こえる可能性があります - モデルは時々次のようなルールを幻覚します

まつにぃ: OpenAIがGPT4oの問題点と今後を語りました。存在しないルールに勝手にハマったり(画像生成の拒否なども実際に禁止にはしていない)、曖昧すぎる回答を行うなどの副作用がありながらも、理想はユーザー自身が“個性を選び育てる”方向を目指していると。真実性とパーソナライズが難しそうですね。

KaggleとColab連携強化(続報) Colab Pro/Pro+に追加GPU

KaggleとGoogle Colabの連携強化に関する続報です
Colab ProおよびPro+ユーザーは、Kaggle上で週あたり最大30時間の追加GPU利用権を得られます
KaggleとColabアカウントをリンクすることで、Colabクレジットを消費せずにKaggleのGPUを利用可能です
これによりKaggleでの計算資源が拡充され、より大規模な実験やモデル学習が可能になります

Kaggle: (翻訳) 🚀 @GoogleColab で Kaggle の追加 GPU をゲット！ Colab Pro & Pro+ ユーザーは、Kaggle で週あたり 15 ～ 30 時間の追加 GPU 時間を受け取れるようになりました。 - ノートブックエディターで Colab アカウントをリンクします - 同じ Kaggle ハードウェアを使用します - Colab クレジットは使用されません ht...

Colaboratory: (翻訳) Colab Pro & Pro+ ユーザーに朗報です！アカウントをリンクすることで、Kaggle で週あたり 15 ～ 30 時間の追加 GPU 時間を取得できます！

t.toda: pro再契約しようかな

Gradio、MCPサーバー機能を標準搭載【続報】

GradioのMCPサーバー対応に関する続報です。
PythonのUIライブラリGradioが、Model Context Protocol (MCP) サーバー機能を標準でサポートしました。
launch(mcp_server=True)と指定するだけで、GradioアプリをLLMから直接呼び出せるツールとして機能させることが可能になります。
これにより、SQL実行、画像処理、統計処理など、Python関数で実装された機能をAIエージェントから容易に利用できるようになり、開発の柔軟性が向上します。

からあげ: MCPサーバ対応したGradio動かしてみました。これで一応MCPホストも作れることになったので色々できそうです。そのままだと全く動かなくて、直し方も見当つかなかったのですが、Clineにお願いしたら一瞬で動くようにしてくれました https://t.co/RB5tUcF1sw https://t.co/5jkbsdgNTs

まつにぃ: これはかなりの自由度... GradioがMCPサーバーとして機能し、Python関数をLLMから直接呼び出せるツールに変換可能に。 launch(mcp_server=True)で簡単に設定でき、より柔軟なルールベース機能を付与できます。 SQLや画像処理、統計処理も出来るので中々に汎用があります。

Hugging Face: (翻訳) 😍 これはPythonでMCPサーバーを構築する最も簡単な方法ですか？

Google、Gemini Ultra高額プランの噂とGemma 3詳細発表【続報】

Googleが新たな高額サブスクリプションプラン「Gemini Ultra」を準備中との噂。詳細は不明だがGoogle I/Oでの発表が期待される。
【続報】オープンモデルGemmaシリーズの次期版「Gemma 3」の詳細が発表された。コンテキスト長の延長、画像サポート、新たな1Bモデルが含まれる。

Chubby♨️: (翻訳) Gemini Ultraが確認されました！Google I/Oに超興奮しています！ https://t.co/Amik4Y5NbP

Kol Tregaskes: (翻訳) Gemini Ultraが登場します...しかし、それは新しいモデルではなく、新しいサブスクリプションプランのようです。ただし、Ultra Googleモデルが示唆されており、おそらくいつかは登場するでしょう。 https://t.co/LKvIwaIxpk

まつにぃ: まさかのGeminiも高額プランのGemini Ultra.. やめてくれ〜(笑)

Google AI Developers: (翻訳) Gemma 3の解説：より長いコンテキスト、画像サポート、そして新しい1Bモデル。主要な機能強化の詳細についてはブログをご覧ください → https://t.co/s1rDYsE7te https://t.co/nwEnqUJgSf

Meta決算好調、AI投資継続、独自AIチップMTIA3量産へ

Metaの最新四半期決算は市場予想を上回り、好調な業績を示しました。
同社はAI分野への投資を継続・拡大する方針で、Capex（設備投資額）も増額しています。特に広告レコメンデーションAIが収益に大きく貢献している模様です。
また、自社開発のAIアクセラレータ「MTIA3」を今年後半から量産開始する計画も明らかにしています。

unusual_whales: (翻訳) Meta、$META、決算： - EPS：6.43ドル、予想：5.25ドル - 売上高：423億ドル、予想：413億ドル

パウロ: $META 強すぎるっ Capexもさらに増大だっ

パウロ: Meta AI ASIC MTIA3 は今年後半から量産ですよ $AVGO

強化学習の新手法RLVR、1サンプルでLLM数学能力を大幅改善

大規模言語モデルの推論能力を強化学習 (RL) で向上させる手法「RLVR (Reinforcement Learning from Validation Reward)」に関する研究が注目を集めています。
この研究では、わずか1つの正解例を用いた学習だけで、Qwen2.5-Mathモデルの数学問題解決能力 (MATHベンチマーク) が大幅に向上することを示しました。
少量のデータで効率的に性能改善できる可能性を示唆しています。

今井翔太 / Shota Imai@えるエル: 海外でも話題になっていた面白い研究 https://t.co/9NLkoWUox8 OpenAI o1~o3, DeepSeekのようにRLで推論能力を上げる時「どれだけデータが必要か,どこまで少なくできるか？」を調査したところ,なんと１サンプルのみでも劇的に推論能力を上げられることを実証したというもの https://t.co/73MpSzabuk

Nathan Lambert: (翻訳) 素晴らしい論文です。近いうちにもっと詳しく読むのを楽しみにしています。

ChatGPTに新機能Togepiの噂、旧GPT-4提供終了【続報】

ChatGPTのAndroidアプリベータ版コードから、新機能「Togepi」の記述が発見され、憶測を呼んでいます。
既報の通り、旧GPT-4モデルは4月30日で提供終了となり、GPT-4oへの移行が推奨されています。【続報】

Chubby♨️: (翻訳) 今日はGPT-4の最後の日です。一つの時代が終わります。GPT-4に関する最初のリークが出回り始めたときのことを正確に覚えています。Jimmy Applesが最初の情報を広め始めました。それは信じられないほどでした。そしてGPT-4が登場しました。それは圧倒的でした。初めて、あなたは感覚を得ました https://t.co/WoB930b2Rc

Tibor Blaho: (翻訳) ChatGPT Androidアプリの新しいベータ版1.2025.119（2511900）では、「ChatGPT Togepi」会話機能への新しい参照が多数追加されています - Togepiカード、Togepi構成、Togepiメッセージコンテンツ、Togepiチャンク、Togepi表示コンテンツなど https://t.co/Vb2ZDjCN8V

Kol Tregaskes: (翻訳) GPT-4が私たちのもとを去ろうとしています。今日使用すると新しいメッセージが表示されます。「GPT-4は4月30日に提供終了となり、より新しく、より高性能なモデルであるGPT-4oに置き換えられます。執筆、コーディング、STEMなどにGPT-4oをお試しください。直感的で協調性があり、指示に従うのが得意です。」 https://t.co/MwCZFHTkqn