2025年10月01日 朝のAIニュースまとめ
(ほぼ)毎日AIニュースが届きます。ぜひご登録ください。
(ほぼ)毎日AIニュースが届きます
ぜひご登録ください
OpenAIのSora 2発表とAI研究分野の急速な進化
OpenAIが待望の動画生成AI「Sora 2」と専用SNSアプリを発表し、クリエイティブAI分野に新風を吹き込みました。中国ZhipuのGLM-4.6は200Kコンテキスト対応で注目を集めています。
一方で科学研究分野では「AI科学者」の開発を目指すPeriodic LabsとAxiomが設立され、AIの応用領域が拡大。NVIDIAの4ビットLLM事前学習技術やMicrosoft 365 CopilotのAgent Mode正式導入など、技術革新も加速しています。
それでは各トピックの詳細を見ていきましょう。
目次
- OpenAI、動画生成AI「Sora 2」とSNSアプリを正式発表
- 【続報】Zhipu AI、200Kコンテキスト対応の新モデル「GLM-4.6」を発表
- 【続報】Claude Sonnet 4.5、速いが精度に課題か
- AI科学者の創造へ Periodic LabsとAxiomが始動
- MS 365 CopilotにAgent Modeが正式搭載、複数作業を自律実行【続報】
- AMD、ローカルAIコーディングにClineの利用を推奨
- xAI、10月にGrok大型更新を計画か 複数新モデルの噂
- LandingAI、文書抽出技術を強化 新モデルで複雑な表も対応
- NVIDIA、4ビットでのLLM事前学習技術を発表 計算量を大幅削減
OpenAI、動画生成AI「Sora 2」とSNSアプリを正式発表
- 以前から噂されていたOpenAIの次世代動画生成AI「Sora 2」が正式に発表されました。
- 音声付きの動画生成に対応し、物理法則の理解も大幅に向上。現実世界のような映像や高品質なアニメーションの生成デモが公開されています。
- また、生成した動画を共有するTikTok風のSNSアプリ「Sora」も同時に発表され、米国とカナダで招待制で先行公開が開始されました。
- 将来的には高機能版「Sora 2 Pro」やAPIの提供も予定されています。
Greg Brockman: (翻訳) Sora 2が登場しました
ChatGPT研究所: 【Sora 2、今わかっていること総まとめ】 ・音声付きの動画生成モデル ・高度な物理エンジンを搭載 ・iOS/AndroidでSoraアプリを公開 ・Soraアプリは充実したSNS機能を搭載 ・米国、カナダで招待制で先行公開 ・現在は無料で使用可能 ・Proプランで高精度版のSora 2 Proを提供 ・APIも公開予定
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: (翻訳) なんてことだ…SoraでLLMを「推論」できる🤯\n\nプロンプトは「chatgptを開いてメッセージを送って!」\n\n生成された音声が、Soraがどこからともなく作り出したクエリへの関連性のある応答であるだけでなく、俳句の音節まで正確だなんて、どれほどすごいことか?!🥲
【続報】Zhipu AI、200Kコンテキスト対応の新モデル「GLM-4.6」を発表
- 中国のAI企業Zhipu AIが、既報のGLM-4.5に続く新フラッグシップモデル「GLM-4.6」を発表しました。
- エージェント機能、推論、コーディング能力が大幅に向上したと報告されています。
- 最大200Kトークンという長いコンテキスト長に対応し、複雑なタスクの処理能力が向上しています。
- 開発ツール「Cline」への統合や、ローカル環境(M3 Ultra)での高速動作も報告されており、オープンソースモデルの新たな選択肢として注目されます。
Awni Hannun: (翻訳) GLM 4.6は、M3 Ultraとmlx-lmを使用すると、より高い精度でも非常に高速に動作します。\n\nリリースされたばかりのSonnet 4.5と競合するベンチマークを達成しているのは非常に注目に値します。これらのベンチマークが日常的な使用でも維持されることを願っています。\n\nこれは、5.5 bpw量子化モデルを使用し、5.3kトークンを生成した実行例です。
Cline: (翻訳) @Zai_org の GLM-4.6 が Cline で利用可能になりました。\n\nコンテキストが 200K (131k から増加) になり、GLM-4.5 よりも 15% 少ないトークンでタスクを完了します。\n\nフロンティアモデルに対して 48.6% を超える勝率を誇り、最も有能なオープンソースモデルの 1 つとなっています。\n\nCline と GLM サブスクリプションで...
【続報】Claude Sonnet 4.5、速いが精度に課題か
- 先日発表されたAnthropic社の新モデル「Claude Sonnet 4.5」について、開発者からの評価が出始めています。
- Opus 4.1より高速でフロントエンドのコード生成に強いと評価される一方、長文読解では重要な数値を間違えるなど精度面の課題も指摘されています。
- 速度と精度のトレードオフをどう判断するかが、活用の鍵となりそうです。
Haider.: (翻訳) claude sonnet 4.5はOpus 4.1より優れています\n\n非常に高速で、より少ない反復で効果的にタスクを処理し、より強力なフロントエンドコードを生成します\n\n一方、GPT-5-highは実装計画に優れ、複雑なタスクで一貫して高品質なコードを提供し続けています
Ian Nuttall: (翻訳) 要約すると;\n\nSonnet 4.5は良くて速い\nGPT-5はより良いが遅い\nOpus 4.1は最高だが高価
webbigdata: Claude Sonnet 4.5、大絶賛投稿もありますが、私が先程12月末期限のコンペのスケジュールについて相談したところ、かなり長文のQAではあったのですが「後4ヶ月しかないのにあなたはまだ2回しか配信していないので…」と重要な数字を2つ間違えたので長コンテキストコーディングは厳しそうに感じてます
AI科学者の創造へ Periodic LabsとAxiomが始動
- 「AI科学者」の創造を目指す新スタートアップ「Periodic Labs」が設立され、注目を集めています。
- 科学的な仮説の立案、実験、結果からの学習というプロセスをAIによって自動化し、新たな科学的知識の発見を目指すとのことです。
- この野心的な目標に対し、OpenAIのSam Altman氏が祝辞を述べるなど、業界の重鎮からも期待が寄せられています。
- 同様に、AI数学者の構築を目指す「Axiom」もローンチしており、AIを科学研究に応用する動きが加速しています。
Sam Altman: (翻訳) おめでとう、リアム!
Kevin Weil 🇺🇸: (翻訳) AIと科学に関するすべての勢いを見るのは非常にエキサイティングです!
Chubby♨️: (翻訳) Axiomは本日、AI数学者から始めて、自己改善する超知能推論器を構築することを目指してローンチしました。\n\n彼らは数学を究極の発見エンジンと位置づけています。数学のブレークスルーは、科学、技術、そして宇宙の理解の進歩を促進します。\n\n間違いなく注目しています。
MS 365 CopilotにAgent Modeが正式搭載、複数作業を自律実行【続報】
- 以前お伝えしたMicrosoft 365 Copilotの「Agent Mode」が正式に導入されました。
- ExcelやWordでの複数ステップにわたる作業を自律的に実行し、データ分析やドキュメント作成などの定型業務をさらに自動化します。
- このAgent ModeはOpenAIのモデルを搭載しており、SpreadsheetBenchのタスクで57.2%の精度を達成したと報告されています。
- また、Copilotチャット内の「Office Agent」機能では、プレゼンテーション作成支援などでAnthropicのClaudeモデルが利用されることも明らかになりました。
Kol Tregaskes: (翻訳) Microsoft 365 CopilotのAgent Modeが本日ExcelとWordでリリースされ、SpreadsheetBenchの912タスクで57.2%の精度を達成しました。これは、複数ステップのデータ作業とドキュメント作成のためにOpenAIモデルを搭載しています。\n\nCopilotチャットのOffice Agentは、洗練されたPowerPointのためにAnthr...
AMD、ローカルAIコーディングにClineの利用を推奨
- AMDが、ローカル環境で動作するAIコーディングエージェントとして「Cline」の利用を推奨していることが明らかになりました。
- AMDのRyzen AI Max+シリーズプロセッサとLM Studioを組み合わせることで、ローカルマシン上でコーディングAIを実行する環境を構築できます。
- 推奨されるモデルとして、メモリ32GB以上の環境では「Qwen3-Coder 30B」、128GB以上の環境では「GLM-4.5-Air」などが挙げられており、ローカルAI開発の選択肢が広がっています。
Cline: (翻訳) AMDはローカルモデルのコーディングエージェントとしてClineを使用しています。\n\n20以上のモデルをテストした結果、実際に機能するものを見つけました。\n\n> 32GB RAM: Qwen3-Coder 30B (4ビット)\n> 64GB RAM: Qwen3-Coder 30B (8ビット)\n> 128GB以上 RAM: GLM-4.5-Air\n\n@lmstudio...
xAI、10月にGrok大型更新を計画か 複数新モデルの噂
- xAIが10月中にGrokの大型アップデートを計画しているとの噂が報じられています。
- 動画生成モデル、次期言語モデル「Grok 4.1」、マルチモーダルなコーディングモデルなどがリリースされる可能性があるとのことです。
- 金融に特化した「Grok Finance」や、Grok版Wikipediaの構築も計画されているとされており、今後の展開が注目されます。
Tech Dev Notes: (翻訳) 現在判明している10月のGrokアップデート予定:\n\n- 動画生成モデル\n- Grok 4.1\n- マルチモーダルコードモデル - m\n- Grok Finance
Tech Dev Notes: (翻訳) xAIはGrok版のWikipediaを構築しています
LandingAI、文書抽出技術を強化 新モデルで複雑な表も対応
- Andrew Ng氏が率いるLandingAIが、以前紹介した文書からの情報抽出技術「Agentic Document Extraction」を大幅にアップグレードしたことを発表しました。
- 新たに開発されたDPT(Document Pre-trained Transformer)モデルにより、これまで困難だった複雑な構造の文書からの情報抽出精度が向上しました。
- 特に、金融や医療分野で頻繁に利用される、大規模で複雑な表形式のデータからも正確に情報を抽出できるとしており、実用的な応用が期待されます。
Andrew Ng: (翻訳) Agentic Document Extractionの大幅なアップグレードを発表します!\n\nLandingAIの新しいDPT(Document Pre-trained Transformer)は、複雑なドキュメントからでも正確に抽出します。たとえば、多くの金融およびヘルスケアアプリケーションで重要な、大規模で複雑なテーブルからです。そして
NVIDIA、4ビットでのLLM事前学習技術を発表 計算量を大幅削減
- NVIDIAの研究者らが、4ビットの数値表現(NVFP4)を用いた大規模言語モデルの事前学習に関する論文を発表しました。
- この技術を用いることで、8ビット浮動小数点(FP8)と同等の精度を維持しつつ、計算量とメモリ使用量を大幅に削減できると報告されています。120億パラメータのMamba Transformerモデルを10兆トークンで学習させた結果、その有効性が示されました。
- モデルの大規模化が進む中で、より安価なハードウェアでの学習や実行を可能にするこの研究は、AIの普及をさらに加速させる可能性があります。
Rohan Paul: (翻訳) 美しい@nvidiaの論文です。👏\n\n💾 NVFP4は、10Tトークンで12B Mamba Transformerを4ビットで事前学習すると、計算量とメモリを削減しながらFP8の精度に匹敵することを示しています。🔥\n\nNVFP4は、大規模モデルのトレーニング用の数値を8ビットや16ビットではなく、わずか4ビットで保存する方法です。これにより、トレーニングが