Googleが次世代のAI推論モデルファミリーを発表

Googleは火曜日に、質問に答える前に「考える」Gemini 2.5という新しいAI推論モデルファミリーを発表しました。

新しいモデルファミリーのスタートを切るために、Googleは、同社がこれまでに開発した最も知的なモデルであると主張するマルチモーダルな推論AIモデルのGemini 2.5 Pro Experimentalを発表します。このモデルは、火曜日から同社の開発者プラットフォームGoogle AI Studioや、同社の月額20ドルのAIプランGemini Advancedの加入者向けのGeminiアプリで利用可能になります。

Googleは、今後、すべての新しいAIモデルに推論機能を組み込むと述べています。

OpenAIが2024年9月に最初のAI推論モデルであるo1を立ち上げて以来、テック業界は、他社のモデルを上回るか、同様の機能を持つモデルを開発するために競争を繰り広げてきました。今日、Anthropic、DeepSeek、Google、およびxAIは、すべて推論モデルを持っており、回答を提供する前に追加の計算パワーと時間を使用して、問題を事実チェックして理解しています。

推論技術は、AIモデルが数学やコーディングのタスクで新たな高みを目指すのに役立っています。テック業界の多くの人々は、推論モデルが、人間の介入をほとんど必要とせずにタスクを実行できるAIエージェント、自律システムの重要な要素となると考えています。ただし、これらのモデルはより高価です。

Googleは以前に、Geminiの「考える」バージョンを発売し、AI推論モデルを試してきました。しかし、Gemini 2.5は、OpenAIの「o」シリーズのモデルに打ち勝つために、同社がこれまでに行った最も真剣な試みです。

Googleは、Gemini 2.5 Proがこれまでの先駆的なAIモデルや主要な競合他社のAIモデルをいくつかの基準で上回る設計になっていると主張しています。具体的には、GoogleはGemini 2.5を視覚的に魅力的なWebアプリやエージェントコーディングアプリケーションの作成に優れているように設計しました。

コード編集を測定する評価であるAider Polyglotでは、GoogleはGemini 2.5 Proが68.6%のスコアを叩き出しており、OpenAI、Anthropic、および中国のAI研究所DeepSeekからのトップAIモデルを上回っています。

しかし、ソフトウェア開発能力を測定する別のテストであるSWE-bench Verifiedでは、Gemini 2.5 Proが63.8%というスコアを叩き出し、OpenAIのo3-miniやDeepSeekのR1を上回っていますが、AnthropicのClaude 3.7 Sonnetの70.3%には及びません。

数学、人文科学、自然科学に関連する数千のクラウドソーシングされた質問からなるマルチモーダルなテストであるHumanity's Last Examでは、GoogleはGemini 2.5 Proが18.8%のスコアを叩き出し、ほとんどの競合する主力モデルを上回っています。

Googleによれば、Gemini 2.5 Proには100万トークンのコンテキストウィンドウが搭載されており、つまり、AIモデルは一度におおよそ75万語を処理できます。これは「指輪物語」全シリーズよりも長いです。そして間もなく、Gemini 2.5 Proは入力長を2倍にする(200万トークン)サポートを提供します。

GoogleはGemini 2.5 ProのAPI価格を公開していません。同社は今後数週間で詳細を共有すると述べています。