
午後2:40更新: GPT-4.5の公開後数時間、OpenAIはAIモデルのホワイトペーパーから「GPT-4.5は最先端のAIモデルではない」と記載されていた部分を削除しました。GPT-4.5の新しいホワイトペーパーにはその行は含まれていません。古いホワイトペーパーへのリンクはこちらからご覧いただけます。元の記事は以下に続きます。
OpenAIは木曜日に、コードネームOrionと呼ばれる待望のAIモデルであるGPT-4.5を発表しました。GPT-4.5は、OpenAIがこれまでにリリースしたモデルの中で最大のものであり、これまでよりも多くの計算能力とデータを使用してトレーニングされています。
そのサイズにも関わらず、OpenAIはホワイトペーパーで、GPT-4.5を前線のモデルとは考えていないと述べています。
ChatGPT Proの加入者であるOpenAIの月額$200プランのお客様は、今日から研究プレビューの一環として、GPT-4.5にChatGPTでアクセスできるようになります。OpenAIのAPIの有料プランの開発者も今日からGPT-4.5を使用できるようになります。他のChatGPTユーザーに関しては、ChatGPT PlusとChatGPT Teamに登録された顧客は今週中にモデルを受け取る予定ですと、OpenAIのスポークスパーソンはTechCrunchに述べました。
業界はOrionを心待ちにしており、これが従来のAIトレーニング手法の実用性の指標と見なす向きもあります。GPT-4.5は、「事前トレーニング」と呼ばれる段階で「計算能力とデータ量を劇的に増やす」という同じ主要な手法を使用して開発されており、これまでのGPT-4、GPT-3、GPT-2、GPT-1を開発したOpenAIが利用しました。
GPT-4.5の前のすべてのGPT世代では、スケーリングアップが数学、文章、コーディングなどの分野で大幅な性能向上をもたらしました。実際、OpenAIは、GPT-4.5のサイズの拡大により「より深い世界知識」と「より高い感情的知能」を持つことになりました。しかし、データと計算の拡大から得られる利益が段々と頭打ちになりつつある兆候もあります。いくつかのAIベンチマークでは、GPT-4.5はDeepSeek、Anthropic、およびOpenAI自体から新しいAI「推論」モデルに遅れています。
OpenAIはまた、GPT-4.5を実行するのに非常に高価だと認めており、会社は長期的にGPT-4.5をAPIで提供し続けるかどうかを評価していると述べています。GPT-4.5のAPIにアクセスするには、開発者に対して入力トークン(約75万語)ごとに75ドル、出力トークンごとに150ドルを請求しています。これをGPT-4oの場合の2.50ドルと10ドルに比べると、非常に高額です。
OpenAIは、「我々はGPT-4.5を研究プレビューとして共有しています。その強みと限界をより良く理解するためです。それが何に対応するかをまだ探り中であり、人々が予想しなかった方法でどのように使用するかを見ることに興味があります」とTechCrunchと共有したブログ記事で述べています。
パフォーマンスが異なる
OpenAIは、GPT-4.5がGPT-4o(同社の主力モデル)の代替品として用意されていないことを強調しています。GPT-4.5は、ファイルや画像のアップロードのサポートなどの機能をサポートしていますが、現時点ではChatGPTのリアルな双方向音声モードのサポートなどの機能を欠いています。
プラスの側面では、GPT-4.5はGPT-4oよりもパフォーマンスが優れていると言えます。
OpenAIのSimpleQAベンチマークでは、GPT-4.5は正確性の観点でGPT-4oとOpenAIの推論モデルo1およびo3-miniを上回っています。OpenAIによると、GPT-4.5は、ほとんどのモデルよりも幻覚を起こす頻度が少ないとされており、理論上はでたらめなことを言いにくいとされています。
OpenAIは、SimpleQAでトップのパフォーマンスを発揮するAI推論モデルであるdeep researchの成績を公表していません。OpenAIの広報担当者はTechCrunchに語ったところによると、このベンチマークでのdeep researchのパフォーマンスを公に報告しておらず、関連があるとは言えないと主張しています。特に、他のベンチマークでOpenAIのdeep researchと似たような成績を収めるAIスタートアップPerplexityのDeep Researchモデルは、このテストでGPT-4.5よりも優れています。

コーディング問題のサブセットであるSWE-Bench Verifiedベンチマークでは、GPT-4.5はGPT-4oとo3-miniとほぼ同等のパフォーマンスを発揮していますが、OpenAIのdeep researchやAnthropicのClaude 3.7 Sonnetには及びません。別のコーディングテストであるOpenAIのSWE-Lancerベンチマークでは、AIモデルのソフトウェア機能を開発する能力を測定しており、GPT-4.5はGPT-4oとo3-miniを凌駕していますが、deep researchには及びません。


GPT-4.5は、AIMEおよびGPQAなどの難しい学術ベンチマークで、o3-mini、DeepSeekのR1、およびClaude 3.7 Sonnet(技術的にはハイブリッドモデル)などの主要なAI推論モデルの性能には達していません。しかし、GPT-4.5は、これらと同じテストでリーディングではない非推論モデルに追いつくか上回るかしていることから、数学や科学関連の問題に関してモデルは良い性能を発揮しているとされています。
OpenAIはまた、GPT-4.5がベンチマークが適切に捉えていないような、人間の意図を理解する能力など、他のモデルに比べて質的に優れていると主張しています。OpenAIによると、GPT-4.5はより温かくより自然なトーンで応答し、文章やデザインなどの創造的なタスクで優れた性能を発揮しています。
ある非公式のテストでは、OpenAIはGPT-4.5と他の2つのモデル、GPT-4oとo3-miniにSVG形式でユニコーンを作成するように促しました。GPT-4.5だけがユニコーンに似たものを作成したAIモデルでした。

別のテストでは、OpenAIはGPT-4.5と他の2つのモデルに、「テストに失敗してつらい時期を過ごしている」というプロンプトに対する応答を求めました。GPT-4oとo3-miniは役に立つ情報を提供しましたが、GPT-4.5の応答が最も社会的に適切でした。
OpenAIはブログ記事で「GPT-4.5の能力のより完全なイメージを得るのを楽しみにしています。なぜならば、学術的なベンチマークは常に実世界での役立ち度を反映しているわけではないため」と述べています。

スケーリングの法則に挑戦
OpenAIは、GPT-4.5が「教師なし学習で可能な範囲の先頭にいる」と主張しています。それが正しいかもしれませんが、モデルの限界は、専門家の憶測を裏付け、事前トレーニングの「スケーリングの法則」が続くわけではないということも示しています。
OpenAI共同創設者で元チーフサイエンティストのIlya Sutskeverは12月に、「ピークデータに到達した」と述べ、「我々が知っている事前トレーニングは疑う余地なく終了するだろう」と語りました。彼のコメントは、11月にTechCrunchで特集記事を掲載した際にAI投資家、創業者、研究者が共有した懸念を反映しています。
事前トレーニングのハードルに対応するため、OpenAIを含む業界は推論モデルを採用しており、推論モデルは非推論モデルよりもタスクを実行するのに時間がかかりますが、一貫性が高い傾向があります。AI研究所は、AI推論モデルが問題を「考える」ために使用する時間と計算力を増やすことで、モデルの能力を大幅に向上させることができると自信を持っています。
OpenAIは、GPTシリーズのモデルと「o」推論シリーズを組み合わせることを計画しており、今年後半からGPT-5を始めとしていくつかのモデルをリリースする予定です。トレーニングに非常に高額で、数回遅れがあり、内部の期待を満たすことができなかったとされるGPT-4.5は、単独ではAIベンチマークのトップに立つことができないかもしれません。しかし、OpenAIはおそらく、それがより強力な何かへの足がかりとして見ているでしょう。