
OpenAIは、月曜日にGPT-4.1という新しいモデルファミリーを発表しました。はい、「4.1」という数字です - すでに会社の命名法が十分に混乱していたかのように。
GPT-4.1、GPT-4.1ミニ、GPT-4.1ナノがあり、OpenAIによるとすべてが「コーディングと指示の遵守に優れています。OpenAIのAPIを介して利用可能ですが、ChatGPTにはありません。多形式モデルには100万トークンのコンテキストウィンドウがあり、一度に約75万単語を受け入れることができます(「戦争と平和」よりも長い)。
GPT-4.1は、GoogleやAnthropicなどのライバルが洗練されたプログラミングモデルの構築を加速させる中で登場しています。Googleの最近リリースされたGemini 2.5 ProやAnthropicのClaude 3.7 Sonnet、中国のAIスタートアップDeepSeekのアップグレードV3も人気のあるコーディングベンチマークで高い評価を受けています。
OpenAIを含む多くのテックジャイアントの目標は、複雑なソフトウェアエンジニアリングのタスクを実行できるAIコーディングモデルをトレーニングすることです。OpenAIの大きな抱負は、最終的に「代理ソフトウェアエンジニア」を作成することです。会社は先月ロンドンでのテックサミットでCFOのSarah Friarが述べたように、将来のモデルはエンドツーエンドでアプリをプログラムし、品質保証、バグテスト、および文書作成といった側面を処理できると主張しています。
GPT-4.1はその方向への一歩です。
オープンAIの広報担当者はTechCrunchに電子メールで次のように語っています。「我々は、開発者が最も重要とする部分を改善するための直接のフィードバックに基づいて、実世界での使用に最適化したGPT-4.1です。フロントエンドのコーディング、不要な編集の削減、フォーマットの信頼性、応答構造や順序に忠実さ、一貫したツールの使用など、これらの改善により、開発者は実世界のソフトウェアエンジニアリングタスクにおいてかなり優れたエージェントを構築することができます。」
OpenAIは、GPT-4.1フルモデルがSWE-benchを含むコーディングベンチマークでGPT-4oとGPT-4oミニモデルを上回ると主張しています。GPT-4.1ミニとナノは、より効率的で速く、一部の精度を犠牲にしているとされ、OpenAIはGPT-4.1ナノがこれまでで最も速く、最も安いモデルであると述べています。
GPT-4.1は、入力トークン1,000万あたり2ドル、出力トークン1,000万あたり8ドルです。GPT-4.1ミニは、入力トークン1,000万あたり0.40ドル、出力トークン1,000万あたり1.60ドルであり、GPT-4.1ナノは、入力トークン1,000万あたり0.10ドル、出力トークン1,000万あたり0.40ドルです。
OpenAIの内部テストによると、一度に生成できるトークン数がGPT-4o(32,768対16,384)よりも多いGPT-4.1は、SWE-bench Verified(SWE-benchの人間によって検証されたサブセット)で52%から54.6%のスコアを獲得しました。 (OpenAIは、SWE-bench Verifiedの問題のいくつかの解決策が自社のインフラで実行できなかったため、スコアの範囲が異なることに注意しています。)これらの数字は、同じベンチマークでGoogleとAnthropicがGemini 2.5 Pro(63.8%)とClaude 3.7 Sonnet(62.3%)に報告されたスコアよりもわずかに低いです。
別の評価では、OpenAIは、モデルがビデオ内のコンテンツを「理解する」能力を測定するVideo-MMEを使用してGPT-4.1を調査しました。 OpenAIによれば、GPT-4.1は「長い字幕なし」ビデオカテゴリーで72%の正確さでチャートトップを獲得しました。
GPT-4.1はベンチマークでかなり高いスコアを獲得しており、より最新の「知識カットオフ」を持っており、最新の出来事についての良い参照フレームを提供しています(2024年6月まで)。しかし、今日の最高のモデルでも専門家をも混乱させるタスクに苦労することがあることを覚えておくことが重要です。たとえば、多くの研究が、コード生成モデルがしばしばセキュリティの脆弱性やバグを修正したり、導入したりするのに失敗することを示しています。
OpenAIも認めていますが、GPT-4.1は取り扱う入力トークンが多いほど信頼性が低下し(つまり、ミスをする可能性が高くなる)、1つの企業の独自のテストで、8,000トークンで約84%から100万トークンで50%に減少しました。会社によれば、GPT-4.1はGPT-4oよりもより「リテラル」であり、時にはより具体的で明確なプロンプトが必要とされることがありました。