
Anthropicは、ユーザーが望む限り質問について「考える」新しいフロンティアAIモデル、Claude 3.7 Sonnetを発表しています。
AnthropicはClaude 3.7 Sonnetを業界初の「ハイブリッドAI推論モデル」と呼んでおり、リアルタイムの回答とより考え抜かれた質問に対する「考える」回答を両方提供できる単一のモデルです。ユーザーはAIモデルの「推論」機能をアクティブにするかどうかを選択でき、Claude 3.7 Sonnetに短期間または長期間「考えさせる」ことができます。
モデルは、AnthropicのAI製品のユーザーエクスペリエンスを簡素化する取り組みの一環を表しています。今日のほとんどのAIチャットボットは、ユーザーにコストと機能が異なる複数のオプションから選択させる daunting model picker を持っています。Anthropicなどの研究所は、考える必要がないことを望んでいます - 理想的には、1つのモデルで全ての作業を行います。
Claude 3.7 Sonnetは、月曜日にすべてのユーザーと開発者にロールアウトされる予定ですが、AnthropicのプレミアムClaudeチャットボットプランを支払う人のみがモデルの推論機能にアクセスできます。無料のClaudeユーザーには、Claude 3.7 Sonnetの標準の非推論バージョンが提供されます。これは、Anthropicが以前のフロンティアAIモデルであるClaude 3.5 Sonnetを上回っていると主張しています(はい、会社は1つの番号をスキップしました)。
Claude 3.7 Sonnetのコストは、入力トークン1百万あたり3ドル(Claudeに750,000ワード、つまり「指輪物語」シリーズ全体よりも多いワードを3ドルで入力できます)であり、出力トークン1百万あたり15ドルです。これは、OpenAIのo3-mini(入力トークン1百万あたり1.10ドル/出力トークン1百万あたり4.40ドル)やDeepSeekのR1(入力トークン1百万あたり55セント/出力トークン1百万あたり2.19ドル)よりも高価ですが、o3-miniやR1は厳密に推論モデルであり、Claude 3.7 Sonnetとは異なります。

Anthropicによれば、Claude 3.7 Sonnetは、多くのAI研究所が従来の方法を改善するために転じた「推論」を行うAIモデルであり、Anthropicの初のAIモデルです。
o3-mini、R1、GoogleのGemini 2.0 Flash Thinking、およびxAIのGrok 3(Think)などの推論モデルは、問題について回答する前により多くの時間と計算能力を使用します。これらのモデルは問題を小さなステップに分解し、最終的な回答の精度を高める傾向があります。推論モデルは、必ずしも人間のように考えたり推論するわけではありませんが、そのプロセスは演繹に基づいてモデル化されています。
最終的に、Anthropicは、ユーザーが事前にコントロールを選択することなく、独自に質問についてどのくらい「考える」べきかを理解しようとしているという。「人間が、すぐに回答できる質問と考慮が必要な質問のために2つの別々の脳を持っていないように」とAnthropicがTechCrunchと共有したブログ投稿に記載されています。「我々は推論を、他の能力とスムーズに統合されるべき能力の1つとして、別個のモデルとして提供すべきものではないと考えています」という。
Anthropicによれば、Claude 3.7 Sonnetは、進行中の計画段階を「可視の下書き帳」を通じて表示することを許可しています。PennはTechCrunchに語ったところによれば、ユーザーはほとんどのプロンプトでClaudeの完全な思考過程を見ることができますが、一部の部分は信頼性と安全性のために編集される場合があります。

Anthropicによれば、Claudeの考えるモードを、難しいコーディング問題や意欲的なタスクなど、実世界のタスクに最適化しています。AnthropicのAPIを利用する開発者は、「考える」ための予算をコントロールでき、速度とコストを解答の品質とトレードできます。
実際のコーディングタスクを測定するための1つのテストであるSWE-Benchでは、Claude 3.7 Sonnetは62.3%の精度を示し、OpenAIのo3-miniモデルは49.3%でした。小売環境でのシミュレートされたユーザーや外部APIとのやり取り能力を測定する別のテストであるTAU-Benchでは、Claude 3.7 Sonnetは81.2%、OpenAIのo1モデルは73.5%でした。
Anthropicはまた、以前のモデルよりもClaude 3.7 Sonnetが回答を拒否する頻度が低いと述べ、モデルが有害なプロンプトと無害なプロンプトの間でより微妙な区別を行える能力を持つと主張しています。Anthropicによれば、Claude 3.7 Sonnetは、Claude 3.5 Sonnetと比較して余分な拒否を45%削減しました。これは、他のいくつかのAI研究所がAIチャットボットの回答を制限する方法を見直している時期にあたります。
Claude 3.7 Sonnetに加えて、AnthropicはClaude Codeという意欲的なコーディングツールもリリースしています。研究プレビューとしてローンチされるこのツールは、開発者がターミナルから直接Claudeを通じて特定のタスクを実行できます。
デモでは、Anthropicの従業員が、単純なコマンド「このプロジェクト構造を説明してください」というコードプロジェクトを分析し、コードベースを修正する方法を示しました。コマンドラインで平易な英語を使用すると、開発者はコードベースを修正できます。Claude Codeは変更を行う際にその編集内容を説明し、プロジェクトのエラーをテストしたり、GitHubリポジトリにプッシュしたりします。
Anthropicの広報担当者はTechCrunchに語ったところによれば、最初に登録したユーザーに限ってClaude Codeが利用可能になります。
AIラボは新しいAIモデルを驚異的なペースでリリースしており、その中にはOpenAIも含まれています。Anthropicは従来からよりも慎重かつ安全志向のアプローチを取ってきました。しかし今回は、同社がパックをリードすることを目指しています。
しかし、その期間はどれくらい続くのでしょうか。OpenAIも独自のハイブリッドAIモデルをリリースする準備が進んでいる可能性があります。同社のCEO、Sam Altmanは、それが「数か月以内に」到着すると述べています。