TL;DR:すべてに1つのAIモデルに固執する時代は終わりました。新しい「Antigravity」IDE環境では、効率はModel Arbitrage-タスクの複雑さとモダリティに基づいてモデルを切り替えることに依存します。私の現在のスタックは?Claude Sonnet 4.5(思考)が毎日の主力です。Gemini 3 Proはマルチモーダルのスペシャリストだ。そしてClaude Opus 4.5は「緊急時にはガラスを割る」スペシャリストです。ここでは、ヒエラルキーの内訳と、それをどのように適用するかについての3つの実際のケーススタディを紹介する。
マーキュリー・テクノロジー・ソリューションズのCEO、ジェームスである。
私は最近、Antigravity(新しい AI ネイティブ IDE)で多くの時間を過ごしています。私のチームから繰り返し受ける質問があります:「実際にはどのモデルを使用すべきですか?バージョンが多すぎます。
ChatGPT-5.1-Thinkingに最新のベンチマークと照らし合わせて私の直感を検証してもらったところ、その結果は私の日々のワークフローと完全に一致した。
純粋に総合的なコーディング能力(アーキテクチャ、リファクタリング、デバッグ、コンテキストウィンドウ)でランク付けすると、2025年後半の階層は次のようになる:
- クロード 作品4.5(思考) - ザ・アーキテクト
- クロード・ソネット4.5(シンキング) / ジェミニ3プロ(ハイ) - シニア・エンジニア
- クロード・ソネット4.5/ジェミニ3・プロ(低) - ファスト・イテレーターズ
- GPT-OSS 120B (ミディアム) - オープンソース・バックアップ
ここでは、どのような場合に何を使うのかという戦略的な内訳と、それに続く3つの具体的な使用例を紹介する。
ロースターエージェントを知る
1.重砲クロード作品4.5(シンキング)
- 役割: スタッフ・プリンシパル・エンジニア。
- ベンチマーク: SWE-benchの検証を支配しました(>80%の精度)。複雑な推論では Gemini 3 Pro と GPT-5.1 Codex を上回りました。
- 超能力: 深い推論ステップ。ただコードを書くのではなく、最初にアーキテクチャを計画する。ファイル間の依存関係で幻覚を見ることが少ない。
- 欠点: 高くて遅い。
- こんなときに使う 行き詰った。コアのレガシーモジュールをリファクタリングする必要がある。3つのマイクロサービス間の競合状態をデバッグする必要がある。
2.デイリードライバークロード・ソネット4.5(考える)
- 役割 シニア開発者。
- ベンチマーク: SWE-bench で ~77-82%。
- 超能力: 「エージェント的」スイートスポット。ツールを呼び出したり、複数のファイルを読み込んだり、エラーを修正したりするのに優れている。Thinking "バリアントは、90%のタスクで信頼できる安定性のレイヤーを追加します。
- 使用する場面 機能スケルトンの作成、標準的なリファクタリング、または PRD (製品要件ドキュメント) を初期コードに変換するとき。これはデフォルトの設定です。
3.マルチモーダルのスペシャリストジェミニ 3 プロ (高)
- 役割 フロントエンド/UIスペシャリスト。
- ベンチマーク: Terminal-Bench と WebDev Arena でほぼ満点。
- 超能力: 巨大なコンテキストウィンドウとネイティブのマルチモーダル機能を備えています。UI のスクリーンショットを「見る」ことができ、クロードよりも優れた CSS を修正できます。
- どんなときに使うか: Web/アプリのインターフェイスを構築しているとき、エラーのスクリーンショットに基づいてデバッグする必要があるとき、または膨大なドキュメント(PDF)を扱っているとき。
4.プライベート・オプションGPT-OSS 120B
- 役割 オンプレミスインターン。
- ベンチマーク: SWE-bench で ~62%。
- こんなときに使う: クラウドAPIを禁止する厳しいデータプライバシー要件がある場合、またはオープンソースのワークフローをテストしたい場合。そうでなければ、バックアップです。
戦略的ケーススタディ反重力の利用法
ひとつのモデルがすべてに適合する」アプローチはもう古い。ここでは、モデル裁定を実際のシナリオでどのように行うかを説明する。
ケーススタディA:「バイブ・コーディング」スプリント(PRDからプロトタイプまで)
シナリオ: GPU 使用率を追跡するための新しい内部ダッシュボードを構築する必要があります。大まかなテキスト記述 (PRD) とホワイトボードのスケッチがあります。
- ステップ1 (建築): Claude Opus 4.5に切り替える。PRDを貼り付ける。プロジェクト構造、データベーススキーマ、APIエンドポイントを定義するように依頼する。
- その理由 オパスは、最初の段階で構造上のミスを少なくする。基礎が悪いとプロジェクトは台無しになる。
- ステップ2 (実装): Claude Sonnet 4.5 (思考)に切り替える。ステップ 1 のアーキテクチャを与え、定型コードと基本関数を生成するように指示します。
- その理由 ソネットはより速く、より安い。Opusの設計図を完璧に踏襲している。
- ステップ 3 (UI磨き): Gemini 3 Pro (High)に切り替える。ホワイトボードスケッチの写真と現在の(醜い)ビルドのスクリーンショットをアップロードします。お願いします:「CSS をスケッチと一致させ、フレックスボックスの配置を修正してください。
- その理由 Geminiの視覚機能は、ビジュアルデバッグに優れています。
ケーススタディB:レガシー・ヘル」リファクタ
シナリオ: 3年前に書かれた重要なPythonサービスがクラッシュしている。コードはスパゲッティで、ドキュメントもありません。
- 移動: クロード・オーパス4.5(思考)をすぐに開く。
- プロンプト: 「これら15個のファイルを分析してください。データ変換ステップ中にメモリリークが発生しています。実行フローをトレースし、ロジックを保持しつつリークを修正するリファクタリングを提案してください。"
- なぜ: Sonnetは、他の何かを壊してしまうような素早いパッチを提供するかもしれない。Opusは、外科的な修正を提案する前に、15個のファイルの複雑なメンタル・モデル全体を「頭」に保持する「推論の深さ」を持っています。余分なコストをかける価値がある。
ケーススタディC:「フロントエンド・コンポーネント」ファクトリー
シナリオ: Figmaファイルに基づいて、デザインシステムのための50種類のReactコンポーネント(ボタン、モーダル、スライダー)を構築する必要があります。
- 移動: Gemini 3 Pro (High)またはSonnet 4.5 (Standard)。
- なぜか:これらは孤立した、複雑度の低い仕事です。ここでOpusを使うのはお金を浪費することになる。考える」モデルを使うのは時間の無駄です。標準的なSonnetやGemini Highは、高い精度でこれらを迅速に作成することができます。
結論:あなたのスタックがあなたのレバレッジになる。
反重力時代において、あなたは単なるコーダーではなく、モデル・オーケストレーターなのだ。
2026年の私のデフォルト設定:
- デフォルト: クロード・ソネット4.5(思考中)
- UI/ビジュアル: ジェミニ 3 プロ(高)
- クライシス/アーキテクチャー: クロード 作品4.5(シンキング)
AIモデルを、1つだけを崇拝する宗教のように扱うのはやめよう。ツールキットのように扱うのだ。額縁を飾るのにハンマーは使わないし、壁を壊すのにドライバーは使わない。
マーキュリー・テクノロジー・ソリューションズ: