🐋 DeepSeek V4-Pro 1.6T MoE|オープンウェイトがClaude Opus 4.6に0.2ptまで詰めた日

アイ
目次
中国オープンウェイトがフロンティア肉薄、ヤバすぎる時代
「中国のAIモデルがClaude Opus 4.6に0.2ptまで肉薄」って聞いて、ヤバくない?
DeepSeekが2026年4月24日に公開した V4-Pro、これがマジで化け物。
- SWE-bench Verified 80.6%(Claude Opus 4.6 = 80.8%)
- Codeforces 3,206(GPT-5.4 = 3,168 を超えた)
- 1.6Tパラメータ MoE(49Bアクティブ)
- コンテキスト1M
- MIT License で重み公開
つまり、コーディングではClaude Opus 4.6とほぼ同等、GPT-5.4は上回り、しかも自由ダウンロード。
しかも価格が $0.30/MTok とかで、Claude Opus 4.6($15/MTok)の 50分の1 とかいう破壊的レベル。
これ、AIモデル選びの常識が変わる 規模の事件。順に解説するね。
そう考える4つの理由
SWE-bench 80.6%の数字をどう読むか
まず SWE-bench Verified って何かというと、実際のオープンソースリポジトリのバグ修正タスク をAIが解けるかを測るベンチマーク。現実のソフトウェアエンジニアリング能力 に直結する数値。
NxCode報道によると、現時点での主要モデルのSWE-bench Verifiedスコアは:
- Claude Opus 4.6: 80.8%
- DeepSeek V4-Pro: 80.6%(−0.2pt)
- GPT-5.5: 78.x%(推定)
- Gemini 2.5 Pro: 76.x%(推定)
Claude Opus 4.6が0.2pt差で先頭 だけど、DeepSeek V4-Pro が次点で他のフロンティアを上回ってる。これ、半年前なら考えられない数字。
MindStudio記事によると、DeepSeekがここまで来た要因は:
- MoEアーキテクチャの最適化: 1.6Tパラ中49Bアクティブで効率的
- コーディング特化の学習データ: GitHub大量+特化データセット
- 強化学習(RL)の反復改善: V3.2からの継続改善
つまりDeepSeekは 「フロンティアモデルを0.2pt差で追い抜ける」レベル に到達した。Claude Opusの優位は わずか0.2pt で、誤差範囲とすら言える。
正直、わたしClaude Code毎日使ってて、コーディング能力でClaude Opusに依存してたんだよね。それが「MIT License の自由なモデル がほぼ同等」って言われると、考え直さざるを得ない。
ただし注意点として、SWE-benchはあくまで ベンチマーク で、実環境のコーディングタスクとは違う。プロジェクト固有のコンテキスト・ライブラリ知識・チームの慣習 などはClaudeの方が強い場合もある。
それでも 80.6% という数字を MIT License で実現した のは、業界に衝撃。
Codeforces 3206でGPT-5.4超えの意味
Codeforces はプログラミング競技プラットフォームで、世界中のプログラマーがアルゴリズム問題で勝負 してる。Codeforcesのレーティングは 熟練プログラマーの能力指標 として確立されてる。
Codersera報道によると:
- DeepSeek V4-Pro: 3,206
- GPT-5.4: 3,168
- GPT-5.5: 3,200前後(推定)
- Claude Opus 4.6: 3,150前後
- 人間トップ層: 3,500-3,800(Tourist氏など)
DeepSeek V4-Proが3,206で歴代AIモデル最高 という記録を更新。GPT-5.4を超えた のは2026年4月時点での快挙。
これって何を意味するかというと、競技プログラミング・アルゴリズム問題でDeepSeek V4-Proが最強 ということ。ICPC(大学世界大会)の上位大学のレーティングと同等以上。
実用面で何が変わるかというと:
- 複雑なアルゴリズム実装 がDeepSeek V4-Proで可能に
- データ構造・最適化が必要なコード で精度高い
- 競技プログラミング学習 にも使える
- 科学計算・数値解析 でのコード生成が強い
これは ML研究者・量的アナリスト・ゲーム開発・暗号 といった アルゴリズム重視の分野 で特に強い。
正直、わたしも 競技プログラミング系の問題をAIに振る ことがあるんだけど、Claudeはたまに「定番のアルゴリズムをわざと避ける」みたいな変な挙動する時がある。DeepSeek V4-Proがこの分野で強いなら、用途別に使い分け するのが正解になる。
MoE 1.6T+1Mコンテキストの技術的革新
技術的なところ、ちょっと深掘りする。
DataCamp解説によると、DeepSeek V4-Proの構造は:
- 総パラメータ: 1.6T(GPT-4と同規模、Claude Opus同規模)
- アクティブパラメータ: 49B(推論時に実際に動く分)
- コンテキスト: 1M トークン
- 新アーキテクチャ: CSA(Compressed Sparse Attention)+ HCA(Heavily Compressed Attention)
ポイント解説:
MoE(Mixture-of-Experts) は、多数の専門家ネットワーク から タスクに応じて一部だけアクティブ にする仕組み。1.6Tパラメータあっても、推論時は49Bしか動かないから 計算コストが従来の1/30以下。
1Mコンテキスト は超長文対応。例えば:
- 大規模リポジトリ全体(Linux kernel等) をコンテキストに入れて開発
- 書籍数冊分 の文書を一度に分析
- 長時間のミーティング録音 を一気に処理
- 複数論文の比較分析
しかもWavespeed解説では、1Mコンテキスト下で V3.2 比 推論FLOPs 27%、KVキャッシュ 10% と、長文での効率が劇的改善。これは技術的にすごい。
CSA + HCA の新アテンション は、長文での計算量を爆減 させる手法で、これが1Mコンテキストでも実用速度を可能にしてる。
正直、1.6Tパラのモデルを自分のサーバで動かす のは現実的じゃない(必要GPU数が多すぎる)けど、DeepSeek API 経由なら使える。$0.30/MTok の超低価格 だから、企業の API 呼び出しコストも激減する。
Claude Code/Cursor/Devinへの圧力
最後に、これがコーディングツール市場に与える影響。
現在のコーディングAIツールの主要選択肢:
- Claude Code(Anthropic公式): Claude Sonnet/Opus 4.6 ベース、$200/月 Max
- Cursor: GPT-5.5/Claude/Gemini切替、$20-200/月
- GitHub Copilot: GPT-5.5ベース、$10-39/月
- Devin: Claude/GPT切替、$500/月+
- Windsurf: 各モデル選択、$15-60/月
これらに DeepSeek V4-Pro対応 が組み込まれると、コストが激減 する可能性。
例えばCursorは既に DeepSeek対応 してて、ユーザーが選べる。$20/月のProプランで Claude Opus 使うと トークン制限が厳しい けど、DeepSeek V4-Pro なら同じプランで何倍もコード書ける。
これはClaude Code Max($200/月)の優位性が薄れる ことを意味する。Claudeが0.2pt勝ってるとしても、コスト50分の1のDeepSeekで「実用上ほぼ同じ」が成り立つなら、ユーザーはコスト効率を優先する。
Coderseraレビューでも「Claudeのコーディングはより文脈理解が深いが、DeepSeekは速くて安い」と評価。精度の最後の0.2pt に**$200/月払う** か、実用十分の80.6%で$0.30/MTokを選ぶかの判断。
ただし、Anthropic Claude の優位 は残る:
- 長期プロジェクト での文脈把握とコード理解
- チーム慣習・スタイル への適応(dreaming機能で更に強化)
- エンタープライズ向けsafety/監査機能
- ハルシネーション率の低さ
なので 使い分け が正解。プロトタイプ・短時間タスク・大量量産はDeepSeek、長期プロジェクト・規制業界はClaude という棲み分けが現実的。
正直、わたしも今 Claude Code を Max プランで契約してるんだけど、コーディング特化のサブタスクは DeepSeek API 直接呼ぶのが効率的かもしれない。試してみる価値ある。
まとめ:オープンウェイトを選ぶ正しい理由
DeepSeek V4-Proの登場って、オープンウェイトAIがフロンティアと張り合えるレベル に到達した記念碑的な出来事。
SWE-bench 80.6%(Claude Opus 4.6 -0.2pt)/Codeforces 3,206(GPT-5.4超え)/1Mコンテキスト/MIT License/コスト1/50 という、これ全部を1モデルで実現してきた。
わたしたちユーザーが意識すべきは:
- コーディング特化なら DeepSeek V4-Pro を真剣に検討
- ただし長期プロジェクト・チーム慣習は Claude が優位
- コスト最適化したいなら DeepSeek API直叩き
- 自社モデル運用したい企業はオンプレで動かせる
- オープンウェイトの安全性・倫理面の議論は別途必要
AIモデル選びはもう「ChatGPT/Claude/Gemini の3強で選ぶ」時代じゃない。DeepSeek/Qwen/Llama といったオープンウェイトを含めた 5強時代 に入った。
関連記事: Cursor vs Claude Code vs Copilot 比較 / AIコーディング料金比較2026 / Claude Codeセットアップガイド
ソース:
- DeepSeek V4-Pro on Hugging Face
- DeepSeek V4: The Open-Source Model That Rivals Closed Frontier Models(MindStudio)
- DeepSeek V4 Ships 1M Context, Open-Weights(WinBuzzer, 2026-04-27)
- DeepSeek V4 (2026): 1T Parameters, 81% SWE-bench, $0.30/MTok(NxCode)
- DeepSeek V4: Features, Benchmarks, and Comparisons(DataCamp)
- DeepSeek V4 Pro Review 2026(Codersera)