Cursor Composer 2 ついにリリース。その性能は・・・速いだけじゃない!

Composer 2 を日々の開発で使ったときの体感。公式ベンチや料金の整理に加え、往復が減るかどうかという現場目線で書いたメモ。

🙌 結論からいうと

Composer 2 は速さだけじゃなくて性能面でもかなりいい感触!ベンチマークテストでopus4.6を上回った、というだけある。

速いだけでズレるモデルだと、結局こちらが言い直して 往復が増える んですよね・・・。そこが減ったのが、いちばんありがたかったです 🙌

公式では 2026年3月19日に Composer 2 を公開し、Terminal-Bench 2.0 で 61.7、SWE-bench Multilingual で 73.7 などのスコアを掲げています。

料金は案内どおり 入力 $0.50/M・出力 $2.50/M(標準)という理解で読んでいます。

数値や価格はアップデートで変わるので、最新は Cursor 側の表示を優先してください 👀

👀 この記事の前提(Cursor)

Cursor エディタの 独自モデルの Composer 周りの話です。

話題の背景として、公式が示している CursorBench(コーディング性能を測るベンチマークの一つ)の結果を、Performance vs. Cost の散布図でまとめた図を置きます。

縦軸は CursorBench のスコア(%)で上に行くほど高性能横軸はタスクあたりの中央値コストで、右に行くほど安い(軸の向きに注意)という読み方です。

右上に近いほど「安くて精度が高い」ゾーンと捉えるとわかりやすいです。

図では Composer 2 が、高精度側の GPT-5.4 系に近いスコア帯を保ちつつ、コストはかなり低め。(やっぱり複雑な思考系はGPTが強い・・・)

CursorBench における Performance vs. Cost の散布図。縦軸は CursorBench スコア(%)、横軸はタスクあたりの中央値コスト(右ほど低コスト)。Composer 2・Composer 1.5・GPT-5.4・Opus 4.6 などのプロットが並ぶ

💡 今回なにが話題になったか

大きいのは二つだと思います 💡

  • 公式が Composer 2 を「frontier-level coding intelligence」として打ち出したこと。Terminal-Bench 2.0 では、案内されている範囲では Composer 1.5 の 47.9 から 61.7 へ上がった、という説明があります。
  • 報道などで一部ベンチでは Claude Opus 4.6 を上回ったといった見出しが流れて、注目が集まったこと。

✨ 触って、最初に感じた変化

いちばん手応えがあったのは Composer 1.5と違い、 初手の提案・返答が格段に性能が上がってます。

仕事上だと、

  • 既存コードを読ませて改修方針を出す
  • バグの原因候補を絞る
  • 影響範囲を見ながら直す
  • ついでにテストを足す

みたいな流れが多いと思うんですが、以前は 速いけど前提がズレる とか 方向は近いけど肝心のところが外れる がそこそこありました。

Composer 2 は、文脈の拾い方が格段に良くなった・・・ という感触です。cursorの独自モデルやるな・・。

他のモデルを使うとAPI使用量とか気にしないといけなかったので、独自モデルで低コストで使用できるのでめっちゃ助かります。

💡 実際の使い方

私の仕事だと、次の感じ 💡

  • 既存実装を壊さずに足す
  • 型や命名のルールを崩さない
  • 責務の分け方に合わせる
  • 小さい差分で出したい

私は レビュー前の整形・叩き台 → 差分を見ながら微調整 の流れでよく使います。「この関数の責務は変えずに」「命名は既存に寄せて」「このファイルだけで閉じて」みたいな指示への追従が、前よりストレスが少なかったです。

修正や指示の意図を文脈を意識しながら自然に汲み取ってくれる感じ!

そのうえで個人的な話ですが、Pro プランあたりで API 使用量やクォータを気にしながら、あえて Composer だけをメインにしないようにしていた時期もありました。

やはりここぞというときは、gpt5.4を使いたくなる。

ただ Composer 2 が出てからは、こちらをメインルートとして使っても全然いいかもという感覚です。

😅 万能じゃないところ

長めの作業や複数ファイルにまたがる修正でも強くなった感じはありますが、前提がズレたまま進めると普通に危ない のは変わりません 😅

なので私は今でも、

  • 要件を短く整理してから投げる
  • 触ってほしくないところを先に書く
  • 差分は必ず読む

の三つは崩していません。

ベンチが強いからといって 「モデルが強い=全自動で安心」 にはならないので、過信はしない方がいいと思います。

チームの書き方・レビュー文化・どこまで任せるかの方が効くことも多いです。

パパ系Webエンジニア〜愛用ガジェット一覧 🛍️

AI開発・執筆に使っている作業デスク環境を楽天ROOMにまとめています ✨ デスク周りの参考にどうぞ 🙌

👍 まとめ

Composer 2 は Cursorの未来を感じさせるアップデートだと思います。

👍 次に出るComposer3とかは今のgpt5.4よりも性能面で上回ってくれるのか。。そしたら本当に最強。


※ 製品名・料金・ベンチスコアは更新で変わります。最新は Cursor の公式情報を確認してください 👀