Cursor新モデル「Composer 2.5」はGPT-5.5級のコーディング性能を低コストで狙うAIエージェント

AIコードエディタ「Cursor」を開発するAnysphereが、コーディングエージェント向けの新モデル「Composer 2.5」を発表しました。Composer 2.5はCursor上で利用可能になっており、従来モデルの「Composer 2」と比べて、長時間のタスクを継続して処理する能力、複雑な指示への追従性、ユーザーとの協働しやすさが大きく改善されたとのことです。
Composer 2.5 の紹介 · Cursor
https://cursor.com/ja/blog/composer-2-5
Composer 2.5では、モデルにタスクを実行させて成功・失敗に応じた報酬を与え、望ましい動作を学習させる強化学習が使われています。Cursorは、学習規模の拡大、より複雑な強化学習環境の生成、新しい学習手法の導入によって性能を引き上げたとのこと。ベンチマーク上の点数だけでなく、コミュニケーションの取り方や、タスクにどの程度の労力をかけるかといった実利用で重要な振る舞いも改善したと説明しています。
公開されたベンチマークでは、Composer 2.5はTerminal-Bench 2.0で69.3%、SWE-Bench Multilingualで79.8%、CursorBench 3.1で63.2%を記録しています。比較対象として示されたComposer 2はそれぞれ61.7%、73.7%、52.2%であり、特にCursorBench 3.1で大きく伸びていることが分かります。また、Claude Opus 4.7やGPT-5.5に匹敵するスコアを記録していることも確認できます。

CursorBench 3.1のスコアと1タスク当たりの平均コストを示したグラフでは、Composer 2.5が低コスト側に位置しながら、63%台のスコアを出している様子が示されています。Opus 4.7やGPT-5.5は推論設定を上げるとスコアも上がる一方で、平均コストも増える傾向があり、Composer 2.5はコストと性能のバランスを重視したモデルとして位置づけられています。

Composer 2.5は、Composer 2と同じくMoonshot AIのオープンソースチェックポイント「Kimi K2.5」を基盤にしています。Cursorは「Composer 2.5に使われた計算資源の85%は、追加学習と強化学習によるもの」と説明しており、基盤モデルをそのまま使うのではなく、コーディングエージェント向けに大きく手を加えていることを強調しました。

強化学習では、長いタスクの中で「どの判断が成功や失敗に影響したのか」を見分けることが難しくなります。Cursorは具体例として、数十万トークンに及ぶロールアウトを挙げています。ロールアウトとは、モデルがタスクを進める過程で出力する文章、コード編集、ツール呼び出しなどをまとめた一連の行動で、長いロールアウトの最後に報酬だけを与えても、誤ったツール呼び出しや不適切な説明など、局所的な失敗をピンポイントで修正することは困難です。
そこでComposer 2.5では、「テキストフィードバックを用いたターゲット型強化学習」が導入されています。これはヒントありのコンテキストで得られるモデル出力を教師信号として使い、ヒントなしのモデルが同じように適切な選択をできるように学習させる手法です。たとえばモデルが利用できないツールを呼び出した場合、モデルに渡すコンテキストには「利用可能なツールはRead、Write、Shell、StrReplaceです」といった短いヒントを挿入します。ヒントありのコンテキストで得られた出力確率分布を、ヒントなしで動くComposer 2.5の学習目標として使うことで、誤ったツール名を出す確率を下げ、有効なツールを選ぶ確率を上げる仕組みです。

Cursorは、この「テキストフィードバックを用いたターゲット型強化学習」という手法をツール呼び出しだけでなく、コーディングスタイルやコミュニケーションの改善にも使ったとのこと。単に「タスクに成功したかどうか」だけを見るのではなく、モデルがどの場面で間違った選択をしたのかを狙って修正する学習方法だといえます。
Composer 2.5では、合成データも大規模に使われています。Cursorによると、Composer 2.5はComposer 2の25倍の合成タスクで学習されています。合成タスクとは、人間が手作業で作った問題だけではなく、既存のコードベースなどから自動的に作成した学習用の問題を指します。
合成タスクの例として、Cursorは「機能削除」を挙げています。機能削除では、テスト群を含むコードベースから特定の機能に関するコードやファイルを削除し、モデルに削除された機能を再実装させます。テストが通れば報酬を与えられるため、モデルにとっては実際のソフトウェア開発に近い形で能力を伸ばせる仕組みです。
一方で、合成タスクには「報酬ハック」が起きる可能性もあります。報酬ハックとは、モデルが本来期待された方法で問題を解くのではなく、テストに合格するための抜け道を見つけて報酬を得ることです。Cursorは、Composer 2.5がPythonの型チェック用キャッシュを解析して削除された関数シグネチャを推定した例や、Javaのバイトコードを逆コンパイルしてサードパーティーAPIを再構築した例を挙げています。

モデルの学習基盤について、Cursorは巨大モデルのパラメータ更新を効率化するための最適化手法「Sharded Muon」と、通常の重みと専門家モデル部分の重みに別々の分散配置を使うことで通信コストを抑えながら大規模な学習を進める仕組み「dual mesh HSDP」の2つを導入したと説明しています。Cursorは、1兆パラメータ規模のモデルでオプティマイザのステップ時間が0.2秒だったと述べています。
Composer 2.5の価格は、通常版が入力100万トークン当たり0.50ドル(約80円)、出力100万トークン当たり2.50ドル(約400円)です。また、同程度の知能でより高速に動作する高速版も用意されており、入力100万トークン当たり3.00ドル(約477円)、出力100万トークン当たり15.00ドル(約2380円)に設定されています。Composer 2と同様に、高速版がデフォルトの選択肢になるとのこと。
CursorはComposer 2.5について、ベンチマーク上の性能向上だけでなく、長時間の作業、複雑な指示への対応、ユーザーとのやり取りの改善を重視したモデルだと述べています。また、初週はComposer 2.5の使用可能量が2倍になるとも案内しています。
・関連記事
コーディングAIエージェントの支援を受けてソフトウェアを開発する手法「エージェントエンジニアリング」とは? - GIGAZINE
信頼できるAIコーディングを実現するためのオープンソース証明検証基盤「Leanstral」をMistral AIがリリース、重大なボトルネック「人間によるレビュー」の克服を目指す - GIGAZINE
AIでコードを再構築することが容易になったことで「コードをコピーしたらライセンスを引き継ぐ」というルールが破壊されているという指摘 - GIGAZINE
「DeepSeek V4 Proはアメリカの主要AIモデルに比べて約8カ月遅れているが現状最も高性能な中国製AIモデル」とアメリカ政府のAIリスク管理機関であるCAISIが報告 - GIGAZINE
AI生成コードを含むプルリクエストを一律禁止にするべき理由がよくわかる「貢献者ポーカー」とは? - GIGAZINE
・関連コンテンツ
in AI, Posted by log1d_ts
You can read the machine translated English article Cursor's new model, 'Composer 2.5,' ….







