Model Brief · 2026-05-02

GPT-5.5 vs GPT-5.4

從「更便宜的專業模型」到「最複雜工作的新 frontier」:怎麼選、差在哪、何時值得升級。

資料來源:OpenAI API model docs 與 2026-04-23 GPT-5.5 發布文。

5.5
Executive Takeaway

一句話:5.5 是能力升級,5.4 是成本基準

更強官方定位:GPT-5.5 是 newest frontier model,面向最複雜 professional work。
更快標示API model page 標示 GPT-5.5 speed: Fast;GPT-5.4 speed: Medium。
貴 2x標準 API token 價格:5.5 為 $5 / $30,5.4 為 $2.5 / $15。
Positioning

模型定位不是同價位替代,而是上下階層

面向GPT-5.5GPT-5.4
官方摘要coding 與 professional work 的新一級 intelligence更 affordable 的 coding / professional work 模型
主要任務長任務、工具鏈、多步推理、ambiguous work、agentic coding穩定處理多數複雜專業工作,成本更可控
選型角色高價值、高風險、高難度任務的 primary model日常專業任務、批量工作、成本敏感流程的 default model
API Specs

規格大致相同,差異集中在能力、速度標示、價格

1.05M兩者 API docs 均列 1,050,000 context window。
128K兩者 max output tokens 均為 128,000。
Text + Image輸入支援文字與圖片;輸出為文字。
No Audio兩者皆不支援 audio / video modality。
Reasoning

reasoning_effort 預設不同,遷移時要注意

參數GPT-5.5GPT-5.4影響
支援值none, low, medium, high, xhighnone, low, medium, high, xhigh可用 effort 階層一致
官方標示預設mediumnone若沿用空參數,5.5 可能更願意思考,也可能花更多 reasoning tokens
實務建議高價值任務用 medium/high/xhigh低成本批量先用 none/low用 eval 決定 effort,而不是只換 model id
Price

API 價格:GPT-5.5 是 GPT-5.4 的 2 倍

GPT-5.5

$5 input$0.50 cached$30 output

適合把模型錯誤、人工作業時間、重試成本一起算入 ROI 的任務。

GPT-5.4

$2.5 input$0.25 cached$15 output

適合高流量、可容忍少量失敗、或已有清楚 guardrails 的流程。

兩者長 prompt 超過 272K input tokens 時,官方頁都列出長上下文加價規則。

Benchmarks · Coding

coding 類 benchmark:5.5 全面領先,但幅度不平均

SWE-Bench Pro
58.657.7
Terminal-Bench 2.0
82.775.1
Expert-SWE internal
73.168.5

綠色為 GPT-5.5,琥珀色為 GPT-5.4。資料:OpenAI GPT-5.5 release evaluations。

Benchmarks · Tools

工具使用與 agent workflow:5.5 的價值更明顯

BrowseComp
84.482.7
MCP Atlas
75.370.6
Toolathlon
55.654.6
Tau2 Telecom
98.092.8
Benchmarks · Long Context

長上下文:5.5 在超長檢索上拉開差距

Graphwalks BFS 1M
45.49.4
MRCR 256K-512K
81.557.5
MRCR 512K-1M
74.036.6

如果任務真正吃到 200K+ context,而不是只是宣稱長上下文,5.5 更值得測。

Professional Work

知識工作:5.5 是「完成任務」導向,不只是回答問題

GPT-5.5 優勢

  • 把混亂、多步驟需求拆解成可完成工作。
  • 更能跨工具推進:研究、分析、文件、表格、軟體操作。
  • 更適合長時間保持目標與檢查假設。

GPT-5.4 仍適合

  • 需求已結構化、prompt 已穩定的日常工作。
  • 可透過 retry / validation 控制品質的批量任務。
  • 成本比最高智能更重要的工作流。
Tools / API Surface

工具與 endpoint 支援基本一致

兩者 model pages 都列出 Responses、Chat Completions、Batch 等 endpoint,並支援 streaming、function calling、structured outputs。Responses API 下的 tools 也都包含 web search、file search、code interpreter、hosted shell、apply patch、skills、computer use、MCP、tool search。

ResponsesChat CompletionsStreamingFunction callingStructured outputsMCPComputer use

Safety

5.5 能力更高,也伴隨更嚴格的安全治理

HighOpenAI 將 GPT-5.5 的生物/化學與 cybersecurity capabilities 視為 Preparedness Framework 下的 High。
Stricter發布文提到 5.5 對高風險 cyber 活動與敏感請求有更緊的控制。

實務含義:資安、生物、化學、雙重用途領域的產品設計不能只看能力,也要預期更嚴格的分類與拒答行為。

Selection Rule

選 GPT-5.5 的情境

長程 coding

跨多檔案、多輪 debug、需要工具驗證與 patch integration。

高價值知識工作

研究報告、法律/商業/教育/資料科學分析,需要完整產出。

超長 context

真正需要 256K 到 1M context 內追蹤線索、找 needle、保持結構。

Selection Rule

留在 GPT-5.4 的情境

成本敏感

輸入/輸出量大,且錯誤成本低於 5.5 的額外 token cost。

任務已產品化

prompt、schema、validator 都成熟,模型只需穩定執行。

中等難度

摘要、分類、改寫、常規 coding 幫助,不需要長時間 agentic persistence。

Migration

升級不是只把 model id 換掉

檢查點建議
reasoning_effort明確設定 none/low/medium/high/xhigh,避免預設差異造成成本與延遲變化。
成本監控分開追蹤 input、cached input、output、reasoning tokens 與 retry 次數。
eval set用真實失敗案例測 5.5 是否減少人工介入,而不只看單次答案品質。
fallback常規任務保留 5.4 fallback;把 5.5 留給更高價值或失敗後 escalation。
Architecture Pattern

推薦路由:5.4 default,5.5 escalation

Default

先用 GPT-5.4 處理可預期、可驗證、批量化任務。

低風險短上下文固定 schema

失敗條件:validator fail、tool loop、context 超長、人工標記高價值、需要跨工具完成。

升級到 GPT-5.5提高 reasoning_effort保留 trace

Bottom Line

決策結論

買 5.5 的不是「更漂亮的回答」

而是更少中斷、更強工具協調、更能把 messy request 推到完成,尤其是 coding、研究與知識工作。

保留 5.4 的理由仍然強

它便宜一半,API surface 近似,對成熟流程仍是很好的 professional model。

Sources

官方來源

本簡報只整理官方公開資訊;未公開的架構、訓練資料與內部 serving 細節不推測。