Model Brief · 2026-05-02

GPT-5.5 vs GPT-5.4

從「更便宜的專業模型」到「最複雜工作的新 frontier」：怎麼選、差在哪、何時值得升級。

資料來源：OpenAI API model docs 與 2026-04-23 GPT-5.5 發布文。

5.5

Executive Takeaway

一句話：5.5 是能力升級，5.4 是成本基準

更強官方定位：GPT-5.5 是 newest frontier model，面向最複雜 professional work。

更快標示API model page 標示 GPT-5.5 speed: Fast；GPT-5.4 speed: Medium。

貴 2x標準 API token 價格：5.5 為 $5 / $30，5.4 為 $2.5 / $15。

Positioning

模型定位不是同價位替代，而是上下階層

面向	GPT-5.5	GPT-5.4
官方摘要	coding 與 professional work 的新一級 intelligence	更 affordable 的 coding / professional work 模型
主要任務	長任務、工具鏈、多步推理、ambiguous work、agentic coding	穩定處理多數複雜專業工作，成本更可控
選型角色	高價值、高風險、高難度任務的 primary model	日常專業任務、批量工作、成本敏感流程的 default model

API Specs

規格大致相同，差異集中在能力、速度標示、價格

1.05M兩者 API docs 均列 1,050,000 context window。

128K兩者 max output tokens 均為 128,000。

Text + Image輸入支援文字與圖片；輸出為文字。

No Audio兩者皆不支援 audio / video modality。

Reasoning

reasoning_effort 預設不同，遷移時要注意

參數	GPT-5.5	GPT-5.4	影響
支援值	none, low, medium, high, xhigh	none, low, medium, high, xhigh	可用 effort 階層一致
官方標示預設	medium	none	若沿用空參數，5.5 可能更願意思考，也可能花更多 reasoning tokens
實務建議	高價值任務用 medium/high/xhigh	低成本批量先用 none/low	用 eval 決定 effort，而不是只換 model id

Price

API 價格：GPT-5.5 是 GPT-5.4 的 2 倍

GPT-5.5

$5 input$0.50 cached$30 output

適合把模型錯誤、人工作業時間、重試成本一起算入 ROI 的任務。

GPT-5.4

$2.5 input$0.25 cached$15 output

適合高流量、可容忍少量失敗、或已有清楚 guardrails 的流程。

兩者長 prompt 超過 272K input tokens 時，官方頁都列出長上下文加價規則。

Benchmarks · Coding

coding 類 benchmark：5.5 全面領先，但幅度不平均

SWE-Bench Pro

58.657.7

Terminal-Bench 2.0

82.775.1

Expert-SWE internal

73.168.5

綠色為 GPT-5.5，琥珀色為 GPT-5.4。資料：OpenAI GPT-5.5 release evaluations。

Benchmarks · Tools

工具使用與 agent workflow：5.5 的價值更明顯

BrowseComp

84.482.7

MCP Atlas

75.370.6

Toolathlon

55.654.6

Tau2 Telecom

98.092.8

Benchmarks · Long Context

長上下文：5.5 在超長檢索上拉開差距

Graphwalks BFS 1M

45.49.4

MRCR 256K-512K

81.557.5

MRCR 512K-1M

74.036.6

如果任務真正吃到 200K+ context，而不是只是宣稱長上下文，5.5 更值得測。

Professional Work

知識工作：5.5 是「完成任務」導向，不只是回答問題

GPT-5.5 優勢

把混亂、多步驟需求拆解成可完成工作。
更能跨工具推進：研究、分析、文件、表格、軟體操作。
更適合長時間保持目標與檢查假設。

GPT-5.4 仍適合

需求已結構化、prompt 已穩定的日常工作。
可透過 retry / validation 控制品質的批量任務。
成本比最高智能更重要的工作流。

Tools / API Surface

工具與 endpoint 支援基本一致

兩者 model pages 都列出 Responses、Chat Completions、Batch 等 endpoint，並支援 streaming、function calling、structured outputs。Responses API 下的 tools 也都包含 web search、file search、code interpreter、hosted shell、apply patch、skills、computer use、MCP、tool search。

ResponsesChat CompletionsStreamingFunction callingStructured outputsMCPComputer use

Safety

5.5 能力更高，也伴隨更嚴格的安全治理

HighOpenAI 將 GPT-5.5 的生物/化學與 cybersecurity capabilities 視為 Preparedness Framework 下的 High。

Stricter發布文提到 5.5 對高風險 cyber 活動與敏感請求有更緊的控制。

實務含義：資安、生物、化學、雙重用途領域的產品設計不能只看能力，也要預期更嚴格的分類與拒答行為。

Selection Rule

選 GPT-5.5 的情境

長程 coding

跨多檔案、多輪 debug、需要工具驗證與 patch integration。

高價值知識工作

研究報告、法律/商業/教育/資料科學分析，需要完整產出。

超長 context

真正需要 256K 到 1M context 內追蹤線索、找 needle、保持結構。

Selection Rule

留在 GPT-5.4 的情境

成本敏感

輸入/輸出量大，且錯誤成本低於 5.5 的額外 token cost。

任務已產品化

prompt、schema、validator 都成熟，模型只需穩定執行。

中等難度

摘要、分類、改寫、常規 coding 幫助，不需要長時間 agentic persistence。

Migration

升級不是只把 model id 換掉

檢查點	建議
reasoning_effort	明確設定 none/low/medium/high/xhigh，避免預設差異造成成本與延遲變化。
成本監控	分開追蹤 input、cached input、output、reasoning tokens 與 retry 次數。
eval set	用真實失敗案例測 5.5 是否減少人工介入，而不只看單次答案品質。
fallback	常規任務保留 5.4 fallback；把 5.5 留給更高價值或失敗後 escalation。

Architecture Pattern

推薦路由：5.4 default，5.5 escalation

Default

先用 GPT-5.4 處理可預期、可驗證、批量化任務。

低風險短上下文固定 schema

失敗條件：validator fail、tool loop、context 超長、人工標記高價值、需要跨工具完成。

升級到 GPT-5.5提高 reasoning_effort保留 trace

Bottom Line

決策結論

買 5.5 的不是「更漂亮的回答」

而是更少中斷、更強工具協調、更能把 messy request 推到完成，尤其是 coding、研究與知識工作。

保留 5.4 的理由仍然強

它便宜一半，API surface 近似，對成熟流程仍是很好的 professional model。

Sources

官方來源

OpenAI API Docs: GPT-5.5 model page
OpenAI API Docs: GPT-5.4 model page
OpenAI: Introducing GPT-5.5, published 2026-04-23, API update 2026-04-24

本簡報只整理官方公開資訊；未公開的架構、訓練資料與內部 serving 細節不推測。