← → 翻頁 · ESC 索引
NVIDIA AI PLATFORM
2026
Inference Microservices

NIM

把任何 AI 模型變成
一條 API 呼叫

完整導覽與推薦 api.nvidia.com
WHAT IS NIM
架構
核心概念

模型 + 推理引擎 + API
三合一 Container

每個 NIM 是一個獨立 container,裡面打包好模型權重、推理引擎(TensorRT-LLM / vLLM),以及 OpenAI 格式的 API server。換個 base_url,你現有的程式碼直接用。

01
你的 App
任何語言 · 任何框架
02
NIM API
/v1/chat/completions
OpenAI 相容格式
03
推理引擎
TensorRT-LLM 自動最佳化
vLLM 備援
04
GPU
H100 / A100 / RTX
雲端或本地
NVIDIA NIM API 1 / 10
DEPLOYMENT OPTIONS
兩種模式
Cloud API

api.nvidia.com

零部署,直接呼叫。免費額度每模型約 1,000 次請求,超過按 token 付費,比 OpenAI 便宜約 5–10 倍。

零成本啟動 · 數百個模型 · 免費測試

適合:API 串接、快速測試、備援路徑
Self-hosted

本地 Docker

從 NGC 拉 container,跑在自己的 GPU 上。資料完全不離開本機,離線可用。

最低延遲 · 完全隱私 · 離線可用

適合:生產部署、隱私需求、大量推理
NVIDIA NIM API 2 / 10
AVAILABLE MODELS
可用模型
六大類別

數百個模型,即開即用

大型語言模型
LLM
Llama 3.3 · Mistral · Gemma · Qwen
嵌入向量
Embed
NV-Embed-v2 · E5 · 1024 維向量
重排序
Rerank
NV-RerankQA · Mistral-4B Reranker
多模態視覺
Vision
Llama 3.2 Vision · LLaVA · NVLM
圖片生成
Image
SDXL · Flux · Stable Diffusion 3
語音
Speech
Whisper · Canary ASR
NVIDIA NIM API 3 / 10
FOR YOU
個人化推薦
Personalized

你的工具堆裡
缺少什麼?

你有 Claude、Gemini、pplx-cli、fal-cli,但有一塊是空的:Embedding 和 Reranker。這正是 NIM 能補的。

個人化推薦 ─ Act II ─
RECOMMENDATION 01
最值得做
Vault 語意搜尋

把幾百篇筆記
變成語意索引

現在只有 Obsidian 關鍵字搜尋。用 NV-Embed 向量化全 vault,搭配 sqlite-vec,就能問語意問題找筆記。工具堆唯一缺的那塊。

模型:nvidia/nv-embedqa-e5-v5 · 1024 維 · 免費額度夠建索引
推薦模型
nv-embed-v2
MTEB 排行榜前段班,1024 維向量,支援 query / passage 雙模式
「咖啡萃取率的筆記在哪?」
語意搜尋能理解語意,不需要關鍵字完全匹配
NVIDIA NIM API 推薦 1 / 3
RECOMMENDATION 02
備援路徑
LLM 備援路徑

Gemini 429 時的
第三條路

現有備援
Claude → Gemini → pplx
pplx 主要用搜尋,不是純 LLM;兩條路都滿時沒有第三選項
加入後
+ NIM Llama 3.3-70B
OpenAI-compatible,現有 Gemini delegate 程式碼改一行 base_url 即可接上
效益
降低單點失敗
研究型任務可三路並行:Gemini + NIM + pplx,互補 429 限制
base_url = "https://integrate.api.nvidia.com/v1" OpenAI SDK,換一行就接上,現有程式碼不需改
NVIDIA NIM API 推薦 2 / 3
RECOMMENDATION 03
開發效率
開發測試省 Claude Quota

新 Skill 開發
先用 Llama 跑

初期 prompt 邏輯驗證用 Llama-8B(快、免費),確認後換 70B 做品質對齊,定稿才燒 Claude quota 做最終驗收。

開發期
8B
llama-3.1-8b-instruct
速度快,免費額度充足,跑邏輯
測試期
70B
llama-3.3-70b-instruct
接近 Claude 品質,做品質對齊
生產期
Claude
Sonnet / Opus
確認效果後才燒 quota 做驗收
NVIDIA NIM API 推薦 3 / 3
QUICK START
三步起手
行動清單

三步起手式

01 · 取 API Key
build.nvidia.com
免費註冊,取 nvapi-xxxx,每模型送 1,000 次免費請求;加進 ~/.zshrc
02 · 測試 Embedding
nv-embedqa-e5-v5
用 wiki/ 裡 10 篇筆記跑一遍,確認向量品質與維度輸出
03 · 建 vault-embed
sqlite-vec + NV-Embed
全 vault 語意索引;這是工具堆唯一缺的那塊,免費額度夠跑
export NVIDIA_API_KEY="nvapi-xxxx" pip install openai sqlite-vec 起手兩行,其餘走 OpenAI SDK
NVIDIA NIM API 快速開始
SUMMARY
結語
你的下一步

最值得做的一件事:
Vault Embedding

立刻

build.nvidia.com 取 API Key
加進 ~/.zshrc

本週

寫 vault-embed.py
對 wiki/ 建語意索引

日後

Gemini fallback 加 NIM LLM
新 Skill 開發先用 Llama 測試

NVIDIA NIM API — 完整導覽與推薦 2026