NVIDIA AI PLATFORM

2026

Inference Microservices

NIM

把任何 AI 模型變成
一條 API 呼叫

完整導覽與推薦 api.nvidia.com

WHAT IS NIM

架構

核心概念

模型 + 推理引擎 + API
三合一 Container

每個 NIM 是一個獨立 container，裡面打包好模型權重、推理引擎（TensorRT-LLM / vLLM），以及 OpenAI 格式的 API server。換個 base_url，你現有的程式碼直接用。

01

你的 App

任何語言 · 任何框架

02

NIM API

/v1/chat/completions
OpenAI 相容格式

03

推理引擎

TensorRT-LLM 自動最佳化
vLLM 備援

04

GPU

H100 / A100 / RTX
雲端或本地

NVIDIA NIM API 1 / 10

DEPLOYMENT OPTIONS

兩種模式

Cloud API

api.nvidia.com

零部署，直接呼叫。免費額度每模型約 1,000 次請求，超過按 token 付費，比 OpenAI 便宜約 5–10 倍。

零成本啟動 · 數百個模型 · 免費測試

適合：API 串接、快速測試、備援路徑

Self-hosted

本地 Docker

從 NGC 拉 container，跑在自己的 GPU 上。資料完全不離開本機，離線可用。

最低延遲 · 完全隱私 · 離線可用

適合：生產部署、隱私需求、大量推理

NVIDIA NIM API 2 / 10

AVAILABLE MODELS

可用模型

六大類別

數百個模型，即開即用

大型語言模型

LLM

Llama 3.3 · Mistral · Gemma · Qwen

嵌入向量

Embed

NV-Embed-v2 · E5 · 1024 維向量

重排序

Rerank

NV-RerankQA · Mistral-4B Reranker

多模態視覺

Vision

Llama 3.2 Vision · LLaVA · NVLM

圖片生成

Image

SDXL · Flux · Stable Diffusion 3

語音

Speech

Whisper · Canary ASR

NVIDIA NIM API 3 / 10

FOR YOU

個人化推薦

Personalized

你的工具堆裡
缺少什麼？

你有 Claude、Gemini、pplx-cli、fal-cli，但有一塊是空的：Embedding 和 Reranker。這正是 NIM 能補的。

個人化推薦 ─ Act II ─

RECOMMENDATION 01

最值得做

Vault 語意搜尋

把幾百篇筆記
變成語意索引

現在只有 Obsidian 關鍵字搜尋。用 NV-Embed 向量化全 vault，搭配 sqlite-vec，就能問語意問題找筆記。工具堆唯一缺的那塊。

模型：nvidia/nv-embedqa-e5-v5 · 1024 維 · 免費額度夠建索引

推薦模型

nv-embed-v2

MTEB 排行榜前段班，1024 維向量，支援 query / passage 雙模式

「咖啡萃取率的筆記在哪？」

語意搜尋能理解語意，不需要關鍵字完全匹配

NVIDIA NIM API 推薦 1 / 3

RECOMMENDATION 02

備援路徑

LLM 備援路徑

Gemini 429 時的
第三條路

現有備援

Claude → Gemini → pplx

pplx 主要用搜尋，不是純 LLM；兩條路都滿時沒有第三選項

加入後

+ NIM Llama 3.3-70B

OpenAI-compatible，現有 Gemini delegate 程式碼改一行 base_url 即可接上

效益

降低單點失敗

研究型任務可三路並行：Gemini + NIM + pplx，互補 429 限制

base_url = "https://integrate.api.nvidia.com/v1" OpenAI SDK，換一行就接上，現有程式碼不需改

NVIDIA NIM API 推薦 2 / 3

RECOMMENDATION 03

開發效率

開發測試省 Claude Quota

新 Skill 開發
先用 Llama 跑

初期 prompt 邏輯驗證用 Llama-8B（快、免費），確認後換 70B 做品質對齊，定稿才燒 Claude quota 做最終驗收。

開發期

8B

llama-3.1-8b-instruct
速度快，免費額度充足，跑邏輯

測試期

70B

llama-3.3-70b-instruct
接近 Claude 品質，做品質對齊

生產期

Claude

Sonnet / Opus
確認效果後才燒 quota 做驗收

NVIDIA NIM API 推薦 3 / 3

QUICK START

三步起手

行動清單

三步起手式

01 · 取 API Key

build.nvidia.com

免費註冊，取 nvapi-xxxx，每模型送 1,000 次免費請求；加進 ~/.zshrc

02 · 測試 Embedding

nv-embedqa-e5-v5

用 wiki/ 裡 10 篇筆記跑一遍，確認向量品質與維度輸出

03 · 建 vault-embed

sqlite-vec + NV-Embed

全 vault 語意索引；這是工具堆唯一缺的那塊，免費額度夠跑

export NVIDIA_API_KEY="nvapi-xxxx" pip install openai sqlite-vec 起手兩行，其餘走 OpenAI SDK

NVIDIA NIM API 快速開始

SUMMARY

結語

你的下一步

最值得做的一件事：
Vault Embedding

立刻

build.nvidia.com 取 API Key
加進 ~/.zshrc

本週

寫 vault-embed.py
對 wiki/ 建語意索引

日後

Gemini fallback 加 NIM LLM
新 Skill 開發先用 Llama 測試

NVIDIA NIM API — 完整導覽與推薦 2026

NIM

模型 + 推理引擎 + API三合一 Container

api.nvidia.com

本地 Docker

數百個模型，即開即用

你的工具堆裡缺少什麼？

把幾百篇筆記變成語意索引

Gemini 429 時的第三條路

新 Skill 開發先用 Llama 跑

三步起手式

最值得做的一件事：Vault Embedding

模型 + 推理引擎 + API
三合一 Container

你的工具堆裡
缺少什麼？

把幾百篇筆記
變成語意索引

Gemini 429 時的
第三條路

新 Skill 開發
先用 Llama 跑

最值得做的一件事：
Vault Embedding