把任何 AI 模型變成
一條 API 呼叫
每個 NIM 是一個獨立 container,裡面打包好模型權重、推理引擎(TensorRT-LLM / vLLM),以及 OpenAI 格式的 API server。換個 base_url,你現有的程式碼直接用。
零部署,直接呼叫。免費額度每模型約 1,000 次請求,超過按 token 付費,比 OpenAI 便宜約 5–10 倍。
零成本啟動 · 數百個模型 · 免費測試
從 NGC 拉 container,跑在自己的 GPU 上。資料完全不離開本機,離線可用。
最低延遲 · 完全隱私 · 離線可用
你有 Claude、Gemini、pplx-cli、fal-cli,但有一塊是空的:Embedding 和 Reranker。這正是 NIM 能補的。
現在只有 Obsidian 關鍵字搜尋。用 NV-Embed 向量化全 vault,搭配 sqlite-vec,就能問語意問題找筆記。工具堆唯一缺的那塊。
base_url = "https://integrate.api.nvidia.com/v1"
OpenAI SDK,換一行就接上,現有程式碼不需改
初期 prompt 邏輯驗證用 Llama-8B(快、免費),確認後換 70B 做品質對齊,定稿才燒 Claude quota 做最終驗收。
export NVIDIA_API_KEY="nvapi-xxxx"
pip install openai sqlite-vec
起手兩行,其餘走 OpenAI SDK
build.nvidia.com 取 API Key
加進 ~/.zshrc
寫 vault-embed.py
對 wiki/ 建語意索引
Gemini fallback 加 NIM LLM
新 Skill 開發先用 Llama 測試