-
從 MLOps 到 AgentOps:AI Agent 生產化完整指南 — 5 大挑戰、框架選型與實戰架構
深度解析 AgentOps 工具鏈與 Multi-Agent 編排框架(LangGraph、CrewAI、AutoGen),涵蓋 AI Agent 生產化的 5 大挑戰、Guardrail Sandwich 安全架構、與...
-
用 Antigravity 讓 AI 自己做出一個完整產品:Site Health AI Auditor(含完整教學)
🚀 我用 Google Antigravity 做了一個實驗: 讓 AI 自己做出一個完整的網站分析產品 過去一年,AI coding 工具越來越多: GitHub Copilot、Cursor、Replit、Claud...
-
GPT‑5 調參實戰指南:reasoning_effort × verbosity,三步把速度、成本、品質一次調好
從情境、參數影響、調參策略到驗證門檻,一篇學會用 reasoning_effort × verbosity 做可治理的 GPT‑5 產品化工作流。附閾值表、回退偽碼與下載檢查表。
-
Ornith 1.0 397B 真的「超越 Opus 4.7」嗎?查證後:一半是真、一半是行銷
DeepReinforce 開源的 Ornith 1.0 397B 被瘋傳「超越 Claude Opus 4.7」。我們把官方數據、獨立實測、benchmark 可信度研究全查了一遍:贏是真的贏——但只在 6 個測試中的...
-
AI Agent 生產化落差完整解析:benchmark 逼近人類,為何九成進不了生產線?
三組嚴謹研究串成的證據鏈與決策框架。
-
不讓 Claude 收工的 Stop hook:拆解 everything-claude-code 的 delivery-gate
affaan-m 的 everything-claude-code 用一個 Stop hook(delivery-gate)擋住 Claude Code 交件——只查合理化語句、學習庫時效、磁碟空間三件事實。附可照抄的 ...
-
Claude Code 被一個假 Sentry 錯誤劫持:MCP agentjacking 拆解與防護設定
攻擊者只用一支藏在網站 JS 裡的公開 Sentry DSN,就能注入假錯誤、經 MCP 讓 Claude Code/Cursor/Codex 以你的權限執行惡意指令。拆解 Tenet 的 Agentjacking 攻擊...
-
Claude Code 進階究極手冊:官方完整技巧 × 大神實戰用法(2026 最新版・含舊指令勘誤)
把 Anthropic 官方《進階使用者技巧》逐條整理,疊上十位以上大神(Boris Cherny、Simon Willison、Armin Ronacher、Geoffrey Huntley、Thorsten Ball...
-
用本地 Coding Agent 取代 Claude Code/Codex 訂閱:照著做的一份實戰設定
Sebastian Raschka 實測 30–35B 開放權重 MoE 模型已「夠用」於多數 coding agent 工作。本文用實戰教學角度,手把手帶你把 Ollama+Qwen3.6+Codex/Qwen-Cod...
-
Kiro CLI 2.10 的 Config Hot-Reload:改 MCP 設定免重啟,30 輪對話脈絡不再歸零
AWS Kiro CLI 2.10 讓 agent 與 mcp.json 設定存檔即生效——只重啟受影響的 server、不丟對話脈絡;外加 chat.disableInheritingDefaultResources ...
-
阿里巴巴 Qwen-AgentWorld:不訓練 agent 行動,改訓練模型「預測環境」
阿里巴巴 Qwen-AgentWorld 把語言模型訓練成「環境本人」而非 agent:學預測下一個環境觀察,而不是學行動。結果一個從沒被當 agent 訓練的模型,在七個工具任務上全面變強,還能當可控模擬器取代昂貴的真...
-
「沒有 Fable 5 也沒關係」:Sakana Fugu 用多模型編排打到前沿水準
Sakana AI 推出 Fugu —— 一個本身是 LLM 的編排器,學會把 GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.8 路由、驗證、合成成一個系統,在 SWE-Bench Pro 上...
-
Self-Harness:凍結模型權重,讓 agent 自己改寫執行規則就 +33–60%
上海 AI 實驗室提出 Self-Harness:模型權重完全不動,靠 propose-evaluate-accept 三階段迴圈讓 agent 自動改寫 harness,在 Terminal-Bench 2.0 上相對...