Anthropic 為什麼不信任自己的 AI?
真正讓我有感的不是模型有多強,而是他們怎麼把 Zero Trust、角色分離與 Feature Flag 做成一套管理方法。
TL;DR
先看重點
>Anthropic 管理 AI 的真正亮點,不是模型夠強,而是用 Zero Trust、角色分離與審核流程把風險設計進系統。
>AI 越強,越不能只靠直覺與善意,必須靠權限、記憶策略與 rollout discipline 一起工作。
>這篇文章想討論的是 AI 時代的管理方法論,而不是單一產品的功能解析。

看完 Claude Code 那波原始碼分析之後,我最有感的其實不是技術細節,而是 Anthropic 管理 AI 的方式。
他們最核心的哲學,不是「相信模型會越來越聰明」,而是「先假設它會出錯,然後把制度設計好」。
1. Zero Trust 不是口號,是設計哲學
原始碼裡最值得學的一件事,就是 fail-closed 的思維。
遇到不確定情況時,預設不是放行,而是先拒絕。這種做法在 AI 工具裡看起來很嚴格,但如果你帶過團隊、做過資安、推過流程上線,就會知道這其實很合理。
成熟系統的核心從來不是「相信大家不會犯錯」,而是「假設一定會犯錯,然後讓錯誤不會一路放大」。
2. 角色分離不是保守,而是必要
Claude Code 內建那幾種 Agent,真正高明的地方不是名字,而是權限切得很清楚。
Explore 負責看,Plan 負責想,Verification 負責找碴。它們不是同一個角色換不同包裝,而是真的對應不同責任。
這跟管理團隊完全一樣。最危險的情況從來不是有人不夠聰明,而是同一個人同時做決策、做執行、做驗收,最後沒有任何真正的制衡。
3. Auto 模式背後其實有隱形主管
很多人以為 Auto 就是「AI 自己決定一切」。
但更接近真相的說法其實是:有一個比較保守的判斷層在後面幫你看門。白名單能直接過,黑名單直接擋,中間灰色地帶再進一步分類,不確定就回來問人。
這種設計很像企業裡的審批流程。不是因為你不信任執行者,而是因為高風險動作本來就應該有第二層判斷。
4. 記憶不是記越多越好,而是忘對東西
原始碼裡另一個我很喜歡的方向,是它對記憶的態度。
重點不是什麼都記,而是記對的東西,忘掉不重要或不可靠的細節。這其實比一味堆 context 更成熟。
帶團隊也一樣。文件越多不一定越有用,SOP 越厚不一定越可靠。真正好的知識管理,是讓對的人在對的時候找得到最關鍵的資訊,而不是讓所有人永遠淹沒在舊資訊裡。
5. Feature Flag 代表成熟,不代表膽小
原始碼裡藏著不少還沒全面開出的功能。這件事對我來說一點都不扣分,反而很加分。
因為成熟產品本來就不應該把所有新能力一次丟給所有人。先小範圍試、收回饋、觀察真實場景,再慢慢擴大,這才是負責任的做法。
很多人把這看成速度慢,但其實這是把風險管理做進產品節奏裡。
後記
寫完這篇我最大的感覺是,AI 時代不是管理能力變不重要,而是更重要。
因為模型越強,你越不能只靠直覺。你需要權限、分工、審核、記憶策略和 rollout discipline 一起成立,才能讓整體輸出穩定。
PS
Anthropic 管 AI 的方式之所以讓人有感,不是因為它很科幻,而是因為它其實很傳統。只不過這次被管理的對象,換成了超級聰明又會犯錯的機器。


