Generative AI 年會小聚分享
// 2026.04.15
斑馬手冊進化史:從 Repo 到團隊的知識基礎設施
Vita Chen
PM @ Zeabur
PM 的日常是大量使用 Claude Code 處理數據——
查資料庫、跑分析、產報表。
當時想聊的是:怎麼把這些零散的數據,
透過 Discord 變成團隊都能一起用的資訊。
工具更新速度極快
兩個月前想分享的 Skill 做法,現在可能已經是基本功了。
把事情做出來,門檻非常低
Claude Code 的開源性和多元性,讓執行本身不再是瓶頸。
而是過程中那些人為介入——
問對人、對齊脈絡、等回覆、再翻譯成 AI 看得懂的輸入。
我們正在嘗試的,是把這些人為介入降到最低。
// 今天想分享
今天就跟大家一起交流。
STAGE 1
集中化
STAGE 2
基礎設施
STAGE 3
自動迭代
用 Claude Code 去查自家資料庫、產出報表、
找出哪些指標在動、哪些流程需要優化。
資料能撈到、數據沒有錯——
但有些更直線的做法,只有工程師的 know-how 才知道。
資料沒錯,但結構繞了一圈、效率打了折
還是得找工程師 review,才知道「原來有更聰明的做法」
如果有一份底層邏輯的 knowledge base,其實會快很多
// stage 1
先有一個集中的地方
讓 Claude Code 成為最懂公司的那個人。
業務邏輯、指標定義、schema 關聯、歷史算法變更
跨部門踩雷經驗——踩一次,全公司都學到
Claude Code 讀進記憶,問手冊就好,不用再問人
團隊夥伴要啟動一個專案(分析、開發、客服⋯⋯)
先讓 Claude Code 讀斑馬手冊——資料庫結構、API 定義、業務邏輯
再進入實際執行——每個人用法不同,但起點一致
體感上,讓 Claude 先讀過所有集中化的 Knowledge Base 再寫程式——
後續修修補補的狀況大幅減少,一次成功率有顯著提升。
手動寫進 GitHub 的,只是通用業務知識。
還有更多來源沒被納入——
Changelog、Docs、論壇工單回覆,
甚至 Agent 自己迭代出來的 Skill 與回覆。
// stage 2
讓自動迭代與人為更新的知識,鋪墊成基礎設施
不只是人為輸入——還包括 Agent 自己迭代出來的 Skill、回覆,
以及原本就有的 Docs、Changelog、論壇工單。
2521
Docs
2511
Forum
915
Blog
567
Changelog
210
Skills
27
Learned
Total: 6,751 Knowledge Chunks
人眼難掃、介面也不友善。
// 01
知識在哪?
散在多個 repo、多個平台,沒有一個統一的入口。
// 02
有什麼?
沒有目錄、沒有標籤、沒有視覺化——只能一篇篇翻。
// 03
怎麼找?
只能靠 grep——Agent 每次都要跑好幾輪才命中。
知識庫變成團隊的共享基礎設施,不只給一個工具用。
API
任何內部工具都能透過 API 查詢知識庫
Zeabur Agent
客服 Agent 自動檢索知識庫,起草回覆
Claude Code
開發者、PM 在 Claude Code 裡直接查詢團隊知識
Web UI
非技術人員也能在瀏覽器裡搜尋
每一筆新知識進來,都要經過驗證才能進入下一輪循環。
未驗證
3Agent 自動學到的新知識,等待審核。
已驗證
26確認品質 OK,進入下一輪循環素材。
已拒絕
1品質不夠,不進入循環。
已驗證 · 進入循環
收集多種來源的知識(Docs、Forum、Changelog⋯)
Agent 自動整理、分類、寫入知識庫
由人來審核——決定這些知識是否被存入
有了 2.0 的驗證流程,還是有這兩件事沒解。
過期靠運氣
沒有機制偵測「原始碼改了但文件沒跟上」,直到踩坑才發現。
驗證靠人工
素材好壞還是得人點進去判斷,規模一大就追不上。
// stage 3
讓基礎設施自己進化
這版 Skill 跟上版,誰更好?
Skill 可以拆成幾個面向去量化,
每次調整都能衡量效果。
搜尋品質有沒有變好?
Eval 框架 + LLM Judge,
每次更新知識都能跑一輪驗證。
有量化的數據,就知道每次改得更好還是更差。
有持續的探索,這件事就不會停。
人(團隊)
編輯 program.md:「本週聚焦 marketplace 相關文件」
↓
AI(每週一自動執行)
1
讀 program.md
2
跑 evaluate.sh
取得 baseline 分數
3
選最低分維度
執行改進
4
開 PR
附 before/after 分數
↓
Merge = 保留 ✓
自動跑 health-report,更新 HEALTH.md,進入下一輪。
Close = 丟棄 ✗
AI 從失敗中學習,下一輪換策略。
// 換個玩法
做了一個最小 MVP。
同樣的 RAG 架構、同樣的後台,一鍵部署到自己的環境,剩下時間花在迭代知識本身。
有些前置,得先討論清楚
內容的對錯我判斷不來——但可以看:存進去之後,知識庫是不是更能回答問題了。
// 01
提取問題
AI 從新文章抽 3 個「這篇應該能答的問題」。
// 02
記 Before
拿這 3 題問現有知識庫,記錄分數。
// 03
存入文章
把這篇文章寫入知識庫。
// 04
記 After
再問一次同樣的 3 題,記錄新分數。
// 05
決定去留
After > Before → 保留;否則刪除。
量太少時,Before/After 永遠是 0,沒差異可比——
系統要按知識量自動升級嚴格度。
// 累積期
< 50 筆
只過濾垃圾來源與太短內容,把量先衝起來。
// 比較期
50 ~ 300
有增量就 verify、沒有就 reject;重複內容自動拒絕。
// 淘汰期
300+
長期沒查詢命中的清理、多筆講同件事的合併。
滑手機看到好東西,丟到平常就在用的 Discord 頻道——剩下交給 rag-bot。
// 收尾
Human in the Loop 是過程;可量化、可自動——是方向。
// STAGE 1
先把知識倒出來,哪怕只是一個 Repo。不要一開始就追求完美。
// STAGE 2
知識不只是要「寫」——還要讓 Agent 會讀、會改、會提醒。指標要量化。
// STAGE 3
持續可探索 + 結果可量化 = 不斷迭代。人控制方向,AI 跑細節。
Vita Chen
PM @ Zeabur