Nhiều người hỏi chúng tôi: "một mình thì vận hành hệ thống AI kiểu gì?". Câu trả lời trung thực: không phải bằng cách làm việc 16 tiếng một ngày, mà bằng cách xây một hệ thống tự chạy phần lặp lại, còn người chỉ giữ vai trò duyệt và quyết định. Bài này mở nắp capo cho bạn xem bên trong hệ thống đó — Bumbee — với số liệu lấy trực tiếp từ server tại thời điểm viết bài, không làm tròn cho đẹp.
Con số thật ở thời điểm viết bài
- 64 container Docker đang chạy đồng thời trên một server Google Cloud duy nhất.
- 351 skill AI được cài ở tầng điều phối (skill = một quy trình đóng gói mà AI agent biết cách thực hiện: viết bài theo chuẩn, sinh ảnh sản phẩm, kiểm tra hệ thống, đăng blog...), trong đó 218 skill thuộc bộ chính được quản lý bằng Git.
- Uptime 11 tuần 3 ngày — server chưa khởi động lại từ giữa tháng 4.
- 1 người vận hành toàn bộ, phần lớn qua điện thoại và các phiên làm việc với AI.
Nói rõ để không thổi phồng: 64 container không có nghĩa là "64 con AI". Trong đó có những container hạ tầng thuần túy — cơ sở dữ liệu, Redis, proxy — và những container là service AI thật sự. Hệ thống có giá trị không phải vì đông container, mà vì các cụm bên dưới nói chuyện được với nhau.
6 cụm chính của hệ thống
1. Cụm web công ty (Odoo)
Trang bitdancegroup.com — nơi bạn đang đọc bài này — chạy trên Odoo. Blog, trang dịch vụ, form liên hệ đều ở đây. Điểm đáng nói: bài blog được đăng qua API bằng quy trình AI-nháp-người-duyệt, không ai phải ngồi dán từng đoạn vào trình soạn thảo.
2. Cụm mạng xã hội (bumbee.asia)
Một mạng xã hội tự host chạy Misskey — nơi cộng đồng Bumbee sinh hoạt, và cũng là kênh build-in-public: hệ thống làm được gì, hỏng chỗ nào, đều đăng ở đó. Tự host mạng xã hội nghe "quá tay" với một công ty nhỏ, nhưng nó cho chúng tôi thứ mà fanpage đi thuê không có: toàn quyền dữ liệu và không phụ thuộc thuật toán ai cả.
3. Cụm gateway API
Một FastAPI gateway đứng giữa, để mọi service và mọi AI agent gọi nhau qua một cửa: sinh ảnh, tạo giọng đọc, tạo podcast, chạy job AI trên server. Khi một quy trình cần "sinh 1 ảnh minh họa", nó không cần biết ảnh đó do model nào tạo — gateway lo việc định tuyến.
4. Cụm sản xuất nội dung
Đây là cụm mới nhất và là ví dụ sống của triết lý Bumbee. Mỗi sáng 6 giờ, một cron job đánh thức AI dậy viết bản nháp bài blog theo lịch nội dung 30 ngày, một AI khác chấm điểm theo checklist chất lượng. Bài đạt chuẩn mới được đăng; bài dưới chuẩn bị giữ lại kèm danh sách góp ý cho người duyệt. Ngày đầu tiên chạy, hệ thống tự chặn đúng một bài chưa đạt (6/10 điểm) — chúng tôi xem đó là thành công, không phải thất bại: cổng chất lượng hoạt động.
Cụm này còn có các worker sinh ảnh và video bằng AI (Higgsfield) cho kênh YouTube và các nền tảng social — cùng một câu chuyện, hệ thống băm ra nhiều định dạng.
5. Cụm tri thức nội bộ (wiki)
Mọi quyết định kiến trúc, mọi quy trình, mọi bài học lỗi đều được ghi vào wiki nội bộ có AI đánh chỉ mục. Lý do thực dụng: khi bạn làm việc với nhiều AI agent, thứ đắt nhất là phải giải thích lại bối cảnh từ đầu. Wiki là bộ nhớ chung để agent mới "nhập vai" nhanh.
6. Cụm triển khai và giám sát
Các worker lo deploy, theo dõi trạng thái, và một bot Telegram để chủ hệ thống ra lệnh từ điện thoại. Báo cáo vận hành hằng ngày do AI tổng hợp — mỗi sáng đọc 2–3 phút là biết đêm qua có gì hỏng.
Ba bài học sau 11 tuần không tắt máy
Một — tự động hóa cổng chất lượng trước, tự động hóa sản lượng sau. Sai lầm phổ biến là bắt AI đẻ thật nhiều nội dung/tác vụ rồi mới nghĩ cách kiểm soát. Chúng tôi làm ngược lại: xây cổng chấm điểm và quyền duyệt của người trước, rồi mới nới sản lượng. Nhờ vậy hệ thống đông agent mà không biến thành máy rác.
Hai — mọi thứ phải sống sót qua rebuild. Container sẽ được build lại, config sẽ bị ghi đè. Bài học xương máu: mọi tùy chỉnh phải nằm ở nơi được thiết kế để tồn tại (snippet riêng, file env, repo Git), không sửa tay vào bên trong container. Chúng tôi từng mất một repo vì chủ quan điểm này và phải khôi phục từ bản sao trên GitHub.
Ba — một người + hệ thống tốt thắng một nhóm + quy trình rời rạc. Không phải vì AI giỏi hơn người, mà vì hệ thống không quên, không nghỉ, và không tự ái khi bị bắt lỗi. Người tập trung vào đúng hai việc máy không làm thay được: đặt tiêu chuẩn và chịu trách nhiệm.
Những điểm CHƯA ổn (build-in-public thì phải nói cả phần này)
- Kênh phân phối social chưa tự động hết: bài hub đã tự đăng, nhưng post cộng đồng trên bumbee.asia vẫn đang đăng tay trong lúc chờ nối API.
- Chưa có dashboard chi phí hợp nhất — hóa đơn tháng nằm rải ở vài nhà cung cấp. (Sẽ có một bài riêng công khai chi phí thật của cả hệ thống.)
- Backup đã có ở tầng repo và dữ liệu chính, nhưng chưa có diễn tập khôi phục toàn hệ thống định kỳ — biết là nợ, đang trả dần.
Kết
Bumbee không phải sản phẩm để bán "phần mềm 64 container". Nó là bằng chứng sống rằng một doanh nghiệp rất nhỏ ở Việt Nam có thể vận hành hạ tầng AI riêng, có kiểm soát, có số liệu — và những gì học được từ đây chính là thứ chúng tôi mang đi triển khai cho khách hàng.
Nếu bạn muốn xem quy trình AI-nháp-người-duyệt trông thế nào trong thực tế, đọc tiếp bài "AI thay bạn làm việc gì được trong 2026 — và việc gì CHƯA?" trên blog này.