Dùng OpenClaw hiệu quả: Giảm token, giữ trí nhớ

Mục lục bài viết[Hide][Show]

Vấn đề: Token bị đốt vô ích
1. Chọn đúng model cho đúng việc
2. Viết system prompt ngắn gọn
3. Tận dụng Persistent Memory
4. Quản lý Context Window thông minh
5. Dùng Tool đúng cách
6. Theo dõi và đo lường
Tổng hợp: Checklist tối ưu token

Vấn đề: Token bị đốt vô ích

Chạy AI agent 24/7 nghe hấp dẫn — cho đến khi bạn nhận hoá đơn API cuối tháng.

Phần lớn chi phí chạy AI agent không đến từ những tác vụ phức tạp. Nó đến từ token bị lãng phí: hội thoại cũ gửi lại mỗi lần. Để hiểu cách tổ chức workspace tốt hơn, xem hướng dẫn cấu hình Workspace OpenClaw, system prompt dài dòng, model đắt tiền được dùng cho việc đơn giản. OpenClaw có đầy đủ công cụ để giải quyết những vấn đề này — nhưng nhiều người chưa tận dụng hết.

Bài viết này hướng dẫn bạn cách giảm đáng kể token tiêu thụ mà agent vẫn hoạt động thông minh, vẫn nhớ mọi thứ cần nhớ.

1. Chọn đúng model cho đúng việc

Sai lầm phổ biến nhất: dùng model mạnh nhất (GPT-4o, Claude Opus) cho mọi tác vụ.

Thực tế, phần lớn công việc của agent không cần model đắt tiền. Phân loại tin nhắn, trích xuất thông tin đơn giản, format dữ liệu — những việc này model nhỏ làm tốt ngang model lớn, mà rẻ hơn 10-20 lần.

Nguyên tắc chọn model:

Tác vụ	Model phù hợp	Ví dụ
Phân loại, trích xuất đơn giản	Haiku, GPT-4o mini	“Tin nhắn này là hỏi giá hay hỏi kỹ thuật?”
Chat thông thường, tóm tắt	Sonnet, GPT-4o	Trả lời khách hàng, viết email
Phân tích phức tạp, viết code	Opus, GPT-4o	Debug code, lập kế hoạch dự án

OpenClaw hỗ trợ multi-provider — bạn có thể cấu hình nhiều API key (Anthropic, OpenAI, Google) và chọn model phù hợp cho từng agent hoặc từng workflow. Không cần dùng một model cho tất cả.

Mẹo: Bắt đầu với model nhỏ nhất. Chỉ upgrade lên model lớn hơn khi kết quả không đạt yêu cầu.

2. Viết system prompt ngắn gọn

System prompt được gửi đi mỗi lần agent nhận request. Một system prompt 2000 token × 100 request/ngày = 200.000 token/ngày chỉ cho phần hướng dẫn.

System prompt dài không có nghĩa là tốt hơn. Model hiện đại hiểu hướng dẫn ngắn gọn tốt hơn hướng dẫn dài dòng lặp đi lặp lại.

Trước (dài, lặp):

Bạn là trợ lý hỗ trợ khách hàng của công ty ABC. Bạn phải luôn luôn trả lời  bằng tiếng Việt. Nhớ rằng bạn là trợ lý hỗ trợ, không được trả lời câu hỏi  ngoài phạm vi hỗ trợ. Luôn giữ giọng điệu thân thiện và chuyên nghiệp.  Không được đưa ra thông tin sai. Nếu không biết câu trả lời, hãy nói rằng  bạn sẽ chuyển cho nhân viên hỗ trợ...

Sau (ngắn, rõ ràng):

Trợ lý hỗ trợ khách hàng công ty ABC. Trả lời bằng tiếng Việt,  thân thiện. Chỉ trả lời trong phạm vi hỗ trợ sản phẩm.  Không chắc → chuyển nhân viên.

Cùng ý nghĩa, ít hơn 70% token. Nhân với hàng trăm request mỗi ngày, bạn tiết kiệm được rất nhiều.

3. Tận dụng Persistent Memory

Đây là tính năng quan trọng nhất mà nhiều người bỏ qua.

Mặc định, mỗi cuộc hội thoại mới, agent phải được “nhắc lại” mọi thứ — tên khách hàng, lịch sử mua hàng, preference. Mỗi lần nhắc lại là token bị đốt.

OpenClaw có hệ thống Persistent Memory — agent ghi nhớ thông tin quan trọng giữa các phiên, tự động truy xuất khi cần. Thay vì gửi toàn bộ lịch sử mỗi lần, agent chỉ tải đúng phần memory liên quan.

Cách dùng hiệu quả:

Bật memory cho agent: Cho phép agent tự lưu thông tin quan trọng (tên, preference, context dự án) vào bộ nhớ dài hạn

Dùng RAG cho tài liệu lớn: Thay vì nhét toàn bộ tài liệu vào prompt, kết nối vector database. Agent chỉ truy xuất đoạn liên quan — tiết kiệm hàng nghìn token mỗi request

Không gửi toàn bộ history: OpenClaw tự quản lý conversation history. Bạn không cần gửi lại mọi tin nhắn cũ — chỉ context gần nhất + memory là đủ

4. Quản lý Context Window thông minh

Mỗi model có giới hạn context window (số token tối đa trong một lần gọi). Khi hội thoại dài vượt giới hạn, có hai cách xử lý:

Cắt bỏ: Mất thông tin cũ, agent “quên” nội dung đầu cuộc hội thoại

Tóm tắt: Nén nội dung cũ thành bản tóm tắt ngắn gọn, giữ lại ý chính

OpenClaw hỗ trợ tự động tóm tắt context khi vượt ngưỡng. Thay vì gửi 50.000 token lịch sử hội thoại, hệ thống nén lại còn 2.000-3.000 token mà vẫn giữ được bối cảnh quan trọng.

Thiết lập hợp lý:

Đặt ngưỡng tóm tắt ở khoảng 70-80% context window — đừng để đầy mới xử lý

Cho phép agent đánh dấu thông tin “quan trọng” để không bị tóm tắt mất

Với hội thoại dài (debug session, phân tích dữ liệu), cân nhắc tạo conversation mới khi chuyển sang chủ đề khác

5. Dùng Tool đúng cách

OpenClaw hỗ trợ Tool Use (function calling) và MCP. Mỗi tool definition tốn token vì nó được gửi kèm mỗi request.

Nguyên tắc:

Chỉ gắn tool agent thực sự cần: Agent hỗ trợ khách hàng không cần tool đọc file hệ thống. Mỗi tool thừa = token lãng phí mỗi request.

Viết description tool ngắn gọn: Tương tự system prompt — description dài không có nghĩa model hiểu tốt hơn.

MCP server: Chỉ kết nối những MCP server bạn thực sự dùng. Mỗi server kết nối thêm tool definitions vào context.

Ít tool hơn = ít token hơn = phản hồi nhanh hơn.

6. Theo dõi và đo lường

Không đo được thì không tối ưu được. OpenClaw Web UI cho phép theo dõi:

Token usage per conversation: Xem cuộc hội thoại nào tốn nhiều token nhất

Model usage breakdown: Biết bao nhiêu token đi vào model nào

Conversation length: Nhận diện những cuộc hội thoại dài bất thường

Kết hợp với monitoring VPS trên OnMay (CPU, RAM, disk qua Telegram alert), bạn có cái nhìn toàn diện về chi phí vận hành agent.

Tổng hợp: Checklist tối ưu token

#	Hành động	Tiết kiệm ước tính
1	Dùng model nhỏ cho tác vụ đơn giản	10-20x chi phí per request
2	Rút gọn system prompt	50-70% token system prompt
3	Bật Persistent Memory	Giảm token context lặp lại
4	Cấu hình auto-summarize context	Giảm 80-90% token history
5	Bỏ tool không dùng	100-500 token/request
6	Theo dõi usage hàng tuần	Phát hiện lãng phí sớm

Không cần làm tất cả cùng lúc. Bắt đầu từ chọn đúng model (tiết kiệm nhiều nhất), rồi tối ưu dần các phần còn lại.