• Skip to main content
  • Skip to header right navigation
  • Skip to site footer
NhatDong

NhatDong

Chuyên trang chia sẻ kiến thức Quản trị doanh thu Khách sạn

  • Revenue Management
  • Distribution
  • Marketing
  • Technology
  • News

Dùng OpenClaw hiệu quả: Giảm token, giữ trí nhớ

Chuyên mục: Technology
Mục lục bài viết[Hide][Show]
  • Vấn đề: Token bị đốt vô ích
  • 1. Chọn đúng model cho đúng việc
  • 2. Viết system prompt ngắn gọn
  • 3. Tận dụng Persistent Memory
  • 4. Quản lý Context Window thông minh
  • 5. Dùng Tool đúng cách
  • 6. Theo dõi và đo lường
  • Tổng hợp: Checklist tối ưu token

Vấn đề: Token bị đốt vô ích

Chạy AI agent 24/7 nghe hấp dẫn — cho đến khi bạn nhận hoá đơn API cuối tháng.

Phần lớn chi phí chạy AI agent không đến từ những tác vụ phức tạp. Nó đến từ token bị lãng phí: hội thoại cũ gửi lại mỗi lần, system prompt dài dòng, model đắt tiền được dùng cho việc đơn giản. OpenClaw có đầy đủ công cụ để giải quyết những vấn đề này — nhưng nhiều người chưa tận dụng hết.

Bài viết này hướng dẫn bạn cách giảm đáng kể token tiêu thụ mà agent vẫn hoạt động thông minh, vẫn nhớ mọi thứ cần nhớ.

1. Chọn đúng model cho đúng việc

Sai lầm phổ biến nhất: dùng model mạnh nhất (GPT-4o, Claude Opus) cho mọi tác vụ.

Thực tế, phần lớn công việc của agent không cần model đắt tiền. Phân loại tin nhắn, trích xuất thông tin đơn giản, format dữ liệu — những việc này model nhỏ làm tốt ngang model lớn, mà rẻ hơn 10-20 lần.

Nguyên tắc chọn model:

Tác vụModel phù hợpVí dụ
Phân loại, trích xuất đơn giảnHaiku, GPT-4o mini“Tin nhắn này là hỏi giá hay hỏi kỹ thuật?”
Chat thông thường, tóm tắtSonnet, GPT-4oTrả lời khách hàng, viết email
Phân tích phức tạp, viết codeOpus, GPT-4oDebug code, lập kế hoạch dự án

OpenClaw hỗ trợ multi-provider — bạn có thể cấu hình nhiều API key (Anthropic, OpenAI, Google) và chọn model phù hợp cho từng agent hoặc từng workflow. Không cần dùng một model cho tất cả.

Mẹo: Bắt đầu với model nhỏ nhất. Chỉ upgrade lên model lớn hơn khi kết quả không đạt yêu cầu.

2. Viết system prompt ngắn gọn

System prompt được gửi đi mỗi lần agent nhận request. Một system prompt 2000 token × 100 request/ngày = 200.000 token/ngày chỉ cho phần hướng dẫn.

System prompt dài không có nghĩa là tốt hơn. Model hiện đại hiểu hướng dẫn ngắn gọn tốt hơn hướng dẫn dài dòng lặp đi lặp lại.

Trước (dài, lặp):

Bạn là trợ lý hỗ trợ khách hàng của công ty ABC. Bạn phải luôn luôn trả lời 
bằng tiếng Việt. Nhớ rằng bạn là trợ lý hỗ trợ, không được trả lời câu hỏi 
ngoài phạm vi hỗ trợ. Luôn giữ giọng điệu thân thiện và chuyên nghiệp. 
Không được đưa ra thông tin sai. Nếu không biết câu trả lời, hãy nói rằng 
bạn sẽ chuyển cho nhân viên hỗ trợ...

Sau (ngắn, rõ ràng):

Trợ lý hỗ trợ khách hàng công ty ABC. Trả lời bằng tiếng Việt, 
thân thiện. Chỉ trả lời trong phạm vi hỗ trợ sản phẩm. 
Không chắc → chuyển nhân viên.

Cùng ý nghĩa, ít hơn 70% token. Nhân với hàng trăm request mỗi ngày, bạn tiết kiệm được rất nhiều.

3. Tận dụng Persistent Memory

Đây là tính năng quan trọng nhất mà nhiều người bỏ qua.

Mặc định, mỗi cuộc hội thoại mới, agent phải được “nhắc lại” mọi thứ — tên khách hàng, lịch sử mua hàng, preference. Mỗi lần nhắc lại là token bị đốt.

OpenClaw có hệ thống Persistent Memory — agent ghi nhớ thông tin quan trọng giữa các phiên, tự động truy xuất khi cần. Thay vì gửi toàn bộ lịch sử mỗi lần, agent chỉ tải đúng phần memory liên quan.

Cách dùng hiệu quả:

  • Bật memory cho agent: Cho phép agent tự lưu thông tin quan trọng (tên, preference, context dự án) vào bộ nhớ dài hạn
  • Dùng RAG cho tài liệu lớn: Thay vì nhét toàn bộ tài liệu vào prompt, kết nối vector database. Agent chỉ truy xuất đoạn liên quan — tiết kiệm hàng nghìn token mỗi request
  • Không gửi toàn bộ history: OpenClaw tự quản lý conversation history. Bạn không cần gửi lại mọi tin nhắn cũ — chỉ context gần nhất + memory là đủ

4. Quản lý Context Window thông minh

Mỗi model có giới hạn context window (số token tối đa trong một lần gọi). Khi hội thoại dài vượt giới hạn, có hai cách xử lý:

  • Cắt bỏ: Mất thông tin cũ, agent “quên” nội dung đầu cuộc hội thoại
  • Tóm tắt: Nén nội dung cũ thành bản tóm tắt ngắn gọn, giữ lại ý chính

OpenClaw hỗ trợ tự động tóm tắt context khi vượt ngưỡng. Thay vì gửi 50.000 token lịch sử hội thoại, hệ thống nén lại còn 2.000-3.000 token mà vẫn giữ được bối cảnh quan trọng.

Thiết lập hợp lý:

  • Đặt ngưỡng tóm tắt ở khoảng 70-80% context window — đừng để đầy mới xử lý
  • Cho phép agent đánh dấu thông tin “quan trọng” để không bị tóm tắt mất
  • Với hội thoại dài (debug session, phân tích dữ liệu), cân nhắc tạo conversation mới khi chuyển sang chủ đề khác

5. Dùng Tool đúng cách

OpenClaw hỗ trợ Tool Use (function calling) và MCP. Mỗi tool definition tốn token vì nó được gửi kèm mỗi request.

Nguyên tắc:

  • Chỉ gắn tool agent thực sự cần: Agent hỗ trợ khách hàng không cần tool đọc file hệ thống. Mỗi tool thừa = token lãng phí mỗi request.
  • Viết description tool ngắn gọn: Tương tự system prompt — description dài không có nghĩa model hiểu tốt hơn.
  • MCP server: Chỉ kết nối những MCP server bạn thực sự dùng. Mỗi server kết nối thêm tool definitions vào context.

Ít tool hơn = ít token hơn = phản hồi nhanh hơn.

6. Theo dõi và đo lường

Không đo được thì không tối ưu được. OpenClaw Web UI cho phép theo dõi:

  • Token usage per conversation: Xem cuộc hội thoại nào tốn nhiều token nhất
  • Model usage breakdown: Biết bao nhiêu token đi vào model nào
  • Conversation length: Nhận diện những cuộc hội thoại dài bất thường

Kết hợp với monitoring VPS trên OnMay (CPU, RAM, disk qua Telegram alert), bạn có cái nhìn toàn diện về chi phí vận hành agent.

Tổng hợp: Checklist tối ưu token

#Hành độngTiết kiệm ước tính
1Dùng model nhỏ cho tác vụ đơn giản10-20x chi phí per request
2Rút gọn system prompt50-70% token system prompt
3Bật Persistent MemoryGiảm token context lặp lại
4Cấu hình auto-summarize contextGiảm 80-90% token history
5Bỏ tool không dùng100-500 token/request
6Theo dõi usage hàng tuầnPhát hiện lãng phí sớm

Không cần làm tất cả cùng lúc. Bắt đầu từ chọn đúng model (tiết kiệm nhiều nhất), rồi tối ưu dần các phần còn lại.

Previous Post:Cấu hình Workspace OpenClaw: AGENTS.md, SOUL.md
Next Post:Skills, MCP Servers & Plugins: Mở rộng sức mạnh OpenClaw không giới hạn

Sidebar

Danh mục

  • Distribution
  • Marketing
  • Revenue Management
  • Technology

Bài viết mới

  • Tự động hóa với HEARTBEAT.md: Để OpenClaw làm việc khi bạn ngủ
  • Skills, MCP Servers & Plugins: Mở rộng sức mạnh OpenClaw không giới hạn
  • Dùng OpenClaw hiệu quả: Giảm token, giữ trí nhớ
  • Cấu hình Workspace OpenClaw: AGENTS.md, SOUL.md
  • Thủ thuật Keymap với VIA

Bình luận gần đây

  • Revenue Management Hotels | --------------------- trong Quản trị Doanh Thu Khách sạn là gì

Lưu trữ

  • Tháng 4 2026
  • Tháng mười một 2025
  • Tháng 4 2025
  • Tháng 1 2025
  • Tháng 9 2020
  • Tháng 12 2019

NhatDong.com

Chuyên trang chia sẻ kiến thức Quản trị doanh thu Khách sạn

  • Facebook
  • Twitter
  • Instagram
  • LinkedIn
  • YouTube

Shop

  • Home
  • Blog
  • About
  • Features
  • Contact
  • Marketing

Features

  • Home
  • Blog
  • About
  • Features
  • Contact
  • Marketing

Support

  • Home
  • Blog
  • About
  • Features
  • Contact
  • Marketing