Cách tiết kiệm token khi dùng AI

Mở đầu

Khi sử dụng các công cụ AI như ChatGPT, Claude, Gemini hay các mô hình AI khác, nhiều người thường chỉ quan tâm đến câu trả lời mà chưa chú ý đến một yếu tố rất quan trọng: token.

Hiểu đơn giản, token là đơn vị mà AI dùng để đọc yêu cầu của người dùng và tạo ra câu trả lời. Biết cách sử dụng token hợp lí sẽ giúp tiết kiệm chi phí, tránh vượt giới hạn, đồng thời giúp AI trả lời đúng trọng tâm hơn.

1. Token là gì?

Token là những đơn vị nhỏ được tách ra từ văn bản để mô hình AI xử lí. Một token có thể là một từ, một phần của từ, một dấu câu, một kí hiệu hoặc một đoạn nhỏ trong câu.

Ví dụ, câu ngắn thường tốn ít token hơn câu dài. Một đoạn văn nhiều chữ, nhiều yêu cầu, nhiều bảng biểu hoặc nhiều dữ liệu đính kèm sẽ tốn nhiều token hơn. Tuy nhiên, không nên hiểu đơn giản rằng một chữ bằng một token, vì cách tách token phụ thuộc vào từng mô hình AI, từng ngôn ngữ và từng loại dữ liệu.

Với tiếng Việt, do có dấu, khoảng trắng và cấu trúc từ ngữ riêng, số token có thể khác với số từ mà chúng ta nhìn thấy. Vì vậy, cách hiểu thực tế nhất là: nội dung càng dài, càng nhiều dữ liệu, càng nhiều lịch sử trò chuyện thì càng tốn nhiều token.

2. Cách tính token của các mô hình AI

Các mô hình AI thường tính token theo hai phần chính:

Thứ nhất là token đầu vào.

Đây là phần người dùng đưa cho AI, bao gồm câu hỏi, yêu cầu, đoạn văn bản, dữ liệu được dán vào, nội dung file tải lên, hình ảnh, bảng biểu và cả phần ngữ cảnh trò chuyện trước đó nếu hệ thống cần dùng lại.

Ví dụ, nếu bạn yêu cầu AI sửa một đoạn văn ngắn thì lượng token đầu vào ít. Nhưng nếu bạn tải lên một file Word dài 50 trang, một file PowerPoint nhiều slide hoặc một bảng Excel lớn thì lượng token đầu vào sẽ tăng lên rất nhiều.

Thứ hai là token đầu ra.

Đây là phần AI tạo ra để trả lời người dùng. Câu trả lời càng dài thì càng tốn nhiều token đầu ra. Vì vậy, nếu chỉ cần một câu trả lời ngắn mà bạn không nói rõ, AI có thể trả lời dài, dẫn đến tốn token không cần thiết.

Ngoài ra, với các cuộc trò chuyện dài, AI có thể phải dựa vào một phần ngữ cảnh cũ để hiểu yêu cầu mới. Khi đó, token không chỉ nằm ở câu hỏi mới nhất mà còn có thể bao gồm cả nội dung trước đó trong cuộc trò chuyện. Đây là lí do vì sao một đoạn chat quá dài có thể làm tốn token hơn và đôi khi khiến AI trả lời kém tập trung hơn.

Tóm lại, token thường được tính dựa trên:

Nội dung người dùng nhập vào.
Nội dung file, ảnh, bảng biểu hoặc dữ liệu đính kèm.
Ngữ cảnh trò chuyện trước đó.
Độ dài câu trả lời mà AI tạo ra.

3. Cách tiết kiệm token khi dùng AI

3.1. Tạo chat mới khi đổi chủ đề

Khi một cuộc trò chuyện đã quá dài, đặc biệt là khi bạn chuyển sang một chủ đề hoàn toàn khác, nên tạo một chat mới. Việc này giúp AI không phải xử lí quá nhiều ngữ cảnh cũ không còn cần thiết.

Ví dụ, nếu trước đó bạn đang trao đổi về thiết kế website, sau đó muốn hỏi về cách học tiếng Anh, nên mở một cuộc trò chuyện mới. Như vậy, yêu cầu sẽ rõ hơn, AI trả lời tập trung hơn và tiết kiệm token hơn.

Nguyên tắc đơn giản là: mỗi chủ đề lớn nên có một cuộc trò chuyện riêng.

3.2. Hạn chế tải lên file quá lớn nếu không cần thiết

File Word, PowerPoint, Excel hoặc PDF thường chứa rất nhiều dữ liệu. Khi tải lên, AI có thể phải đọc và xử lí một lượng thông tin lớn, dẫn đến tốn nhiều token.

Thay vì tải toàn bộ file, người dùng nên chọn đúng phần cần xử lí. Ví dụ:

Chỉ gửi đoạn văn cần sửa.
Chỉ gửi trang cần phân tích.
Chỉ gửi bảng dữ liệu cần tính toán.
Chỉ yêu cầu AI đọc một phần cụ thể trong tài liệu.

Nếu làm việc thường xuyên với Word, PowerPoint hoặc Excel, có thể cân nhắc dùng các công cụ AI tích hợp trực tiếp trong Office hoặc các tiện ích hỗ trợ ngay trong phần mềm. Cách này giúp trao đổi trực tiếp với tài liệu đang mở, thay vì phải tải lên toàn bộ file nhiều lần.

3.3. Yêu cầu AI trả lời ngắn gọn, đúng trọng tâm

Một trong những cách tiết kiệm token hiệu quả nhất là yêu cầu AI trả lời ngắn. Nếu không nói rõ, AI có thể giải thích dài, đưa nhiều ví dụ hoặc mở rộng vấn đề quá mức cần thiết.

Người dùng nên viết yêu cầu cụ thể như:

“Trả lời ngắn gọn trong 5 ý.”

“Chỉ nêu cách làm, không giải thích dài.”

“Viết tối đa 300 chữ.”

“Chỉ đưa đoạn code cần sửa, không viết lại toàn bộ.”

“Làm từng bước, xong bước 1 thì dừng lại.”

Những yêu cầu như vậy giúp AI tạo câu trả lời vừa đủ, dễ đọc và ít tốn token hơn.

3.4. Cập nhật “các yêu cầu sử dụng thường xuyên”

Nếu bạn thường xuyên có một kiểu yêu cầu giống nhau, nên đặt thành quy tắc ngắn gọn ngay từ đầu. Điều này giúp AI hiểu cách bạn muốn nhận câu trả lời mà không cần phải giải thích lại nhiều lần.

Ví dụ:

“Khi tôi hỏi về code, hãy chỉ ra lỗi và đưa đoạn thay thế, không viết lại toàn bộ file nếu không cần.”

“Khi tôi hỏi về bài viết, hãy trả lời ngắn, có mở đầu, thân bài, kết luận.”

“Khi tôi yêu cầu sửa văn bản, hãy giữ nguyên ý chính, chỉ sửa lỗi diễn đạt và chính tả.”

Tuy nhiên, các quy tắc thường xuyên cũng nên ngắn gọn. Nếu viết quá nhiều quy tắc dài dòng, chính phần quy tắc đó lại làm tăng lượng token đầu vào.

3.5. Sửa lại yêu cầu cũ thay vì viết lại toàn bộ

Khi câu hỏi, đoạn chat hoặc yêu cầu tạo ảnh chưa đúng, người dùng nên dùng chức năng sửa của AI nếu có. Việc sửa trực tiếp yêu cầu cũ thường tiết kiệm hơn so với việc viết lại một yêu cầu mới rất dài.

Ví dụ, nếu đã yêu cầu tạo ảnh nhưng ảnh có chi tiết chưa đúng, không cần mô tả lại toàn bộ từ đầu. Chỉ cần viết:

“Xóa phần chữ trong ảnh.”

“Giảm bớt chi tiết.”

“Giữ bố cục cũ, chỉ đổi màu nền.”

“Không thêm nhân vật mới.”

Cách làm này giúp AI tập trung vào phần cần chỉnh sửa, tránh xử lí lại quá nhiều thông tin không cần thiết.

Kết luận

Token là đơn vị quan trọng trong quá trình AI đọc yêu cầu và tạo câu trả lời. Muốn tiết kiệm token, người dùng cần giảm độ dài đầu vào, giới hạn độ dài đầu ra và tránh đưa vào những dữ liệu không cần thiết. Cách sử dụng hiệu quả nhất là: tạo chat mới khi đổi chủ đề, chỉ gửi phần tài liệu cần xử lí, yêu cầu trả lời ngắn gọn, đặt quy tắc sử dụng thường xuyên và sửa trực tiếp yêu cầu cũ khi cần điều chỉnh. Khi biết dùng token hợp lí, chúng ta không chỉ tiết kiệm chi phí mà còn giúp AI làm việc chính xác, nhanh và đúng trọng tâm hơn.