Mở đầu
Khi sử dụng các công cụ AI như ChatGPT, Claude, Gemini hay các mô hình AI khác, nhiều người thường chỉ quan tâm đến câu trả lời mà chưa chú ý đến một yếu tố rất quan trọng: token.
Hiểu đơn giản, token là đơn vị mà AI dùng để đọc yêu cầu của người dùng và tạo ra câu trả lời. Biết cách sử dụng token hợp lí sẽ giúp tiết kiệm chi phí, tránh vượt giới hạn, đồng thời giúp AI trả lời đúng trọng tâm hơn.
1. Token là gì?
Token là những đơn vị nhỏ được tách ra từ văn bản để mô hình AI xử lí. Một token có thể là một từ, một phần của từ, một dấu câu, một kí hiệu hoặc một đoạn nhỏ trong câu.
Ví dụ, câu ngắn thường tốn ít
token hơn câu dài. Một đoạn văn nhiều chữ, nhiều yêu cầu, nhiều bảng biểu hoặc
nhiều dữ liệu đính kèm sẽ tốn nhiều token hơn. Tuy nhiên, không nên hiểu đơn giản
rằng một chữ bằng một token, vì cách tách token phụ thuộc vào từng mô
hình AI, từng ngôn ngữ và từng loại dữ liệu.
Với tiếng Việt, do có dấu, khoảng
trắng và cấu trúc từ ngữ riêng, số token có thể khác với số từ mà chúng ta nhìn
thấy. Vì vậy, cách hiểu thực tế nhất là: nội dung càng dài, càng nhiều dữ liệu,
càng nhiều lịch sử trò chuyện thì càng tốn nhiều token.
2. Cách tính token của các mô
hình AI
Các mô hình AI thường tính token
theo hai phần chính:
Thứ nhất là token đầu vào.
Đây là phần người dùng đưa cho
AI, bao gồm câu hỏi, yêu cầu, đoạn văn bản, dữ liệu được dán vào, nội dung file
tải lên, hình ảnh, bảng biểu và cả phần ngữ cảnh trò chuyện trước đó nếu hệ thống
cần dùng lại.
Ví dụ, nếu bạn yêu cầu AI sửa một
đoạn văn ngắn thì lượng token đầu vào ít. Nhưng nếu bạn tải lên một file Word
dài 50 trang, một file PowerPoint nhiều slide hoặc một bảng Excel lớn thì lượng
token đầu vào sẽ tăng lên rất nhiều.
Thứ hai là token đầu ra.
Đây là phần AI tạo ra để trả lời
người dùng. Câu trả lời càng dài thì càng tốn nhiều token đầu ra. Vì vậy, nếu
chỉ cần một câu trả lời ngắn mà bạn không nói rõ, AI có thể trả lời dài, dẫn đến
tốn token không cần thiết.
Ngoài ra, với các cuộc trò chuyện
dài, AI có thể phải dựa vào một phần ngữ cảnh cũ để hiểu yêu cầu mới. Khi đó,
token không chỉ nằm ở câu hỏi mới nhất mà còn có thể bao gồm cả nội dung trước
đó trong cuộc trò chuyện. Đây là lí do vì sao một đoạn chat quá dài có thể làm
tốn token hơn và đôi khi khiến AI trả lời kém tập trung hơn.
Tóm lại, token thường được tính dựa
trên:
- Nội dung người dùng nhập vào.
- Nội dung file, ảnh, bảng biểu hoặc dữ liệu đính
kèm.
- Ngữ cảnh trò chuyện trước đó.
- Độ dài câu trả lời mà AI tạo ra.
3. Cách tiết kiệm token khi
dùng AI
3.1. Tạo chat mới khi đổi chủ
đề
Khi một cuộc trò chuyện đã quá
dài, đặc biệt là khi bạn chuyển sang một chủ đề hoàn toàn khác, nên tạo một
chat mới. Việc này giúp AI không phải xử lí quá nhiều ngữ cảnh cũ không còn cần
thiết.
Ví dụ, nếu trước đó bạn đang trao
đổi về thiết kế website, sau đó muốn hỏi về cách học tiếng Anh, nên mở một cuộc
trò chuyện mới. Như vậy, yêu cầu sẽ rõ hơn, AI trả lời tập trung hơn và tiết kiệm
token hơn.
Nguyên tắc đơn giản là: mỗi chủ
đề lớn nên có một cuộc trò chuyện riêng.
3.2. Hạn chế tải lên file quá
lớn nếu không cần thiết
File Word, PowerPoint, Excel hoặc
PDF thường chứa rất nhiều dữ liệu. Khi tải lên, AI có thể phải đọc và xử lí một
lượng thông tin lớn, dẫn đến tốn nhiều token.
Thay vì tải toàn bộ file, người
dùng nên chọn đúng phần cần xử lí. Ví dụ:
- Chỉ gửi đoạn văn cần sửa.
- Chỉ gửi trang cần phân tích.
- Chỉ gửi bảng dữ liệu cần tính toán.
- Chỉ yêu cầu AI đọc một phần cụ thể trong tài liệu.
Nếu làm việc thường xuyên với
Word, PowerPoint hoặc Excel, có thể cân nhắc dùng các công cụ AI tích hợp trực
tiếp trong Office hoặc các tiện ích hỗ trợ ngay trong phần mềm. Cách này giúp
trao đổi trực tiếp với tài liệu đang mở, thay vì phải tải lên toàn bộ file nhiều
lần.
3.3. Yêu cầu AI trả lời ngắn gọn,
đúng trọng tâm
Một trong những cách tiết kiệm
token hiệu quả nhất là yêu cầu AI trả lời ngắn. Nếu không nói rõ, AI có thể giải
thích dài, đưa nhiều ví dụ hoặc mở rộng vấn đề quá mức cần thiết.
Người dùng nên viết yêu cầu cụ thể
như:
“Trả lời ngắn gọn trong 5 ý.”
“Chỉ nêu cách làm, không giải
thích dài.”
“Viết tối đa 300 chữ.”
“Chỉ đưa đoạn code cần sửa, không
viết lại toàn bộ.”
“Làm từng bước, xong bước 1 thì dừng
lại.”
Những yêu cầu như vậy giúp AI tạo
câu trả lời vừa đủ, dễ đọc và ít tốn token hơn.
3.4. Cập nhật “các yêu cầu sử dụng thường
xuyên”
Nếu bạn thường xuyên có một kiểu
yêu cầu giống nhau, nên đặt thành quy tắc ngắn gọn ngay từ đầu. Điều này giúp
AI hiểu cách bạn muốn nhận câu trả lời mà không cần phải giải thích lại nhiều lần.
Ví dụ:
“Khi tôi hỏi về code, hãy chỉ ra
lỗi và đưa đoạn thay thế, không viết lại toàn bộ file nếu không cần.”
“Khi tôi hỏi về bài viết, hãy trả
lời ngắn, có mở đầu, thân bài, kết luận.”
“Khi tôi yêu cầu sửa văn bản, hãy
giữ nguyên ý chính, chỉ sửa lỗi diễn đạt và chính tả.”
Tuy nhiên, các quy tắc thường
xuyên cũng nên ngắn gọn. Nếu viết quá nhiều quy tắc dài dòng, chính phần quy tắc
đó lại làm tăng lượng token đầu vào.
3.5. Sửa lại yêu cầu cũ thay
vì viết lại toàn bộ
Khi câu hỏi, đoạn chat hoặc yêu cầu
tạo ảnh chưa đúng, người dùng nên dùng chức năng sửa của AI nếu có. Việc sửa trực
tiếp yêu cầu cũ thường tiết kiệm hơn so với việc viết lại một yêu cầu mới rất
dài.
Ví dụ, nếu đã yêu cầu tạo ảnh
nhưng ảnh có chi tiết chưa đúng, không cần mô tả lại toàn bộ từ đầu. Chỉ cần viết:
“Xóa phần chữ trong ảnh.”
“Giảm bớt chi tiết.”
“Giữ bố cục cũ, chỉ đổi màu nền.”
“Không thêm nhân vật mới.”
Cách làm này giúp AI tập trung vào phần cần chỉnh sửa, tránh xử lí lại quá nhiều thông tin không cần thiết.
Kết luận
Token là đơn vị quan trọng trong
quá trình AI đọc yêu cầu và tạo câu trả lời. Muốn tiết kiệm token, người dùng cần
giảm độ dài đầu vào, giới hạn độ dài đầu ra và tránh đưa vào những dữ liệu
không cần thiết. Cách sử dụng hiệu quả nhất là: tạo chat mới khi đổi chủ đề, chỉ
gửi phần tài liệu cần xử lí, yêu cầu trả lời ngắn gọn, đặt quy tắc sử dụng thường
xuyên và sửa trực tiếp yêu cầu cũ khi cần điều chỉnh. Khi biết dùng token hợp
lí, chúng ta không chỉ tiết kiệm chi phí mà còn giúp AI làm việc chính xác,
nhanh và đúng trọng tâm hơn.


Nhận xét
Đăng nhận xét