Context Window

📚 Bài viết liên quan:

Generative AI - Tokens và cách AI xử lý

Context Engineering - Tối ưu context

Embedding - Vector representations

RAG - Retrieval-Augmented Generation

Khái niệm cơ bản

Hãy tưởng tượng bạn đang làm bài thi “Open Book”…

Bạn được phép mang tài liệu vào phòng thi, nhưng bàn của bạn chỉ rộng vừa đủ để đặt 3 cuốn sách. Nếu bạn cần cuốn thứ 4, bạn phải bỏ cuốn cũ nhất ra ngoài.

Context Window của AI hoạt động y hệt vậy:

Bàn học = Context Window (Dung lượng cố định)
Sách = Tokens (Đơn vị thông tin)
Bỏ sách cũ = “Quên” thông tin đầu tiên khi vượt quá giới hạn

Token là gì?

Token là đơn vị nhỏ nhất mà AI xử lý. Nó KHÔNG bằng 1 từ.


"Hello, world!" = 4 tokens: ["Hello", ",", " world", "!"]
"Xin chào Việt Nam" = 7 tokens (tiếng Việt tốn nhiều hơn)

Quy tắc nhanh:

Ngôn ngữ	Ước tính
Tiếng Anh	1 token ≈ 4 ký tự ≈ 0.75 từ
Tiếng Việt	1 từ ≈ 1.5 - 2 tokens
Code	Mỗi dấu ngoặc, space đều tính riêng

So sánh Context Window (2026)

Mô hình	Context Window	Tương đương	Chi phí (Input)
GPT-5	400K tokens	~300,000 từ (1000 trang)	$1.25/1M
Claude 4.5 Sonnet	200K - 1M tokens	~750,000 từ	$3.00/1M
Claude 4.5 Opus	200K tokens	~150,000 từ (500 trang)	$8.00/1M
Gemini 3 Pro	1M tokens	~750,000 từ (5 cuốn sách)	$2.00/1M
o3 (Reasoning)	200K tokens	~150,000 từ	$2.00/1M

💡 GPT-5 có context window lớn nhất (400K) và giá hợp lý. Claude 4.5 Sonnet hỗ trợ 1M tokens trong beta.

Vấn đề “Lost in the Middle”

Nghiên cứu cho thấy LLM nhớ tốt thông tin ở đầu và cuối context, nhưng hay bỏ sót phần giữa.


[ĐẦU] ← Nhớ tốt 👍
[GIỮA] ← Hay quên 😵
[CUỐI] ← Nhớ tốt 👍

Giải pháp:

Đặt thông tin quan trọng ở đầu hoặc cuối prompt
Dùng Context Engineering để tối ưu cách sắp xếp
Dùng RAG để chỉ lấy thông tin liên quan thay vì nhồi tất cả

Chi phí thực tế

Giả sử bạn build một chatbot đọc tài liệu công ty (50 trang PDF ≈ 40,000 tokens):

Mô hình	Chi phí/request	1000 requests/ngày
GPT-5	$0.05	$50/ngày
Gemini 3 Pro	$0.08	$80/ngày
Claude 4.5 Sonnet	$0.12	$120/ngày

⚠️ Đây là lý do tại sao RAG quan trọng! Thay vì gửi 40K tokens mỗi lần, RAG chỉ gửi ~2K tokens liên quan → Giảm chi phí 20 lần.

Bài tập thực hành 🧪

Mục tiêu

Đếm số tokens trong một đoạn văn bản tiếng Việt và so sánh với tiếng Anh.

Hướng dẫn

Bước 1: Truy cập OpenAI Tokenizer

Bước 2: Paste đoạn văn bản sau:


Việt Nam là một quốc gia nằm ở Đông Nam Á.
Vietnam is a country located in Southeast Asia.

Bước 3: Quan sát kết quả:

Câu tiếng Việt: ~15 tokens
Câu tiếng Anh: ~9 tokens
Kết luận: Tiếng Việt tốn gấp ~1.7 lần số tokens!

Thử thách nâng cao

Viết script Python đếm tokens sử dụng thư viện tiktoken:


import tiktoken
 
enc = tiktoken.encoding_for_model("gpt-4o")
 
text_vi = "Việt Nam là một quốc gia nằm ở Đông Nam Á."
text_en = "Vietnam is a country located in Southeast Asia."
 
print(f"Tiếng Việt: {len(enc.encode(text_vi))} tokens")
print(f"Tiếng Anh: {len(enc.encode(text_en))} tokens")

Tóm tắt

Khái niệm	Ý nghĩa
Context Window	Giới hạn tokens mà AI xử lý được trong 1 request
Token	Đơn vị nhỏ nhất (không = 1 từ)
Lost in the Middle	AI hay quên thông tin nằm ở giữa context
Tối ưu	Dùng RAG, Summarization, Context Caching

Bài tiếp theo: Context Engineering - Nghệ thuật sắp xếp context hiệu quả.