Giáo Trình AI & Prompt Engineering Cơ Bản (Bản Mở Rộng) -

Thông điệp chính: Đây là Khóa học tiếp theo của Giáo Trình AI & Prompt Engineering Cơ Bản giúp người mới nắm vững nền tảng AI, hiểu đúng cách các thông số kỹ thuật (parameters, context window, tốc độ suy luận…) ảnh hưởng đến độ chính xác của mô hình; đồng thời luyện tư duy thực hành thông qua dự án và tình huống thực tế.

MODULE 1 – Tổng Quan AI & LLMs

Nội dung chi tiết	Mục tiêu thực hành
1.1 Khái niệm AI – ML – LLM – Phân biệt Narrow vs General AI – Chu trình “dữ liệu → thuật toán → mô hình”	Phân tích một ứng dụng Netflix Recommendation để chỉ ra dữ liệu, thuật toán, output1.
1.2 Thông số kỹ thuật then chốt – Số tham số (params) – Context window – Token throughput	Tra cứu bảng so sánh GPT-4 (~1.8 T params)2 vs GPT-4o (~200 B)3 và thảo luận: “Nhiều tham số có luôn chính xác hơn không?”
1.3 Chuẩn đánh giá độ chính xác – MMLU, GPQA, TruthfulQA, Hallucination Rate	Học viên chạy demo on-line benchmark TruthfulQA (100 câu) với GPT-4o & Claude 3.5 và ghi lại tỉ lệ sai lệch để so sánh (Claude 3.5 Sonnet: 200K context, nhưng hallu thấp hơn GPT-3.5)4 5.

MODULE 2 – Soi Kỹ Các Mô Hình Phổ Biến 2024-2025

2.1 Dòng GPT (OpenAI)

Model	Params ước tính	Context window (API)	Hallucination	Ưu điểm nổi bật
GPT-4	~1.8 T2	32K	15-20%6	Độ chính xác cao, khả năng suy luận phức tạp
GPT-4o	~200 B3	128K1	37-62% (SimpleQA)7	2× tốc độ, giá rẻ hơn 50%, đa phương thức real-time8 9
GPT-4.1	Chưa công bố; tối ưu GPT-4o	1 M tokens (API)10 11	~2% (HuggingFace H-board)12	Cải thiện coding & theo-lệnh, giảm hallu, vẫn giữ tốc độ cao

Bài thực hành:

Chạy cùng một prompt phân tích hợp đồng pháp lý trên GPT-4o và GPT-4.1 (API free-tier). Ghi số token, thời gian phản hồi và số lỗi fact-check được phát hiện.
Thảo luận vì sao GPT-4.1 hallu thấp nhưng vẫn không được đặt mặc định trong ChatGPT (chiến lược tốc độ và chi phí máy chủ)12.

2.2 Dòng Claude (Anthropic)

Model	Params*	Context window	Cải tiến chính	Benchmarks
Claude 3.5 Sonnet	~175 B3	200K4	2× tốc độ Claude 3 Opus; “Artifacts” workspace4	GPQA 59.4% (0-shot CoT) – cao hơn GPT-4o13
Claude 3.7 Sonnet	n/a (upgrade)	200K (Max) / 48K (Std)14	“Extended Thinking” điều khiển compute; +26% coding SWE-bench15	Instruction-Following 93.2% dẫn đầu15

*Anthropic không công bố params; số liệu lấy từ nguồn ước lượng.

Case-study: Refactor mã Python 500 LOC bằng Claude 3.7 Sonnet Extended-Thinking và đo số bug còn sót (đạt 70.3% SWE-bench15) so với GPT-4o.

MODULE 3 – Prompt Engineering Cơ Bản (Mở Rộng)

Kỹ thuật	Mô tả ngắn	Điểm cần nhấn mạnh về chính xác
Zero-shot	Prompt 1 dòng rõ ràng	Thích hợp truy vấn fact ngắn; dễ hallu khi cần lập luận dài
Few-shot	Thêm 2-5 ví dụ	Giảm sai lệch định dạng; tốn context window (cân nhắc 128K vs 48K)1 14
Chain-of-Thought	Thêm chỉ dẫn “suy nghĩ từng bước”	Tăng chính xác toán học (GPT-4o dẫn 76.6% MATH benchmark)13 nhưng tăng chi phí token
Role-prompt	Đặt vai “Chuyên gia kiểm chứng”	Minh hoạ: yêu cầu GPT-4o trích dẫn nguồn để giảm hallu 15% so với không role16

Bài tập: Viết 3 phiên bản prompt Few-shot cho nhiệm vụ tóm tắt tin tài chính; đo Rouge-L để chọn bản tốt nhất.

MODULE 4 – Kiểm Soát Tham Số & Cấu Hình Khi Gọi API

Tham số	Ảnh hưởng tới kết quả	Gợi ý thực hành
Temperature	Độ ngẫu nhiên → nhiệt độ cao = sáng tạo, nhưng tăng lệch chuẩn kết quả	So sánh temp = 0.2 vs 1.0 trong viết slogan; đo điểm Coherence do học viên đánh giá
Top-P / Top-K	Cắt đuôi phân bố → kiểm soát tính “an toàn”	Thử Top-P = 0.9 vs 0.4 trên GPT-4o; thống kê tỷ lệ “lạc đề”
Max_tokens	Giới hạn chiều dài output (khác context window)1	Demo lỗi “400: max_tokens too large” khi set 64000 cho GPT-4o1
System prompt	Định tuyến hành vi mô hình	Yêu cầu Claude 3.5 “tư duy có căn cứ pháp lý” và kiểm chứng độ chính xác nguồn

MODULE 5 – Ứng Dụng Thực Tiễn

Tự động hóa CSKH – Raygun giảm 88% chi phí xử lý lỗi nhờ GPT-4o mini, tốc độ nhanh gấp 2.5×17.
Kế toán & kiểm toán – GPT-4o đạt 85% độ chính xác CFA Level-1, vượt GPT-4 73%18.
Lập trình – Claude 3.7 Sonnet giải 70.3% SWE-bench, cao hơn GPT-4o 49%15.

Mỗi buổi học, sinh viên chọn 1 case, viết prompt, triển khai, đo KPI (thời gian, lỗi, chi phí), trình bày kết quả.

MODULE 6 – Đánh Giá, Giám Sát & Giảm Hallucination

Phương pháp	Mô tả	Tác động
RAG (Retrieval-Augmented)	Chèn dữ liệu đã kiểm chứng → giảm hallu 30-50%	Thực hành dùng GPT-4o + tài liệu PDF nội bộ
Double-check bằng mô hình khác	Cross-model agreement	Nếu GPT-4o & Claude 3.5 trả lời khác → cảnh báo người dùng
Eval tự động	Chấm Rouge-L, BLEU, TruthfulQA	GPT-4.1 hallu ~2%, thấp nhất12

MODULE 7 – Dự Án Cuối Khóa (Capstone)

Học viên chọn 1 mô đun (Ví dụ: Travel chatbot, Financial analyzer).
Bắt buộc so sánh tối thiểu 2 mô hình (VD GPT-4o vs Claude 3.7) về: chi phí, tốc độ, độ chính xác.
Báo cáo kèm số liệu benchmark và phân tích lý do mô hình nào phù hợp trường hợp cụ thể.

PHỤ LỤC – Bảng So Sánh Nhanh Các Mô Hình (2025 Q2)

Model	Params*	Context (API)	Token $ /1M (in/out)	Hallucination	Tốc độ (t/s)
GPT-4	~1.8 T2	32K	30 / 60	15-20%6	30
GPT-4o	~200 B3	128K1	10 / 30	37-62%7 16	478
GPT-4.1	n/c	1M10	12 / 36	~2%12	40
Claude 3.5 Sonnet	~175 B3	200K4	3 / 15	25-30% (Anthropic internal)	35
Claude 3.7 Sonnet	n/c	48K-200K14	3 / 1515	20-25% (IFEval)15	78 (std)19

*n/c = not confirmed.

Lời Kết

Khung mở rộng trên đảm bảo:

Thuyết minh bản chất kỹ thuật gắn liền tính thực tiễn (benchmarks, chi phí, tốc độ).
Học viên không chỉ “dùng” mà đo được độ chính xác, hiểu vì sao mỗi mô hình đúng/sai khác nhau, từ đó tự tin chọn giải pháp AI phù hợp trong công việc.