Thông điệp chính: Đây là Khóa học tiếp theo của Giáo Trình ​AI & Prompt Engineering Cơ Bản giúp người mới nắm vững nền tảng AI, hiểu đúng cách các thông số kỹ thuật (parameters, context window, tốc độ suy luận…) ảnh hưởng đến độ chính xác của mô hình; đồng thời luyện tư duy thực hành thông qua dự án và tình huống thực tế.

MODULE 1 – Tổng Quan AI & LLMs

Nội dung chi tiếtMục tiêu thực hành
1.1 Khái niệm AI – ML – LLM – Phân biệt Narrow vs General AI – Chu trình “dữ liệu → thuật toán → mô hình”Phân tích một ứng dụng Netflix Recommendation để chỉ ra dữ liệu, thuật toán, output1.
1.2 Thông số kỹ thuật then chốt – Số tham số (params) – Context window – Token throughputTra cứu bảng so sánh GPT-4 (~1.8 T params)2 vs GPT-4o (~200 B)3 và thảo luận: “Nhiều tham số có luôn chính xác hơn không?”
1.3 Chuẩn đánh giá độ chính xác – MMLU, GPQA, TruthfulQA, Hallucination RateHọc viên chạy demo on-line benchmark TruthfulQA (100 câu) với GPT-4o & Claude 3.5 và ghi lại tỉ lệ sai lệch để so sánh (Claude 3.5 Sonnet: 200K context, nhưng hallu thấp hơn GPT-3.5)45.

MODULE 2 – Soi Kỹ Các Mô Hình Phổ Biến 2024-2025

2.1 Dòng GPT (OpenAI)

ModelParams ước tínhContext window (API)HallucinationƯu điểm nổi bật
GPT-4~1.8 T232K15-20%6Độ chính xác cao, khả năng suy luận phức tạp
GPT-4o~200 B3128K137-62% (SimpleQA)72× tốc độ, giá rẻ hơn 50%, đa phương thức real-time89
GPT-4.1Chưa công bố; tối ưu GPT-4o1 M tokens (API)1011~2% (HuggingFace H-board)12Cải thiện coding & theo-lệnh, giảm hallu, vẫn giữ tốc độ cao

Bài thực hành:

  1. Chạy cùng một prompt phân tích hợp đồng pháp lý trên GPT-4o và GPT-4.1 (API free-tier). Ghi số token, thời gian phản hồi và số lỗi fact-check được phát hiện.
  2. Thảo luận vì sao GPT-4.1 hallu thấp nhưng vẫn không được đặt mặc định trong ChatGPT (chiến lược tốc độ và chi phí máy chủ)12.

2.2 Dòng Claude (Anthropic)

ModelParams*Context windowCải tiến chínhBenchmarks
Claude 3.5 Sonnet~175 B3200K42× tốc độ Claude 3 Opus; “Artifacts” workspace4GPQA 59.4% (0-shot CoT) – cao hơn GPT-4o13
Claude 3.7 Sonnetn/a (upgrade)200K (Max) / 48K (Std)14“Extended Thinking” điều khiển compute; +26% coding SWE-bench15Instruction-Following 93.2% dẫn đầu15

*Anthropic không công bố params; số liệu lấy từ nguồn ước lượng.

Case-study: Refactor mã Python 500 LOC bằng Claude 3.7 Sonnet Extended-Thinking và đo số bug còn sót (đạt 70.3% SWE-bench15) so với GPT-4o.

MODULE 3 – Prompt Engineering Cơ Bản (Mở Rộng)

Kỹ thuậtMô tả ngắnĐiểm cần nhấn mạnh về chính xác
Zero-shotPrompt 1 dòng rõ ràngThích hợp truy vấn fact ngắn; dễ hallu khi cần lập luận dài
Few-shotThêm 2-5 ví dụGiảm sai lệch định dạng; tốn context window (cân nhắc 128K vs 48K)114
Chain-of-ThoughtThêm chỉ dẫn “suy nghĩ từng bước”Tăng chính xác toán học (GPT-4o dẫn 76.6% MATH benchmark)13 nhưng tăng chi phí token
Role-promptĐặt vai “Chuyên gia kiểm chứng”Minh hoạ: yêu cầu GPT-4o trích dẫn nguồn để giảm hallu 15% so với không role16

Bài tập: Viết 3 phiên bản prompt Few-shot cho nhiệm vụ tóm tắt tin tài chính; đo Rouge-L để chọn bản tốt nhất.

MODULE 4 – Kiểm Soát Tham Số & Cấu Hình Khi Gọi API

Tham sốẢnh hưởng tới kết quảGợi ý thực hành
TemperatureĐộ ngẫu nhiên → nhiệt độ cao = sáng tạo, nhưng tăng lệch chuẩn kết quảSo sánh temp = 0.2 vs 1.0 trong viết slogan; đo điểm Coherence do học viên đánh giá
Top-P / Top-KCắt đuôi phân bố → kiểm soát tính “an toàn”Thử Top-P = 0.9 vs 0.4 trên GPT-4o; thống kê tỷ lệ “lạc đề”
Max_tokensGiới hạn chiều dài output (khác context window)1Demo lỗi “400: max_tokens too large” khi set 64000 cho GPT-4o1
System promptĐịnh tuyến hành vi mô hìnhYêu cầu Claude 3.5 “tư duy có căn cứ pháp lý” và kiểm chứng độ chính xác nguồn

MODULE 5 – Ứng Dụng Thực Tiễn

  1. Tự động hóa CSKH – Raygun giảm 88% chi phí xử lý lỗi nhờ GPT-4o mini, tốc độ nhanh gấp 2.5×17.
  2. Kế toán & kiểm toán – GPT-4o đạt 85% độ chính xác CFA Level-1, vượt GPT-4 73%18.
  3. Lập trình – Claude 3.7 Sonnet giải 70.3% SWE-bench, cao hơn GPT-4o 49%15.

Mỗi buổi học, sinh viên chọn 1 case, viết prompt, triển khai, đo KPI (thời gian, lỗi, chi phí), trình bày kết quả.

MODULE 6 – Đánh Giá, Giám Sát & Giảm Hallucination

Phương phápMô tảTác động
RAG (Retrieval-Augmented)Chèn dữ liệu đã kiểm chứng → giảm hallu 30-50%Thực hành dùng GPT-4o + tài liệu PDF nội bộ
Double-check bằng mô hình khácCross-model agreementNếu GPT-4o & Claude 3.5 trả lời khác → cảnh báo người dùng
Eval tự độngChấm Rouge-L, BLEU, TruthfulQAGPT-4.1 hallu ~2%, thấp nhất12

MODULE 7 – Dự Án Cuối Khóa (Capstone)

  • Học viên chọn 1 mô đun (Ví dụ: Travel chatbot, Financial analyzer).
  • Bắt buộc so sánh tối thiểu 2 mô hình (VD GPT-4o vs Claude 3.7) về: chi phí, tốc độ, độ chính xác.
  • Báo cáo kèm số liệu benchmark và phân tích lý do mô hình nào phù hợp trường hợp cụ thể.

PHỤ LỤC – Bảng So Sánh Nhanh Các Mô Hình (2025 Q2)

ModelParams*Context (API)Token $ /1M (in/out)HallucinationTốc độ (t/s)
GPT-4~1.8 T232K30 / 6015-20%630
GPT-4o~200 B3128K110 / 3037-62%716478
GPT-4.1n/c1M1012 / 36~2%1240
Claude 3.5 Sonnet~175 B3200K43 / 1525-30% (Anthropic internal)35
Claude 3.7 Sonnetn/c48K-200K143 / 151520-25% (IFEval)1578 (std)19

*n/c = not confirmed.

Lời Kết

Khung mở rộng trên đảm bảo:

  • Thuyết minh bản chất kỹ thuật gắn liền tính thực tiễn (benchmarks, chi phí, tốc độ).
  • Học viên không chỉ “dùng” mà đo được độ chính xác, hiểu vì sao mỗi mô hình đúng/sai khác nhau, từ đó tự tin chọn giải pháp AI phù hợp trong công việc.

Leave a Reply

Your email address will not be published. Required fields are marked *