Chào mừng đến với gpt-oss của OpenAI!
Ollama hợp tác cùng OpenAI để đưa những mô hình trí tuệ nhân tạo có trọng số mở tiên tiến nhất của OpenAI lên nền tảng Ollama. Hai mô hình, 20B và 120B, mở ra trải nghiệm trò chuyện cục bộ hoàn toàn mới, được tối ưu cho các tác vụ suy luận phức tạp, hỗ trợ các tình huống sử dụng dạng tác vụ tự động và đáp ứng đa dạng nhu cầu của lập trình viên.
Điểm nổi bật
– Khả năng thực hiện tác vụ tự động: Tận dụng các tính năng như gọi hàm, tìm kiếm web (Ollama tích hợp sẵn tìm kiếm web, có thể bật/tắt, giúp bổ sung thông tin mới nhất cho mô hình), thực thi mã Python và xuất dữ liệu có cấu trúc. – Minh bạch quá trình lập luận: Cho phép truy cập đầy đủ chuỗi suy nghĩ và lập luận của mô hình, giúp kiểm tra và đánh giá kết quả dễ dàng, tăng sự tin cậy của đầu ra. – Điều chỉnh mức độ xử lý: Dễ dàng thiết lập mức độ xử lý (thấp, vừa, cao) phù hợp với nhu cầu sử dụng và yêu cầu về tốc độ phản hồi. – Dễ dàng tinh chỉnh: Có thể cá nhân hóa mô hình cho các nhu cầu cụ thể thông qua tinh chỉnh tham số. – Giấy phép Apache 2.0 linh hoạt: Tự do sử dụng, phát triển, thử nghiệm và triển khai thương mại mà không lo ràng buộc bản quyền hay rủi ro về sáng chế.
Định lượng hóa với định dạng MXFP4
OpenAI sử dụng phương pháp định lượng hóa để giảm kích thước bộ nhớ cho các mô hình gpt-oss. Các mô hình này được huấn luyện sau với các trọng số của mixture-of-experts (MoE) đã được định lượng hóa theo định dạng MXFP4, sử dụng chỉ 4,25 bit cho mỗi tham số. Trọng số MoE chiếm hơn 90% tổng số tham số, nên việc sử dụng MXFP4 giúp mô hình nhỏ chạy mượt trên hệ thống 16GB RAM, còn mô hình lớn có thể hoạt động trên GPU đơn 80GB.
Ollama hỗ trợ trực tiếp định dạng MXFP4, không cần qua bất kỳ bước chuyển đổi hay định lượng hóa bổ sung nào. Các nhân xử lý mới cũng đã được xây dựng riêng để hoạt động tối ưu với MXFP4 trên Ollama.
Ollama đã phối hợp chặt chẽ với OpenAI để kiểm thử, đánh giá và so sánh thực nghiệm các bản triển khai, đảm bảo chất lượng đầu ra đồng nhất với bản gốc từ OpenAI.
Mô hình 20 tỷ tham số

Mô hình `gpt-oss-20b` được tối ưu cho các trường hợp sử dụng tại chỗ, yêu cầu độ trễ thấp hoặc các ứng dụng chuyên biệt.
Mô hình 120 tỷ tham số

Mô hình `gpt-oss-120b` phù hợp cho các ứng dụng sản xuất quy mô lớn, đa năng và đòi hỏi khả năng suy luận cao.
NVIDIA và Ollama hợp tác tối ưu gpt-oss trên GeForce RTX & RTX PRO

NVIDIA và Ollama đang mở rộng hợp tác để tối ưu hiệu suất các mô hình trên GPU GeForce RTX và RTX PRO. Nhờ đó, người dùng PC sở hữu RTX có thể tận dụng tối đa sức mạnh của mô hình gpt-oss từ OpenAI.
Chúng tôi sẽ tiếp tục phát triển Ollama và trong thời gian tới sẽ chia sẻ thêm các bài viết kỹ thuật chuyên sâu về mô hình này.
Bắt đầu ngay
Bạn có thể bắt đầu ngay bằng cách tải về [Ollama phiên bản mới nhất](https://ollama.com/download)
Sau đó, tải và sử dụng mô hình trực tiếp qua ứng dụng Ollama hoặc qua dòng lệnh:
ollama run gpt-oss:20b
ollama run gpt-oss:120b
Tham khảo
[Blog ra mắt của OpenAI](https://openai.com/index/introducing-gpt-oss) [Thẻ mô hình OpenAI](https://openai.com/index/gpt-oss-model-card/) [Blog NVIDIA RTX](https://blogs.nvidia.com/blog/rtx-ai-garage-openai-oss)Tham khảo thêm các [gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi](https://aiphogpt.com)