VietBF - View Single Post - TQ: DeepSeek âm thầm cho ra mắt bản nâng cấp mô hình AI suy luận logic R1-0528

trungthuc · **Release:** 06-01-2025 Reputation: 330564

(Minh họa)
DeepSeek, một công ty khởi nghiệp (startup) trí tuệ nhân tạo (AI) của TQ, vừa cho phát hành ra bản cập nhật đầu tiên cho mô hình reasoning ăn khách R1 vào hôm 29/5, từ đó gia tăng khả năng để cạnh tranh với các đối thủ ở Mỹ như OpenAI.

Theo thông báo trên nền tảng dành cho công ty Hugging Face, phiên bản R1-0528 là một phiên bản nâng cấp nhỏ cho R1, nhưng vẫn giúp cải thiện đáng kể về khả năng suy luận và phân tích sâu sắc, bao gồm cả việc xử lý tốt hơn các thao tác phức tạp, đưa mức hiệu suất của nó đến gần với các mô hình suy luận o3 của OpenAI và Gemini 2.5 Pro của Google.

Việc cho ra mắt của R1 vào hồi tháng 1/2025 đã giúp cho cái tên của startup này bùng nổ trên quy mô lớn, khiến cho giá cổ phiếu kỹ nghệ bên ngoài TQ bị sụt giảm mạnh và thách thức quan điểm cho rằng việc cho mở rộng AI đòi hỏi sức mạnh về tính toán với nguồn đầu tư khổng lồ. Kể từ khi R1 được cho phát hành ra, các tập đoàn khổng lồ kỹ nghệ của TQ như Alibaba và Tencent đã lần lượt tung ra các mô hình tuyên bố còn vượt trội hơn cả DeepSeek.

Bản cập nhật ra mắt hôm thứ Năm 30/5 ban đầu thiếu các chi tiết, trái ngược với sự ra mắt của R1 vào tháng Giêng, đi kèm với một bài báo về học thuật do nhiều tác giả viết ra, để cho cộng đồng AI trên toàn thế giới tìm cách phân tích để hiểu rõ thêm về chiến lược của công ty khởi nghiệp này.

Công ty đặt trụ sở tại Hàng Châu sau đó cho đăng tải ngắn gọn trên MXH X rằng R1-0528 có mức hiệu suất được cải thiện thêm. Trong một bài đăng dài hơn trên WeChat, DeepSeek có cho biết tỷ lệ "ảo giác", khiến cho nội dung ở đầu ra bị sai lệch về kết quả hoặc gây ra hiểu lầm, đã giảm khoảng 45% đến 50% trong các thao tác như cho viết lại và tóm tắt qua văn bản.

Công ty cũng cho biết bản cập nhật này còn giúp cho mô hình có khả năng sáng tạo viết luận, tiểu thuyết và các thể loại khác, đồng thời cải thiện khả năng tạo code lập trình giao diện cho người sử dụng. "Mô hình đã chứng minh mức hiệu suất xuất sắc trong nhiều bài đánh giá tiêu chuẩn, bao gồm toán học, lập trình và logic nói chung", theo DeepSeek cho biết.

Sự thành công của DeepSeek đã làm đảo ngược niềm tin cho rằng các biện pháp kiểm soát về việc xuất khẩu của Mỹ đang kìm hãm sự tiến bộ AI của TQ, sau khi xuất hiện ra các mô hình AI ngang hàng hoặc tốt hơn so với các mô hình hàng đầu trong ngành AI ở Mỹ với chi phí bỏ ra thấp hơn đáng kể.

Startup TQ còn cho biết thêm vào ngày 29/5, rằng một biến thể của bản cập nhật của họ đã được tạo ra bằng cách sử dụng quy trình suy luận được vận hành bởi mô hình R1-0528 để tiếp tục nâng cao mô hình Qwen 3 8B Base của tập đoàn khổng lồ kỹ nghệ TQ Alibaba, thông qua một quá trình được gọi là "chưng cất số liệu". Kết quả là mức hiệu suất đã vượt trội hơn so với mô hình Qwen 3 ban đầu là hơn 10%.

"Chúng tôi tin rằng chuỗi suy nghĩ từ DeepSeek-R1-0528 sẽ có ý nghĩa quan trọng đối với cả nghiên cứu học thuật về các mô hình reasoning và phát triển kỹ nghệ tập trung vào các mô hình có quy mô nhỏ", DeepSeek bổ sung thêm.

Bloomberg đã đưa tin về bản cập nhật này vào ngày thứ Tư. Theo nguồn tin cho biết một đại diện của DeepSeek đã thông báo trong một nhóm WeChat rằng họ đã hoàn thành những gì mà họ gọi là "nâng cấp thử nghiệm nhỏ" và người sử dụng có thể bắt đầu cho kiểm tra nó.

Phản ứng lại sự cạnh tranh từ DeepSeek, Gemini của Google đã giới thiệu các dịch vụ truy cập được giảm lệ phí đăng ký, trong khi OpenAI cho cắt giảm giá và phát hành ra mô hình o3 Mini dựa trên sức mạnh tính toán ít ỏi hơn.

DeepSeek vẫn kỳ vọng sẽ sớm cho phát hành ra mô hình R2, phiên bản kế tiếp của R1. Reuters có đưa tin vào hồi tháng 3, khi trích dẫn ra các nguồn tin giấu tên rằng việc phát hành R2 ban đầu dự kiến sẽ được tung ra vào tháng 5. DeepSeek cũng đã cho phát hành một bản nâng cấp cho mô hình ngôn ngữ lớn V3 của họ vào tháng 3 vừa qua.

Theo Nikkei