VietBF - View Single Post

pizza · **Release:** 04-21-2025 Reputation: 237168

Nhiều nghiên cứu mới đây đã chỉ ra rằng GPT o3 và o4-mini - những mô hình mạnh mẽ nhất trong danh mục sản phẩm của OpenAI - đang tự bịa đặt các thông tin không có thật còn nhiều hơn cả các phiên bản trước đó.

2 mô hình ChatGPT vừa ra mắt có tần suất bịa đặt thông tin nhiều hơn thế hệ cũ. Ảnh: Fireflies.
Chỉ hai ngày sau khi công bố GPT-4.1, OpenAI chính thức ra mắt không chỉ một mà là hai mô hình mới, tên là o3 và o4-mini. Cả hai mô hình thể hiện khả năng suy luận vượt trội với nhiều cải tiến mạnh mẽ.

Tuy nhiên, theo TechCrunch, bộ đôi mô hình mới này vẫn gặp phải tình trạng "ảo giác" (hallucinate) hay tự bịa đặt thông tin. Thậm chí, chúng còn gặp "ảo giác" nhiều hơn một số mô hình cũ của OpenAI.

Theo IBM, ảo giác là hiện tượng mô hình ngôn ngữ lớn (LLM) - thường là chatbot hoặc công cụ thị giác máy tính - nhận mẫu dữ liệu không tồn tại hoặc không thể nhận dạng với con người, từ đó tạo kết quả vô nghĩa hoặc sai lệch.

Nói cách khác, người dùng thường yêu cầu AI tạo kết quả chính xác, dựa trên dữ liệu đã đào tạo. Tuy nhiên trong một số trường hợp, kết quả của AI không dựa trên dữ liệu chính xác, tạo phản hồi "ảo giác".

Trong báo cáo mới nhất, OpenAI đã phát hiện ra việc o3 đã "ảo giác" khi trả lời 33% câu hỏi trên PersonQA, tiêu chuẩn nội bộ công ty để đo lường độ chính xác kiến thức của mô hình về con người.

Để so sánh, con số này gấp đôi tỷ lệ "ảo giác" của các mô hình lập luận trước đó của OpenAI là o1 và o3-mini, với tỷ lệ lần lượt 16% và 14,8%. Trong khi đó, mô hình O4-mini thậm chí còn tệ hơn trên PersonQA khi gặp "ảo giác" tới 48% thời lượng bài kiểm tra.

Đáng lo ngại hơn, "cha đẻ ChatGPT" thực sự không biết tại sao điều này lại xảy ra. Cụ thể, trong báo cáo kỹ thuật về o3 và o4-mini, OpenAI viết rằng "cần nghiên cứu thêm để hiểu tại sao tình trạng "ảo giác" lại trở nên tồi tệ hơn" khi mở rộng quy mô các mô hình lập luận.

O3 và o4-mini hoạt động tốt hơn ở một số lĩnh vực, bao gồm các tác vụ liên quan đến lập trình và toán học. Tuy nhiên, do cần "đưa ra nhiều tuyên bố hơn là nói tổng quát", cả hai mô hình này đã gặp tình trạng cho ra kết quả gồm "nhiều tuyên bố chính xác hơn, nhưng đồng thời cũng xuất hiện nhiều tuyên bố không chính xác hơn".

VietBF@ sưu tập