Nhiều nghiên cứu mới đây đă chỉ ra rằng GPT o3 và o4-mini - những mô h́nh mạnh mẽ nhất trong danh mục sản phẩm của OpenAI - đang tự bịa đặt các thông tin không có thật c̣n nhiều hơn cả các phiên bản trước đó.

2 mô h́nh ChatGPT vừa ra mắt có tần suất bịa đặt thông tin nhiều hơn thế hệ cũ. Ảnh: Fireflies.
Chỉ hai ngày sau khi công bố GPT-4.1, OpenAI chính thức ra mắt không chỉ một mà là hai mô h́nh mới, tên là o3 và o4-mini. Cả hai mô h́nh thể hiện khả năng suy luận vượt trội với nhiều cải tiến mạnh mẽ.
Tuy nhiên, theo TechCrunch, bộ đôi mô h́nh mới này vẫn gặp phải t́nh trạng "ảo giác" (hallucinate) hay tự bịa đặt thông tin. Thậm chí, chúng c̣n gặp "ảo giác" nhiều hơn một số mô h́nh cũ của OpenAI.
Theo IBM, ảo giác là hiện tượng mô h́nh ngôn ngữ lớn (LLM) - thường là chatbot hoặc công cụ thị giác máy tính - nhận mẫu dữ liệu không tồn tại hoặc không thể nhận dạng với con người, từ đó tạo kết quả vô nghĩa hoặc sai lệch.
Nói cách khác, người dùng thường yêu cầu AI tạo kết quả chính xác, dựa trên dữ liệu đă đào tạo. Tuy nhiên trong một số trường hợp, kết quả của AI không dựa trên dữ liệu chính xác, tạo phản hồi "ảo giác".
Trong báo cáo mới nhất, OpenAI đă phát hiện ra việc o3 đă "ảo giác" khi trả lời 33% câu hỏi trên PersonQA, tiêu chuẩn nội bộ công ty để đo lường độ chính xác kiến thức của mô h́nh về con người.
Để so sánh, con số này gấp đôi tỷ lệ "ảo giác" của các mô h́nh lập luận trước đó của OpenAI là o1 và o3-mini, với tỷ lệ lần lượt 16% và 14,8%. Trong khi đó, mô h́nh O4-mini thậm chí c̣n tệ hơn trên PersonQA khi gặp "ảo giác" tới 48% thời lượng bài kiểm tra.
Đáng lo ngại hơn, "cha đẻ ChatGPT" thực sự không biết tại sao điều này lại xảy ra. Cụ thể, trong báo cáo kỹ thuật về o3 và o4-mini, OpenAI viết rằng "cần nghiên cứu thêm để hiểu tại sao t́nh trạng "ảo giác" lại trở nên tồi tệ hơn" khi mở rộng quy mô các mô h́nh lập luận.
O3 và o4-mini hoạt động tốt hơn ở một số lĩnh vực, bao gồm các tác vụ liên quan đến lập tŕnh và toán học. Tuy nhiên, do cần "đưa ra nhiều tuyên bố hơn là nói tổng quát", cả hai mô h́nh này đă gặp t́nh trạng cho ra kết quả gồm "nhiều tuyên bố chính xác hơn, nhưng đồng thời cũng xuất hiện nhiều tuyên bố không chính xác hơn".
VietBF@ sưu tập