Hôm 14.6, trang SCMP đưa tin các nhà nghiên cứu Trung Quốc lần đầu tiên xác nhận rằng các mô h́nh ngôn ngữ lớn có thể tự phát triển một hệ thống giống con người để hiểu và phân loại những vật thể tự nhiên. Đây là quá tŕnh được xem là nền tảng của nhận thức con người.
Phát hiện này cung cấp bằng chứng mới trong cuộc tranh luận về khả năng nhận thức của trí tuệ nhân tạo (AI), cho thấy có thể xây dựng các hệ thống nhân tạo phản ánh những khía cạnh then chốt trong tư duy con người.
“Hiểu được cách con người khái niệm hóa và phân loại các vật thể tự nhiên cung cấp cái nh́n quan trọng về tri giác và nhận thức”, nhóm nghiên cứu viết trong bài báo đăng trên tạp chí khoa học có b́nh duyệt Nature Machine Intelligence.
“Với sự phát triển của các mô h́nh ngôn ngữ lớn, một câu hỏi then chốt được đặt ra: Liệu chúng có thể phát triển cách biểu diễn vật thể giống con người từ dữ liệu ngôn ngữ và dữ liệu đa phương thức không?”, nhóm nghiên cứu đặt câu hỏi.
Mô h́nh ngôn ngữ lớn là mô h́nh AI được huấn luyện trên khối lượng dữ liệu văn bản khổng lồ để xử lư các tác vụ. Ngoài văn bản, mô h́nh ngôn ngữ lớn đa phương thức c̣n có thêm dữ liệu h́nh ảnh và âm thanh.
Thông qua việc tiếp xúc với cả dữ liệu ngôn ngữ và đa phương thức, các mô h́nh như GPT của OpenAI và Google Gemini thể hiện khả năng đáng kể trong suy luận, truyền đạt khái niệm, nhận dạng vật thể và phân loại thông tin.
Các nghiên cứu trước đây cho thấy AI dù có năng lực ấn tượng nhưng vẫn gặp khó khăn với những tác vụ đ̣i hỏi chiều sâu của tư duy con người, chẳng hạn tư duy bằng phép loại suy.
Tư duy bằng phép loại suy là quá tŕnh nhận thức mà trong đó con người so sánh hai sự vật, hiện tượng khác nhau để t́m ra điểm tương đồng về cấu trúc, chức năng hay mối quan hệ, từ đó suy luận ra điều mới hoặc giải quyết vấn đề.
Một nền tảng quan trọng trong nhận thức con người là khả năng biểu diễn vật thể, tức là khả năng nh́n thấy các vật thể đa dạng và gán chúng vào những danh mục và khái niệm dựa trên việc so sánh. Khi nh́n thấy một con chó hay quả táo, con người không chỉ nhận diện đặc điểm h́nh thể mà c̣n hiểu được ư nghĩa, chức năng và giá trị cảm xúc của chúng.
Tiềm năng nhận thức của các hệ thống học sâu, đặc biệt là khả năng tự nhiên tiếp thu cách biểu diễn vật thể giống con người mà không cần huấn luyện theo tác vụ cụ thể, là chủ đề được nghiên cứu và tranh luận nhiều.
Học sâu là phương pháp dạy máy tính cách học và suy nghĩ theo cách mô phỏng bộ năo con người, đặc biệt là cách các tế bào thần kinh (neuron) trong năo kết nối và xử lư thông tin.
Các đặc điểm chính của học sâu
Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN): Đây là nền tảng cốt lơi của học sâu. Mạng nơ-ron được cấu tạo từ nhiều lớp các đơn vị xử lư (giống như các nơ-ron), mỗi lớp sẽ xử lư và chuyển đổi dữ liệu, sau đó truyền kết quả cho lớp tiếp theo. "Sâu" ám chỉ việc có nhiều lớp ẩn giữa lớp đầu vào và lớp đầu ra. Càng nhiều lớp, mạng càng "sâu" và có khả năng học được các đặc trưng phức tạp, trừu tượng hơn từ dữ liệu.
Học biểu diễn đặc trưng: Không giống các phương pháp học máy truyền thống thường yêu cầu con người trích xuất các đặc trưng quan trọng từ dữ liệu, học sâu có khả năng tự động học và trích xuất các đặc trưng từ dữ liệu thô. Ví dụ, khi nhận diện h́nh ảnh mèo, thay v́ bạn phải "dạy" máy tính về tai, mắt và mũi mèo, mạng học sâu có thể tự học cách nhận biết những đặc điểm này qua hàng triệu h́nh ảnh.
Hoạt động với dữ liệu phi cấu trúc: Học sâu đặc biệt hiệu quả với các loại dữ liệu phi cấu trúc như h́nh ảnh, âm thanh, văn bản và video, mà các phương pháp học máy truyền thống thường gặp khó khăn.
Cần lượng lớn dữ liệu và tài nguyên tính toán: Để hoạt động hiệu quả, các mô h́nh học sâu thường yêu cầu một lượng dữ liệu khổng lồ để "học" và đ̣i hỏi sức mạnh điện toán lớn để xử lư các phép tính phức tạp.
“AI hiện tại có thể phân biệt ảnh mèo và ảnh chó, nhưng sự khác biệt cốt lơi giữa việc nhận diện này so với khả năng ‘hiểu’ của con người về mèo và chó vẫn chưa được làm rơ”, Giáo sư Hà Huệ Quang thuộc Viện Tự động hóa của Viện Hàn lâm khoa học Trung Quốc (CAS) phát biểu.

Bằng chứng AI có thể tư duy như con người sẽ góp phần định h́nh việc phát triển robot thông minh - Ảnh: Shutterstock
Sự tương đồng đáng kể
Để khảo sát mối liên hệ giữa biểu diễn khái niệm vật thể trong mô h́nh ngôn ngữ lớn và nhận thức con người, các nhà nghiên cứu từ CAS và Đại học Công nghệ Hoa Nam đă tiến hành các thí nghiệm hành vi, mô h́nh tính toán và phân tích h́nh ảnh năo.
Nhóm nghiên cứu bắt đầu bằng các bài kiểm tra bộ ba khác biệt, trong đó con người hoặc mô h́nh ngôn ngữ lớn được cung cấp ba vật thể và phải chọn ra cái khác biệt. Họ sử dụng GPT-3.5 để thực hiện nhiệm vụ bằng mô tả văn bản và Gemini Pro 1.0 để thực hiện bằng h́nh ảnh. Đây là hai phiên bản cũ của mô h́nh ngôn ngữ lớn do OpenAI và Google phát triển.
Họ thu thập tổng cộng 4,7 triệu lựa chọn từ hai mô h́nh, từ đó dựng lại cấu trúc tương đồng giữa 1.854 vật thể trong thế giới thực, gồm cả động vật, thực vật, thực phẩm, đồ nội thất, trang phục và phương tiện.
Sử dụng một phương pháp thiết kế cho con người, nhóm nghiên cứu xác định được 66 chiều khác biệt đặc trưng làm cơ sở cho các phán đoán về sự tương đồng của hai mô h́nh ngôn ngữ lớn, phản ánh cấu trúc quy mô lớn về cách chúng sắp xếp các đối tượng tự nhiên.
Những chiều này có thể được liên kết với các danh mục như “liên quan đến thực phẩm”, đồng thời cũng phản ánh đặc điểm nhận thức như nhiệt độ, kết cấu, tính đặc thù (dành cho người lớn hay trẻ em), thành phần vật lư hay môi trường tồn tại (biển hoặc đất liền).
Nhóm nghiên cứu so sánh với dữ liệu tương đồng từ con người cùng các vật thể và chiều cốt lơi được quan sát trong nhận thức của người. Kết quả là họ phát hiện sự tương đồng đáng kể giữa hai mô h́nh và nhận thức con người, đặc biệt trong các danh mục ngữ nghĩa.
Mức độ tương đồng cao hơn xuất hiện giữa mô h́nh ngôn ngữ lớn đa phương thức và nhận thức con người, v́ mô h́nh ngôn ngữ lớn chỉ dựa vào văn bản nên thiếu những chiều liên quan đến thị giác như h́nh dạng hay đặc tính không gian.
“Phân tích sâu hơn cho thấy có sự tương ứng mạnh giữa biểu diễn của mô h́nh và hoạt động thần kinh trong các vùng năo bộ, chẳng hạn vùng quanh hồi hải mă, nơi tham gia vào việc mă hóa và nhận diện cảnh vật trong môi trường”, nhóm nghiên cứu cho biết.
Điều này cho thấy các chiều trích xuất từ mô h́nh ngôn ngữ lớn đa phương thức có thể được rút ra từ những quá tŕnh tương tự như con người sử dụng để hiểu vật thể.
“Đây là bằng chứng thuyết phục cho thấy cách biểu diễn vật thể trong các mô h́nh ngôn ngữ lớn, dù không hoàn toàn giống con người, nhưng có những điểm tương đồng cơ bản phản ánh các khía cạnh cốt lơi về kiến thức khái niệm của con người”, nhóm nghiên cứu kết luận.
Phát hiện này có thể góp phần định h́nh việc phát triển các giao diện tương tác người - máy mượt mà hơn và hệ thống nhận thức nhân tạo giống con người, chẳng hạn robot thông minh.