ChatGPT thực sự kém trong việc chẩn đoán tình trạng bệnh lý

TPO - Các nhà khoa học đã yêu cầu ChatGPT, chatbot trí tuệ nhân tạo (AI) đánh giá 150 nghiên cứu trường hợp từ trang web y tế Medscape và phát hiện ra rằng GPT 3.5 (được sử dụng để hỗ trợ ChatGPT khi ra mắt vào năm 2022) chỉ đưa ra chẩn đoán chính xác 49%.

Mô phỏng bác sĩ robot mặc áo khoác phòng thí nghiệm. (Nguồn ảnh: Marko Aliksandr)

Các nghiên cứu trước đây cho thấy ChatGPT có thể vượt qua Kỳ thi cấp phép hành nghề y tại Mỹ (USMLE), một phát hiện được các tác giả ca ngợi là "một cột mốc đáng chú ý trong quá trình trưởng thành của AI".

Tuy nhiên, trong nghiên cứu mới được công bố trên tạp chí PLOS ONE , các nhà khoa học đã cảnh báo không nên dựa vào chatbot cho các trường hợp y tế phức tạp đòi hỏi sự phân biệt của con người.

Tác giả nghiên cứu cao cấp Tiến sĩ Amrit Kirpalani , bác sĩ nhi khoa thận tại Trường Y và Nha khoa Schulich thuộc Đại học Western, Ontario, Mỹ nói: "Tôi nghĩ rằng với tư cách là một cộng đồng y khoa (và trong cộng đồng khoa học lớn hơn), chúng ta cần chủ động giáo dục mọi người về những hạn chế của các công cụ này về mặt này. ChatGPT chưa nên thay thế bác sĩ của bạn ngay bây giờ".

Khả năng phân phối thông tin của ChatGPT dựa trên dữ liệu đào tạo của nó. Được trích xuất từ kho lưu trữ Common Crawl , 570 gigabyte dữ liệu văn bản được đưa vào mô hình năm 2022 tương đương với khoảng 300 tỷ từ, được lấy từ sách, bài viết trực tuyến, Wikipedia và các trang web khác.

Hệ thống AI phát hiện các mẫu mà chúng được đào tạo để dự đoán những gì có thể xảy ra sau đó, cho phép chúng cung cấp câu trả lời. Về lý thuyết, điều này giúp ích cho cả sinh viên y khoa và bệnh nhân tìm kiếm câu trả lời đơn giản cho các câu hỏi y khoa phức tạp, nhưng xu hướng "ảo giác" của chatbot này - bịa ra toàn bộ câu trả lời - hạn chế tính hữu ích của chúng trong chẩn đoán y khoa.

Để đánh giá độ chính xác về lời khuyên y khoa của ChatGPT, các nhà nghiên cứu đã trình bày mô hình với 150 nghiên cứu trường hợp khác nhau - bao gồm tiền sử bệnh nhân, kết quả khám sức khỏe và hình ảnh chụp từ phòng xét nghiệm - nhằm mục đích thử thách khả năng chẩn đoán của “bác sĩ thực tập” này. Chatbot đã chọn một trong bốn kết quả trắc nghiệm trước khi trả lời chẩn đoán và kế hoạch điều trị mà các nhà nghiên cứu đánh giá về độ chính xác.

Kết quả không mấy khả quan, với việc ChatGPT nhận được nhiều phản hồi sai về độ chính xác y khoa. Tuy nhiên, độ chính xác chung của chatbot cao hơn nhiều ở mức 74%, nghĩa là nó có thể xác định và loại bỏ các câu trả lời trắc nghiệm sai một cách đáng tin cậy hơn nhiều.

Bất chấp những hạn chế này, các nhà nghiên cứu cho biết AI và chatbot vẫn có thể hữu ích trong việc giảng dạy và bác sĩ thực tập, miễn là các hệ thống AI được giám sát và các tuyên bố của chúng đi kèm với một số kiểm tra thực tế lành mạnh.