Khi ứng dụng GPT-4, tiến sĩ Isaac Kohane, nhà khoa học máy tính tại Harvard, đồng thời cũng là một bác sĩ có nhiều kinh nghiệm y khoa, đã cảm thấy kinh ngạc trước khả năng của mô hình AI mới nhất do OpenAI phát triển.
GPT-4 là phiên bản mới nhất trong số các mô hình ngôn ngữ AI đang được dùng để vận hành ChatGPT và Bing Chat mới của Microsoft. So với mô hình GPT-3.5 trước đây, GPT-4 “sáng tạo hơn và độ hợp tác cao hơn bao giờ hết” cũng như có thể “giải quyết các vấn đề khó khăn với độ chính xác cao”, theo OpenAI.
Để kiếm chứng sức mạnh của GPT-4, tiến sĩ Isaac Kohane, nhà khoa học máy tính tại Harvard đồng thời cũng là bác sĩ, mới đây đã hợp tác với hai đồng nghiệp để tiến hành bài thử nghiệm với một mục tiêu chính: Xem mô hình trí tuệ nhân tạo mới nhất từ OpenAI hoạt động như thế nào trong môi trường y tế.
Kết quả thu được từ quá trình thử nghiệm GPT-4 đã khiến vị tiến sĩ này phải ngạc nhiên.
“Tôi vô cùng sửng sốt khi nói rằng: GPT-4 giỏi hơn nhiều bác sĩ mà tôi từng quan sát“, ông nói trong cuốn sách sắp xuất bản có tựa đề “Cuộc cách mạng AI trong y học”, được viết và biên soạn bởi nhà báo độc lập Carey Goldberg và phó chủ tịch phụ trách mảng nghiên cứu của Microsoft – ông Peter Lee.
Cách GPT-4 có thể chẩn đoán như một bác sĩ
Trong cuốn sách, Kohane cho biết GPT-4 (vốn được ra mắt vào tháng 3/2023 dưới dạng thử nghiệm cho những người dùng trả phí) trả lời chính xác hơn 90% các câu hỏi trong kì thi cấp chứng chỉ hành nghề y của Mỹ.
Như vậy, GPT-4 đã có thành tích tốt hơn nhiều so với các mô hình ngôn ngữ AI trước đây của OpenAI như GPT-3 và -3.5. Thậm chí, thành tích này còn vượt qua các một số bác sĩ đã được cấp chứng chỉ hành nghề y tại Mỹ.
Tuy nhiên, sức mạnh của GPT-4 không chỉ dừng lại ở khả năng tìm kiếm thông tin và thực hiện các bài kiểm tra. Mô hình AI này cũng rất có ích trong việc xử lý hồ sơ bệnh án của bệnh nhân.
Chẳng hạn, GPT-4 cũng là một ‘dịch giả’ tuyệt vời nhờ khả năng dịch thông tin xuất viện cho một bệnh nhân nói tiếng Bồ Đào Nha. GPT-4 cũng có thể chắt lọc những thuật ngữ kỹ thuật y học phức tạp thành thứ mà học sinh lớp 6 có thể dễ dàng đọc được.
Thậm chí, mô hình AI này đã cung cấp cho bác sĩ những mẹo hữu ích về cách thức nói chuyện với bệnh nhân về tình trạng của họ bằng ngôn ngữ rõ ràng, nhân ái.
Nó cũng có thể đọc các báo cáo hoặc nghiên cứu dài và tóm tắt chúng bằng chớp mắt. Bên cạnh đó, GPT-4 có thể giải thích về cách thức giải quyết vấn đề theo một cách ‘rất con người’, khiến chúng ta khó nhận ra đây là AI.
Tuy nhiên, nếu bạn hỏi GPT-4 làm thế nào nó làm được tất cả những điều này, nó có thể sẽ cho bạn biết rằng tất cả trí thông minh của nó vẫn “giới hạn ở các mẫu trong dữ liệu và không liên quan đến sự hiểu biết hoặc chủ ý thực sự.” Đó là những gì GPT-4 đã nói với các tác giả của cuốn sách, khi họ hỏi liệu nó có thực sự tham gia vào lý luận nhân quả hay không.
Ngay cả với những hạn chế như vậy, GPT-4 có thể bắt chước cách các bác sĩ chẩn đoán tình trạng bệnh nhân – mặc dù không hoàn hảo – với độ chuẩn xác lớn.
Trong quá trình thử nghiệm sức mạnh của GPT-4, tiến sĩ Kohane đã thực hiện một bài kiểm tra tư duy lâm sàng, dựa trên một trường hợp thực tế liên quan tới một em bé sơ sinh từng được ông điều trị vài năm trước đó.
Sau khi cung cấp cho GPT-4 một vài thông tin chính về tình trạng sức khỏe của bệnh nhân nhí, bao gồm một số thông tin từ việc khám siêu âm và đo nồng độ hormone, mô hình AI này đã đạt được kết quả chẩn đoán đáng kinh ngạc.
Theo đó, GPT-4 có thể chẩn đoán chính xác một hội chứng hiếm gặp (với tỷ lệ 1 trên 100.000 người) có tên tăng sản tuyến thượng thận bẩm sinh. Điều này có nghĩa, kết quả chẩn đoán của GPT-4 ‘ngang ngửa’ với tiến sĩ Kohane, một người có rất nhiều kiến thức và thành tích công tác lâu năm trong ngành y.
GPT-4 không phải lúc nào cũng đúng
Cũng phải nói thêm rằng, GPT-4 vẫn chưa thực sự hoàn toàn đáng tin cậy. Đôi khi, mô hình AI này vẫn mắc phải những sai lầm khá ngớ ngẩn. Nó bao gồm từ các lỗi văn thư đơn giản, chẳng hạn như viết sai chỉ số BMI mà GPT-4 đã tính toán chính xác ngay trước đó, đến các lỗi toán học như “giải” câu đố Sudoku không chính xác hoặc quên bình phương một số hạng trong một phương trình.
Đáng nói, mặc ù những lỗi sai này thường không đáng kể, nhưng AI của OpenAI lại có xu hướng khẳng định nó là đúng, ngay cả khi bị ‘chất vấn’ bởi người dùng. Điều này đặt ra nhiều câu hỏi về những rủi ro GPT-4 có thể gây ra, khi một con số bị đặt sai vị trí hoặc trọng lượng bị tính toán sai có thể dẫn đến những sai sót nghiêm trọng trong việc kê đơn hoặc chẩn đoán.
Giống như các thế hệ mô hình GPT trước đây, GPT-4 cũng có thể hơi…”lươn lẹo” khi đưa ra câu trả lời dạng ‘đối phó’ hoặc không tuân theo yêu cầu của người dùng.
Khi được các tác giả của cuốn sách hỏi về vấn đề này, GPT-4 cho biết “Tôi không có ý định lừa dối hay đánh lừa bất kỳ ai, nhưng đôi khi tôi mắc sai lầm hoặc giả định dựa trên dữ liệu không đầy đủ hoặc không chính xác. Tôi cũng không có khả năng chẩn đoán lâm sàng hay trách nhiệm đạo đức của một bác sĩ hoặc y tá con người.”
Nhìn chung, GPT-4 có khả năng giải phóng thời gian và tiết kiệm nguồn lực quý báu trong bệnh viện, cho phép các bác sĩ lâm sàng tiếp xúc nhiều hơn với bệnh nhân, “thay vì ngồi trước màn hình máy tính của họ“.
Tuy nhiên, “chúng ta phải buộc bản thân phải tưởng tượng ra một thế giới với những cỗ máy ngày càng thông minh hơn, trước khi vượt qua trí tuệ của con người ở hầu hết mọi khía cạnh. Sau đó, hãy suy nghĩ thật kỹ về cách chúng ta muốn thế giới đó vận hành.”, nhóm tác giả cuốn sách “Cuộc cách mạng AI trong y học”, kết luận.