Не верьте ИИ-врачу: чат GPT ошибаются в каждом пятом случае

Не верьте ИИ-врачу: чат GPT ошибаются в каждом пятом случае
Исследователи из Университета Пенсильвании проверили ChatGPT, Gemini и Llama на медицинских вопросах. Врачи признали достоверными лишь 76% ответов. У лучшей модели (ChatGPT-4o) - 84,6%. Особую тревогу вызвали советы по психическому здоровью

Почти каждый четвёртый взрослый в возрасте до 30 лет уже использует искусственный интеллект для получения медицинских рекомендаций. Но насколько можно доверять этим советам? Исследователи из Университета штата Пенсильвания протестировали четыре популярные модели (ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro и Llama3-8b) на реальных вопросах о здоровье, заданных студентами и сотрудниками университета. Девять сертифицированных врачей оценили 212 ответов. Результат: в среднем только 76% ответов были признаны достоверными. У лучшей модели (ChatGPT-4o) этот показатель достиг 84,6% - то есть почти каждый шестой ответ был неверным. У худшей (Llama3-8b) - лишь половина. Врачи выразили особую обеспокоенность по поводу вопросов психического здоровья, где неправильные советы могут быть откровенно опасными. Исследование опубликовано в виде препринта (ещё не прошло рецензирование).

С каждым годом всё больше людей, почувствовав необычную боль или заметив тревожный симптом, минуют кабинет врача и сразу открывают чат-бот с искусственным интеллектом. Это быстро, бесплатно, доступно 24/7. Но исследование из Пенсильвании показывает, что за этим удобством скрывается серьёзная проблема.

Как проверяли

Осенью 2024 года исследователи организовали университетский конкурс. 34 участника (студенты, сотрудники и преподаватели) задали вопросы о здоровье одному из четырёх чат-ботов - ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro и Llama3-8b. Они могли выступать в трёх ролях: пациента, описывающего симптомы; медицинского работника, ищущего диагностическую помощь; или стороннего наблюдателя с альтернативными запросами (например, анализ рукописного рецепта).

Всего было получено 212 ответов. Девять сертифицированных врачей оценили каждый ответ по четырём критериям: достоверность информации, качество, насколько хорошо ИИ справился с задачей, и может ли ответ причинить вред.

Результаты: 20% ошибок - это много

В среднем по всем четырём моделям врачи признали достоверными около 76% ответов. Это значит, что каждый четвёртый ответ содержал недостоверную информацию.

ChatGPT-4o показал лучший результат - 84,6% достоверных ответов. Но это также означает, что более 15% его советов были неверными.

Llama3-8b оказалась в самом низу: только половина её ответов прошла проверку врачей.

Имело значение и то, о чём спрашивали. Лучше всего ИИ отвечал на вопросы по акушерству и гинекологии. Хуже всего - по неврологии, внутренней медицине и дерматологии. В случае неврологии часто спрашивали о редких заболеваниях, которые трудно диагностировать в принципе. А дерматология в значительной степени опирается на визуальный осмотр - то, что текстовый чат-бот делать не умеет.

Длина вопроса тоже влияла на качество. Лучше всего ИИ работал с запросами средней длины - от 60 до 250 символов. Слишком короткие или слишком длинные и подробные вопросы приводили к худшим результатам.

Сюрприз: медицинская библиотека не всегда помогает

Исследователи также протестировали метод RAG (Retrieval-Augmented Generation), при котором ИИ перед ответом получает доступ к библиотеке медицинских учебников, клинических рекомендаций и исследовательских статей. Теоретически это должно повысить достоверность.

Но на практике всё оказалось сложнее. Для Gemini-1.5 Pro и Llama3-8b врачи предпочли стандартные, «неулучшенные» версии. Для ChatGPT разницы не обнаружили. Авторы воздержались от окончательных выводов, но ясно, что просто «скормить» ИИ медицинские учебники недостаточно.

Что говорят врачи

Врачей попросили поделиться более широкими впечатлениями об ИИ в медицине. С одной стороны, они видят потенциал: ИИ может повышать медицинскую грамотность, помогать пациентам понимать свои заболевания, служить первым шагом перед визитом к врачу, потенциально разгружая переполненные приёмные.

С другой стороны, опасения были глубокими и единодушными.

Один врач описал случай, когда родитель был ложно успокоен ИИ, в то время как его ребёнок был серьёзно болен. Другой указал на риск усугубления неравенства: пациенты из групп, недостаточно представленных в медицинских исследованиях, могут получать менее точные ответы.

Несколько врачей предупредили о рисках конфиденциальности: люди, вводящие подробную личную информацию о здоровье в чат-боты, могут серьёзно пострадать при утечке данных.

Особую тревогу вызвали вопросы психического здоровья. Врачи заявили, что ответы ИИ на эти темы могут быть откровенно опасными. Один из опрошенных предположил: если ИИ не может ответственно справиться с кризисом психического здоровья, ему просто не следует вообще на него реагировать.

В России, по данным различных опросов, каждый третий-четвёртый хотя бы раз вводил свои симптомы в поисковик или чат-бот. С появлением бесплатного доступа к российским аналогам ChatGPT (GigaChat, YandexGPT) эта практика будет только расти. Исследование из Пенсильвании - хороший повод задуматься: даже лучшие западные модели ошибаются в 15-20% случаев. Российские аналоги могут быть ещё менее надёжными - хотя их систематических медицинских тестов пока не проводилось.

Важно понимать: ИИ может быть полезен для сбора предварительной информации, для того чтобы лучше сформулировать вопросы врачу. Но полагаться на его диагнозы и рекомендации, особенно в критических ситуациях, опасно. 20% ошибок - это неприемлемый уровень для любой медицинской практики. И, как отмечают врачи, для психиатрии этот порог должен быть ещё ниже.

Ранее в разделе

«Аэрофлот» расширяет сервис для многодетных семей Сериалы не безобидны: учёные выяснили, что превращает приятный вечер в опасную зависимость Россия и Турция договорились пересадить пассажиров Air Anka и TailWind на рейсы других авиакомпаний

Нашли ошибку?