Попросив GPT-4 получить рекомендации из базы данных, ответы модели на спонтанные медицинские вопросы превратились из ужасных в потенциально полезные.
Генеративный искусственный интеллект (ИИ) продемонстрировал замечательную способность отвечать на вопросы структурированных тестов, в том числе на проходной балл на экзамене по лицензированию медицинской деятельности в США.
Но в неструктурированных условиях, когда модели ИИ подают поток новых вопросов, составленных людьми, результаты могут быть ужасными: модели часто выдают несколько неточных или откровенно ложных утверждений, что называется «галлюцинациями».
Также: Как GenAI стал лучше справляться с медицинскими вопросами - благодаря RAG
Исследователи из Гейдельбергской университетской больницы в Гейдельберге (Германия) сообщили на этой неделе в престижном журнале New England Journal of Medicine (NEJM), что подключение генеративных моделей ИИ к базе данных релевантной информации значительно улучшило способность модели отвечать на неструктурированные запросы в области онкологии - лечения рака.
Подход, основанный на расширенном поиске (retrieval-augmented generation, RAG), позволяющий большим языковым моделям использовать внешние источники информации, значительно улучшил спонтанные ответы на вопросы, утверждают авторы Дайк Фербер и команда из Гейдельберга в исследовании «GPT-4 для поиска информации и сравнения медицинских онкологических руководств», описанном ими на этой неделе в NEJM. (Для прочтения полного отчета требуется подписка на NEJM).
Также: OpenAI только что предоставил пользователям ChatGPT возможность бесплатно просматривать веб-страницы, анализировать данные и многое другое
Исследование было вызвано тем, что медицина сталкивается с уникальной информационной перегрузкой - профессиональные организации постоянно генерируют все больше рекомендаций по передовому опыту. Следить за актуальностью этих рекомендаций - большая нагрузка для врачей, пытающихся справиться с населением, которое живет дольше и увеличивает спрос на медицинскую помощь.
Такие группы, как Американское общество клинической онкологии (ASCO), по словам Фербера и его команды, «выпускают обновленные рекомендации все чаще», что требует от врачей «сопоставлять множество документов, чтобы найти оптимальное лечение для своих пациентов, и эти усилия в клинической практике будут становиться все более сложными и распространенными, особенно в условиях ожидаемой глобальной нехватки онкологов».
Фербер и его коллеги предположили, что ИИ-помощник может помочь врачам разобраться в этой обширной литературе.
И действительно, они обнаружили, что GPT-4 может достичь уровня точности RAG, достаточного для того, чтобы служить, по крайней мере, в качестве своего рода первого прохода для обобщения соответствующих рекомендаций, облегчая тем самым административное бремя врачей.
Также: Институт рака Дана-Фарбер обнаружил, что основные проблемы GPT-4 включают ложные сведения, высокую стоимость
Авторы протестировали GPT-4 от OpenAI, попросив экспертов-онкологов задать 30 «клинически значимых вопросов» по раку поджелудочной железы, метастатическому колоректальному раку и гепатоцеллюлярной карциноме, и попросили модель подготовить в ответ отчет с рекомендациями по лечению.
Результаты оказались катастрофическими для GPT-4 в одиночку. Когда в подсказке предлагалось «предоставить подробную и правдивую информацию» в ответ на 30 вопросов, модель ошибалась в 47 % случаев, причем 29 из 163 утверждений были неточными, как проверили два квалифицированных врача с многолетним опытом, а 41 утверждение было неверным.
«Эти результаты заметно улучшились, когда был применен поиск документов с помощью RAG», - сообщают авторы. Точность утверждений в GPT-4 с использованием RAG достигла 84 %, при этом 60 из 71, 62 из 75 и 62 из 72 правильных ответов были даны по трем областям рака, охваченным 30 вопросами.
«Мы показали, что усиление GPT-4 с помощью RAG значительно улучшило способность GPT-4 давать правильные ответы на запросы в медицинском контексте», - пишут Фербер и команда, - «превзойдя стандартный подход, когда GPT-4 используется без усиления поиска».
Чтобы сравнить GPT-4 и GPT-4 с RAG, они использовали две стратегии подсказки. В исходной форме, без RAG, GPT-4 спрашивали: «Основываясь на том, что вы узнали из руководств по медицинской онкологии, предоставьте подробную и правдивую информацию в ответ на вопросы врача», а затем задавали один из вопросов о том, как лечить конкретный случай рака.
Также: MedPerf стремится ускорить медицинский ИИ, сохраняя конфиденциальность данных
GPT-4 в этой нативной подсказке использовался как с так называемым «нулевым» ответом на вопрос, когда предлагается только вопрос подсказки, так и с несколькими подсказками, когда в подсказку вставляется документ, и модели показывается, как этот документ может ответить на аналогичный вопрос.

В подходе RAG запрос направляет GPT-4 на извлечение из базы данных «кусков» соответствующих медицинских документов, предоставленных ASCO и Европейским обществом медицинской онкологии (ESMO). Затем модель должна ответить на вопрос: «Что в этих документах говорится о лечении первой линии при метастатических опухолях MSI?».
Два человека-клинициста из клиники Гейдельбергского университета оценивали точность ответов, вручную сравнивая ответы GPT-4 с предоставленными документами.
«Они систематически разбивали каждый ответ на отдельные утверждения, основанные на пунктах, предоставленных GPT-4», - пишет Фербер и его коллеги.
«Каждое утверждение тщательно оценивалось с точки зрения его соответствия информации из документов ASCO и ESMO», и «для каждого вопроса клиницисты проводили подробный ручной обзор рекомендаций, соответствующих каждому запросу, чтобы определить нашу базовую истину».
Также: MedPaLM от Google делает акцент на человеческих врачах в медицинском ИИ
Фербер и его коллеги отметили, что эта ручная оценка демонстрирует важный аспект подхода RAG: его можно проверить. «Предоставляя доступ к найденным рекомендательным документам, механизм RAG облегчал проверку точности, поскольку врачи могли быстро найти информацию в фрагменте документа», - пишут они.
Вывод многообещающий: «Наша модель уже может служить инструментом предварительного отбора для таких пользователей, как онкологи с опытом работы в данной области», - пишут Фербер и его коллеги.
Однако у RAG есть и ограничения. Когда GPT-4 использовал RAG для поиска соответствующих отрывков, содержащих противоречивые советы по лечению, модель иногда отвечала неточными предложениями.
«В случаях, когда GPT-4 должен обрабатывать информацию из противоречивых высказываний (клинические испытания, мнения экспертов и рекомендации комитетов), нашей текущей модели было недостаточно для надежного получения точных ответов», - пишут Фербер и его коллеги.
Оказалось, что вам все же придется прибегнуть к оперативному проектированию. Фербер и команда смогли уменьшить неточности, попросив GPT-4 определить противоречивые мнения в литературе, а затем предоставить пересмотренный ответ, который оказался правильным.
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
Комментарии