Программа обучения по специальности «акушерство и гинекология» в Великобритании составляет 7 лет. Для ее завершения врачи-стажеры должны сдать три ключевых экзамена — MRCOG часть 1, часть 2, часть 3, которые оценивают их клинические знания и навыки. Часть 1 предназначена для оценки фундаментальных научных знаний, часть 2 проверяет способность применять полученные знания на практике, т. е. клиническое мышление. В части 3 происходит имитация клинической ситуации.
Недавнее исследование, посвященное оценке возможностей ChatGPT, выявило интересные результаты относительно точности и полноты клинических рассуждений модели. Искусственному интеллекту предложили ответить на 1824 вопроса из первой и второй частей экзамена.
ChatGPT смог правильно ответить на 72,2% и 50,4% вопросов соответственно. Анализ вопросов показал, что алгоритм достиг наилучших результатов в области «Понимание болезни», а наименьшую точность показал в тематике «Измерения и манипуляции». Исследователи также отметили, что лингвистическая сложность вопросов может оказывать влияние на точность ответов, однако не является основным определяющим фактором.
Дополнительно, самооценка уверенности ChatGPT в своих ответах выявила недостатки в способности модели различать правильные и неправильные варианты — в 10,5% случаев ChatGPT присвоил одинаковую вероятность всем вариантам ответов. Это заставляет сомневаться в том, что модель способна справиться с клиническими сценариями.
Результаты исследования подчеркивают существующие ограничения ChatGPT в области медицинских знаний, особенно в контексте сложных клинических решений. Исследователи призывают к осторожности при использовании таких моделей в медицинской практике, подчеркивая необходимость дальнейшего изучения и усовершенствования ИИ-технологий для повышения их надежности и безопасности в клинических условиях.
Тэги
Другие статьи
Листай дальше, чтобы увидеть все статьи