Большие генеративные модели (БГМ) обладают значительным потенциалом для здравоохранения и медицинской науки. Несмотря на экспоненциальный рост числа публикаций, качество и результативность научного изучения БГМ остается неудовлетворительной. В научной литературе утверждается необходимость создания стандартизированных подходов для обеспечения безопасной и эффективной интеграции БГМ в клиническую практику. В системе здравоохранения г. Москвы осуществляется апробация БГМ в качестве средства поддержки принятия врачебных решений, которая потребовала создания особых методов и инструментов для оценки их качества. Представлены две методики оценки качества БГМ, разработанные на основе: анализа литературных данных (всего свыше 200 источников); результатов проведенного авторами этапного комплексного тестирования 204 БГМ; эмпирического опыта оценки качества БГМ на выборке из более 12 000 случаев применения. Методики предназначены для двух основных сценариев применения моделей. В их основе лежат (с учетом сценария) принципы формирования тестовой выборки, специально разработанные и валидированные опросники, способы тестирования, унифицированные требования к составу и структуре результатов оценки качества.
Внедрение системы поддержки принятия врачебных решений (СППВР) в клиническую практику требует тщательного контроля для обеспечения безопасности пациентов и оценки эффективности применения технологий искусственного интеллекта.
Целью данной работы является оценка результативности СППВР «ТОП-3» в условиях консультативно-диагностических поликлиник Департамента здравоохранения города Москвы.
Материалы и методы: Мониторинг работы СППВР «ТОП-3» проводился Департаментом здравоохранения города Москвы с 01.10.2020 по 21.03.2024 (n = 63 809 360 чел.). Рассчитывалась метрика Hit-3, на основе которой принималось решение о необходимости повторного обучения представленной СППВР. Дополнительно было проведено исследование с участием врачей-экспертов: ретроспективный анализ данных на выборке из 3000 пациентов с расчетом согласованности диагнозов от СППВР, врача и эксперта.
Результаты: По результатам мониторинга среднее значение Hit-3 составляло 63,5, 64,5 и 67,7 для первой, второй и третьей версии СППВР соответственно. Экспертиза показала, что в выборке несоответствия диагноза от врача и СППВР (n = 2000) в 80,2% случаев эксперт на основе жалоб соглашался с СППВР, в 11,5% случаях - с врачом, а в 8,3% случаев ставил иной диагноз. В выборке соответствия диагноза врача с одним из диагнозов СППВР (n = 1000) в 50,4% случаев эксперт соглашался с диагнозом от врача и СППВР, в 37,9% случаев – с одним из двух других альтернативных диагнозов СППВР, в 11,7% случаев ставил иной диагноз.
Заключение: Описанная методика мониторинга, дополненная проведением экспертизы, позволила всесторонне оценить внедряемую в систему здравоохранения СППВР. По итогу оценки результативности «ТОП-3» было принято решение о необходимости расширения анализируемого перечня данных электронных медицинских карт, что будет внедрено в следующей версии СППВР «ТОП-3+».