Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra - страница 11

Шрифт
Интервал


Проанализировав 516 публикаций в рецензируемых биомедицинских журналах, ученые установили, что 99,0% из них представляют собой доказательства концепции (proof-of-concept study) и технические обоснования (feasibility study). Нелишним будет подчеркнуть, что с позиций доказательности такие публикации представляют для врачебного сообщества фактически нулевую ценность. Только 1,0% статей написан в дизайне диагностического исследования в соответствии с принципами доказательной медицины. Но и здесь были колоссальные проблемы: в 94,0% случаев авторы статей и разрабатывали, и тестировали свои алгоритмы на одних и тех же наборах данных. В свою очередь, 97,0% использованных датасетов формировалось из данных только одной медицинской организации. В целом внешняя валидация ИИ на незнакомых данных была проведена только в 6,0% исследований7.

Таким образом, для медицинского сообщества огромный массив публикаций был совершенно неинформативен, а жалкий 1,0% диагностических исследований содержал колоссальные методические недостатки. Более того, воспроизводимость результатов работы ИИ вообще не изучалась. На закономерный и спокойный вопрос врача: «Как ваш ИИ будет работать на данных из другой больницы?» многочисленным «айти-гуру» оставалось только хвастаться инвестициями в свой стартап и ругать консервативных врачей.

В 2020 г. научная группа из Великобритании опубликовала статью с систематическим анализом дизайна, стандартов отчетности, рисков предвзятости, а также доказательности результатов исследований, сравнивающих эффективность и точность алгоритмов ИИ и опытных врачей. Областью применения ИИ вновь стала медицинская визуализация.

В исследование включены 236 статей, опубликованных с 2010 по 2019 гг. и позиционируемых как «клинические исследования». Углубленный анализ показал, что 96,0% из них выполнены в ретроспективном дизайне, то есть представляли собой тестирование алгоритмов на эталонных наборах данных. Действительно, дизайн рандомизированного клинического исследования (ценного и информативного с позиций доказательной медицины) имели всего лишь 4,2% статей. И даже из этого крошечного числа многие работы были выполнены в «экспериментально-лабораторных условиях». Лишь 2,5% статей содержали результаты работы ИИ в реальных условиях практического здравоохранения. Во многих включенных статьях утверждалось преимущество ИИ над врачом, при этом алгоритмы сравнивали в среднем с 4 специалистами (количество включенных врачей колебалось от 2 до 9)