При публикации результатов разработки ПО на основе ТИИ часто демонстрируются высокие показатели точности [105, 106, 112]. Однако в ходе разработки такого программного обеспечения исследователи зачастую не уделяют должного внимания сравнению полученной диагностической точности с показателями врачей-рентгенологов. Из 39 исследовательских работ, в которых оценивалась точность ПО на основе ТИИ при анализе рентгенографических исследований, только в 13 сравнивали результаты с выводами врачей, что позволило бы более объективно оценить достоверность данных. Сравнение диагностической точности, полученной с помощью ПО на основе ТИИ, с результатами врача-рентгенолога на одном и том же наборе данных демонстрирует особую ценность, но, к сожалению, таких исследований мало [113]. В 2019 году авторы одного из обзоров с осторожностью указывали на то, что точность ПО на основе ТИИ может быть сопоставима с точностью медицинских работников.
Важно также учитывать этические вопросы: изучение научной литературы показывает, что точность ПО на основе ТИИ уже сопоставима и в некоторых случаях превосходит точность врачей-рентгенологов. Однако, как было показано, точность алгоритмов достигает 99% только для отдельных патологий – это означает, что на практике ошибки неизбежны [114]. Создается парадокс: использование ПО на основе ТИИ в автономном режиме оказывается невозможным, однако результаты проведенных исследований говорят о том, что врачи ошибаются чаще. В этом контексте в профессиональном сообществе ведется активное обсуждение целесообразности применения ПО на основе ТИИ в лучевой диагностике [115—120].
В результате исследователи предложили использовать ПО на основе ТИИ в тандеме с врачом-рентгенологом, что повышает диагностическую точность по сравнению с работой врача в одиночку [112].
Многочисленные исследования подтверждают эффективность использования ПО на основе ТИИ в лучевой диагностике. Точность алгоритмов при определении отдельных рентгенологических признаков сопоставима с работой среднестатистического врача-рентгенолога. Автоматический анализ демонстрирует чувствительность и специфичность, а также значения AUC, приближающиеся к показателям врачей: 75,4, 90,6 и 0,89% против 73,0, 88,6 и 0,85% соответственно [121]. Аналогично автоматизированный анализ результатов маммографий показывает чувствительность и специфичность на уровне 91,4 и 91,6% с AUC 0,945 [122]. При сегментации патологических областей коэффициенты сходства IoU (Intersection over Union) для ИИ-алгоритмов и врачей составляют 0,86 и 0,96 соответственно [123].