Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие - страница 9

Шрифт
Интервал


– ГОСТ 34.602—2020. Информационные технологии. Комплекс стандартов на автоматизированные системы;

– ГОСТ 19.201—78. Единая система программной документации. Техническое задание. требования к содержанию и оформлению;

– ГОСТ 19.101—77. Единая система программной документации. Виды программ и программных документов;

– ГОСТ Р 59921.1-7-2022. Системы искусственного интеллекта в клинической медицине. Алгоритмы анализа медицинских изображений;

– ГОСТ Р 8.736—2011. Государственная система обеспечения единства измерений. Измерения прямые многократные. Методы обработки результатов измерений. Основные положения;

– Федеральный закон «Об информации, информационных технологиях и о защите информации» от 27.07.2006 №149-ФЗ.

Для обучения, внутренней и внешней валидации, клинико-технических и клинических испытаний технологий искусственного интеллекта применяют эталонные наборы данных, под которыми понимают упорядоченную совокупность:

– результатов диагностических исследований одной или нескольких модальностей и/или однотипных медицинских документов;

– сведений о наличии, характере и локализации и т. д. целевых признаков; для текстовых документов – библиотеки ключевых слов, словосочетаний и их критичных сочетаний;

– сведений о верификации (опционально).

Информация о наличии, характере, локализации и т. д. целевых признаков (в том числе в соответствии с Международной классификацией болезней – МКБ) может быть подтверждена объективно – в таком случае набор данных именуется верифицированным.

Размер набора данных (математически – размер выборки) и баланс классов определяются исходя из целей и задач проводимого исследования и требований технического задания на проведение исследований, а также с учетом требований заказчика.

Эталонный наборданных должен быть проверен профильной медицинской научно-исследовательской организацией на предмет полноты и качества содержащейся в нем информации. Рекомендуется при проведении клинических испытаний применять эталонные наборы данных, имеющие государственную регистрацию в качестве базы данных.

Эталонный набор данных для клинических испытаний должен содержать такие сведения (описательного характера) [4]:

– номер свидетельства о государственной регистрации базы данных (рекомендательно);

– характеристика популяции (гендерно-возрастные показатели, этнический состав, регионы проживания и т.д.);