– сведения о медицинских организациях, послуживших источниками для формирования набора данных;
– характеристика исследований: анатомическая область (-и), модальность, проекции;
– целевой признак;
– общее количество клинических случаев, исследований, изображений, документов и их распределение по диагностическим группам (в т.ч. «норма»/«патология»);
– сведения о верификации.
Требования к эталонному набору данных [4]:
1. Структура набора данных должна соответствовать поставленной цели его формирования (решаемой клинической задаче).
2. Планируемый размер эталонного набора данных должен быть обоснован в протоколе исследования, исходя из статистических соображений и желаемой точности оценки основных метрик.
3. Разметка должна быть проведена с использованием стандартизированной терминологии – т.н. тезауруса (кодированной библиотеки типовых формулировок, соответствующих нормативно-правовой документации, клиническим рекомендациям или рекомендациям профессиональных врачебных ассоциаций).
4. Подготовка и разметка должны быть проведены техническими и медицинскими специалистами, имеющими соответствующие навыки и компетенции.
Наборы данных для обучения и тестирования алгоритмов искусственного интеллекта можно классифицировать различными способами. Например, выделяют наборы со структурированными, частично структурированными и неструктурированными данными; либо разделяют их по источникам формирования, условиям использования, типам биомедицинских и клинических данных, по временным характеристикам, файловой структуре, наконец, по видам задач, для решения которых наборы сформированы и т. д.
Рекомендуется использовать две классификации: по диагностической ценности (подробнее см. параграф 1.2 «Классификация разметки и наборов данных») и по целевому назначению (подробнее см. параграф 3.1 «Этап инициирования создания набора данных»).
Контрольные вопросы
1. Дайте определение понятию «Набор данных».
2. Дайте определение понятию «Разметка данных».
3. Перечислите нормативно-правовые акты, регулирующие создание набора данных.
4. Что такое эталонный набор данных?
5. Перечислите основные требования к эталонному набору данных.