Искусственный интеллект от А до Б - страница 20

Шрифт
Интервал


Большая часть работы в области объяснимого искусственного интеллекта направлена на то, чтобы помочь разработчикам определить простые механические дословные связи между входами и выходами с целью помочь им сделать вывод о потенциальных причинно-следственных механизмах. Например, парадигма важности локального признака может быть наиболее популярным способом взаимодействия практиков с техническими объяснениями. Этот подход направлен на то, чтобы объяснить, как небольшие изменения в конкретных элементах могут привести к изменениям в конкретных выходных данных модели.

Локальные интерпретируемые модельно-независимые объяснения, – один из ведущих алгоритмов, использующих парадигму важности локальных признаков, стремится «объяснить поведение любого классификатора или регрессора верным образом, аппроксимируя его локально с помощью интерпретируемой модели… представляя текстовые или визуальные артефакты, которые обеспечивают качественное понимание взаимосвязи между компонентами экземпляра (например, словами в тексте, пятнами на изображении) и прогнозом модели». Такой подход может помочь разработчикам понять, как изменения в отдельных признаках могут повлиять на выходные данные модели вокруг конкретного прогноза. В той степени, в которой эти выводы обобщают и основаны на значимых признаках, они могут помочь разработчикам сделать вывод о причинно-следственных механизмах модели; однако эти подходы также могут ввести в заблуждение, если они становятся подверженными ложным корреляциям. Этот классификатор, по-видимому, фокусируется на свойствах автора (например, на том факте, что он является выходцем из академического учреждения, на что указывает .edu в его адресе электронной почты) и конкретных стилометрических характеристиках (например, использование слов «иметь» и «там»), а не на словах, которые могут указывать на содержание.

При этом данный подход обращает внимание пользователей на конкретные функции, которые модель использует для создания конкретного прогноза, тем самым связывая конкретный выход с упрощенным представлением модели, которая сгенерировала этот результат. Например, классификатор, разработанный для определения разницы между волками и лайками, классифицировал конкретное изображение на основе наличия снега на заднем плане (а не на основе анатомических особенностей, которые на самом деле отличают эти два вида). Специалист по обработке и анализу данных, обладающий соответствующими знаниями в предметной области, сможет использовать эту информацию для изменения или иной отладки этой ошибочной классификации.