Сходства аномалий данных
Понятие аномалии можно описать как значение данных, которое значительно отличается от среднего распределения. Но описание аномалий также достаточно общее. В наборе данных может возникнуть любое количество отклонений, если существует разница между наблюдаемыми отношениями или пропорциями. Эта концепция наиболее известна для наблюдения за отношениями. Они усредняются для получения распределения. Сходство наблюдаемого соотношения или пропорции гораздо меньше аномалии. Аномалии не обязательно редки. Даже когда наблюдения более похожи, чем ожидаемые значения, наблюдаемое распределение не является типичным или ожидаемым распределением (выбросами). Однако существует также естественное распределение возможных значений, в которое могут вписаться наблюдения. Аномалии легко обнаружить, наблюдая за статистическим распределением наблюдаемых данных.
Во втором сценарии известное распределение отсутствует, поэтому невозможно сделать вывод, что наблюдения типичны для какого-либо распределения. Однако может быть доступное распределение, которое предсказывает распределение наблюдений в этом случае.
В третьем сценарии имеется достаточно различных точек данных, чтобы использовать полученное распределение для прогнозирования наблюдаемых данных. Это возможно при использовании данных, которые не являются очень нормальными или имеют разную степень отклонения от наблюдаемого распределения. В этом случае имеется среднее или ожидаемое значение. Прогноз – это распределение, которое будет описывать данные, которые не являются типичными для данных, хотя они не обязательно являются аномалиями. Это особенно характерно для нерегулярных наборов данных (также известных как выбросы).
Аномалии не ограничиваются естественными наблюдениями. Фактически, большинство данных в деловой, социальной, математической или научной областях иногда имеют необычные значения или распределения. Чтобы помочь в принятии решений в таких ситуациях, можно выявить закономерности, относящиеся к различным значениям данных, отношениям, пропорциям или отличиям от нормального распределения. Эти закономерности или аномалии представляют собой отклонения, имеющие некоторое теоретическое значение. Однако значение отклонения обычно настолько мало, что большинство людей его не замечают. Его можно назвать аномальным значением, аномалией или разницей, причем любой из этих терминов относится как к наблюдаемым данным, так и к возможному основному распределению вероятностей, которое генерирует данные.