Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - страница 22

Шрифт
Интервал


Как это работает? Например, мы хотим выяснить, проводят ли женщины больше времени в соцсетях, чем мужчины. Мы взяли определенную выборку из 1000 женщин и мужчин и обнаружили, что мужчины в среднем проводят в сетях 5 часов в неделю, а женщины 7 часов. Получается, что женщины на 2 часа (на 40%!) больше сидят в сетях.

Но можем ли мы на этих результатах утверждать, что в принципе все другие женщины больше сидят в соцсетях, чем мужчины? Возможно, мы получили различие случайно, и оно характеризует только эту выборку, а не всю генеральную совокупность…

И вот тут мы сначала определяем вероятность для H>0: что разницы по «просиживанию» в соцсети между мужчинами и женщинами нет. Или, другими словами, рассчитываем вероятность ошибки насчет того, что женщины сидят в соцсети больше мужчин.

И если вероятность ошибиться будет менее 5%, то мы можем говорить о том, что обнаружили статистически значимое различие – и таки можем говорить, что все женщины проводят в сети больше времени.

Почему берется такое низкое значение вероятности ошибки? Скажу, что на самом деле часто используют даже ниже 1% или менее. От чего зависит? На самом деле от отрасли и сложившейся в ней практики. Например, в медицине цена ошибки может быть высокой и там значения вероятности ошибок принимают обычно очень низкими.

В целом, общепринятая интерпретация вероятности ошибки (или значимости результатов) в среде аналитиков следующая (рис. 15):


Рис. 15. Уровни значимости и их интерпретация


Прочитав этот раздел, я думаю, Вы уже поняли, насколько нами могут манипулировать с помощью различных опросов и исследований, в которых утверждается, что «женщины / мужчины лучше руководят», «опрошенные считают честным кандидата в президенты», «у ряда пациентов наблюдалось улучшается самочувствие после применения препарата» и т. д.

Широкой публике просто часто выдают информацию без обозначения репрезентативности выборки, заложенной модели, еще и в придачу не указывая, являются ли эти взаимосвязи статистически значимыми.

Нормальное распределение

Колоколообразную кривую знают и наслышаны все (она же колокол Гаусса, гауссовское распределение – рис. 16).


Рис. 16. То самое ОНО – нормальное распределение


Я о ней уже упоминал вначале, когда говорил об особенностях социально-экономической реальности в сравнении с естественно-технической.