Выборка и генеральная совокупность
Реальность обычно представлена невероятно большим количеством случаев / наблюдений / объектов. Людей, жителей, клиентов, компаний, растений или животных и т. д. И вся их популяция представляет собой генеральную совокупность.
Например, если объектом нашего интереса (за кем мы желаем понаблюдать и изучить) являются жители конкретного города, то все они и есть наша генеральная совокупность. Но если объектом интереса были бы, к примеру, только люди трудоспособного возраста (или имеющие право голоса на выборах) в этом городе, то наша генеральная совокупность уменьшилась бы.
При решении отдельных задач вполне легко можно исследовать всю генеральную совокупность.
Например, у Вас есть текущая база подписчиков он-лайн журнала – и необходимо предсказать кто из них с высокой долей вероятности не продлит подписку со следующего года.
Для этого у Вас, по сути, есть доступ к базе данных по всей генеральной совокупности – и Вы можете сделать аналитику, используя данные всей базы. Посмотреть, люди с каким профилем демографии, поведения, предпочитаемых рубрик чтения и т. д. не продлевали подписку в прошлом и, наложив обнаруженные закономерности на существующую базу, получить условно доверительный прогноз кто не продлит ее сейчас.
Также с генеральной совокупностью могут иметь дело специалисты кадровых служб, проводящие анализ сотрудников предприятия.
Другое дело, когда Вы решите изучить всех потенциальных клиентов, рынок кандидатов на вакансии или избирателей. Вот тут Вы столкнетесь с тем, что всех их изучить невозможно и дорого. Поэтому Вы будете исследовать только некоторых, а полученные результаты распространять на всю генеральную совокупность.
Вот те некоторые выбранные из генеральной совокупности объекты / образцы / люди / события и будут называться выборкой.
Но с выборкой не все так просто. Основная сложность в формировании выборки – это понимание того, какие именно объекты / образцы в нее включить так, чтобы иметь полную картину. Ведь она должна быть