Подготовка данных к анализу
Все данные, в каком бы они виде не были, необходимо вывести в единую таблицу.
И вот массив (таблица, в которой каждому объекту / наблюдению соответствуют значения переменных) у Вас есть, необходимо подготовить все данные к анализу.
Первое, что мы делаем – проверяем типы данных и шкалы наших переменных. В Excel достаточно сделать все данные числовыми (кроме названий компаний, ФИО, случаев и т.д.). Когда Вы будете использовать другой продукт (SPSS, PSPP, OCA и т.д.), то там будут свои требования.
Второе – проверяем корректность данных, путем использования фильтров или функционала сводной таблицы. Например, если у Вас переменная «Пол» принимает кроме значения 1 (мужчина) и 0 (женщина) еще какие-то числа – надо отобрать фильтром эти числа и понять откуда они «всплыли». Возможно, просто массив по конкретных строкам сместился в сторону, а возможно их надо удалить или запросить уточнение данных.
Третье – недостающие или пропущенные данные. Что с ними делать надо решать исходя из особенностей предмета, который Вы анализируете / исследуете. Обычно их либо выкидывают, либо заменяют средними значениями или модой.
Четвертое – преобразование данных. Это когда одни данные переводятся в другие. Это как перевести килограммы в граммы или вообще в категорийное понятие «большой / малый вес».
Например, Вы собрали данные о количестве детей у сотрудников, а потом решили поделить на категории: до 2 детей, 3—4 ребенка, 5 и более детей. Потому что именно в разрезе таких категорий Вы будете принимать управленческие решения (например, выплачивать тот или иной размер выходного пособия при сокращении).
Давайте посмотрим, как преобразование выглядит в Excel и PSPP. Только не пытайтесь сейчас запомнить окна и надписи на рисунках – это иллюстративные примеры: просто попытайтесь уловить логику шагов. Даже если не уловите – мы будем в деталях рассматривать эти вещи в других разделах.
Для преобразования в Excel Вы добавляете колонку и используете формулу ЕСЛИ, чтобы на основании данных колонки «количество детей» вывести новую переменную (рис. 19).
Рис. 19. Перекодирование в Excel через формулу =ЕСЛИ
В PSPP необходимо будет использовать функцию TRANSFORM / COMPUTE или RECODE или ПРЕОБРАЗОВАТЬ / ВЫЧИСЛИТЬ или ПЕРЕКОДИРОВАТЬ…: с ее помощью можно на основании имеющихся переменных вычислить любые другие переменные (