Половое распределение также оказалось не совсем равномерным (63% женщин и 37% мужчин), что может быть обусловлено демографическим составом пользователей социальной сети.
Описание переменных и данных
Во время проведения опроса была собрана информация по 6 признакам. На основе информации об этих признаках были сформированы переменные, которые использовались в количественном анализе данных для проверки гипотез и нахождения взаимосвязей. Этими переменными стали: «Воспринимаемая подверженность заболеваниям из-за курения», «боязнь срыва», «курящие люди в окружении», «самоэффективность (self-efficacy)», «воспринимаемая выгода», «воспринимаемые барьеры».
Данные о средних значениях переменных и их стандартных отклонениях приведены в таблице.
Анализ данных
В рамках первичного анализа данных проводились визуальный анализ при помощи диаграмм рассеяния, составленных на основе модуля ggplot2 в R, а также корреляционный анализ.
Для каждой переменной-предиктора и целевого индекса был рассчитан коэффициент корреляции Пирсона, определяющий уровень связи между каждой переменной-предиктором и целевым признаком.
Для коэффициентов корреляции была проверена нулевая гипотеза. Проверка нулевых гипотез указала на значимые с точки зрения корреляционного анализа признаки. Для признака «уязвимость к заболеваниям из-за курения» p-value (вероятность того, что коэффициент корреляции равен нулю) составил 0,0013. Для признака «боязнь срыва» – 0,003.
Таким образом, корреляционный анализ показал, что существует отрицательная взаимосвязь целевого признака с предикторами «уязвимость к заболеваниям из-за курения» и «боязнь срыва». Для подтверждения этого, а также для построения объяснительной модели и возможности сравнения величины влияния различных предикторов на целевую переменную, обратимся к методу линейной регрессии.
Регрессионная модель была выбрана при помощи ступенчатой регрессии. Оптимальная с точки зрения этого способа, регрессионная модель объясняет целевую переменную через признаки «обеспокоенность из-за возможности срыва» и «уязвимость к заболеваниям из-за курения». Регрессионная формула этой модели такова:
Y— селективное запоминание информации,
(ноль по данной шкале означает, что респондент упомянул только сообщения, отвращающие от курения. Восемь по данной шкале обозначает, что респондентом были названы только сообщения, подталкивающие к курению).
– обеспокоенность из-за возможности срыва,
– воспринимаемая подверженность заболеваниям из-за курения.
Проверка нулевых гипотез для регрессионных коэффициентов показала, что коэффициенты равны нулю с крайне малой вероятностью.
На основании данных по стандартным