Тем временем инженеры компании Google создали сервис Google Correlate, дающий внешним исследователям средства экспериментирования с тем же типом анализа в достаточно широком диапазоне полей, а не только в здоровье. Исследователи могут взять любой ряд данных, которые они отслеживают, и посмотреть, какие поисковые запросы в Google наиболее явно коррелируют с ним.
Например, с помощью Google Correlate мы с Хэлом Варианом, главным экономистом Google, сумели выяснить, какие поисковые запросы позволяют наиболее точно отслеживать динамику изменения цен на жилье{45}. Когда последние растут, американцы, как правило, используют для поиска такие фразы, как «80/20 ипотека», «новый дом от застройщика» и «увеличение стоимости капитала». Когда же они падают, люди чаще всего ищут «процесс продажи без покрытия», «отрицательная ипотечная стоимость» и «снижение ипотечной задолженности».
Так может быть, поиск в Google можно использовать в качестве лакмусовой бумажки для оценки безработицы таким же образом, как он используется для оценки стоимости жилья или распространения эпидемии гриппа? В состоянии ли мы, просто оценивая запросы людей в Google, сказать, сколько из них не имеют работы? И можно ли сделать это достаточно точно до того, как правительство соберет и обнародует свои результаты опросов?
В один прекрасный день я ввел в Google Correlate запрос «Уровень безработицы в США в период с 2004 по 2011 год».
Как вы думаете, какие из триллионов запросов в Google за это время оказались наиболее тесно связаны с безработицей? Вы можете подумать, что это «биржа труда» или что-то подобное. Да, количество таких запросов увеличилось, но не они были на самом верху списка. «Новые рабочие места»? Тоже много, но не первые.
Наиболее высокий уровень запросов за рассматриваемый мной период был со словами «Slutload». Вы верите? Чаще всего люди искали порнографический сайт с таким названием. Это может показаться странным – на первый взгляд. Но у безработных людей внезапно появляется очень много свободного времени. Многие из них застряли дома одни, и им скучно. Еще очень часто встречается запросов «игра «паук». Опять же, это не удивительно для группы людей, у которых, предположительно, внезапно оказалось очень много свободного времени.
Сейчас я не хочу спорить, но, основываясь на этом анализе, могу сказать: отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Ни одно из этих условий само по себе не связано с увеличением числа безработных. Но в целом я обнаружил, что смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.
Данный пример иллюстрирует могущество больших данных: возможность переосмыслить то, что следует квалифицировать как данные. Часто