Поиск причин стал своего рода религией современности. Большие данные в корне меняют это мировоззрение, и мы снова оказываемся в таком историческом тупике, где «Бог умер». То, в чем мы были непоколебимо уверены, в очередной раз меняется. На этот раз, по иронии судьбы, – за счет более надежных доказательств. Какая роль при этом отводится интуиции, вере, неопределенности, действиям вразрез доказательствам, а также обучению опытным путем? По мере того как мир переходит от поиска причинности к поиску корреляции, что нам нужно делать, чтобы продвигаться вперед, не подрывая глубинных основ общества, гуманности и прогресса, опирающихся на доводы? Эта книга намерена объяснить, в какой точке мы находимся и как сюда попали и какие выгоды и опасности нас ждут впереди.
Глава 2
Больше данных
Большие данные позволяют увидеть и понять связи между фрагментами информации, которые до недавнего времени мы только пытались уловить. По мнению Джеффа Йонаса, эксперта компании IBM по большим данным, нужно позволить данным «говорить». Это может показаться несколько тривиальным, ведь с древних времен люди воспринимали данные в виде обычных ежедневных наблюдений, а последние несколько столетий – в виде формальных количественных единиц, которые можно обрабатывать с помощью сложнейших алгоритмов[22].
В цифровую эпоху стало проще и быстрее обрабатывать данные и мгновенно рассчитывать миллионы чисел. Но если речь идет о данных, которые «говорят», имеется в виду нечто большее. Большие данные диктуют три основных шага к новому образу мышления. Они взаимосвязаны и тем самым подпитывают друг друга. Первый – это способность анализировать все данные, а не довольствоваться их частью или статистическими выборками. Второй – готовность иметь дело с неупорядоченными данными в ущерб точности. Третий – изменение образа мыслей: доверять корреляциям, а не гнаться за труднодостижимой причинностью. В этой главе мы рассмотрим первый из них – шаг к тому, чтобы использовать все данные, а не полагаться на их небольшую часть.
Задача точного анализа больших объемов данных для нас не новая. В прошлом мы не утруждали себя сбором большого количества данных, поскольку инструменты для их записи, хранения и анализа были недостаточно эффективными. Нужная информация просеивалась до минимально возможного уровня, чтобы ее было проще анализировать. Получалось что-то вроде бессознательной самоцензуры: мы воспринимали трудности взаимодействия с данными как нечто само собой разумеющееся, вместо того чтобы увидеть, чем они являлись на самом