Копирование, воспроизведение и иное использование электронной книги, ее частей, фрагментов и элементов, выходящее за пределы частного использования в личных (некоммерческих) целях, без согласия правообладателя является незаконным и влечет уголовную, административную и гражданскую ответственность.
Посвящается Шелли
Предисловие
Перед вами необычная книга. Почти все, что издается на эту тему – будь то популярная литература о больших или открытых данных, обработке данных или пособия по статистическому анализу, – основывается на том, что у вас уже есть. Речь идет об информации, хранящейся в компьютере, ящиках рабочего стола или аудио-, видеозаписях вашего смартфона. Но эта книга совсем о другом. Она о данных, которых у вас нет. Возможно, вы пытаетесь получить их прямо сейчас или когда-то безуспешно пытались сделать это, а может быть, ошибочно полагаете, что они у вас имеются. Как бы то ни было, речь пойдет о данных, которых у вас нет.
Я утверждаю и далее продемонстрирую это на многих примерах, что отсутствующие данные важны не менее тех, которыми мы располагаем. Вы сможете сами убедиться, что неизвестные нам данные являются причиной многих заблуждений, порой имеющих катастрофические последствия. Я покажу, как и почему это происходит. Затем я расскажу, как этого можно избежать – на что именно стоит обращать внимание, чтобы обойти неприятности. А в завершение, когда вы поймете, как возникают темные данные и как они создают нам проблемы, я покажу, как с их помощью перевернуть с ног на голову традиционное представление об анализе данных и, если вы достаточно проницательны, глубже вникнуть в свою область, улучшить процесс принятия решений и выбора действий.
Мое собственное понимание темных данных развивалось постепенно, на протяжении всей карьеры. Я благодарю всех, кто подкидывал мне проблемы, которые, как я постепенно осознал, были не чем иным, как проблемами темных данных. Я выражаю признательность всем, кто вместе со мной искал способы их решения. Сферы, где возникали эти проблемы, варьировались от медицинских исследований и фармацевтической промышленности до государственной и социальной политики, финансового сектора и производства – ни одна сфера человеческой деятельности не свободна от рисков, которые несут с собой темные данные.
Отдельно хочу поблагодарить тех, кто любезно согласился пожертвовать своим временем, чтобы прочитать рукопись этой книги, а именно Кристофороса Анагностопулоса, Нила Ченнона, Найла Адамса и трех анонимных читателей от издательства. Они помогли мне избежать неловкости перед вами, сократив число допущенных ошибок. Питер Таллак, мой агент, помог найти идеального издателя для этой работы, любезно давал мне советы и направлял работу над книгой в целом. Мой редактор из издательства Princeton University Press Ингрид Гнерлих была мудрым и ценным гидом в вопросах оформления проекта. Наконец, я особенно признателен своей жене профессору Шелли Ченнон, за ее вдумчивую критику моих рукописей. Благодаря ее вкладу книга стала значительно лучше.
Часть I
Темные данные
Происхождение и последствия
Глава 1
Темные данные
Незримая сила, которая формирует наш мир
Призрак данных
Как-то во время прогулки я встретил странного пожилого человека, который что-то высыпал на пешеходную дорожку примерно через каждые 15 м. Я не смог сдержать любопытства и поинтересовался, что это он такое делает.
– Рассыпаю слоновий порошок, – совершенно серьезно ответил он. – Слоны не выносят его запах, поэтому держатся подальше.
– Постойте, но в наших краях нет слонов, – улыбнулся я.
– Вот именно! – воскликнул он. – Это очень эффективное средство.
Этот забавный случай служит хорошим прологом для вещей куда более серьезных, о которых я собираюсь рассказать.
Каждый год корь убивает почти 100 000 человек. Один из 500 заболевших умирает от осложнений, многие страдают от необратимой потери слуха или от поражения головного мозга. К счастью, для Соединенных Штатов это редкое заболевание – например, в 1999 г. было зарегистрировано всего 99 случаев. Однако внезапная вспышка кори в январе 2019 г. привела к тому, что в штате Вашингтон была объявлена чрезвычайная ситуация. Некоторые штаты также сообщили о резком увеличении числа случаев заражения корью[1]. Подобное отмечалось и в других местах. На Украине в середине февраля 2019 г. число заразившихся превысило 21 000[2]. В Европе в 2017 г. было отмечено 25 863 случая, а в 2018 г. – уже более 82 000[3]. С 1 января 2016 г. по конец марта 2017 г. в Румынии зарегистрировано более 4000 случаев