Вопрос Норвига заставил нас задуматься над этой важнейшей проблемой.
Большие данные и их большая тень
Если бы мы попросили Google просто передать нам полные тексты всех книг мира, эта просьба повисла бы в воздухе. К счастью, это было не нужно.
Дело в том, что большие данные отбрасывают большие тени. Подобно тому как тень представляет собой темную проекцию реального объекта – визуальную трансформацию, сохраняющую некоторые характеристики изначального объекта, при этом искажающую остальные, тень данных сохраняет часть изначальной информации. Хотя анализ тени представляет собой скорее искусство, а не науку, он крайне важен для успеха при работе с большими данными. Неправильная тень может оказаться этически сомнительной, юридически ущербной и бесполезной с научной точки зрения. Но если вы выберете правильный угол, то, возможно, вам удастся справиться с юридически и этически чувствительными элементами изначального массива данных, сохраняя при этом значительную часть его содержания.
Если вам повезет, создание тени для набора данных становится простым процессом. Например, часто проблема большого массива данных состоит в том, что он придает огласке конфиденциальную и личную информацию. В этом случае можно просто удалить имя человека, связанного с каждой записью. Но такая простая ситуация возникает крайне редко. Проблема состоит в том, что множество больших массивов данных настолько перенасыщено информацией, что при ближайшем рассмотрении имя человека становится лишним. Данные содержат так много определяющих характеристик, что под них часто подпадает один-единственный житель планеты. И в этом случае удаление имени нам мало чем поможет.
Компания America Online усвоила этот печальный урок в 2006 году, когда, пытаясь помочь научным исследованиям, предоставила в открытый доступ поисковые логи более чем 650 000 пользователей[87]. Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.
Благодаря изучению логов, оказавшихся в открытом доступе,