Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец Эйден. Читать онлайн. Newlib. NEWLIB.NET

Автор: Эрец Эйден
Издательство: "Издательство АСТ"
Серия: Наука XXI век
Жанр произведения: Прочая образовательная литература
Год издания: 2013
isbn: 978-5-17-088935-8
Скачать книгу
сложно. Куда реже нам встречается Loch Ness monster («Лох-несское чудовище») – лишь одно появление на каждые 200 книг. Но если вы действительно хотите протестировать, насколько ловко отыскиваете загадочных созданий, попробуйте найти Chupacabra («чупакабру») [78]. Этого кровососа впервые заметили в 1995 году в Пуэрто-Рико. О нем неизвестно практически ничего. Но мы можем сказать, что Chupacabra встречается значительно реже Sasquatch. Ее можно встретить лишь один раз на каждые 150 миллионов слов (или около 1500 книг). Невероятно начитанный человек может встретить слово Chupacabra всего один раз за всю свою жизнь. Так что вот вам еще одно упоминание – Chupacabra. Цените этот момент.

      Для отслеживания столь редких слов нам нужно было получить доступ к большим данным – к миллионам книг. И для этого мы могли отправиться лишь в одно место.

      Психология 29-летнего миллиардера

      В 2002 году дела в компании Google шли отлично, и у одного из ее основателей, Ларри Пейджа, появилось немного свободного времени. Что было делать? В конечном счете миссия Google состояла в том, чтобы «упорядочить всю имеющуюся в мире информацию», и Пейдж знал, что в книгах информации содержится очень много.

      Он задумался: насколько сложно превратить физическую библиотеку в цифровую, способную храниться в киберпространстве? Ответа на этот вопрос не знал никто. Поэтому Пейдж и Марисса Майер (работавшая тогда продукт-менеджером в Google, а в 2013 году бывшая исполнительным директором компании Yahoo!) решили провести эксперимент. Вооружившись метрономом, они принялись переворачивать страницы 300-страничной книги в определенном темпе. На это ушло 40 минут. При таком темпе на простое переворачивание страниц всех книг в библиотеке с семью миллионами томов (например, в библиотеке альма-матер Пейджа, Университета штата Мичиган) ушло бы около 500 лет. И, разумеется, в Университете Мичигана хранились далеко не все книги мира. Например, перелистывание страниц всех книг мира для цифрового сканирования и перевода содержимого в читаемую машиной форму заняло бы тысячелетия. Это казалось невозможным.

      Но, разумеется, вы мыслите не как 29-летний миллиардер. Для этого гиганта эпохи интернет-бизнеса, детище которого совсем скоро должно было войти в рейтинг крупнейших мировых компаний Fortune 500, человекотысячелетие представляет собой обычный товар, который можно купить.

      Поэтому когда президент Университета штата Мичиган Мэри Сью Коулман сказала Пейджу, что полная оцифровка книг университета потребует тысячи лет, он предложил в ответ услуги Google и заявил, что для решения этой задачи ему понадобится всего шесть лет[79].

      И вот так Google начала проект по оцифровке каждой из когда-либо написанных книг – для того, чтобы собрать воедино всю мировую библиотеку и загрузить ее на жесткий диск компьютера.

      Страницы Пейджа

      Перед тем как Google смогла заняться покупкой и сканированием всех книг, компания нуждалась в списке, позволявшем понять, какие книги ей потребуются, а какие уже отсканированы. Поэтому Google собрала информацию о книжных каталогах из сотен библиотек


<p>78</p>

Эти создания, и не только они, обсуждаются в книге Coleman Loren, Clark Jerome. Cryptozoology A to Z. New York: Fireside, 1999. Важно отметить, что чупакабры бродят стаями; если вы натолкнетесь на одну из них в каком-то предложении, велики шансы, что где-то по соседству есть и другие. Частота употребления слова Chupacabra в настоящее время растет, так что велики шансы, что в будущем они не окажутся под угрозой уничтожения.

<p>79</p>

С помощью простого перемножения цифр мы получили результат 500 лет. По всей видимости тысяча лет, о которой говорила Коулман, предполагала совершение еще каких-то действий, помимо перелистывания страниц. И, разумеется, речь шла о том, что этой работой будет заниматься один человек. В таком случае при наличии 130 миллионов книг и 40 минут на обработку каждой завершение работы потребовало бы 9900 лет.