Вопреки видимости (учитывая навязчивое присутствие темы секса на ТВ, в кино и СМИ) читающая публика США в последние тридцать лет явно предпочитает другие темы. Сочетание тем, характерное для современного бестселлера, дает основания предположить, что современный читатель ждет от книги чего-то большего, нежели потакание самым низким инстинктам.
Но откуда мы это знаем?
В 1957 году лингвист Джон Руперт Фёрс сказал: лучший способ понять слово – это познакомиться с его соседями. Проще говоря, значение слова раскрывается через контекст, в котором оно употреблено. Слова «секс», «наркотики» и «рок-н-ролл», фигурирующие в названии этого раздела, можно было бы понять соответственно как сокращение слова «секстет», «обезболивающие средства» и «акробатические танцы» – но вы знаете, что в данном контексте имелось в виду не это, именно потому, что каждое из слов придает определенный оттенок смысла своим соседям. Возьмем другой пример – слово «три». Оно может означать числительное, а может – повелительное наклонение глагола[48]. Чтобы различать эти два случая, компьютер нуждается в специальном обучении – по принципу, сформулированному Фёрсом семьдесят лет назад. Компьютер должен рассматривать каждое слово в контексте окружающих его слов в ближайших предложениях. Алгоритмический метод для формализации такого рассмотрения слов в контексте в больших объемах называется моделированием тем[49].
Математический аппарат, задействованный в моделировании тем, весьма сложен, но его общие принципы достаточно просты. Каждый роман представляет собой комбинацию тем, а эти темы выражаются словами (в первую очередь – существительными). Например, в книге о финансах, скорее всего, встретятся слова «банки», «проценты», «деньги», «фидуциарный». В другой книге, посвященной домашнему консервированию, мы увидим слова «банки», «крышка», «огурцы» и «укроп». Слово «банки» попадается в обеих книгах, но, рассмотрев другие существительные, стоящие рядом с каждым вхождением этого слова, компьютерная модель регистрирует повторяющиеся закономерности и может понять – подобно читателю-человеку, – что в разных местах слово «банки» имеет разные значения[50]. Очевидно, что слово «банки» само по себе еще не тема, но, когда оно постоянно попадается рядом с другими словами, которые (как нам уже известно) связаны с финансами, мы понимаем, что компьютер обнаружил в книге тему денег. Аналогично, если «банки» окружены «огурцами» и «пряностями», мы знаем: компьютер обнаружил тему домашних заготовок. При написании этой книги мы проводили моделирование тем, и одна из тем, обнаруженных компьютером, выглядела так, как показано на рис. 1.
Рис. 1
Эта тема посвящена барам – не единицам