. . Читать онлайн. Newlib. NEWLIB.NET

Автор:
Издательство:
Серия:
Жанр произведения:
Год издания:
isbn:
Скачать книгу
школа», 10 % – «Преступления», 7 % – «Судебные процессы и юридические вопросы», 6 % – «Домашние дела» и 2 % – «Близкие отношения».

      Рис. 3. Основные темы романа Джоди Пиколт «Последнее правило»

      После того как наш компьютер выделил основные темы, каталогизировал их и определил пропорцию каждой темы в каждой книге, мы обработали случайно выбранное подмножество результатов с помощью алгоритма машинного обучения, которому было заранее известно, какие книги в коллекции являются бестселлерами, а какие – нет. Используя эту информацию, программа подсчитала, какие темы и в каких пропорциях наиболее вероятно встретить в случайно выбранном бестселлере. Более того, эта же программа может определить, в использовании каких тем наиболее ярко проявляется различие между бестселлерами и небестселлерами.

      Хороший пример – тема секса, о которой мы уже говорили раньше. В среднем она возникает в небестселлерах вдвое чаще, чем в бестселлерах. Компьютер способен уловить эту разницу и использовать полученные данные, чтобы спрогнозировать вероятность успеха доселе неизвестной рукописи. Согласно нашей модели, книга, в которой секс фигурирует почти в каждой главе, имеет мало шансов стать по-настоящему популярной. Конечно, из этого принципа есть исключения – трудно не заметить Сильвию Дэй или Э. Л. Джеймс, – но два автора не могут заметно повлиять на общие результаты исследования тысячи книг.

      В конце концов наша компьютерная модель научилась на основании тематического профиля предсказывать с точностью 80 %, станет ли книга бестселлером[64]. И когда мы спросили модель, каким авторам за последние 30 лет лучше всего удавалось (преднамеренно или инстинктивно) использовать нужные темы в правильной пропорции, компьютер назвал два имени: Джон Гришэм и Даниэла Стил. Это нас как громом поразило. Наша реакция была вызвана не столько мнением по поводу их творчества – на тот момент мы еще не слишком пристально изучили их тематический «геном», – сколько тем фактом, что наша модель смогла выявить двух самых успешных писателей в истории человечества. Из всех их произведений она выбрала несколько самых, на ее взгляд, перспективных. Среди книг Стил это оказались «Неожиданный роман»[65], «Благословение»[66] и «Жить дальше»[67]. У Гришэма – «Противники»[68], «Юрист»[69] и «Джо из Калико»[70].

      Подходящие герои

      Мы прозвали Даниэлу Стил и Джона Гришэма «крестными отцом и матерью» современного бестселлера – в частности, потому, что за последние несколько десятилетий их книги неизменно входили в список NYT. Их общий вклад огромен. Их преданность писательскому делу вдохновляет. Их работоспособность чрезвычайно высока. Их капиталов, заработанных писательским трудом, вероятно, хватило бы на раскрутку сотни или даже тысячи молодых литераторов. Еще мы зовем их «крестными» потому, что в книжном мире они представляют


<p>64</p>

Точность измеряется с помощью перекрестной проверки. В этом случае мы использовали два типа перекрестной проверки: в первом (скажем для читателей, которых интересуют подробности) сначала использовалось многократное обучение на случайной выборке 90 % книг, а затем проверка результатов на оставшихся 10 %. Во втором мы использовали принцип «все, кроме одной», заключавшийся в том, что мы обучали модель на множестве всех книг, изымая оттуда лишь по одной книге единомоментно. В обоих экспериментах успехом считалось, когда машина правильно угадывала класс (бестселлер или небестселлер) изъятой книги (или книг, при первом подходе). Это длительный и кропотливый процесс, включающий в себя обучение и испытание множества моделей. При обучении этих моделей нам приходилось использовать уже изданные книги, про которые было известно, стали они бестселлерами или нет. Первая модель была построена в 2011 г. Добавив в корпус текстов все бестселлеры и некоторое количество небестселлеров, вышедшие за следующие пять лет, мы смогли снова испытать модель и в каком-то смысле проверить, работают ли наши наблюдения, сделанные в 2011-м, для 2015 г. Оказалось, что да. Подкрепив свою уверенность с помощью перекрестной проверки, мы можем исследовать прогноз и связанные с ним показатели вероятностей для каждой книги. По поводу некоторых книг модель не смогла прийти к окончательному выводу, и такие книги получали индекс 51 %. Поскольку случайная догадка имеет вероятность 50 на 50, это не очень высокая степень уверенности. В таком случае мы исследовали все остальные характеристики текста – например стиль или сюжет, – прежде чем сделать вывод о вероятности успеха. Но для других книг модель прогнозировала индекс успеха с большой уверенностью и присваивала им соответствующий рейтинг. (Примеч. авторов.)

<p>65</p>

The House on Hope Street, Danielle Steel.

<p>66</p>

Mixed Blessings, Danielle Steel.

<p>67</p>

Accident, Danielle Steel.

<p>68</p>

The Litigators, John Grisham.

<p>69</p>

The Associate, John Grisham.

<p>70</p>

Calico Joe, John Grisham.