Благодаря четким параллелям между строением ДНК и языка ученые могут анализировать литературные произведения и геномные «тексты», используя одни и те же инструменты. Эти инструменты кажутся особенно перспективными для изучения спорных текстов, чье авторство или биологическое происхождение точно не определено. Литературоведы, как правило, сравнивают текст с отрывком из другого произведения, чье авторство известно, и делают выводы, одинаковы ли их стиль и тон. Иногда применяется другой метод: систематизация и подсчет слов, которые используются в тексте. Оба подхода нельзя назвать совершенными: первый слишком субъективен, а второй – слишком безлик. В случае с ДНК сравнение спорных геномов часто включает соотнесение с несколькими десятками ключевых генов и поиски малейших различий. Но эта технология потерпела неудачу, причем в случаях с самыми разными биологическими видами. Причина провала в том, что различий можно найти чрезвычайно много, и непонятно, какие из них по-настоящему важны. Будучи сосредоточенной исключительно на генах, эта техника игнорирует полосы регуляторной ДНК, из которой гены выпадают.
Чтобы избежать этих проблем, ученые из Калифорнийского университета в Беркли в 2009 году разработали программное обеспечение, с помощью которого «окна» скользят вдоль цепочки символов в поисках сходств и образцов. В качестве эксперимента ученые таким образом проанализировали геномы млекопитающих и тексты нескольких десятков книг, таких как «Питер Пэн», «Книга Мормона» и «Государство» Платона. Было обнаружено, что одно и то же программное обеспечение способно, с одной стороны, классифицировать ДНК различных видов млекопитающих, а с другой – классифицировать книги по жанрам с идеальной точностью. Обратившись к спорным текстам, ученые погрузились в изучение постоянно вызывающего споры вопроса о том, получил ли Шекспир достаточно хорошее образование для того, чтобы написать свои пьесы. И программа показала, что классик действительно написал драму «Два знатных родича» – пьесу, авторство которой постоянно подвергалось сомнению, – но не написал