Один из коллег как-то сказал про Ципфа, что тот «может ощипать прекрасную розу, чтобы сосчитать ее лепестки». С литературой Ципф обходился столь же бесцеремонно. Будучи студентом, он взялся за «Улисса» Джойса, и главное, что он вынес оттуда, – роман состоит из 260 430 слов, 29 899 из которых различны. Так же Ципф препарировал «Беовульфа», Гомера, тексты китайской литературы и творчество римского драматурга Плавта. Подсчитывая слова в каждом из произведений, он открыл закон Ципфа. Он гласит, что наиболее распространенное слово в языке встречается примерно вдвое чаще, чем второе по распространенности, примерно втрое чаще, чем третье, в сто раз чаще, чем сотое по распространенности, и т. д. В английском языке слово «the» составляет примерно 7 % от всех слов, «of» – примерно половину от этого, «a» – треть от этого и т. д., вплоть до экзотических слов типа «бустрофедон». Такое распределение соблюдается во всех языках – от санскрита и этрусского до современных хинди, испанского или русского (эти языки Ципф анализировал по прейскурантам каталогов от компании «Сирс»). Закон Ципфа действует даже по отношению к искусственным языкам.
Уже после смерти Ципфа в 1950 году ученые обнаружили свидетельства того, что его закон соблюдается отнюдь не только в языке. Его также можно проследить: в музыке (подробнее об этом расскажем чуть позже), списках городов по численности населения, распределении доходов, массовом вымирании живых существ, магнитудах землетрясений, соотношении различных цветов в картинах или мультфильмах и т. д. В каждом случае самый большой или самый распространенный из элементов был вдвое больше/распространеннее второго в списке, втрое – третьего и т. п. Внезапная популярность этой теории ожидаемо привела и к обратной реакции, особенно среди лингвистов, которые часто ставят под сомнение само существование этого закона[18]. В то же время многие другие специалисты защищают этот закон, так как он видится корректным – частота слов не кажется случайной – и, опытным путем, описывает языки со сверхъестественной точностью. Даже «язык» ДНК.
Конечно, соблюдение закона Ципфа в случае с ДНК на первый взгляд не кажется очевидным, особенно для носителей западноевропейских языков. В отличие от большинства языков ДНК не имеет очевидных пробелов, помогающих отличать каждое слово. Это скорее напоминает тексты древних рукописей, без каких-либо пробелов, пауз и без единого знака препинания, бесконечные строки букв. Можно предположить, что триплеты, состоящие из А, Ц, Г и Т, которые кодируют аминокислоты, могут выступать в качестве «слов», но их соотношение совсем не похоже на ципфианское. Чтобы найти