Если вы создаете корпус для себя или для маленькой исследовательской группы, то разметка может быть понятной только вам и вашим друзьям. Однако многие корпуса публикуются в интернете, с ними работают люди, незнакомые не только с вами, но и с вашей теорией. В таком случае прозрачность и ясность разметки становится ключевым фактором для успешной работы. По словам Дж. Лича (Leech 1991), разметка общедоступного корпуса должна подчиняться нескольким принципам.
● Разметка должна основываться на доступной для пользователя в виде руководства или инструкции схеме анализа, в которой введение каждого параметра должно быть мотивировано.
● Разметка общедоступного корпуса должна быть «теоретически нейтральна», то есть схема разметки по возможности должна не разрывать с традицией, а опираться на знакомую всем систему понятий. Если корпус предназначен не для конкретного проекта, то при его разметке стоит избегать пусть и строгих, но авторских, необщеприняых классификаций, которые требуют предварительного знакомства с той или иной теорией.
● Должно быть ясно, кто и как разрабатывает схему аннотации и каковы ограничения, например юридические или технические, при пользовании корпусом.
Соблюдение этих принципов максимально расширяет круг потенциальных пользователей корпуса и существенно облегчает взаимодействие с информационным ресурсом, хотя может вызвать упреки в «ненаучности». Однако подход к созданию корпуса, не принуждающий авторов нести всю ответственность за логичность и последовательность разметки, а опирающийся на существующие классификации, позволяет заодно выявлять лакуны в описаниях языка, обнаруживать дефекты и противоречия в разных подходах к языку. Конечно, существует множество очень специализированных корпусов, с которыми невозможно работать без предварительной серьезной подготовки. Но по-прежнему верным остается старый принцип Уильяма Оккама: «Не следует множить сущее без необходимости».
В этой главе речь пойдет только о лингвистическом аннотировании, то есть о типах лингвистической информации, приписанной той или иной языковой единице. Типы лингвистического аннотирования в целом совпадают с уровнями языка:
● звуковой: звук (аллофон);
● просодический: фонетическое слово (или фраза);
● словообразовательный: морфема;
● морфологический: словоформа;
● лексический: лексема;
● синтаксический: предложение.
Очередность появления разных типов разметок не соответствовала этой уровневой структуре, а зависела от возможностей компьютеров и программ, способных упростить и ускорить аннотирование. Основные этапы развития автоматического анализа связаны с постепенным углублением в анализ конкретной цепочки букв: движением от определения начальной формы до установления семантических связей.
Адам Килгарифф (Adam Kilgariff) выделил следующие этапы развития автоматического анализа текста:
● токенизация (англ.