«Национальный» не значит, что корпус принадлежит какой-то нации. Это значит, что корпус представляет национальный вариант какого-то языка. Такое употребление является производным от англ. national corpus (то есть корпус национального варианта какого-то языка, например, British National Corpus «корпус британского варианта английского языка» или НКРЯ – Национальный корпус русского языка).
Национальные корпуса готовятся много лет, часто по государственным программам и в рамках больших проектов. При всей их сбалансированности и полноте такие статичные корпуса не успевают реагировать на быстрые, текущие изменения в языке, особенно в лексике. Для решения этих задач создаются мониторинговые корпуса (англ. dynamic/monitor corpus), которые позволяют следить за языком в режиме реального времени, день в день.
Словечко PR приобрело новое значение летом 2012 года. Как это установить? Информационная система Интегрум (www.integrum.ru) – гигантская ежедневно пополняемая коллекция журнальных текстов – позволяет отслеживать самые новые или очень мелкие движения языка, иногда с точностью до одного дня.
Наконец, существуют относительно маленькие иллюстративные корпуса (англ. corpus of examples), задача которых не представлять весь язык, а лишь иллюстрировать те или иные явления. Такие инструменты незаменимы, например, в учебной аудитории при работе со школьниками или иностранными студентами.
Хельсинкский аннотированный корпус ХАНКО содержит всего 100 тыс. текстоформ. Очень маленький по современным меркам. Но он, единственный в своем роде, содержит разметку в терминах самой популярной синтаксической теории – школьного учения о частях речи и учитывает такие сложные для автоматического анализа формы, как читал бы или буду писать.
Я сторонник копилефта (англ. copyleft, принципы лицензирования свободно распространяемых продуктов – не путать с пиратством!) и считаю, что все данные, которые могут быть публичными, должны быть публичными. Принцип открытости данных хорошо бы распространить не только на прогноз погоды или статистику рождаемости, но и на языковые тексты, разрешив ученым свободно их использовать. Естественно, не для перепродажи, а для улучшения качества преподавания и