Языковая разметка
Лингвистически аннотированный корпус можно представить как набор языковых единиц, для каждой из которых выполнен языковой разбор, примерно так, как это делают школьники, выполняя, например, морфологический разбор. Конечно, такого рода анализ делают не горемычные школьники и часто вообще не люди, а специальные программы, да и хранятся они не в школьных тетрадках. Вот как может выглядеть компактная морфологическая разметка (попробуйте сами разобраться, что значат, например, первые, заглавные, буквы в аннотации):

Многие корпуса предлагают более глубокую разметку, которая содержит информацию о нескольких языковых уровнях. Однако степень проработанности и, так сказать, обязательности той или иной разметки существенно различается. Типам лингвистического аннотирования будет посвящена вся следующая глава, здесь же отмечу, что почти все корпуса содержат сведения о начальной форме, точнее лемме. Многие корпуса предлагают частичное или полное морфологическое аннотирование; редкие – синтаксический разбор; почти нет таких, которые содержат фонетическое и просодическое аннотирование. В общих чертах схемы аннотирования совпадают с разработанным в структурализме и других лингвистических теориях делением языковой системы на уровни: фонетическая, морфологическая, синтаксическая и т. д. Однако встречаются и очень экзотические типы разметки.
Общение на барабанах
Жители племен бóра и окáйна, живущие в северо-западной Амазонии, «общаются» друг с другом с помощью барабанов. Корпус таких сообщений собран в Перу и содержит аннотированные видеозаписи ритуальных церемоний, в том числе расшифровку барабанных диалогов.
6. Объем и полнота данных
Конечно, чем данных больше, тем лучше. Однако исследования показывают, что иногда достаточно корпуса в пару тысяч слов, иногда не может помочь и корпус в миллионы слов. Все зависит от поставленной задачи: для анализа стихотворения О. Мандельштама «Мы живем, под собою не чуя страны» может быть достаточно текста этого стихотворения, для анализа языка романов XIX века нужны тексты романов – не всех, но в достаточном количестве. Корпус, который представляет все разнообразие определенного языка или его подъязыка, называют представительным (англ. representative). Еще раз подчеркну: представительный корпус не обязательно содержит все тексты, но их должно быть достаточно, чтобы судить об общих закономерностях. За корпусами,