5. Из требования электронного формата следует возможность развития корпуса как в «ширину» (увеличение объема), так и в «глубину» (дополнительная информация о единицах корпуса). Последнее определяет требование к корпусу, которое сегодня все чаще становится обязательным. Я говорю о наличии специальной разметки, или аннотации. Именно она позволяет искать не только по текстоформам, но и по другим параметрам. Говоря по-простому, разметка представляет собой лингвистический разбор всех языковых единиц на выбранном языковом уровне, или, если говорить более формально:
разметка (аннотация, англ. annotation) – это введенная автоматически или вручную лингвистическая или метатекстовая информация обо всех выбранных единицах корпуса: тексте, предложении, текстоформе, морфеме, звуке и т. д.
Этой важнейшей составляющей современного корпуса будет посвящено несколько глав учебника.
Дополнительная литература
1. Atkins S., Clear J., Ostler N. Corpus design criteria // Literary and linguistic computing. 1992. Vol. 7. № 1. P. 1–16.
2. Biber D. Representativeness in corpus design // Literary and linguistic computing. 1993. Vol. 8. № 4. P 243–257.
3. Integrum: точные методы и гуманитарные науки. М., 2006.
4. McEnery T., Wilson A. Corpus linguistics. Edinburgh: Edinburgh University Press, 1996.
5. O'Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. Routledge, 2010. (Раздел 2: “Building and designing a corpus: what are the key considerations?”).
6. Материалы конференции «Диалог: Компьютерная лингвистика и интеллектуальные технологии». М.; Дубна, 1995-. Доступно по адресу: http://www.dialog-21.ru/.
7. Инструментарий русистики: корпусные подходы. Хельсинки, 2008.
8. Национальный корпус русского языка. 2003–2005: результаты и перспективы. М., 2003.
9. Национальный корпус русского языка. 2006–2008: новые результаты и перспективы. СПб., 2009.
10. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. № 16 (2). С. 7–20.
11. Труды международной конференции «Корпусная лингвистика». СПб., 2004-. Доступно по адресу: http://www.corpora.phil.spbu.ru/.
12. Шимкова М. Репрезентативность корпуса как лингвистическая проблема // Сборник: Труды Международной конференции MegaLing-2005: Прикладная лингвистика в поиске новых путей. СПб.: Осипов. 2005. С. 130–139. Доступно по адресу: