Введение в корпусную лингвистику - страница 24

Шрифт
Интервал


.

2. Resnik P., Broman Olsen M., Diab M.The Bible as a Parallel Corpus: Annotating the ‘Book of 2000 Tongues’ // Computers and the Humanities. 1999. Vol. 33. № 1–2. Р. 129–153. Доступно по адресу: www.springerlink.com/content/u240g32544t26777.

3. Sinclair J. EAGLES Preliminary recommendations on Corpus Typology, EAGLES Document EAG-TCWG-CTYP/P. 1996. Доступно по адресу: www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html.

4. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 62–88.

5. Савчук С. О., Шаров С. А. Типология текстов для представительного корпуса // Труды международной конференции «Корпусная лингвистика – 2004». СПб.: Издательство С.-Петербургского университета, 2004. С. 352–362.

Задания

1. Пользуясь предложенной классификацией, мысленно «составьте» свой корпус (выберите язык, тип текстов и т. д.). Объясните, в каких исследовательских или учебных задачах его можно было бы использовать.

2. Главный ресурс по русской корпусной лингвистике – Национальный корпус русского языка, расположенный по адресу ruscorpora.ru. Объясните, почему в адресе сайта используется множественное число английского слова corpus – corpora. Зайдите на сайт и выясните, какие виды корпусов там представлены и каков их объем в настоящий момент.

3. Пользуясь описанными выше корпусами, проверьте, как изменялась частотность лемм «советский» и «товарищ» в русских текстах XVIII–XXI веков. Какое из этих слов, по вашему мнению, сохранится в языке и в будущем?

4*. Познакомьтесь с корпусом n-грамм на сайте books.google.com/ngrams. Выбрав русский язык, экспериментально определите максимально допустимое количество слов в n-граммах.

Глава 5. Типы лингвистического аннотирования

Один из основателей корпусной лингвистки Джордж Лич написал однажды, что корпус предлагается пользователю на основе старого римского принципа caveat emptor, что значит «Пусть покупатель будет осмотрителен». Многие из нас скорее согласятся работать с корпусом, содержащим хоть какую-то лингвистическую разметку, чем захотят аннотировать самостоятельно или ждать безупречно подготовленный корпус. Создание корпуса – результат компромисса между «большой» теорией и возможностями ее компьютерной реализации. Из этого вовсе не следует, что всякий корпус несовершенен, но пользователь должен понимать его особенности и ограничения.