Введение в корпусную лингвистику - страница 23

Шрифт
Интервал


Русский эмоциональный корпус (РЭК) состоит из видеофрагментов, фиксирующих различные эмоции. Чтобы собрать такой эмоционально нагруженный материал, авторы корпуса записывали разговоры в паспортном столе (где звучит персональная информация) или реакции студентов на третьей (последней!) пересдаче экзамена в университете. Увидеть материалы корпуса могут только его создатели и участники тайных конференций по корпусной лингвистике.

В целом корпуса обычно бывают:

● свободно распространяемыми (и доступными в интернете);

● доступными по так называемой академической лицензии, для использования в научной некоммерческой деятельности;

● имеющими ограниченный доступ.

Любой корпус – это компромисс между желаемым и возможным, это гигантское количество вложенной энергии, трудолюбия и творчества. В мире великое множество как отдельных корпусов, так и проектов типа НКРЯ, объединяющих множество разнородных корпусов в рамках одной системы.

Общая классификация корпусов

1. Язык или языки корпуса:

а) одноязычные,

б) многоязычные:

1) параллельные (один и тот же текст на разных языках),

2) смешанные (переключение языков, многоязычное общение):

● выровненные (параллельные),

● невыровненные.

2. Тип текстов:

а) письменные тексты,

б) устные (аудиозаписи и видеозаписи),

в) смешанные (мультимодальные).

3. Жанры текстов:

а) литературные,

б) диалектные,

в) разговорные,

г) публицистические,

д) исторические,

е) корпуса второго языка (ученические и т. п.).

4. Тип данных:

а) полнотекстовые,

б) фрагментированные тексты:

1) n-граммный,

2) конкордансный.

5. Типы разметки:

а) неразмеченные,

б) размеченные (аннотированные), с типами разметки:

1) метатекстовая (жанр, время создания текста и т. д.),

2) лингвистическая:

● фонетическая,

● просодическая,

● морфологическая (полная или только частеречная),

● словообразовательная,

● синтаксическая,

● семантическая

● и др.,

3) экстралингвистическая (маркировка эмоций, жестов и т. п.).

6. Объем данных:

а) представительный корпус (национальный),

б) иллюстративный,

в) мониторинговый.

7. Тип доступа:

а) свободно распространяемый,

б) академическая лицензия,

в) ограниченный доступ.

8. Страна создания и авторские права.

Дополнительная литература

1. Lee D. Genres, registers, text types, domains, and styles: clarifying the concepts and navigating a path through the BNC jungle // Language Learning & Technology. Vol. 5. № 3. September 2001. Р. 37–72. Доступно по адресу: