Русский эмоциональный корпус (РЭК) состоит из видеофрагментов, фиксирующих различные эмоции. Чтобы собрать такой эмоционально нагруженный материал, авторы корпуса записывали разговоры в паспортном столе (где звучит персональная информация) или реакции студентов на третьей (последней!) пересдаче экзамена в университете. Увидеть материалы корпуса могут только его создатели и участники тайных конференций по корпусной лингвистике.
В целом корпуса обычно бывают:
● свободно распространяемыми (и доступными в интернете);
● доступными по так называемой академической лицензии, для использования в научной некоммерческой деятельности;
● имеющими ограниченный доступ.
Любой корпус – это компромисс между желаемым и возможным, это гигантское количество вложенной энергии, трудолюбия и творчества. В мире великое множество как отдельных корпусов, так и проектов типа НКРЯ, объединяющих множество разнородных корпусов в рамках одной системы.
Общая классификация корпусов
1. Язык или языки корпуса:
а) одноязычные,
б) многоязычные:
1) параллельные (один и тот же текст на разных языках),
2) смешанные (переключение языков, многоязычное общение):
● выровненные (параллельные),
● невыровненные.
2. Тип текстов:
а) письменные тексты,
б) устные (аудиозаписи и видеозаписи),
в) смешанные (мультимодальные).
3. Жанры текстов:
а) литературные,
б) диалектные,
в) разговорные,
г) публицистические,
д) исторические,
е) корпуса второго языка (ученические и т. п.).
4. Тип данных:
а) полнотекстовые,
б) фрагментированные тексты:
1) n-граммный,
2) конкордансный.
5. Типы разметки:
а) неразмеченные,
б) размеченные (аннотированные), с типами разметки:
1) метатекстовая (жанр, время создания текста и т. д.),
2) лингвистическая:
● фонетическая,
● просодическая,
● морфологическая (полная или только частеречная),
● словообразовательная,
● синтаксическая,
● семантическая
● и др.,
3) экстралингвистическая (маркировка эмоций, жестов и т. п.).
6. Объем данных:
а) представительный корпус (национальный),
б) иллюстративный,
в) мониторинговый.
7. Тип доступа:
а) свободно распространяемый,
б) академическая лицензия,
в) ограниченный доступ.
8. Страна создания и авторские права.
Дополнительная литература
1. Lee D. Genres, registers, text types, domains, and styles: clarifying the concepts and navigating a path through the BNC jungle // Language Learning & Technology. Vol. 5. № 3. September 2001. Р. 37–72. Доступно по адресу: