Избранные труды конференции «Когнитивные исследования на современном этапе» - страница 8

Шрифт
Интервал


3. Схема разметки

Разметка корпуса осуществлена в программе ELAN (Wittenburg, Brugman, Russel, Klassmann, Sloetjes, 2006).

3.1. Базовая часть

Основная часть содержит информацию, характерную для большинства речевых корпусов: расшифровку записи с указанием времени, леммы, анализ по частям речи и грамматическую информацию.

Квазифонетический слой (Transcript) скоординирован с аудио-/видеофайлами и содержит орфографическую транскрипцию записанной речи. Большинство слов в этом слое выступают в стандартном написании, однако в случае фонетической ошибки или специфического произношения транскрипция отражает эти отклонения от нормы. Например, русское слово сейчас в устной речи может выступать в своей полной форме либо в редуцированном варианте щас. При этом в письменной речи приемлем только полный вариант. В этом случае квазифонетическая транскрипция должна передать произношение, а не норму языка. Фонематические парафазии (ошибки), встречающиеся в речи людей с афазией, также отражаются в этом слое, например велосипел (правильно велосипед). Абсолютные (тишина) и заполненные (например, хм, ээ) паузы длиной более 70 мс также отмечены в транскрипте. Если какой-либо речевой отрывок неразборчив, используется пометка «Неразборчиво».

Квазифонетическая транскрипция позволяет отразить некоторые черты устной речи и фонематические парафазии, однако она затрудняет анализ лексического многообразия и лексической насыщенности. Слой лексической расшифровки (Transcript_lex) содержит ту же информацию, что квазифонетический слой, но со стандартным правописанием. Лексическая расшифровка используется при подсчете показателей лексического разнообразия (поскольку различные варианты произношения одной лексемы не считаются в этом слое различными словами), а также для целей исследования макроструктуры текста.

Слой лемм (Lemma) содержит все начальные формы слов, а слой англоязычных лемм (Lemma_eng) – перевод всех слов на английский язык. В сочетании с данными грамматического слоя это дает возможность использования данных корпуса Russian CliPS также нерусскоязычными исследователями.

Схемы маркировки частей речи и указания грамматических категорий даются по руководству Национального корпуса русского языка[3]. Каждая грамматическая категория указывается в отдельном слое программы ELAN (всего 13 слоев).