Введение в корпусную лингвистику - страница 31

Шрифт
Интервал


). При этом каждому аффиксу приписана соответствующая морфологическая информация и сочетаемость с основами: например, – л [[+гл]: муж. р., прош. вр., ед. ч.], что значит «аффикс – л сочетается с глагольными основами и содержит значения муж. р., прош. вр., ед. ч.».

Алгоритм работает следующим образом:

● отделение от конца слова потенциальных окончаний (по заданному в словаре списку): чита-л,

● поиск полученной основы по словарю основ: чита-,

● определение возможности такого сочетания аффикса и основы: {чита- [гл]} {-л [[+гл]: муж., прош., ед.]}.

2б. Анализ, построенный на словаре окончаний, использует псевдосинтаксическую информацию. В словаре такого анализатора содержатся все окончания (с соответствующей морфологической информацией) и служебные слова, помогающие определить синтаксическую структуру. Такой синтаксической рамкой служит, например, цепочка «В – ом – е – ются – и», которая однозначно определяет почти все морфологические параметры слов для множества предложений типа «В большом доме смеются дети». Алгоритм применения состоит в выделении окончаний и поиске подходящей «синтаксической рамки», в которой может существовать окончание.

2 в. Словарь словоформ – способ, который состоит в том, что в словаре хранятся все словоформы всех слов с соответствующей морфологической информацией: например, стол [сущ., ед., им., муж.], столы [сущ., мн., им., муж.].

Понятно, что такой алгоритм требует бóльших ресурсов памяти, но в настоящее время это не является проблемой. Главный недостаток здесь – невозможность анализировать новые слова, не учтенные в словаре.

Многие современные морфологические анализаторы (теггеры) совмещают метод поиска по словарю словоформ (для знакомых слов) и другие методы (для незнакомых слов).

В русистике существует более или менее общепринятая классификация морфологических категорий. Она системно представлена в «Грамматическом словаре русского языка» (ГСРЯ) Андрея Анатольевича Зализняка (первое издание вышло в 1977 году). Страницы этого словаря могут удручающе подействовать на неподготовленного читателя:

Конец ознакомительного фрагмента.