, или
токен – цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы рус.
буду читать, англ.
wake up). С этим связаны и основные сложности морфологической разметки.
– Доктор, доктор, я лечу!
– Я такого не лечу. (Г. Лукомников)
Ни одному лингвисту не придет в голову считать выделенные формы одной лексемой. Однако компьютер при простом поиске по буквам найдет обе глагольные формы, считая их одинаковыми текстоформами.
Компьютерные программы очень плохо справляются с омографами (совпадающими по написанию словами), считая их одной и той же единицей. В приведенном выше стишке выделены две одинаковые текстоформы, которые с точки зрения лингвистики являются омонимами. Наиболее простой способ отметить разницу – показать, что та или иная текстоформа относится к определенной начальной форме:
лечу – лететь
лечу – лечить
Эта процедура автоматического приписывания текстоформы к определенной «начальной форме» получила в корпусной лингвистике название лемматизации, а сама «начальная форма» стала называться леммой.
Лемму следует отличать от лексемы. В корпусной лингвистике под леммой обычно понимается графическая единица без учета лексических различий. Например, полные омонимы типа ключ будут приписаны при морфологическом аннотировании одной лемме, хотя никто никогда не назовет их одной лексемой.
Однако бывает, что и лемматизации недостаточно для того, чтобы явно указать, что текстоформы относятся к разным лексемам. Рассмотрим следующий пример:
По дороге шел боксер
В пиджаке и шляпе.
По дорожке шел боксер
С пятнышком на лапе.
(М. Яснов)
Боксер и боксер – разные лексемы с совпадающими начальными (да и всеми остальными) формами, однако лемма у них одна, поскольку все формы этих слов совпадают, а разница в лексических значениях на морфологическом уровне не учитывается. Лемма – это результат автоматического сведения текстоформ к одной обобщающей единице, отличающийся от начальной формы тем, что для компьютерной морфологии не важны различия в семантике слов или в ударении, если эти различия никак не выражены в буквенной форме слов. Для того чтобы закрепить в корпусе разницу между разными