Обработка естественного языка (ОЕЯ)
С 1950-х гг. перед исследователями ИИ стояла цель научить машину распознавать язык человека. В эту сферу, называемую обработкой естественного языка, входят такие варианты использования технологий, как распознавание речи, текстовый анализ, перевод, генерация текста и решение других языковых задач. ОЕЯ использовали 53 % компаний, участвовавших в опросе об осведомленности о когнитивных технологиях. Есть два основных подхода к ОЕЯ – статистический и семантический. Статистическая ОЕЯ основана на машинном обучении и сегодня совершенствуется быстрее семантической. Она требует большого корпуса, или совокупности, текстов, на которых учится. Например, для перевода требуется большой объем переведенных текстов, статистически анализируя которые система узнает, что испанское и португальское слово amor находится в тесной статистической взаимосвязи с английским словом love. Этот метод использует «грубую силу», однако часто он довольно эффективен.
До последнего десятилетия внимание уделялось исключительно семантической ОЕЯ, и она демонстрирует умеренную эффективность, если система удачно натренирована на распознавание слов, синтаксиса и концептуальных связей. Однако обучение языку и инженерия знаний (которая часто предполагает создание графа знаний в определенной области) требуют много времени и сил. Для этого необходима разработка онтологий или моделей отношений между словами и фразами. Хотя создавать семантические модели ОЕЯ нелегко, сегодня этим занимаются несколько систем интеллектуальных агентов.
Производительность систем ОЕЯ следует измерять двумя способами. Первый – оценивать процент произнесенных слов, которые система понимает. Этот показатель возрастает при использовании технологии глубокого обучения и часто превышает 95 %. Второй способ – проверять, на какое количество различных типов вопросов система в состоянии ответить, а также сколько задач она может решить. Как правило, для этого необходима семантическая ОЕЯ, а поскольку в этой сфере нет серьезных технических прорывов, системы, которые отвечают на вопросы или решают конкретные задачи, контекстно обусловлены и требуют тренировки. Компьютер IBM Watson прекрасно справился с ответами на вопросы Jeopardy! но не сможет отвечать на вопросы Wheel of Fortune, если его не тренировать, а эти тренировки часто весьма трудоемки. Возможно, в будущем для ответов на вопросы будет применяться метод глубокого обучения, однако пока этого еще не делали.