Сообщество разума - страница 63

Шрифт
Интервал


Мы вводили в эту машину задачи наподобие поиска выхода из лабиринта при необходимости избегать встречи с опасным хищником. Машина быстро научилась решать простые задачи, но никак не могла справиться с трудными, например с постройкой башен из кубиков или с игрой в шахматы. Стало ясно, что для решения трудных задач любая машина с памятью ограниченной емкости должна иметь возможность повторно использовать своих агентов по-разному в разных контекстах (вспомним агента «Видеть» и две параллельные задачи, в которых он задействован). Но когда машина пыталась научиться прохождению через хитроумный лабиринт, типичный агент предлагал то правильное направление в один момент времени, то неправильное в другой момент. Позже, когда мы ввели награду за правильные действия, оба решения сделались более вероятными, причем правильный и неправильный выборы тяготели к тому, чтобы отменять друг друга!

Налицо дилемма проектирования машин, которые учатся, «фиксируя» взаимосвязи между агентами. В процессе решения трудной задачи мы обычно совершаем несколько неудачных действий, прежде чем находим правильное; по сути, как раз это имеется в виду, когда мы говорим о «трудных» задачах. Чтобы избежать обучения неправильным действиям, можно было бы запрограммировать машину на фиксацию только тех действий, которые непосредственно предшествовали успеху. Но такая машина способна обучиться лишь решению задач, которые требуют нескольких шагов. В качестве альтернативы можно было бы увеличить срок действия вознаграждения, однако в таком случае награда станет выдаваться и за неправильные действия наряду с правильными, а вдобавок будут стираться ранее усвоенные знания. Мы не можем научиться решению трудных задач посредством «массовой» фиксации состояний агентов или их связей. Почему среди всех животных только обладающие большим мозгом сородичи человека способны научиться решать задачи, которые требуют многих последовательных шагов или связаны с использованием тех же агентов для разных целей? Ответ следует искать в тактиках, которые наши агенты применяют для достижения целей.

Мне могут возразить, что бобр выполняет множество действий при постройке плотины, а колонии термитов возводят затейливые гнезда. Однако эти замечательные животные не изучают индивидуально такие практики, они используют навыки, закодированные в их генах благодаря миллионам лет эволюции. Бобра не научить строить гнезда термитов, а термитов не научить строить бобровые плотины.