Искусственный интеллект: начала MSM. Сингулярность неизбежна - страница 15

Шрифт
Интервал


Разумеется, для того, чтобы сформировать «умное» и разветвленое многомерное множество требуются серьезные усилия, особенно в областях классификатора, относящихся к неживым объектам и понятиям. Но не будем забегать вперед. Подробно об этом можно прочитать в 4 главе.

2.1. Общее и частное

Остановимся на простых операциях со множествами MSM.

Например, мы имеем задачу найти общее свойство нескольких элементов, объектов реального мира.

Пусть это будет:

ABВACAAB Яблоко

АВВАСААС Апельсин

ABBBAA Трава

ABВAAAB Сосна

Для этого мы всего лишь сравниваем попарно слова-множества и запоминаем результат в совпадающей части:

в 1 паре ABBACAAB и ABBACAAC это будет ABBACAA – ФРУКТ

далее мы сравниваем полученное и следующее —

ABBACAA и АВВВАА – получаем АВВ – РАСТЕНИЕ, и сравниваем теперь его с последним:

АВВ и ABВAAAB – также находим общее АВВ – Растение;

Так мы получили ответ, что все 4 объекта относятся к «растениям».

Возьмем еще один пример:

AAAAAABABA Эмоции

AAAAAABBAA Симпатия

AAAAAABAAABA Миф

Так же сравниваем левые части кода этих слов-множеств, находим общее, и это будет AAAAAAB — Субъективное. И это совсем неочевидный ответ, который имеет место быть.

Для того, чтобы найти лишнее в ряде элементов, потребуются уже некоторые хитрости:

ABABACCABA Коза

ABABACCAAA Корова

ABABACDAA Лошадь

AAADAACBBA Стол

ABABABAAA Акула

И хотя для человека кажется очевидным лишнее (Стол), компьютерный алгоритм пришлось некоторое время совершенствовать для того, чтобы научить определять лишний элемент наиболее точно.

Сделать это можно следующим образом:

Мы сравниваем поочередно каждое из слов-множеств со всеми присутствующими; причем сравниваем по-хитрому, получая в качестве ответа процентное соотношение «попадания» в искомое.

Например, имея некие коды A B C D E, мы можем получить средневзвешенную оценку общности так:

А и В = 95%, А и С=93%, А и D=5%, А и E=50%, итого (95+93+5+50) /4=60.75%

Проделав тот же самый фокус в цикле, мы получим такие значения для каждого элемента, и тогда нам останется только выбрать тот, который имеет самую низкую оценку.

Если взглянуть на процедуру процентного сравнения детальнее, сначала мы сравниваем каждый символ позиционно с первого до последнего. Затем оцениваем нахождение всех частей одного слова в другом. То есть, если у нас есть строка «ABCDEF» мы берем и сравниваем подстроку AB, потом BC, потом CD, потом DE и EF. Затем группу трех символов ABC, BCD, CDE и DEF. Затем сравниваем группы четырех символов ABCD, BCDE и CDEF, и наконец пять – ABCDE и BCDEF. Так же мы снижаем оценку схожести, если «слова» отличаются по длине.