Машинное обучение: как его понимать. И как заработать на машинном обучении и искусственном интеллекте - страница 5

Шрифт
Интервал


Возникновение большей части путаницы между 2-мя исследовательскими сообществами (зачастую имеющими отдельные журнальные издания и конференции, ECML PKDD – серьезное исключение) происходит из-за основных предположений, с которыми они работают:

в Ml производительность обычно оценивается по способности воспроизводить известные знания, тогда как при обнаружении знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний. При оценке по известным знаниям неинформированному (неконтролируемому) методу легко превзойти контролируемые методы, в то время как в типичной KDD-задаче контролируемые методы не могут использоваться – из-за отсутствия обучающих данных.

2.2 Ml и физика. Ml и статистика. ML и оптимизация

Ml и физика

Полученные из глубинной физики неупорядоченных систем методы вычислительные и аналитические) могут быть распространены на крупномасштабные задачи, не исключая машинное обучение, к примеру, для анализа весового пространства глубоких нейронных сетей. Таким образом, статистическая физика находит применение в области медицинской диагностики.

Ml и статистика



Ml и статистика являются тесно связанными с точки зрения методов областями. Однако между ними имеется отличие по критерию своей основной цели: статистика делает выводы о численности населения на основе выборки, а Ml находит обобщаемые прогнозные закономерности.

У Ml-идей – от методологических принципов до теоретических инструментов – имеется длительная предыстория в статистике. Известен также применяемый для обозначения всей области термин «наука о данных».

Если говорить о традиционном статистическом анализе, ему требуется априорный выбор модели, которая наиболее подходит для набора данных исследования. Помимо этого, практикуется включение в анализ лишь значимых или теоретически значимых переменных, базирующихся на предшествующем опыте.

Построение Ml, наоборот, не происходит на предварительно структурированной модели; скорее, данные формируют модель, обнаруживая имеющиеся основные закономерности.

Чем больше входных данных (переменных) используется в целях обучения модели, тем большая точность будет у конечной модели. Лео Брейманом выделены 2 парадигмы статистического моделирования [1]:

модель данных и алгоритмическую модель, где «алгоритмическая модель» означает более или менее алгоритмы машинного обучения, такие как Random Forest.