Возникновение большей части путаницы между 2-мя исследовательскими сообществами (зачастую имеющими отдельные журнальные издания и конференции, ECML PKDD – серьезное исключение) происходит из-за основных предположений, с которыми они работают:
в Ml производительность обычно оценивается по способности воспроизводить известные знания, тогда как при обнаружении знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний. При оценке по известным знаниям неинформированному (неконтролируемому) методу легко превзойти контролируемые методы, в то время как в типичной KDD-задаче контролируемые методы не могут использоваться – из-за отсутствия обучающих данных.
2.2 Ml и физика. Ml и статистика. ML и оптимизация
Ml и физика
Полученные из глубинной физики неупорядоченных систем методы вычислительные и аналитические) могут быть распространены на крупномасштабные задачи, не исключая машинное обучение, к примеру, для анализа весового пространства глубоких нейронных сетей. Таким образом, статистическая физика находит применение в области медицинской диагностики.
Ml и статистика
Ml и статистика являются тесно связанными с точки зрения методов областями. Однако между ними имеется отличие по критерию своей основной цели: статистика делает выводы о численности населения на основе выборки, а Ml находит обобщаемые прогнозные закономерности.
У Ml-идей – от методологических принципов до теоретических инструментов – имеется длительная предыстория в статистике. Известен также применяемый для обозначения всей области термин «наука о данных».
Если говорить о традиционном статистическом анализе, ему требуется априорный выбор модели, которая наиболее подходит для набора данных исследования. Помимо этого, практикуется включение в анализ лишь значимых или теоретически значимых переменных, базирующихся на предшествующем опыте.
Построение Ml, наоборот, не происходит на предварительно структурированной модели; скорее, данные формируют модель, обнаруживая имеющиеся основные закономерности.
Чем больше входных данных (переменных) используется в целях обучения модели, тем большая точность будет у конечной модели. Лео Брейманом выделены 2 парадигмы статистического моделирования [1]:
модель данных и алгоритмическую модель, где «алгоритмическая модель» означает более или менее алгоритмы машинного обучения, такие как Random Forest.