Как data mining находит такие закономерности, которые недоступны статистике?

Для обнаружения всех закономерностей при помощи статистики Вам пришлось бы перебрать все возможные комбинации факторов и попытаться установить между ними зависимости. На первый взгляд, технология data mining устроена точно так же. Однако, не все так просто.

Если напрямую перебирать все комбинации факторов, то этот процесс, даже для небольших баз данных, займет просто непомерное время! Поэтому, для того чтобы, с одной стороны, не пропустить сильные закономерности, а с другой стороны, обнаружить их за приемлемое время, в технологии data mining применяются различные схемы, которые позволяют заранее отсечь значительные куски перебора когда становится ясно, что в них сильных зависимостей быть не может. Наши специалисты разработали множество подобных схем, которые мы называем «стратегиями отсечения» или «стратегиями углубления».

Разные стратегии обладают разными преимуществами, поэтому при решении одних задач наши специалисты применяют одни стратегии, при решении других – другие, а иногда даже требуется применение смешанных стратегий. Именно в этом-то и состоит главный «трюк» технологии data mining, благодаря которому она может обнаруживать все сильные зависимости за разумное время. А представьте, если бы Вам пришлось перебирать все это вручную!

Если интересно, Вы можете также узнать о других отличиях технологии data mining от статистических методов >>