Эта технология позволяет автоматически находить неочевидные связи между данными, которые человек не способен увидеть из-за огромного объема информации.
Data mining решает четыре фундаментальные задачи. Классификация помогает отнести объекты к определенным категориям, например, определить, вернет ли клиент кредит. Кластеризация группирует похожие объекты без заранее известных категорий — так банки выявляют группы клиентов со схожим поведением. Регрессия прогнозирует числовые значения, например, будущую стоимость акций. Поиск ассоциаций выявляет правила типа «если покупают А, то часто берут и Б».

С помощью data mining банки оценивают кредитные риски и выявляют мошеннические транзакции. Медицинские учреждения прогнозируют вспышки заболеваний и подбирают оптимальные схемы лечения. Ретейлеры анализируют покупательское поведение и оптимизируют ассортимент. Даже стриминговые сервисы используют эти технологии для рекомендаций контента.
Процесс data mining включает несколько этапов. Сначала происходит сбор и очистка данных — это может занимать до 80 % времени проекта. Затем данные преобразуются в формат, подходящий для анализа. После этого применяются алгоритмы для поиска закономерностей. Наконец, результаты интерпретируются и внедряются в бизнес-процессы.
Data mining — необходимый инструмент в эпоху больших данных. Компании, которые умеют извлекать знания из своих данных, получают конкурентное преимущество.
