Data Mining – це… Поняття, алгоритм проведення аналізу, призначення та застосування

Приклад: оптова продаж комп’ютерної техніки

Завдання просте. Існує кілька десятків постачальників комп’ютерного обладнання та периферійних пристроїв. У кожного є прайс у форматі xls (файл Excel), який можна завантажити з офіційного сайту постачальника. Потрібно створити веб-ресурс, який читає файли Excel, перетворює в таблиці бази даних і дозволяє покупцям вибирати бажані товари за мінімальними цінами.

Проблеми виникають одразу. Кожен постачальник пропонує свій варіант структури і змісту xls-файлу. Отримати файл можна скачавши його з сайту постачальника, замовити по електронній пошті або взяти посилання на завантаження через особистий кабінет, тобто шляхом офіційної реєстрації у постачальника.

Рішення завдання (на самому початку) технологічно простий. Завантаження файлів (вихідних даних), по кожному постачальнику пишеться алгоритм розпізнавання файлу і дані поміщаються в одну велику таблицю вихідних даних. Після того як всі дані отримані, після того як налагоджений механізм безперервної підкачки (щоденній, щотижневій або за фактом зміни) свіжих даних:

  • зміна асортименту;
  • зміна цін;
  • уточнення кількості на складі;
  • коригування термінів гарантії, характеристик тощо

Тут починаються реальні проблеми. Вся справа в тому, що постачальник може написати:

  • notebook Acer;
  • notebook Asus;
  • ноутбук Dell.

Мова йде про одному і тому ж виробі, але від різних виробників. Як зіставити notebook = ноутбук або як видалити Acer, Asus, Dell з рядка товару?

Для людини – це не проблема, але як алгоритм «зрозуміє» що Acer, Asus, Dell, Samsung, LG, HP, Sony – це торгові марки або постачальники? Як зіставити «принтер» і printer, «сканер» і «МФУ», «ксерокс» і «МФУ», «навушники» з «гарнітурою», «аксесуари» з «речами»?

Побудова дерева категорій по вихідним даним (вихідні файли) – вже проблема, коли треба все поставити на автомат.