Метод кластеризації: опис, основні поняття, особливості застосування

Метод кластеризації — це завдання групування набору об’єктів таким чином, щоб вони в одній і тій же групі були більше схожі один на одного, ніж на предмети в інших галузях. Це основне завдання інтелектуального аналізу даних і загальна методика статистичного аналізу, що використовується в багатьох областях, включаючи машинне навчання, розпізнавання образів, зображень, пошук інформації, стиснення даних і комп’ютерну графіку.

Завдання оптимізації

Сам метод кластеризації — це не один конкретний алгоритм, а загальна завдання, яку потрібно вирішити. Це може бути досягнуто за допомогою різних алгоритмів, які суттєво різняться в розумінні того, що складає група і як її ефективно знаходити. Використання методу кластеризації для формування метапредметных включають в себе застосування групи з невеликими відстанями між членами, щільними областями простору, інтервалами або певними статистичними розподілами. Тому кластеризацію можна сформулювати як багатоцільову задачу оптимізації.

Відповідний метод і налаштування параметрів (включаючи такі пункти, як функція відстані для використання, поріг щільності або число очікуваних кластерів) залежать від індивідуального набору даних і передбачуваного використання результатів. Аналіз як такий є не автоматичним завданням, а ітеративним процесом виявлення знань або інтерактивної багатоцільової оптимізації. Такий метод кластеризації включає в себе пробні і невдалі спроби. Часто необхідно змінювати попередню обробку даних і параметри моделі, поки результат не досягне бажаних властивостей.

Крім терміна «кластеризація» існує ряд слів зі схожими значеннями, включаючи автоматичну класифікацію, числову таксономію, ботриологию і типологічний аналіз. Тонкі відмінності часто полягають у використанні методу кластеризації для формування метапредметных зв’язків. У той час як при витяганні даних результуючі групи представляють інтерес, автоматичної класифікації вже дискримінаційна сила виконує ці функції.

Кластерний аналіз був заснований по численним роботам Кребера в 1932 році. І введений в психологію Зубиным в 1938 і Робертом Трионом в 1939 році. І дані використовувалися праці Кеттелом починаючи з 1943 р. для позначення ознаки класифікація методів кластеризації в теорії.