Метод кластеризації: опис, основні поняття, особливості застосування

Кластеризація на основі сполук

Це об’єднання також відомо за такої назви, як ієрархічна модель. Вона заснована на типової ідеї про те, що об’єкти в більшій мірі пов’язані з сусідніми частинами, ніж з тими, які знаходяться набагато далі. Ці алгоритми з’єднують предмети, утворюючи різні кластери, в залежності від їх відстані. Група може бути описана в основному максимальної дистанцією, яка необхідна для з’єднання різних частин кластера. На різних відстанях будуть утворюватися інші групи, які можна представити за допомогою дендрограми. Це пояснює, звідки походить загальну назву «ієрархічна кластеризація». Тобто ці алгоритми не забезпечують єдиного поділу набору даних, а замість цього надають великий порядок підпорядкування. Саме завдяки йому відбувається злив один з одним на певних відстанях. У дендрограмі вісь Y позначає дистанцію, на якій кластери об’єднуються. А об’єкти розташовуються вздовж прямої X так, що групи не змішуються.

Кластеризація на основі сполук — це ціле сімейство методів, які відрізняються способом обчислення відстаней. Крім звичайного вибору функцій дистанції користувачеві також необхідно визначитися з критерієм зв’язку. Так як кластер складається з декількох об’єктів, є безліч варіантів для його обчислення. Популярний вибір відомий як однорычажная угруповання, саме це метод повної зв’язку, який містить UPGMA або WPGMA (незважений або зважений ансамбль пар з середнім арифметичним, також відомий як кластеризація середньої зв’язку). Крім того, ієрархічна система може бути агломераційної (починаючи з окремих елементів і об’єднуючи їх у групи) або ділильної (починаючи з повного набору даних і розбиваючи його на розділи).