Метод кластеризації: опис, основні поняття, особливості застосування

Внутрішня відмітка

Коли результат кластеризації оцінюється на основі даних, які були самі кластеризованы, це називається даним терміном. Ці методи зазвичай присвоюють кращий результат алгоритмом, який створює групи з високою схожістю всередині і низьким між групами. Одним з недоліків використання внутрішніх критеріїв в оцінці кластера є те, що високі позначки необов’язково призводять до ефективних додатків для пошуку інформації. Крім того, цей бал зміщений у бік алгоритмів, які використовують ту ж модель. Наприклад, кластеризація k-середніх природним чином оптимізує відстані до об’єктів, а внутрішній критерій, заснований на ньому, ймовірно, буде переоцінювати результуючу угруповання.

Тому заходи такої оцінки найкраще підходять для того, щоб отримати уявлення про ситуації, коли один алгоритм працює краще, ніж інший. Але це не означає, що кожна інформація дає більш достовірні результати, ніж інша. Термін дії, вимірюваний таким індексом, залежить від твердження про те, що структура існує в наборі даних. Алгоритм, розроблений для деяких типів, не має шансів, якщо комплект містить радикально інший склад, або якщо оцінка вимірює різні критерій. Наприклад, кластеризація k-середніх може знайти тільки опуклі кластери, а багато індекси оцінки припускають той самий формат. У наборі даних з невыпуклыми моделями недоцільно використання k-середніх і типових критеріїв оцінки.