Метод кластеризації: опис, основні поняття, особливості застосування

Оцінка

Перевірка результатів кластеризації так само складна, як і сама угруповання. Популярні підходи включають «внутрішню» оцінку (де система зводиться до одного показника якості) і, звичайно ж, «зовнішню» позначку (де кластеризацію порівнюють з існуючою класифікацією «основоположною правди»). А ручну оцінку експерта-людини і непрямий бал знаходять шляхом вивчення корисності кластеризації в передбачуваному додатку.

Внутрішні заходи позначки страждають від проблеми, яка полягає в тому, що вони представляють функції, які самі по собі можна розглядати як цілі кластеризації. Наприклад, можна групувати дані, задані коефіцієнтом Силует, за винятком того, що не існує відомого ефективного алгоритму для цього. Використовуючи таку внутрішню міру для оцінки, краще порівнювати схожість задач оптимізації.

Зовнішня оцінка має аналогічні проблеми. Якщо є такі ярлики «наземної правди», то не потрібно кластеризоваться. І в практичних додатках зазвичай немає таких понять. З іншого боку, мітки відображають лише одне можливе розбиття набору даних, що не означає, що не існує іншого (а, може, навіть краще) кластеризації.

Тому ні один з цих підходів не може у кінцевому підсумку судити про фактичне якості. Але це потребує людської оцінки, яка є досить суб’єктивною. Тим не менше така статистика може бути інформативною при виявленні поганих кластерів. Але не слід скидати з рахунків суб’єктивну оцінку людини.