Метод кластеризації: опис, основні поняття, особливості застосування

Термін

Поняття «кластер» не може бути точно визначено. Це є однією з причин, по якій є так багато методів кластеризації. Існує загальний знаменник: група об’єктів даних. Проте різні дослідники використовують різні моделі. І кожне з цих використання методів кластеризації включає в себе різні дані. Поняття знайденого всілякими алгоритмами істотно розрізняється за його властивостями.

Використання методу кластеризації є ключем до розуміння відмінностей між інструкціями. Типові кластерні моделі включають в себе:

  • Центроїд s. Це, наприклад, коли кластеризація методом к-середніх представляє кожен кластер з одним середнім вектором.
  • Модель зв’язності s. Це вже, наприклад, ієрархічна кластеризація, яка будує моделі на основі дистанційної зв’язності.
  • Модель розподілу s. В даному випадку кластери моделюються з використанням методу кластеризації для формування метапредметных статистичних розподілів. Таких як багатовимірний нормальний розподіл, який застосовується для алгоритму максимізації очікування.
  • Модель щільності s. Це, наприклад, DBSCAN (алгоритм просторової кластеризації з присутністю шуму) і OPTICS (точки замовлення для визначення структури), які визначають групи як пов’язані щільні області в просторі даних.
  • Модель підпростору с. В biclustering (також відомий як кластеризація або два режими) групи моделюються з обома елементами і з відповідними атрибутами.
  • Модель s. Деякі алгоритми не дають уточнену зв’язок для їхнього методу кластеризації для формування метапредметных результатів і просто забезпечують групування інформації.
  • Модель на основі графа s. Клік, тобто підмножина вузлів, такий, що кожні два з’єднання в реберної частини можна розглядати як прототип форми кластера. Ослаблення повного вимоги відомі як квазиклики. Точно таку ж назву представлено алгоритм кластеризації HCS.
  • Нейронні моделі s. Найбільш відомою мережею без нагляду є самоорганізована карта. І саме ці моделі зазвичай можна охарактеризувати як аналогічні одному або декількох з вищевказаних методів кластеризації для формування метапредметных результатів. Він включає в себе подпространственные системи тоді, коли нейронні мережі реалізують необхідну форму аналізу головних або незалежних компонентів.

Даний термін – це, по суті, комплект таких груп, які зазвичай містять всі об’єкти в наборі методів кластеризації даних. Крім того, він може вказувати відносини кластерів один до одного, наприклад, ієрархію систем, вбудованих один в одного. Угруповання може бути розділена на наступні аспекти:

  • Жорсткий центроїдне метод кластеризації. Тут кожен об’єкт належить групі або перебуває за її межами.
  • М’яка або нечітка система. В даному пункті вже кожен об’єкт певною мірою належить кожному кластеру. Називається він також методом нечіткої кластеризації c-середніх.

І також можливі більш тонкі відмінності. Наприклад:

  • Сувора секционирующая кластеризація. Тут кожен об’єкт належить рівно одній групі.
  • Сувора секционирующая кластеризація з викидами. В даному випадку, об’єкти також можуть не належати ні до одного кластера і вважатися непотрібними.
  • Перекриваються кластеризація (також альтернативна, з кількома поданнями). Тут об’єкти можуть належати більш ніж до одного відгалуження. Як правило, з участю твердих кластерів.
  • Ієрархічні методи кластеризації. Об’єкти, що належать дочірньої групі, також належать батьківської підсистеми.
  • Формування підпростору. Хоча вони і схожі на кластери з перекриттям, всередині унікально певної системи взаємні групи не повинні загораживаться.