Багатомірне шкалювання: визначення, цілі, завдання та приклад

Багатовимірне шкалювання (ДН) – це засіб візуалізації рівня подібності окремих випадків набору даних. Він відноситься до набору пов’язаних методів ординації, використовуваних при візуалізації інформації, зокрема, для відображення інформації, що міститься в матриці відстаней. Це форма нелінійного зменшення розмірності. Алгоритм MDS спрямований на розміщення кожного об’єкта в N-мірному просторі таким чином, щоб відстані між об’єктами зберігалися як можна краще. Потім кожному об’єкту присвоюють координати в кожному з N вимірювань.

Кількість вимірювань графіка MDS може перевищувати 2 і вказується апріорі. Вибір N = 2 оптимізує розташування об’єктів для двовимірної діаграми розсіювання. Приклади багатовимірного шкалювання ви можете побачити на картинках в статті. Особливо показові приклади з маркуванням російською мовою.

Суть

Метод багатовимірного шкалювання (ММШ, MDS) – це розширений набір класичних інструментів, який узагальнює процедуру оптимізації для безлічі функцій втрат і вхідних матриць відомих відстаней з вагами і так далі. У цьому контексті корисна функція втрат називається стресом, який часто зводиться до мінімуму за допомогою процедури, званої мажоризацією стресу.

Керівництво

Існує кілька варіантів багатовимірного шкалювання. Програми MDS автоматично мінімізують навантаження, щоб отримати рішення. Ядро неметричного алгоритму MDS являє собою двоякий процес оптимізації. По-перше, повинно бути знайдено оптимальне монотонне перетворення близькості. По-друге, точки конфігурації повинні бути розташовані оптимально, щоб їх відстані як можна ближче відповідали масштабированным значень близькості.

Розширення

Розширення метричного багатовимірного шкалювання в статистикою, в якій цільове простір є довільним гладким неевклідових простором. У тих випадках, коли відмінності представляють собою відстані на поверхні, а цільове простір – це інша поверхня. Тематичні програми дозволяють знаходити вкладення з мінімальним спотворенням однієї поверхні в іншу.

Етапи

Є кілька кроків у проведенні дослідження з допомогою багатовимірного шкалювання:

  • Формулювання проблеми. Які змінні ви хочете порівняти? Скільки змінних ви хочете порівняти? Для якої мети буде використовуватись дослідження?
  • Отримання вхідних даних. Респондентам ставлять ряд питань. Для кожної пари продуктів їх просять оцінити схожість (зазвичай по 7-бальною шкалою Лайкерта від дуже схожих до дуже різнорідних). Перше питання може бути, наприклад, для «Кока-Коли» / «Пепсі», наступний для пива, наступний для “Доктора Пеппера” і т. д. Кількість питань залежить від кількості брендів.
  • Дивіться також:  Що таке "палиш" - інструкція для дорослих

    Альтернативні підходи

    Є два інших підходи. Існує методика під назвою «Дані сприйняття: похідний підхід», в якій продукти розкладаються на атрибути, і оцінка відбувається за семантичної диференційної шкалою. Ще один метод – це підхід до даними про вподобання», при якому респондентам задають питання про уподобання, а не про подібність.

    Він складається з наступних етапів:

  • Запуск статистичної програми MDS. Програмне забезпечення для виконання процедури є в багатьох статистичних програмних пакетах. Часто існує вибір між метричної MDS (яка має справу з даними про відстань або рівні відносини) і неметрической MDS (яка має справу з порядковими даними).
  • Визначення кількості вимірювань. Дослідник повинен визначити кількість вимірювань, яке він хоче створити на комп’ютері. Чим більше вимірів, тим краще статистичне відповідність, але тим важче інтерпретувати результати.
  • Відображення результатів і визначення вимірювань – статистична програма (або пов’язаний модуль) відобразить результати. На карті буде відображатися кожен продукт (зазвичай у двомірному просторі). Близькість продуктів один до одного вказує або на їх схожість, або на перевагу в залежності від того, який підхід використовувався. Однак те, як вимірювання насправді відповідають результатам поведінки системи, не завжди очевидно. Тут може бути зроблено суб’єктивне судження про відповідність.
  • Перевірте результати на надійність і достовірність – обчисліть R-квадрат для визначення частки дисперсії масштабованих даних, яка може бути врахована процедурою MDS. Квадрат R 0,6 вважається мінімально допустимим рівнем. Квадрат R 0,8 вважається хорошим для метричного масштабування, а 0,9 вважається хорошим для неметричного масштабування.
  • Різні тести

    Іншими можливими тестами є стрес-тести типу Kruskal, тести розділені дані, тести на стабільність даних і надійність повторного тестування. Докладно пишіть про результати в тесті. Поряд з картуванням повинні бути вказані як мінімум міра відстані (наприклад, індекс Соренсон, індекс Жакара) і надійність (наприклад, значення напруги).

    Також дуже бажано дати алгоритм (наприклад, Kruskal, Mather), який часто визначається використовуваною програмою (іноді замінюючи звіт алгоритму), якщо ви дали стартову конфігурацію або мали випадковий вибір, кількість прогонів розмірності, результати методу Монте-Карло, кількість ітерацій, оцінка стійкості і пропорційна дисперсія кожної осі (r-квадрат).

    Дивіться також:  Підвищення кваліфікації державних службовців: професійна перепідготовка, огляд установ

    Візуальна інформація і аналіз даних методом багатовимірного шкалювання

    Візуалізація інформації – це вивчення інтерактивних (візуальних) уявлень абстрактних даних для посилення пізнання людини. Абстрактні дані включають як числові, так і нечислові дані, такі як текстова і географічна інформація. Однак інформаційна візуалізація відрізняється від наукової візуалізації: «це інформаційний (інформаційна візуалізація), коли вибрано просторове уявлення, і scivis (наукова візуалізація), коли дано просторове уявлення».

    Область візуалізації інформації з’явилася в результаті досліджень у галузі взаємодії людини з комп’ютером, прикладного використання інформатики, графіки, візуального дизайну, психології та бізнес-методів. Вона все частіше застосовується в якості найважливішого компонента в наукових дослідженнях, цифрових бібліотеках, інтелектуальному аналізі даних, фінансових даних, вивчення ринку, контроль виробництва продукції і так далі.

    Методи і принципи

    Візуалізація інформації передбачає, що методи візуального представлення і взаємодії використовують у своїх інтересах широкі можливості людського сприйняття, які дозволяють користувачам одночасно бачити, досліджувати і розуміти великі обсяги інформації. Візуалізація інформації спрямована на створення підходів для передачі абстрактних даних, інформації інтуїтивно зрозумілим чином.

    Аналіз даних є невід’ємною частиною всіх прикладних досліджень та вирішення проблем в промисловості. Найбільш фундаментальними підходами до аналізу даних є візуалізація (гістограми, точкові діаграми, графіки поверхні, деревоподібні карти, паралельні координатні діаграми тощо), статистика (перевірка гіпотез, регресія, PCA тощо), аналіз даних (зіставлення і т. д.) і методи машинного навчання (групування, класифікація, дерева рішень тощо).

    Серед цих підходів візуалізація інформації або візуальний аналіз даних найбільш залежать від когнітивних навичок аналітичного персоналу і дозволяють виявляти неструктуровані дієві ідеї, які обмежені тільки людською уявою і творчістю. Аналітик не повинен вивчати будь-які складні методи, щоб мати можливість інтерпретувати візуалізації даних. Візуалізація інформації також є схеми генерації гіпотез, яка може супроводжуватися і зазвичай супроводжується більш аналітичним або формальним аналізом, таким як статистична перевірка гіпотез.

    Вивчення

    Сучасне вивчення візуалізації почалося з комп’ютерної графіки, яка “з самого початку використовувалася для вивчення наукових проблем. Однак у перші роки недолік графічної потужності часто обмежував її корисність. Пріоритет на візуалізації почав розвиватися в 1987 році, з випуску особливого для комп’ютерної графіки і візуалізації в наукових обчисленнях. З тих пір було проведено кілька конференцій і семінарів, спільно організованих IEEE Computer Society і ACM SIGGRAPH”.

    Дивіться також:  Прогресуюче обвалення: норми, розрахунок та рекомендації

    Вони були присвячені загальним темам візуалізації даних, візуалізації інформації і наукової візуалізації, а також більш конкретним галузям, таким як візуалізація обсягу.

    Узагальнення

    Узагальнене багатомірне шкалювання (ОМШ, GMDS) є розширенням метричного багатовимірного масштабування, в якому цільове простір неевклидово. Коли відмінності представляють собою відстані на поверхні, а цільове простір – це інша поверхня, GMDS дозволяє знаходити вкладення з мінімальним спотворенням однієї поверхні в іншу.

    GMDS – це новий напрямок досліджень. В даний час основними додатками є розпізнавання деформівних об’єктів (наприклад, для тривимірного розпізнавання осіб) і накладення текстури.

    Метою багатовимірного шкалювання є уявлення багатовимірних даних. Багатовимірні дані, тобто дані, для подання яких вимагається більше двох або трьох вимірів, буває важко інтерпретувати. Один з підходів до спрощення полягає в тому, щоб припустити, що цікавлять дані лежать на вкладеному нелінійному різноманітті в багатовимірному просторі. Якщо колектор має досить низьке вимір, дані можуть бути візуалізовані в низкоразмерном просторі.

    Багато з нелінійних методів зменшення розмірності пов’язані з лінійними методами. Нелінійні методи можна в цілому класифікувати на дві групи: ті, які забезпечують відображення (або з багатовимірного простору в низкоразмерное вкладення, або навпаки), і ті, які просто дають візуалізацію. У контексті машинного навчання методи відображення можуть розглядатися як попередній етап виділення ознак, після якого застосовуються алгоритми розпізнавання образів. Зазвичай ті, які просто дають візуалізацію, засновані на даних про близькість – тобто вимірювання відстані. Багатомірне шкалювання у психології та інших гуманітарних науках також досить поширене.

    Якщо кількість атрибутів велике, то простір унікальних можливих рядків також експоненціально велике. Таким чином, чим більше розмір, тим складніше стає зобразити простір. Це викликає багато проблем. Алгоритми, які працюють з багатовимірними даними, мають тенденцію до дуже високої складності. Скорочення даних до меншого числа вимірювань часто робить алгоритми аналізу більш ефективними і може допомогти алгоритмів машинного навчання робити більш точні прогнози. Тому багатомірне шкалювання даних настільки популярно.