Data Mining – це… Поняття, алгоритм проведення аналізу, призначення та застосування

Розвиток інформаційних технологій приносить практичний результат. Але такі завдання як знаходити, аналізувати та використовувати інформацію ще не отримали ефективний якісний інструмент. Аналітика і кількісні інструменти – є, вони реально працюють. Але якісної революції у використанні інформації ще не сталося.

Задовго до появи комп’ютерної техніки людина потребувала в обробці великих обсягів інформації і справлявся з цим у міру накопиченого досвіду і наявних технічних можливостей.

Розвиток знань і вмінь завжди відповідало реальної потреби і відповідала поточним завданням. Data mining — збірна назва, що використовується для позначення сукупності методів виявлення в даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності.

Людина, інтелект, програмування

Людина завжди знає, як діяти в будь-якій ситуації. Незнання або незнайома ситуація не заважає йому прийняти рішення. Об’єктивність і розумність рішення людини можна поставити під сумнів, але воно буде прийнято.

В основі інтелекту лежать: спадковий «механізм», придбані, активні знання. Знання застосовуються для вирішення завдань, які виникають перед людиною.

  • Інтелект – це унікальна сукупність знань і умінь: можливості та фундамент для життя і роботи людини.
  • Інтелект постійно розвивається, а дії людини роблять вплив на інших людей.
  • Програмування – це перша спроба формалізувати подання даних і процес створення алгоритмів.

    Штучний інтелект (ШІ) – це втрачений час і ресурси, але результати безуспішних спроб минулого століття в області ШІ залишилися в пам’яті, використовувалися в різних експертних (інтелектуальних) системах і трансформувалися, зокрема, в алгоритми (правила) і математичний (логічний) аналіз даних і Data Mining.

    Інформація і звичайний пошук рішення

    Звичайна бібліотека – сховище знань, а друковане слово і графіка досі не поступилися пальму першості комп’ютерним технологіям. Завжди актуальні та достовірні книги з фізики, хімії, теоретичної механіки, конструювання, природознавства, філософії, природознавства, ботаніки, підручники, монографії, праці вчених, матеріали конференцій, звіти по дослідно-конструкторських робіт і т. д.

    Бібліотека – це багато найрізноманітніших джерел, що відрізняються формою подачі матеріалу, походженням, структурою, змістом, стилем викладу і т. д.

    Зовні все мабуть (читабельно, доступне для розуміння і використання. Можна вирішити будь-яку проблему, коректно поставити завдання, обґрунтувати рішення, написати реферат або курсову роботу, підібрати матеріал для диплому, виконати аналіз джерел по темі дисертації або науково-аналітичного звіту.

    Будь-яка інформаційна завдання вирішувана. При належній посидючості та вміння буде отримано точний і достовірний результат. У цьому контексті Data Mining – це зовсім інший підхід.

    Крім результату людина отримує «активні посилання» на все, що переглянув в процесі досягнення мети. На джерела, які він використовував при вирішенні поставленого завдання, можна послатися і ніхто не заперечуватиме факт існування джерела. Це не гарантія достовірності, але вірне свідчення на кого «отписана» відповідальність за достовірність. З цієї точки зору Data Mining – це великі сумніви в достовірності і ніяких активних посилань.

    Вирішуючи кілька завдань, людина отримує результати і розширює свій інтелектуальний потенціал на багато активних посилань». Якщо нова задача «активує» вже існуючу посилання, людина буде знати як її вирішувати: повторно нічого шукати не знадобиться.

    «Активне посилання» – це зафіксована асоціація: як і що робити в конкретному випадку. Людський мозок автоматично запам’ятовує все, що представляється йому потенційно цікавим, корисним або ймовірно потрібне у майбутньому. Багато в чому це відбувається на підсвідомому рівні, але як тільки виникає задача, яку можна асоціювати з «активним посиланням» – вона моментально вискакує в свідомості і рішення буде отримано без додаткового пошуку інформації. Data Mining – це завжди повторення алгоритму пошуку і цей алгоритм не змінюється.

    Звичайний пошук: «художні» завдання

    Математична бібліотека і пошук у них інформації – відносно слабка завдання. Знайти той чи інший спосіб вирішення інтеграла, побудови матриці або виконання операції додавання двох уявних чисел – трудомістко, але просто. Потрібно перебрати деяку кількість книг, багато з яких написані специфічною мовою, знайти потрібний текст, вивчити його і отримати необхідне рішення.

    Дивіться також:  Властиво - це приналежність набору характеристик

    З плином часу перебір стане звичним, а накопичений досвід дозволить орієнтуватися в бібліотечній інформації та іншим математичним завданням. Це обмежений інформаційний простір запитань і відповідей. Характерна риса: такий пошук інформації накопичує знання для вирішення подібних задач. Пошук інформації людиною залишає сліди (“активні посилання”) в його пам’яті з можливим рішенням інших завдань.

    У художній літературі знайти відповідь на питання:”Як люди жили в січні 1248 року?” дуже важко. Ще важче відповісти на питання про те, що лежало на прилавках магазинів і як була організована торгівля продуктами харчування. Навіть якщо який-небудь письменник чітко і прямо написав про це у своєму романі, якщо ім’я цього письменника вдалося знайти, то сумніви в достовірності отриманих даних залишаться. Достовірність – критична характеристика будь-якого обсягу інформації. Важливий джерело, автор та свідоцтва, що виключають хибність результату.

    Об’єктивні обставини конкретної ситуації

    Людина бачить, чує, відчуває. Деякі фахівці досконало володіють унікальним почуттям – інтуїцією. Постановка задачі вимагає інформації, процес вирішення завдання найчастіше супроводжується уточненням постановки задачі. Це менша біда, яка приходить з моменту переміщення інформації в надра комп’ютерної системи.

    Бібліотека і колеги по роботі – це непрямі учасники процесу рішення. Оформлення книги (джерела), графіка в тексті, особливості розбиття інформації на заголовки, виноски по фразах, предметний покажчик, список першоджерел – все викликає у людини асоціації, які побічно впливають на процес рішення задачі.

    Час і місце розв’язання задачі має істотне значення. Людина так вже влаштована, що мимоволі звертає увагу на все, що оточує його в процесі рішення задачі. Це може відволікати, а може стимулювати. Data Mining – це ніколи «не зрозуміє».

    Інформація у віртуальному просторі

    Людина завжди цікавила тільки достовірна інформація про подію, явище, предмет, алгоритм рішення задачі. Людина завжди уявляв як саме він може досягти бажаної мети.

    Поява комп’ютерів і інформаційних систем повинно було полегшити життя людині, але все тільки ускладнилося. Інформація перекочувала в надра комп’ютерних систем і зникла з поля зору. Щоб вибрати потрібні дані потрібно скласти правильний алгоритм або сформулювати запит до бази даних.

    Питання має бути правильним. Тільки в такому випадку можна отримати відповідь. Але сумніви в достовірності залишаться. У цьому сенсі Data Mining – це дійсно «розкопки», це «добування інформації». Саме так модно переводити цю фразу. Російський варіант – інтелектуальний аналіз даних або технологія інтелектуального аналізу даних.

    У працях авторитетних фахівців, задачі Data Mining позначені так:

    • класифікація;
    • кластеризація;
    • асоціація;
    • послідовність;
    • прогнозування.

    З точки зору практики, якою керується людина при ручній обробці інформації, всі ці спірні позиції. У всякому разі, людина виконує обробку інформації автоматично і не замислюється над класифікацією даних, над складанням тематичних груп об’єктів (кластеризація), пошуком часових закономірностей (послідовність) або прогнозуванням результату.

    Всі ці позиції в свідомості людини представлені активними знаннями, які охоплюють більше позицій і в динаміці використовують логіку обробки вихідних даних. Велику роль відіграє підсвідомість людини, особливо коли він є фахівцем у конкретній галузі знань.

    Приклад: оптова продаж комп’ютерної техніки

    Завдання просте. Існує кілька десятків постачальників комп’ютерного обладнання та периферійних пристроїв. У кожного є прайс у форматі xls (файл Excel), який можна завантажити з офіційного сайту постачальника. Потрібно створити веб-ресурс, який читає файли Excel, перетворює в таблиці бази даних і дозволяє покупцям вибирати бажані товари за мінімальними цінами.

    Проблеми виникають одразу. Кожен постачальник пропонує свій варіант структури і змісту xls-файлу. Отримати файл можна скачавши його з сайту постачальника, замовити по електронній пошті або взяти посилання на завантаження через особистий кабінет, тобто шляхом офіційної реєстрації у постачальника.

    Дивіться також:  Причини виникнення сил тертя спокою, ковзання, кочення і тертя в текучих субстанціях

    Рішення завдання (на самому початку) технологічно простий. Завантаження файлів (вихідних даних), по кожному постачальнику пишеться алгоритм розпізнавання файлу і дані поміщаються в одну велику таблицю вихідних даних. Після того як всі дані отримані, після того як налагоджений механізм безперервної підкачки (щоденній, щотижневій або за фактом зміни) свіжих даних:

    • зміна асортименту;
    • зміна цін;
    • уточнення кількості на складі;
    • коригування термінів гарантії, характеристик тощо

    Тут починаються реальні проблеми. Вся справа в тому, що постачальник може написати:

    • notebook Acer;
    • notebook Asus;
    • ноутбук Dell.

    Мова йде про одному і тому ж виробі, але від різних виробників. Як зіставити notebook = ноутбук або як видалити Acer, Asus, Dell з рядка товару?

    Для людини – це не проблема, але як алгоритм «зрозуміє» що Acer, Asus, Dell, Samsung, LG, HP, Sony – це торгові марки або постачальники? Як зіставити «принтер» і printer, «сканер» і «МФУ», «ксерокс» і «МФУ», «навушники» з «гарнітурою», «аксесуари» з «речами»?

    Побудова дерева категорій по вихідним даним (вихідні файли) – вже проблема, коли треба все поставити на автомат.

    Вибірка даних: розкопки «свежезалитого»

    Завдання створення бази даних по постачальникам комп’ютерної техніки вирішена. Побудовано дерево категорій, функціонує загальна таблиця з пропозиціями від усіх постачальників.

    Типові задачі Data Minig в контексті даного прикладу:

    • знайти товар за мінімальною ціною;
    • вибрати товар з мінімальною вартістю доставки і ціни;
    • аналіз товарів: характеристики і ціни за критеріями.

    В реальній роботі менеджера, який використовує дані від декількох десятків постачальників, варіацій цих завдань буде безліч, а реальних ситуацій ще більше.

    Наприклад, є постачальник «А», який продає ASUS VivoBook S15: передоплата, поставка через 5 днів після фактичного отримання грошей. Є постачальник «Б» такого ж товару тієї ж моделі: оплата при отриманні, поставка після укладення договору протягом дня, ціна вище в півтора рази.

    Починається інтелектуальний аналіз даних Data Mining – «розкопки». Образні вислови: «розкопки» або «добування даних» – синоніми. Мова йде про те, як отримати підставу для прийняття рішення.

    По постачальникам «А» і «Б» є історія поставок. Оцінка передоплати в першому випадку проти оплати при отриманні у другому випадку з урахуванням того, що збій поставки у другому випадку вище на 65 %. Ризик штрафних санкцій від клієнта вище/нижче. Як і що визначити і яке рішення прийняти?

    З іншого боку: база даних створена програмістом і менеджером. Якщо помінялися програміст і менеджер, як визначити поточний стан бази даних і навчитися її правильно використовувати? Доведеться також робити інтелектуальний аналіз даних. Data Mining пропонує безліч математичних та логічних методів, яким байдуже які саме дані піддаються дослідженню. У деяких випадках це дає вірне рішення, але не у всіх.

    Переміщення у віртуальність і набуття сенсу

    Методи Data Mining набувають сенс як тільки інформація записана в базу даних і зникла з поля зору». Торгівля комп’ютерним обладнанням – завдання цікава, але це просто бізнес. Від того, наскільки добре він організований в компанії, залежить її успіх.

    Зміни клімату на планеті і погода в конкретному місті цікавить всіх, а не тільки професійних фахівців з клімату. Тисячі датчиків знімають показання вітру, вологості, тиску, надходять дані з штучних супутників Землі і існує історія даних по роках і столетиям.

    Дані про погоду – це не тільки рішення завдання: взяти з собою парасольку на роботу чи ні. Технології Data Mining – це безпечний політ авіалайнера, стабільна робота автомагістралі і надійна поставка нафтопродуктів морським шляхом.

    «Сирі» дані надходять в інформаційну систему. Задачі Data Mining перетворити їх в систематизовану систему таблиць, встановити зв’язки, виділити групи однорідних даних, виявити закономірності.

    Математичні і логічні методи ще з часів кількісної аналітики OLAP (On-line Analytical Processing) показали свою практичність. Тут технологія дозволяє знайти сенс, а не втратити його як у прикладі з продажу комп’ютерного обладнання.

    Дивіться також:  Основи систематики ссавців

    Більш того в глобальні завдання:

    • транснаціональний бізнес;
    • управління авіаперевезеннями;
    • вивчення надр землі або соціальних проблем (на рівні держави);
    • дослідження впливу ліків на живий організм;
    • прогнозування наслідків будівництва промислових підприємства і т. п.

    Технології Data Mine і переклад «безглуздих» даних у реальні дані, які дозволяють приймати об’єктивні рішення, – це єдино можливий варіант.

    Людські можливості закінчуються там, де існує великий обсяг сирої інформації. Системи Data Mining втрачають свою корисність там, де потрібно бачити, розуміти і відчувати інформацію.

    Розумний розподіл функцій і об’єктивність

    Людина і комп’ютер повинні доповнювати один одного – це аксіома. Написати дисертацію – пріоритет у людини, а інформаційна система – підмога. Тут дані, якими володіє технологія Data Mining – це евристики, правила, алгоритми.

    Підготувати прогноз погоди на тиждень – пріоритет інформаційної системи. Людина управляє даними, але засновує свої рішення на результатах обчислень системи. Тут поєднуються методи Data Mining, класифікація даних фахівця, ручне управління застосуванням алгоритмів, автоматичне співставлення даних минулих років, математичне прогнозування і безліч знань і умінь реальних людей, які беруть участь у застосуванні інформаційної системи.

    Теорія ймовірностей і математична статистика не найбільш «улюблені» та зрозумілі галузі знань. Багато фахівців від них дуже далекі, але методики, розроблені в цих областях дають майже на 100 % вірний результат. Застосовуючи системи на базі ідей, методів і алгоритмів Data Mining, рішення можна отримати об’єктивно і достовірно. В іншому разі рішення отримати просто неможливо.

    Фараони і загадки минулих століть

    Історію періодично переписували:

    • держави – заради своїх стратегічних інтересів;
    • авторитетні вчені – заради своїх суб’єктивних переконань.

    Сказати що правда, а що брехня – важко. Застосування Data Mining дозволяє вирішити цю задачу. Наприклад, технологія будівництва пірамід описувалася літописцями і вивчалася вченими в різні століття. В Інтернет потрапили далеко не всі матеріали, що тут не все унікально, а у багатьох даних може не бути:

    • описуваного моменту часу;
    • часу складання опису;
    • дат, на яких грунтується опис;
    • автора (авторів), враховуються думок (посилань);
    • підтверджень об’єктивності.

    У бібліотеках, храмах і «несподіваних місцях» можна виявити рукописи різних століть і матеріальні свідчення минулого.

    Цікава мета: зібрати все воєдино і розкопати «істину». Особливість задачі: інформація може бути здобута від першого опису літописцем, ще за життя фараонів, до поточного століття, в якому дана задача вирішується сучасними методами безліччю вчених.

    Обгрунтування для використання Data Mining: застосування ручної праці не можливо. Занадто великі кількості:

    • джерел інформації;
    • мов представлення інформації;
    • дослідників, які описують одне і теж по-різному;
    • дат, подій і термінів;
    • проблем кореляції термінів;
    • аналіз статистики по групам даних у часі може відрізнятися і пр.

    В кінці минулого століття, коли чергове фіаско ідеї штучного інтелекту стало очевидним не тільки людині, але і досвідченому фахівцеві, з’явилася ідея: «відтворити особистість».

    Наприклад, за творами Пушкіна, Гоголя, Чехова формується певна система правил, логіки поведінки і створюється інформаційна система, яка може відповідати на ті чи інші питання так, як це б зробив осіб: Пушкін, Гоголь чи Чехів. Теоретично така задача цікава, але практично її вкрай складно здійснити.

    Однак, ідея такої задачі наводить на дуже практичну думка: «як створити інтелектуальний пошук інформації». Інтернет – це безліч ресурсів, що розвиваються, величезна база даних і це прекрасний привід застосувати Data Mining в поєднанні з людською логікою у форматі спільного розвитку.

    Машина і людина в парі – прекрасна завдання і безсумнівний успіх в області інформаційної археології», якісні розкопки в даних і результати, які поставлять під сумнів, але поза всяким сумнівом дозволять отримати нові знання і будуть затребувані в суспільстві.