Статистична інформація: збір, обробка, аналіз

За всю історію статистики були зроблені різні спроби створити таксономію рівнів вимірювання. Психофизик Стенлі-Сміт Стівенс визначив номінальні, порядкові, інтервальні та пропорційні шкали.

Номінальні виміри не мають значущого порядку рангів серед значень і допускають будь-яке однозначне перетворення.

Звичайні виміри мають неточні відмінності між послідовними значеннями, але мають певний порядок цих значень і допускають будь зберігає порядок перетворення.

Інтервальні виміри мають значущі відстані між пунктами, але нульове значення є довільним (як у випадку вимірів довготи і температури в градусах Цельсія або Фаренгейта) і допускає будь-яке лінійне перетворення.

Вимірювання відносини мають як значуще нульове значення, так і відстані між різними вимірами, крім того, допускають будь-яке перетворення масштабування.

Змінні і класифікація інформації

Оскільки змінні, відповідні тільки номінальним або порядковим вимірах, не можуть бути розумно виміряні чисельно, іноді вони групуються як категоріальні змінні. Вимірювання ж відносини і інтервалу групуються в якості кількісних змінних, які можуть бути дискретними або неперервними з-за їх числового характеру. Такі відмінності часто бувають слабко зіставлені з типом даних в комп’ютерній науці, оскільки дихотомические категоріальні змінні можуть бути представлені булевими операторами значеннями, политомными категориальными змінними з довільно певними цілими числами в інтегральному типі даних і неперервними змінними з реальними компонентами, які включають обчислення з плаваючою комою. Але відображення типів даних статистичної інформації залежить від того, яка класифікація застосовується.

Інші класифікації

Були створені також й інші класифікації статистичних даних (інформації). Наприклад, Мостеллера і Тьюки розрізняли оцінки, ранги, підраховані частки, підрахунки, суми і баланси. Нелдер в свій час описав безперервні підрахунки, безперервні співвідношення, співвіднесення підрахунків і категоріальні способи передачі даних. Всі ці методи класифікації застосовуються при зборі статистичної інформації.

Проблематика

Питання про те, чи доречно застосовувати різні види статистичних методів до даних, отриманих з допомогою різних процедур вимірювання (збору), ускладнюється проблемами, що стосуються перетворення змінних і точної інтерпретації питань дослідження. «Зв’язок між даними і тим, що вони описують, просто відображає той факт, що певні види статистичних тверджень можуть мати значення істинності, які не є інваріантними при деяких перетвореннях. Те, чи є перетворення доцільним для роздумів, залежить від питання, на який ви намагаєтеся відповісти.

Що таке тип даних

Тип даних є фундаментальним компонентом семантичного вмісту змінної і контролює, які види імовірнісних розподілів можуть логічно використовуватися для опису змінної, допустимих операцій над нею, типу регресійного аналізу, використовуваного для її прогнозування, і т. д. Концепція типу даних схожа на концепцію рівня виміру, але більш конкретна – наприклад, для підрахунку даних потрібно інший розподіл Пуассона або біноміальний), ніж для невід’ємних реальних значень, але обидва підпадають під той же рівень вимірювання (шкала коефіцієнтів).

Шкали

Були зроблені різні спроби створити таксономію рівнів вимірювання для обробки статистичної інформації. Психофизик Стенлі-Сміт Стівенс визначив номінальні, порядкові, інтервальні та пропорційні шкали. Номінальні виміри не мають значущого порядку рангів серед значень і допускають будь-яке однозначне перетворення. Звичайні виміри мають неточні відмінності між послідовними значеннями, але відрізняються значущим порядком цих значень і допускають будь зберігає порядок перетворення. Інтервальні виміри мають значущі відстані між вимірами, але нульове значення є довільним (як у випадку вимірів довготи і температури в градусах Цельсія або Фаренгейта) і допускає будь-яке лінійне перетворення. Вимірювання відносини мають як значуще нульове значення, так і відстані між різними певними вимірами і допускають будь-яке перетворення масштабування.

Дані, які не можуть бути описані з використанням одного числа, часто включаються в випадкові вектори речових випадкових величин, хоча існує зростаюча тенденція обробляти їх самостійно. Такі приклади будуть розглянуті нижче.

Випадкові вектори

Окремі елементи можуть або не можуть бути кореговані. Прикладами розподілів, використовуємих для опису корельованих випадкових векторів, є багатовимірний нормальний розподіл і багатовимірне t-розподіл. Загалом, можуть бути довільні кореляції між будь-якими елементами, однак це часто стає некерованим вище певного розміру, що вимагає додаткових обмежень на корельовані компоненти.

Випадкові матриці

Випадкові матриці можуть бути розташовані лінійно і розглядатися як випадкові вектори, однак це не може бути ефективним способом представлення кореляцій між різними елементами. Деякі імовірнісні розподілу спеціально призначені для випадкових матриць, наприклад, матриця нормального розподілу і розподіл Вишарта.

Випадкові послідовності

Іноді вони вважаються такими ж, як випадкові вектори, але в інших варіантах термін застосовується конкретно до випадків, коли кожна випадкова змінна корелює тільки з прилеглими змінними (як у моделі Маркова). Це приватний випадок байєсівської мережі і використовується для дуже довгих послідовностей, наприклад, генні ланцюжка або довгі текстові документи. Ряд моделей спеціально розроблений для таких послідовностей, наприклад, приховані марківські.

Випадкові процеси

Вони аналогічні випадковим послідовності, але лише тоді, коли довжина послідовності невизначена або нескінченна, а елементи обробляються послідовності один за іншим. Це часто використовується для даних, які можуть бути описані як часові ряди. Це актуально, коли мова йде, наприклад, про ціну акцій на наступний день.

Висновок

Аналіз статистичної інформації цілком і повністю залежить від якості її збирання. Останнє, в свою чергу, сильно пов’язане з можливостями її класифікації. Видів класифікації статистичної інформації, зрозуміло, існує чимало, в чому читач міг переконатися самостійно при ознайомленні з цією статтею. Тим не менше наявність ефективного інструментарію та гарне володіння математикою, а також пізнання в області соціології зроблять свою справу, дозволивши провести будь опитування або дослідження без істотних поправок на похибку. Джерела статистичної інформації у вигляді людей, організацій та інших суб’єктів соціології, на щастя, представлені у великому достатку. І ніякі труднощі не можуть бути перешкодою для справжнього дослідника.