Статистична модель: сутність методу, побудова та аналіз

Статистична модель являє собою математичну проекцію, яка втілює в собі набір різних припущень щодо генерації деяких вибіркових даних. Даний термін часто представляють у значно ідеалізованій формі.

Допущення, виражені у статистичній моделі, показують комплект імовірнісних розподілів. Багато з яких, як припускається, правильно апроксимують розподіл, з якого відбирається певний комплект інформації. Розподілу ймовірностей, властиві статистичним моделям,— це те, що виділяє проекцію від інших математичних модифікацій.

Загальна проекція

Математична модель являє собою опис системи з використанням певних понять і мови. Вони застосовуються в природничих науках (таких як фізика, біологія, наука про Землю, хімія) і інженерних дисциплінах (таких як інформатика, електротехніка), а також у соціальних науках (таких як економіка, психологія, соціологія, політологія).

Модель може допомогти пояснити систему і вивчити вплив різних компонентів, а також зробити прогнози поведінки.

Математичні моделі можуть приймати різні форми, включаючи динамічні системи, статистичні проекції, диференціальні рівняння або теоретико-ігрові параметри. Ці та інші типи можуть перетинатися, причому дана модель включає в себе безліч абстрактних структур. В цілому математичні проекції можуть включати в себе і логічні компоненти. У багатьох випадках якість наукової галузі залежить від того, наскільки добре математичні моделі, розроблені з теоретичної боку, узгоджуються з результатами повторюваних експериментів. Відсутність згоди між теоретичними процесами та експериментальними вимірами часто призводить до важливим досягненням у міру розробки більш досконалих теорій.

У фізичних науках традиційна математична модель містить велику кількість таких елементів:

  • Керуючі рівняння.
  • Додаткові подмодели.
  • Визначення рівнянь.
  • Установчі рівняння.
  • Допущення і обмеження.
  • Початкові та граничні умови.
  • Класичні обмеження та кінематичні рівняння.

Формула

Статистична модель, як правило, задається математичними рівняннями, які об’єднують одну або кілька випадкових величин і, можливо, інших закономірно, що випливають, змінних. Подібним чином проекція вважається «формальним поняттям концепції».

Всі статистичні перевірки гіпотез і статистичні оцінки зароблені математичних моделей.

Введення

Неформально статистична модель може розглядатися як допущення (або набір припущень) з певною властивістю: вона дозволяє обчислювати ймовірність будь-якої події. В якості прикладу можна розглянути пару звичайних шестигранних кубиків. Необхідно вивчити два різних статистичних припущення про кістки.

Перше припущення полягає в наступному:

Для кожного з кубиків ймовірність випадання одного із числа (1, 2, 3, 4, 5, і 6) складає: 1/6.

З цього припущення можна обчислити ймовірність обох кубиків: 1:1/6×1/6=1/36.

У більш загальному сенсі можна розрахувати ймовірність будь-якої події. Однак варто розуміти, що неможливо розрахувати ймовірність будь-якого іншого нетривіального події.

Лише перша думка збирає статистичну математичну модель: внаслідок того, що лише з одним допущенням можна визначити ймовірність кожної дії.

У наведеному вище зразку з початковим дозволением визначити можливість події легко. З деякими іншими прикладами розрахунок може бути важким або навіть неможливим (наприклад, це може вимагати багато років обчислень). Для людини, що становить модель статистичного аналізу, подібна складність вважається неприйнятною: здійснення розрахунків не повинно бути фактично нездійсненним і теоретично неможливим.

Формальне визначення

У математичних термінах статистична модель системи зазвичай розглядається як пара (S, P), де S це набір можливих спостережень, тобто простір вибірки, і P це набір розподілів ймовірностей на S.

Інтуїція цього визначення полягає в наступному. Передбачається, що існує «істинне» розподіл ймовірностей, викликане процесом, який генерує певні дані.

Набір

Саме він визначає параметри моделі. Параметризація, як правило, вимагає, щоб різні значення приводили до відмінним розподілів, тобто

повинен триматися (іншими словами, він повинен бути инъективным). Параметризація, яка відповідає вимозі, називається ідентифікованої.

Приклад

Припустимо, що є якась кількість школярів, які мають різний вік. Зріст дитини буде стохастически пов’язаний з роком народження: наприклад, коли школяреві 7 років, це впливає на ймовірність зростання, тільки так, що людина буде вище 3 сантиметрів.

Можна формалізувати цей підхід модель прямолінійної регресії, наприклад, таким чином: висота i = b 0 + b 1agei + εi, де b 0 – перетин, b 1 – параметр, на який множиться вік при отриманні моніторингу височини. Це термін похибки. Тобто це передбачає, що зростання прогнозується віком з певною помилкою.

Допустима форма зобов’язана відповідати всім точкам інформації. Таким чином, прямолінійний напрямок (рівень i = b 0 + b 1agei) не здатне бути рівнянням для моделі даних — якщо вона чітко не відповідає абсолютно всім пунктам. Тобто всі без винятку відомості бездоганно лежать на лінії. Учасник погрешностиеі зобов’язаний бути введений в рівність, щоб форма відповідала абсолютно всім пунктам інформації.

Щоб зробити статистичний висновок, спочатку потрібно прийняти деякі імовірнісні розподілу для ε i. Наприклад, можна припустити, що розподілу ε i мають гауссову форму з нульовим середнім. В цьому випадку модель буде мати 3 параметри: b 0, b 1 і дисперсію розподілу Гауса.

Можна формально вказати модель у вигляді (S, Р).

У цьому прикладі модель визначається зазначенням S і тому можна зробити деякі припущення, що мають відношення до P. Є два варіанти:

Це зростання може бути аппроксимирован лінійною функцією віку;

Що помилки в наближенні розподіляються як всередині гаусового.

Загальні зауваження

Статистичні параметри моделей — це особливий клас математичної проекції. Що відрізняє один вид від іншого? Так це те, що статистична модель недетерминирована. Таким чином, в ній, на відміну від математичних рівнянь, визначені змінні не мають певних значень, а замість цього мають розподілом можливостей. Тобто окремий змінні вважаються стохастичними. В наведеному раніше прикладі ε є стохастичної змінної. Без неї проекція була б детермінованою.

Побудови статистичної моделі часто використовуються, навіть якщо матеріальний процес вважається детермінованим. Наприклад, підкидання монет в принципі є визначальним дією. Однак все ж це в більшості випадків моделюється як стохастичний (через процес Бернуллі).

Згідно Konishi і Kitagawa, існує три цілі для статистичної моделі:

  • Передбачення.
  • Добування інформації.
  • Опис стохастичних структур.

Розмір проекції

Припустимо, що є модель статистичного прогнозування,

Модель називається параметричною, якщо має кінцевий вимір. У рішенні необхідно написати, що

де k – це позитивне ціле число (R позначає будь-які дійсні числа). Тут k називається розмірністю моделі.

В якості прикладу можна припустити, що всі дані виникають з одновимірного гауссівського розподілу:

У цьому прикладі розмірність k дорівнює 2.

А в якості іншого прикладу, можна припустити, що дані складаються з точок (x, y), які, як передбачається, розподілені по прямій лінії з залишками Гауса (з нульовим середнім). Тоді розмірність статистичної економічної моделі дорівнює 3: перетин лінії, її нахил і дисперсія розподілу залишків. Необхідно звернути увагу, що в геометрії пряма лінія має розмірність 1.

Хоча вищеописане значення формально є єдиним параметром, який має розмірність k, інколи він розглядається як містить k окремих значень. Наприклад, з одновимірним розподілом Гауса, Про це єдиний параметр з розміром 2, але іноді розглядається як містить два окремих параметра — середнє значення і стандартне відхилення.

Статистична модель процесу є непараметричної, якщо набір значень Про бесконечномерен. А також вона є полупараметрической, якщо має як скінченновимірні, так і бесконечномерные параметри. Формально, якщо k є розмірністю та n – число вибірок, напівпараметричні і непараметричні моделі мають

тоді модель є полупараметрической. В іншому випадку проекція є непараметричної.

Параметричні моделі є найбільш часто використовуваними статистичними даними. Що стосується полупараметрических і непараметричних проекцій, сер Девід Кокс заявив:

«Як правило, вони мають на увазі найменше число гіпотез про текстурою і формою розподілу, однак вони включають потужні теорії про самостійність».

Вкладені моделі

Не варто їх плутати з багаторівневими проекціями.

Дві статистичні моделі є вкладеними, якщо першу можна перетворити у другу шляхом накладання обмежень на параметри першої. Наприклад, множина всіх гаусівських розподілів має вкладений у нього набір розподілу з нульовим середнім:

Тобто потрібно обмежити середнє в безлічі всіх гаусівських розподілів, щоб отримати розподілу з нульовим середнім. В якості другого прикладу, квадратична модель y = b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ2) має вкладену в неї лінійну модель y = b0 + b1x + ε, ε ~ N (0, σ2) — тобто параметр b2 дорівнює 0.

В обох цих прикладах перша модель має більш високу розмірність, ніж друга модель. Таке часто, але не завжди буває. В якості іншого прикладу можна привести безліч гаусових розподілів з позитивним середнім, яке має розмірність 2.

Порівняння моделей

Передбачається, що існує «істинне» розподіл ймовірності, що лежить в основі спостережуваних даних, індукованих процесом, який згенерував їх.

А також моделі можна порівнювати один з одним, з допомогою розвідувального аналізу чи підтверджує. У дослідному розборі формулюються різні моделі, і проводиться оцінка того, наскільки добре кожен з них описує дані. У підтримуючому аналізі раніше сформульована гіпотеза порівнюється з вихідною. Загальні критерії для цього включають Р2, Байєсовський фактор і відносну ймовірність.

Думка Кониши і Китагавы

«Більшість проблем статистичної математичної моделі можна розглядати як питання, пов’язані з прогнозуванням. Вони зазвичай формулюються як порівняння кількох факторів».

Крім того, сер Девід Кокс сказав: «Як переклад з теми, проблема у статистичній моделі найчастіше є найбільш важливою частиною аналізу».