Допущення, втілені в статистичному моделюванні, описують набір імовірнісних розподілів, деякі з яких, як передбачається, адекватно наближають розподіл. З визначення відбирається конкретний набір даних. Розподілу ймовірностей, притаманні статистичному моделюванню, – це те, що відрізняє статистичні моделі від інших, не статистичних, математичних моделей.
Зв’язок з математикою
Цей науковий метод корениться, насамперед, математики. Статистичне моделювання систем зазвичай задається математичними рівняннями, які пов’язують одну або кілька випадкових величин і, можливо, інших невипадкових змінних. Таким чином, статистична модель є «формальним поданням теорії» (Герман Адер, цитуючи Кеннета Боллена).
Всі статистичні перевірки гіпотез і всі статистичні оцінки отримані зі статистичних моделей. В більш загальному сенсі, статистичні моделі є частиною основи статистичного висновку.
Методи статистичного моделювання
Неформально статистична модель може розглядатися як статистичне допущення (або набір статистичних припущень) з певною властивістю: це допущення дозволяє нам обчислювати ймовірність будь-якої події. В якості прикладу розглянемо пару звичайних шестигранних кубиків. Ми будемо вивчати два різних статистичних припущення про кістки.
Перше статистичне припущення складає статистичну модель, тому що тільки з одним допущенням ми можемо обчислити ймовірність будь-якої події. Альтернативне статистичне допущення не становить статистичної моделі, тому що тільки з одним допущенням ми не можемо розрахувати ймовірність кожної події.
У наведеному вище прикладі з першим допущенням обчислити ймовірність події легко. Однак у деяких інших прикладах розрахунок може бути складним або навіть непрактичним (наприклад, це може зажадати мільйонів років обчислень). Для припущення, що становить статистичну модель, така трудність є прийнятною: виконання обчислення не повинно бути практично здійсненним, просто теоретично можливим.
Приклади моделей
Припустимо, що у нас є популяція школярів з рівномірно розподіленими за віком дітьми. Зріст дитини буде стохастически пов’язаний з віком: наприклад, коли ми знаємо, що дитині 7 років, це впливає на ймовірність того, що дитина буде зростом 5 футів (приблизно 152 см). Ми могли б формалізувати цю взаємозв’язок у моделі лінійної регресії, наприклад: зростання = b0 + b1agei + εi, де b0 – перетин, b1 – параметр, на який множиться вік при отриманні прогнозу зростання, εi – термін помилки. Це означає, що зростання прогнозується віком з деякою помилкою.
Допустима модель повинна відповідати всім точкам даних. Таким чином, пряма лінія (heighti = b0 + b1agei) не може бути рівнянням для моделі даних – якщо тільки вона точно не відповідає всім точкам даних, тобто всі точки даних ідеально лежать на лінії. Член помилки εi повинен бути включений в рівняння, щоб модель відповідала всім точкам даних.
Щоб зробити статистичний висновок, нам спочатку необхідно прийняти деякі імовірнісні розподілу для εi. Наприклад, ми можемо припустити, що розподілу εi є Гауссовскими, з нульовим середнім параметром. В цьому випадку модель буде мати 3 параметри: b0, b1 і дисперсію розподілу Гауса.
Загальний опис
Статистична модель – це особливий клас математичної моделі. Що відрізняє статистичну модель від інших математичних моделей, так це те, що вона недетерминирована. З її допомогою здійснюється моделювання статистичних даних. Таким чином, в статистичній моделі, визначеної з допомогою математичних рівнянь, деякі змінні не мають конкретних значень, а замість цього мають розподілу ймовірностей; тобто деякі змінні є стохастичними. У наведеному вище прикладі ε є стохастичної змінної; без цієї змінної модель була б детермінованою.
Статистичні моделі часто використовуються в статистичному аналізі і моделюванні, навіть якщо модельований фізичний процес є детермінованим. Наприклад, підкидання монет в принципі є детермінованим процесом; все ж це зазвичай моделюється як стохастичний (через процес Бернуллі).
Параметричні моделі
Параметричні моделі є найбільш часто використовуваними статистичними моделями. Що стосується полупараметрических і непараметричних моделей, сер Девід Кокс сказав: «Як правило, вони містять менше припущень про структуру і форми розподілу, але зазвичай містять сильні припущення про незалежність». Як і всі інші згадані моделі, також часто використовуються в статистичному методі математичного моделювання.
Багаторівневі моделі
Багаторівневі моделі (так само відомі, як ієрархічні лінійні моделі, моделі з вкладеними даними, змішані моделі, випадкові коефіцієнти, моделі з випадковими ефектами, моделі з випадковими параметрами або моделі з поділом на ділянки) є статистичними моделями параметрів, які варіюються на більш ніж одному рівні. Прикладом може служити модель успішності учнів, яка містить показники для окремих учнів, а також показники для класних кімнат, в які згруповані студенти. Ці моделі можна розглядати як узагальнення лінійних моделей (зокрема, лінійної регресії), хоча вони також можуть поширюватися на нелінійні моделі. Ці моделі стали набагато популярнішими після того, як стали доступні достатні обчислювальні потужності і програмне забезпечення.
Багаторівневі моделі особливо підходять для дослідницьких проектів, де дані для учасників організовані на більш ніж одному рівні (тобто, вкладені дані). Одиницями аналізу звичайно є окремі особи (на більш низькому рівні), які вкладені в контекстні / сукупні одиниці (на більш високому рівні). У той час як найнижчий рівень даних в багаторівневих моделях, як правило, індивідуальний, повторні вимірювання окремих осіб також можуть бути розглянуті. Таким чином, багаторівневі моделі надають альтернативний тип аналізу для одновимірного чи багатовимірного аналізу повторних вимірювань. Індивідуальні відмінності в кривих зростання можуть бути розглянуті. Крім того, багаторівневі моделі можуть використовуватися в якості альтернативи ANCOVA, де бали за залежної змінної коригуються для ковариат (наприклад, індивідуальних відмінностей) перед тестуванням відмінностей у лікуванні. Багаторівневі моделі здатні аналізувати ці експерименти без припущення про однорідність нахилів регресії, що потрібно ANCOVA.
Багаторівневі моделі можна використовувати для даних з багатьма рівнями, хоча дворівневі моделі є найбільш поширеними, і решта цієї статті присвячена тільки цим. Залежна змінна повинна бути досліджена на найнижчому рівні аналізу.
Вибір моделі
Вибір моделі – це завдання вибору з набору моделей-кандидатів з урахуванням даних, яка здійснюється в рамках статистичного моделювання. У найпростіших випадках розглядається вже існуючий набір даних. Тим не менш завдання може також включати планування експериментів таким чином, щоб зібрані дані добре підходили для задачі вибору моделі. Враховуючи моделі-кандидати з аналогічною предсказательная або пояснювальній силою, найпростіша модель, швидше за все, буде кращим вибором (бритва Оккама).
Представники компанії Konishi & Kitagawa заявляють: «Більшість проблем статистичного висновку можна вважати проблемами, пов’язаними зі статистичним моделюванням». Аналогічним чином, Кокс сказав: «Як здійснюється переклад предметної проблеми в статистичну модель, часто є найбільш важливою частиною аналізу».
Вибір моделі може також ставитися до проблеми вибору кількох репрезентативних моделей з великого набору обчислювальних моделей для цілей прийняття рішень або оптимізації в умовах невизначеності.
Графічні моделі
Графічна модель, або імовірнісна графічна модель, (PGM) або структурована імовірнісна модель, – це імовірнісна модель, для якої графік виражає структуру умовної залежності між випадковими величинами. Вони зазвичай використовуються в теорії ймовірностей, статистики (особливо в байєсівської статистикою), і в машинному навчанні.
Економетричні моделі
Економетричні моделі – це статистичні моделі, що використовуються в економетриці. Економетрична модель визначає статистичні відносини, які, як вважають, існують між різними економічними величинами, що відносяться до конкретного економічного явища. Економетрична модель може бути отримана з детермінованою економічної моделі, що враховує невизначеність, або з економічної моделі, яка сама є стохастичною. Тим не менше також можна використовувати економетричні моделі, які не прив’язані до якої-небудь конкретної економічної теорії.