Статистична модель: сутність методу, побудова та аналіз

Формальне визначення

У математичних термінах статистична модель системи зазвичай розглядається як пара (S, P), де S це набір можливих спостережень, тобто простір вибірки, і P це набір розподілів ймовірностей на S.

Інтуїція цього визначення полягає в наступному. Передбачається, що існує «істинне» розподіл ймовірностей, викликане процесом, який генерує певні дані.

Набір

Саме він визначає параметри моделі. Параметризація, як правило, вимагає, щоб різні значення приводили до відмінним розподілів, тобто

повинен триматися (іншими словами, він повинен бути инъективным). Параметризація, яка відповідає вимозі, називається ідентифікованої.

Приклад

Припустимо, що є якась кількість школярів, які мають різний вік. Зріст дитини буде стохастически пов’язаний з роком народження: наприклад, коли школяреві 7 років, це впливає на ймовірність зростання, тільки так, що людина буде вище 3 сантиметрів.

Можна формалізувати цей підхід модель прямолінійної регресії, наприклад, таким чином: висота i = b 0 + b 1agei + εi, де b 0 – перетин, b 1 – параметр, на який множиться вік при отриманні моніторингу височини. Це термін похибки. Тобто це передбачає, що зростання прогнозується віком з певною помилкою.

Допустима форма зобов’язана відповідати всім точкам інформації. Таким чином, прямолінійний напрямок (рівень i = b 0 + b 1agei) не здатне бути рівнянням для моделі даних — якщо вона чітко не відповідає абсолютно всім пунктам. Тобто всі без винятку відомості бездоганно лежать на лінії. Учасник погрешностиеі зобов’язаний бути введений в рівність, щоб форма відповідала абсолютно всім пунктам інформації.

Щоб зробити статистичний висновок, спочатку потрібно прийняти деякі імовірнісні розподілу для ε i. Наприклад, можна припустити, що розподілу ε i мають гауссову форму з нульовим середнім. В цьому випадку модель буде мати 3 параметри: b 0, b 1 і дисперсію розподілу Гауса.

Можна формально вказати модель у вигляді (S, Р).

У цьому прикладі модель визначається зазначенням S і тому можна зробити деякі припущення, що мають відношення до P. Є два варіанти:

Це зростання може бути аппроксимирован лінійною функцією віку;

Що помилки в наближенні розподіляються як всередині гаусового.