На головну    

 Регресійний аналіз. Парна регресія - Економіко-математичне моделювання

РЕФЕРАТ

Регресійний аналіз. Парна регресія.

I. Побудова регресійних моделей

1. Сенс регресійного аналізу - побудова функціональних залежностей між двома групами змінних величин Х1, Х2, ... Хри Y. При цьому мова йде про вплив змінних Х (це будуть аргументи функцій) на значення змінної Y (значення функції). Змінні Х ми будемо називати факторами, а Y - відгуком.

Сьогодні ми розберемо найбільш простий випадок - встановлення залежності одного відгуку y від одного фактора х. Такий випадок називається парною (простий) регресією.

2. Побудова моделі

Етап 1. Вихідні дані: заздалегідь відомі (експериментальні, спостережені) значення фактора ХІ екзогенна змінна і відповідні їм значення відгуку yi, (i = 1, ..., n) - ендогенна змінна;

Активний і пасивний експеримент.

Вибіркові характеристики - дозволяють коротко охарактеризувати вибірку, т. Е., Отримати її модель, хоча і дуже грубу:

а) середнє арифметичне:

Середнє арифметичне - це «центр», навколо якого коливаються значення випадкової величини.

Приклад: середня тривалість життя в Росії і США

б) дисперсія:

Відхилення від середнього: - характеризує лише «розкид» конкретної, окремо взятої величини хi. Якщо ми захочемо отримати більш повну інформацію, нам доведеться виписати такі відхилення для всіх х, т. Е., Отримати такий же ряд чисел, як і вихідна вибірка.

Можна спробувати усереднити всі відхилення, але «середнє арифметичне відхилень від середнього арифметичного» має особливість:

Ця величина обнуляється через те, що негативні значення відхилень і позитивні взаємно погашаються.

Щоб уникнути цього, зведемо їх в квадрат, отримавши так звану вибіркову дисперсію:

Вибіркова дисперсія характеризує розкид (варіацію) елементів вибірки навколо їх середнього арифметичного. Важливо мати на увазі, що самі елементи вибірки та їх дисперсія мають різні порядок: якщо елементи вибірки вимірюються в метрах, то дисперсія - в квадратних метрах.

Стандартне відхилення:

Корисна властивість дисперсії:

Т. о.

Характеристики генеральної сукупності:

математичне сподівання М (Х)

дисперсія D (X)

Несмещенная оцінка дисперсії:

Для простоти, ми будемо використовувати зміщену оцінку - вибіркову дисперсію - при досить великих n вони практично рівні.

Етап 2. Постановка завдання: припустимо, що значення кожного відгуку yiкак би складається з двох частин:

- По-перше, закономірний результат того, що фактор х прийняв конкретне значення хi;

- По-друге, деяка випадкова компонента ei, яка ніяк не залежить від значення хi.

Таким чином, для будь-якого i = 1, ..., n

yi = f (xi) + ei

Сенс випадкової величини (помилки) e:

а) внутрішньо притаманна відгуку у мінливість;

б) вплив інших, що не враховуються в моделі факторів;

в) помилка у вимірах

Етап 3. Припущення про характер регресійної функції

Можливий вид функції f (xi)

- Лінійна:

- Поліноміальна

- Статечна:

- Експоненціальна:

- Логістична:

Методи підбору виду функції:

- Графічний

- Аналітичний

Етап 4. Оцінка параметрів лінійної регресійної моделі

1. Маючи два набори значень: x1, x2, ..., xnі y1, y2, ..., yn, припускаємо, що між ними існує взаємозв'язок виду:

yi = a + bxi + ei

т. н. функція регресії

Справжні значення параметрів функції регресії ми не знаємо, і дізнатися не можемо.

Завдання: побудувати лінійну функцію:

yi = a + bxi

так, щоб обчислені значення yi (xi) були максимально близькі до експериментальних уi (інакше кажучи, щоб залишки (yi- yi) були мінімальні).

Економічна інтерпретація коефіцієнтів:

a - «постійна складова» відгуку, незалежна від фактора

b - ступінь впливу фактора на відгук (випадки негативного)

2. Метод найменших квадратів (МНК):

підставимо в задачу формулу (2.2):

В даному випадку у нас a і b - змінні, а х і у - параметри. Для знаходження екстремуму функції, візьмемо приватні похідні по a і b і прирівняємо їх до нуля.

Отримали систему з двох лінійних рівнянь. Розділимо обидва на 2n:

З першого рівняння висловимо невідому а:

і підставимо цей вираз у друге рівняння:

Побудувавши оцінки a і b коефіцієнтів a і b, ми можемо розрахувати т. Н. «Передбачені», або «змодельовані» значення yi = a + bxiі їх імовірнісні характеристики - середнє арифметичне і дисперсію.

Нескладно помітити, що виявилося. Так має бути завжди:

Крім того, обчислимо т. Н. випадкові залишки розрахуємо їх імовірнісні характеристики.

Виявилося ,. Це також закономірно:

Таким чином, дисперсія випадкових залишків буде дорівнює:

Ми виробили обчислення, і побудували регресійне рівняння, що дозволяє нам побудувати якусь оцінку змінної у (цю оцінку ми позначили y). Однак, якби ми взяли інші дані, по іншим областям (або за інший період часу), то вихідні, експериментальні значення х і у у нас були б іншими і, відповідно, а й b, швидше за все, вийшли б іншими.

Питання: наскільки хороші оцінки, отримані МНК, інакше кажучи, наскільки вони близькі до «істинним» значенням a і b?

Етап 5. Дослідження регресійній моделі

1. Тіснота зв'язку між фактором і відгуком

Мірою тісноти зв'язку служить лінійний коефіцієнт кореляції:

(2.13)

-1 ? rxy ? 1 (2.14)

Негативне значення КК означає, що збільшення фактора призводить до зменшення відгуку і навпаки:

2. Частка варіації відгуку у, пояснена отриманим рівнянням регресії характеризується коефіцієнтом детермінації R2. Шляхом математичних перетворень можна виразити:

де - оцінка дисперсії випадкових залишків у моделі,

Таким чином, R2- це частка дисперсії у, поясненої за допомогою регресійного рівняння в дисперсії фактично наблюденного у.

Очевидно:

0 ? R2 ? 1

3. Перевірка статистичної значущості рівняння регресії

Ми отримали МНК-оцінки коефіцієнтів рівняння регресії і розрахували коефіцієнт детермінації. Однак, залишилося неясним, чи достатньо він великий, щоб говорити про існування значущого зв'язку між величинами х і у. Інакше кажучи, чи достатньо сильна цей зв'язок, щоб на підставі побудованої нами моделі можна було б робити висновки?

Для відповіді на це питання можна провести т. Н. F-тест.

Формулюється гіпотеза Н0: припустимо, що yi? a + bxi + ei

Звернути увагу: вимальовуються не а, а a, т. Е., Не оцінки коефіцієнтів регресії, а їх істинні значення.

Альтернатива - гіпотеза Н1: yi = a + bxi + ei

Ми не можемо однозначно підтвердити або спростувати гіпотезу Н0, ми можемо лише прийняти або відкинути її з певною ймовірністю.

Виберемо деякий рівень значимості g, такий що 0 ? g ? 1 - ймовірність того, що ми зробимо неправильний висновок, прийнявши або відхиливши гіпотезу Н0.

Відповідно, величина Р = 1 - g - довірча ймовірність - ймовірність того, що ми в підсумку зробимо правильний висновок.

Для перевірки істинності гіпотези Н0, із заданим рівнем значущості g, розраховується F-статистика:

Значення F-статистики у випадку парної регресії підпорядковується т. Н.

F-розподілу Фішера з 1 ступенем свободи чисельника і (n - 2) ступенями свободи знаменника.

Для перевірки Н0велічіна F-статистики порівнюється з табличним значенням Fg (1, n-2).

Якщо F> Fg (1, n-2) - гіпотеза Н0отвергается, т. Е. Ми вважаємо, що з імовірністю 1-g можна стверджувати, що регресія має місце і:

yi = a + bxi + ei

В іншому випадку гіпотеза Н0не відкидається, приймаємо:

yi? a + bxi + ei

Питання: чому б нам не взяти g поменше? Чим менше g, тим більше відповідне табличне значення F-статистики, т. Е., Тим менше шансів, що з'являться підстави відкинути гіпотезу Н0.Ошібкі першого і другого роду

Помилка першого роду: відкидається Н0, яка насправді вірна.

Помилка другого роду: приймається H0, яка насправді не вірна.

Очевидно, чим менше g, тим менше наші шанси відкинути гіпотезу Н0, т. Е., Зробити помилку першого роду. Відповідно, шанси зробити помилку другого роду збільшуються.

4. Характеристика оцінок коефіцієнтів рівняння регресії

1) математичне очікування

Теорема: М (а) = a, M (b) = b - незміщене оцінок

Це означає, що при збільшенні кількості спостережень значення МНК-оцінок a і b будуть наближатися до істинним значенням a і b;

2) дисперсія

Теорема:

;

Завдяки цій теоремі, ми можемо отримати уявлення про те, як далеко, в середньому, наші оцінки a і b знаходяться від істинних значень a і b.

Необхідно мати на увазі, що дисперсії характеризують не відхилення, а «відхилення в квадраті». Щоб перейти до порівнянним значенням, розрахуємо стандартні відхилення a і b:

;

Будемо називати ці величини стандартними помилками a і b відповідно.

5. Побудова довірчих інтервалів

Нехай ми маємо оцінку а. Реальне значення коефіцієнта рівняння регресії a лежить десь поруч, але де точно, ми дізнатися не можемо. Однак, ми можемо побудувати інтервал, в який це реальне значення потрапить з деякою ймовірністю. Доведено, що:

з імовірністю Р = 1 - g

де tg / 2 (n-1) - g / 2-процентна точка розподілу Стьюдента з (n-1) ступенями свободи - визначається зі спеціальних таблиць.

При цьому рівень значімостіg встановлюється довільно.

Нерівність можна перетворити таким чином:

,

або, що те ж саме:

Аналогічно, з імовірністю Р = 1 - g:

звідки випливає:

,

або:

Рівень значимості g - це ймовірність того, що насправді істинні значення a і b лежать за межами побудованих довірчих інтервалів. Чим менше його значення, тим більше величина tg / 2 (n-1), відповідно, тим ширше буде довірчий інтервал.

6. Перевірка статистичної значущості коефіцієнтів регресії

Ми отримали МНК-оцінки коефіцієнтів, розрахували для них довірчі інтервали. Однак ми не можемо судити, чи не занадто широкі ці інтервали, чи можна взагалі говорити про значущість коефіцієнтів регресії.

Гіпотеза Н0: припустимо, що a = 0, т. Е. Насправді незалежною постійної складової у відгуку немає (альтернатива - гіпотеза Н1: a ? 0).

Для перевірки цієї гіпотези, із заданим рівнем значущості g, розраховується t-статистика, для парної регресії:

Значення t-статистики порівнюється з табличним значенням tg / 2 (n-1) - g / 2-процентної точка розподілу Стьюдента з (n-1) ступенями свободи.

Якщо | t | В іншому випадку гіпотеза Н0отвергается, приймається гіпотеза Н1.

Аналогічно для коефіцієнта b формулюємо гіпотезу Н0: b = 0, т. Е. Змінна, обрана нами як фактор, насправді ніякого впливу на відгук не виявляється.

Для перевірки цієї гіпотези, із заданим рівнем значущості g, розраховується t-статистика:

і порівнюється з табличним значенням tg / 2 (n-1).

Якщо | t | В іншому випадку гіпотеза Н0отвергается, приймається гіпотеза Н1.

7. Автокорреляция залишків.

1. Приклади автокорреляции.

Можливі причини:

1) невірно обрана функція регресії;

2) є неврахована пояснює змінна (змінні)

2. Статистика Дарбіна-Уотсона

Очевидно:

0 ? DW ? 4

Якщо DW близько до нуля, це дозволяє припускати наявність позитивної автокореляції, якщо близько до 4 - негативною.

Розподіл DW залежить від спостережених значень, тому отримати однозначну критерій, при виконанні якого DW вважається «хорошим», а при невиконанні - «поганим», не можна. Однак, для різних величин n і g знайдені верхні і нижні межі, DWLі DWU, які в ряді випадків дозволяють з упевненістю судити про наявність (відсутність) автокорреляции в моделі. Правило:

1) При DW <2:

а) якщо DW б) якщо DW> DWU- робимо висновок про відсутність автокореляції (з ймовірністю 1-g);

в) якщо DWL ? DW ? DWU- не можна зробити ніякого висновку;

2) При DW> 2:

а) якщо (4 - DW) б) якщо (4 - DW)> DWU- робимо висновок про відсутність автокореляції (з ймовірністю 1-g);

в) якщо DWL ? (4 - DW) ? DWU- не можна зробити ніякого висновку;

8. гетероскедастичності залишків.

Можливі причини:

- Помилки у вихідних даних;

- Наявність закономірностей;

Виявлення - можливі різні тести. Найбільш простий:

(Спрощена тест Голдфелда - Куандт)

1) упорядковуємо вибірку по зростанню однією з пояснюють змінних;

2) формулюємо гіпотезу Н0: залишки Гомоскедастичність

3) ділимо вибірку приблизно на три частини, виділяючи k залишків, відповідних «маленьким» х і k залишків, відповідних «великим» х (k »n / 3);

4) будуємо моделі парної лінійної регресії окремо для «меншою» і «більшої» частин

5) оцінюємо дисперсії залишків в «меншою» (s21) і «більшої» (s21) частинах;

6) розраховуємо дисперсійне співвідношення:

7) визначаємо табличне значення F-статистики Фішера з (km-1) ступенями свободи чисельника і (k - m - 1) ступенями свободи знаменника при заданому рівні значимості g

8) якщо дисперсійне співвідношення не перевищує табличне значення F-статистики (т. Е., Воно підпорядковується F-розподілу Фішера з (km-1) ступенями свободи чисельника і (k - m - 1) ступенями свободи знаменника), то гіпотеза Н0не відкидається - робимо висновок про Гомоскедастичність залишків. Інакше - припускаємо їх гетероскедатічность.

Метод усунення: зважений МНК.

Ідея: якщо значення х надають якийсь вплив на величину залишків, то можна ввести в модель якісь «вагові коефіцієнти», щоб звести цей вплив до нуля.

Наприклад, якщо припустити, що величина залишку eiпропорціональна значенням xi (т. Е., Дисперсія залишків пропорційна xi2), то можна перебудувати модель таким чином:

т. е. перейдемо до моделі спостережень

де

Таким чином, завдання оцінки параметрів рівняння регресії методом найменших квадратів зводиться до мінімізації функції:

або

де- ваговий коефіцієнт.

© 8ref.com - українські реферати