Побудувати матрицю парних коефіцієнтів кореляції. Перевірити наявність мультиколінеарності

Економічні дані є кількісними характеристиками будь-яких економічних об'єктів чи процесів. Вони формуються під впливом безлічі чинників, в повному обсязі у тому числі доступні зовнішньому контролю. Неконтрольовані фактори можуть приймати випадкові значення з деякої кількості значень і тим самим обумовлювати випадковість даних, які вони визначають. Одним із основних завдань в економічних дослідженнях є аналіз залежностей між змінними.

Розглядаючи залежності між ознаками, необхідно виділити перш за все два типи зв'язків:

  • функціональні -характеризуються повною відповідністю між зміною факторної ознаки та зміною результативної величини: кожному значенню ознаки-фактора відповідають цілком певні значення результативної ознаки.Цей тип зв'язку виявляється у вигляді формульної залежності. Функціональна залежність може пов'язувати результативну ознаку з однією або декількома факторними ознаками. Так, величина заробітної плати за погодинної оплати праці залежить від кількості відпрацьованих годин;
  • кореляційні- між зміною двох ознак немає повної відповідності, вплив окремих чинників проявляється лише загалом, при масовому спостереженні фактичних даних. Одночасний вплив на ознаку великої кількості різноманітних факторів, що вивчається, призводить до того, що тому самому значенню ознаки-фактора відповідає цілий розподіл значень результативної ознаки,оскільки в кожному конкретному випадку інші факторні ознаки можуть змінювати силу та спрямованість свого впливу.

Слід мати на увазі, що за наявності функціональної залежності між ознаками можна, знаючи величину факторної ознаки, точно визначити величину результативної ознаки.За наявності кореляційної залежності встановлюється лише тенденція зміни результативної ознакиза зміни величини факторного ознаки.

Вивчаючи взаємозв'язки між ознаками, їх класифікують за напрямом, формою, кількістю факторів:

  • у напрямкузв'язки поділяються на пряміі зворотні.При прямому зв'язку напрямок зміни результативної ознаки збігається з напрямом зміни ознаки-фактора. При зворотному зв'язку напрям зміни результативного ознаки протилежно напрямку зміни ознаки-фактора. Наприклад, що стоїть кваліфікація робітника, то вище рівень продуктивності його праці (прямий зв'язок). Чим вища продуктивність праці, тим нижча собівартість одиниці виробленої продукції (зворотний зв'язок);
  • за формою(виду функції) зв'язку ділять на лінійні(прямолінійні) та нелінійні(Криволінійні). Лінійний зв'язок відображається прямою лінією, нелінійний - кривий (парабол, гіперболою і т.п.). При лінійному зв'язку зі зростанням значення факторної ознаки відбувається рівномірне зростання (зменшення) значення результативної ознаки;
  • за кількістю факторів, що діють на результативну ознаку,зв'язки поділяють на однофакторні(парні) та багатофакторні.

Вивчення залежності варіації ознаки від навколишніх умов і становить зміст теорії кореляції.

При проведенні кореляційного аналізу вся сукупність даних розглядається як безліч змінних (чинників), кожна з яких містить пспостережень.

При вивченні взаємозв'язку між двома факторами їх зазвичай позначають Х =(х р х 2 ,...,х п)і Y= (у ( , у 2 ,...,у і).

Коваріація -це статистична міра взаємодіїдвох змінних. Наприклад, позитивне значення підступності прибутковості двох цінних паперів показує, що прибутковості цих цінних паперів мають тенденцію змінюватися в один бік.

Коваріація між двома змінними Xі Yрозраховується так:

де-Фактичні значення змінних

Xі г;

Якщо випадкові величини Хі Yнезалежні, теоретична коваріація дорівнює нулю.

Коваріація залежить від одиниць, у яких вимірюються змінні ХіВона є ненормованою величиною. Тому для виміру сили зв'язкуміж двома змінними використовується інша статистична характеристика, яка називається коефіцієнтом кореляції.

Для двох змінних Xі Y коефіцієнт парної кореляції

визначається так:

де SSy -оцінки дисперсій величин Хі Y.Ці оцінки характеризують ступінь розкидузначень х ( ,х 2 , ...,х п (у 1 ,у 2 ,у п)навколо свого середнього х (увідповідно), або варіабельність(мінливість) цих змінних на безлічі спостережень.

Дисперсія(Оцінка дисперсії) визначається за формулою

У загальному випадку для отримання незміщеної оцінки дисперсії суму квадратів слід ділити на кількість ступенів свободи оцінки (П-р),де п -обсяг вибірки, р -число накладених на вибір зв'язків. Тому що вибірка вже використовувалася один раз для визначення середнього X,то число накладених зв'язків у даному випадку дорівнює одиниці (Р = 1), а число ступенів свободи оцінки (тобто число незалежних елементів вибірки) дорівнює (п - 1).

Найбільш природно вимірювати ступінь розкиду значень змінних у тих одиницях, у яких вимірюється і сама змінна. Це завдання вирішує показник, званий середньоквадратичним відхиленням (стандартним відхиленням) або стандартною помилкоюзмінної X(змінною Y)і визначається співвідношенням

Доданки у чисельнику формули (3.2.1) виражають взаємодію двох змінних і визначають знак кореляції (позитивна чи негативна). Якщо, наприклад, між змінними існує сильна позитивна взаємозв'язок (збільшення однієї змінної зі збільшенням другий), кожне доданок буде позитивним числом. Аналогічно, якщо між змінними існує сильний негативний взаємозв'язок, всі складові в чисельнику будуть негативними числами, що дає негативне значення кореляції.

Знаменник виразу для коефіцієнта парної кореляції [див. формулу (3.2.2)] просто нормує чисельник таким чином, що коефіцієнт кореляції виявляється легко інтерпретується числом, що не має розмірності, і набуває значення від -1 до +1.

Чисельник виразу для коефіцієнта кореляції, який важко інтерпретувати через незвичайні одиниці виміру, є підступність ХіУ.Незважаючи на те, що іноді вона використовується як самостійна характеристика (наприклад, теоретично фінансів для опису спільної зміни курсів акцій на двох біржах), зручніше користуватися коефіцієнтом кореляції. Кореляція і коваріація представляють, по суті, ту саму інформацію, проте кореляція представляє цю інформацію в більш зручній формі.

Для якісної оцінки коефіцієнта кореляції застосовуються різні шкали, найчастіше – шкала Чеддока. Залежно від значення коефіцієнта кореляції зв'язок може мати одну з оцінок:

  • 0,1-0,3 – слабка;
  • 0,3-0,5 – помітна;
  • 0,5-0,7 – помірна;
  • 0,7-0,9 – висока;
  • 0,9-1,0 – дуже висока.

Оцінка ступеня тісноти зв'язку за допомогою коефіцієнта кореляції проводиться, як правило, на основі більш менш обмеженої інформації про явище, що вивчається. У зв'язку з цим виникає необхідність оцінки суттєвості лінійного коефіцієнта кореляції, що дозволяє поширити висновки за результатами вибірки на генеральну сукупність.

Оцінка значення коефіцієнта кореляції при малих обсягах вибірки виконується з використанням 7-критерію Стьюдента. При цьому фактичне (спостерігається) значення цього критерію визначається за формулою

Обчислене за цією формулою значення / набл порівнюється з критичним значенням 7-критерію, яке береться з таблиці значень /-критерію Стьюдента (див. Додаток 2) з урахуванням заданого рівня значимості ос та числа ступенів свободи (п - 2).

Якщо 7 набл > 7 табл, то отримане значення коефіцієнта кореляції визнається значущим (тобто. нульова гіпотеза, яка стверджує рівність нуля коефіцієнта кореляції, відкидається). І таким чином робиться висновок, що між змінними, що досліджуються, є тісний статистичний взаємозв'язок.

Якщо значення г у хблизько до нуля, зв'язок між змінними слабкий. Якщо кореляція між випадковими величинами:

  • позитивна, то при зростанні однієї випадкової величини інша має тенденцію в середньому зростати;
  • негативна, то при зростанні однієї випадкової величини інша має тенденцію в середньому зменшуватися. Зручним графічним засобом аналізу парних даних є діаграма розсіюванняяка представляє кожне спостереження у просторі двох вимірювань, що відповідають двом факторам. Діаграму розсіювання, на якій зображується сукупність значень двох ознак, називають ще кореляційне поле.Кожна точка цієї діаграми має координати х (. у гУ міру того, як зростає сила лінійного зв'язку, точки на графіку лежатимуть ближче до прямої лінії, а величина гбуде ближче до одиниці.

Коефіцієнти парної кореляції використовуються для вимірювання сили лінійних зв'язків різних пар ознак їх безлічі. Для безлічі ознак отримують матрицю коефіцієнтів парної кореляції

Нехай вся сукупність даних складається із змінної Y = =(у р у 2 , ..., у п)і тзмінних (чинників) X,кожна з яких містить пспостережень. Значення змінних Yі X,що містяться в сукупності, записуються в таблицю (табл. 3.2.1).

Таблиця 3.2.1

Змінна

Номер

спостереження

Х тЗ

Х тп

На підставі даних, що містяться в цій таблиці, обчислюють матрицю коефіцієнтів парної кореляції R,вона симетрична щодо головної діагоналі:


Аналіз матриці коефіцієнтів парної кореляції використовують при побудові моделей множинної регресії.

Однією кореляційною матрицею не можна повністю описати залежність між величинами. У зв'язку з цим у багатовимірному кореляційному аналізі розглядається два завдання:

  • 1. Визначення тісноти зв'язку однієї випадкової величини із сукупністю інших величин, які у аналіз.
  • 2. Визначення тісноти зв'язку між двома величинами при фіксуванні чи виключенні впливу інших величин.

Ці завдання вирішуються відповідно за допомогою коефіцієнтів множинної та приватної кореляції.

Розв'язання першого завдання (визначення тісноти зв'язку однієї випадкової величини із сукупністю інших величин, включених до аналізу) здійснюється за допомогою вибіркового коефіцієнта множинної кореляціїза формулою

де R - R[див. формулу (3.2.6)]; Rjj -алгебраїчне доповнення елемента тієї ж матриці R.

Квадрат коефіцієнта множинної кореляції Щj 2 j _j J+l mприйнято називати вибірковим множинним коефіцієнтом детермінації; він показує, яку частку варіації (випадкового розкиду) досліджуваної величини Xjпояснює варіація інших випадкових величин Х ( , Х 2 ,..., Х т.

Коефіцієнти множинної кореляції та детермінації є позитивними величинами, що приймають значення в інтервалі від 0 до 1. При наближенні коефіцієнта R 2 до одиниці можна дійти невтішного висновку про тісноті взаємозв'язку випадкових величин, але з її направлении. Коефіцієнт множинної кореляції може тільки збільшуватися, якщо модель включати додаткові змінні, і не збільшиться, якщо виключати які-небудь з наявних ознак.

Перевірка значущості коефіцієнта детермінації здійснюється шляхом порівняння розрахункового значення /'-критерію Фішера

з табличним F raбл. Табличне значення критерію (див. Додаток 1) визначається заданим рівнем значимості а та ступенями свободи v l = mnv 2 = n-m-l.Коефіцієнт R 2значно відрізняється від нуля, якщо виконується нерівність

Якщо розглядаються випадкові величини корелюють один з одним,то величині коефіцієнта парної кореляції частково позначається вплив інших величин. У зв'язку з цим виникає необхідність дослідження приватної кореляції між величинами за винятком впливу інших випадкових величин (одної або кількох).

Вибірковий коефіцієнт кореляціївизначається за формулою

де R Jk, Rjj, R kk -алгебраїчні доповнення до відповідних елементів матриці R[див. формулу (3.2.6)].

Приватний коефіцієнт кореляції, як і парний коефіцієнт кореляції, змінюється від -1 до +1.

Вираз (3.2.9) за умови т = 3 матиме вигляд

Коефіцієнт г 12(3) називається коефіцієнтом кореляції між х (і х 2 при фіксованому х уВін симетричний щодо первинних індексів 1, 2. Його вторинний індекс 3 відноситься до фіксованої змінної.

Приклад 3.2.1. Обчислення коефіцієнтів парної,

множинної та приватної кореляції.

У табл. 3.2.2 представлена ​​інформація про обсяги продажу та витрати на рекламу однієї фірми, а також індекс споживчих витрат за ряд поточних років.

  • 1. Побудувати діаграму розсіювання (кореляційне поле) для змінних «обсяг продажу» та «індекс споживчих витрат».
  • 2. Визначити ступінь впливу індексу споживчих витрат обсяг продажів (обчислити коефіцієнт парної кореляції).
  • 3. Оцінити важливість обчисленого коефіцієнта парної кореляції.
  • 4. Побудувати матрицю коефіцієнтів парної кореляції за трьома змінними.
  • 5. Знайти оцінку множинного коефіцієнта кореляції.
  • 6. Знайти оцінки коефіцієнтів приватної кореляції.

1. У прикладі діаграма розсіювання має вигляд, наведений на рис. 3.2.1. Витягнутість хмари точок на діаграмі розсіювання вздовж похилої прямої дозволяє зробити припущення, що існує деяка об'єктивна тенденція прямого лінійного зв'язку між значеннями змінних Х 2 Y(об'єм продажу).

Мал. 3.2.1.

2. Проміжні розрахунки при обчисленні коефіцієнта кореляції між змінними Х 2(індекс споживчих витрат) та Y(Обсяг продажів) наведені в табл. 3.2.3.

Середні значеннявипадкових величин Х 2і Y,які є найпростішими показниками, що характеризують послідовності jCj, х 2 ,..., х 16 і y v y 2 ,..., у 16, розрахуємо за такими формулами:


Обсяг продажів Y, тис. руб.

Індекс

потреби

тельських

витрат

Обсяг продажів Y, тис. руб.

Індекс

потреби

тельських

витрат

Таблиця 3.2.3

л:, - х

(І - У) (х, - х)

(х, - х) 2

(у, - - у) 2

Дисперсіяхарактеризує ступінь розкидання значень x v x 2 ,х:

Розглянемо тепер рішення прикладу 3.2.1 Excel.

Щоб обчислити кореляцію засобами Excel, можна скористатися функцією = Корел (), вказавши адреси двох стовпців чисел, як показано на рис. 3.2.2. Відповідь поміщена в D8 і дорівнює 0,816.

Мал. 3.2.2.

(Примітка. Аргументи функції корел мають бути числами чи іменами, масивами чи посиланнями, що містять числа. Якщо аргумент, який є масивом чи посиланням, містить текст, логічні значення чи порожні комірки, такі значення ігноруються; проте осередки, які містять нульові значення, враховуються.

Якщо масив! і масив2 мають різну кількість точок даних, то функція корел повертає значення помилки #н/д.

Якщо масив1 або масив2 порожній або якщо (стандартне відхилення) їх значень дорівнює нулю, то функція корел повертає значення помилки #справ/0!.)

Критичне значення /-статистики Стьюдента може бути отримано за допомогою функції Стюдраспробр 1 пакета Excel. Як аргументи функції необхідно задати число ступенів свободи, що дорівнює п- 2 (у прикладі 16 - 2= 14) і рівень значимості а (у прикладі а = 0,1) (рис. 3.2.3). Якщо фактичне значення/-статистики, взяте за модулем, більше критичного,то з ймовірністю (1 - а) коефіцієнт кореляції значно відрізняється від нуля.


Мал. 3.2.3. Критичне значення /-статистики дорівнює 1,7613

В Excel входить набір засобів аналізу даних (так званий пакет аналізу), призначений на вирішення різних статистичних завдань. Для обчислення матриці коефіцієнтів парної кореляції Rслід скористатися інструментом Кореляція (рис. 3.2.4) та встановити параметри аналізу у відповідному діалоговому вікні. Відповідь буде поміщено на новий робочий лист (рис. 3.2.5).

1 У Excel 2010 назва функції стюдраспробр змінено на стю-

ДЕНТ.ОБР.2Х.

Мал. 3.2.4.


Мал. 3.2.5.

  • Основоположниками теорії кореляції вважаються англійські статистики Ф. Гальтон (1822-1911) та К. Пірсон (1857-1936). Термін "кореляція" був запозичений з природознавства і означає "співвідношення, відповідність". Уявлення про кореляцію як взаємозалежність між випадковими змінними величинами лежить в основі математико-статистичної теорії кореляції.

Завдання 2

1. Побудувати матрицю парних коефіцієнтів кореляції. Перевірити наявність мультиколінеарності. Обґрунтувати відбір факторів у модель.

2. Побудувати рівняння множинної регресії у лінійній формі з вибраними факторами.

3. Оцінити статистичну значущість рівняння регресії та її параметрів з допомогою критеріїв Фішера і Стьюдента.

4. Побудувати рівняння регресії зі статистично значимими чинниками. Оцінити якість рівняння регресії за допомогою коефіцієнта детермінації R2. Оцінити точність збудованої моделі.

5. Оцінити прогноз обсягу випуску продукції, якщо прогнозні значення чинників становлять 75% від своїх максимальних значень.

Умови завдання (Варіант 21)

За даними, представленими в таблиці 1 (n = 17), вивчається залежність обсягу випуску продукції Y (млн. руб.) Від наступних факторів (змінних):

X 1 – чисельність промислово-виробничого персоналу, чол.

X 2 - Середньорічна вартість основних фондів, млн. руб.

X 3 – знос основних фондів, %

X 4 – електроозброєність, кВт×год.

X 5 - технічна озброєність одного робітника, млн. руб.

X 6 - Вироблення товарної продукції на одного працюючого, руб.

Таблиця 1. Дані випуску продукції

Y X 1 X 2 X 3 X 4 X 5 X 6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Побудувати матрицю парних коефіцієнтів кореляції. Перевірити наявність мультиколінеарності. Обґрунтувати відбір факторів у модель

У таблиці 2 подано матриця коефіцієнтів парної кореляції всім змінних, що у розгляді. Матриця отримана за допомогою інструменту Кореляціяз пакета Аналіз данихв Excel.

Таблиця 2. Матриця коефіцієнтів парної кореляції

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Візуальний аналіз матриці дозволяє встановити:

1) Умає досить високі парні кореляції зі змінними Х1, Х2 (>0,5) та низькі зі змінними Х3, Х4, Х5, Х6 (<0,5);

2) Змінні аналізу Х1, Х2 демонструють досить високі парні кореляції, що зумовлює необхідність перевірки чинників наявність між ними мультиколлинеарности. Тим більше що однією з умов класичної регресійної моделі є припущення про незалежність пояснюючих змінних.

Для виявлення мультиколлінеарності факторів виконаємо тест Фаррара-Глоубера за факторами Х1, Х2, Х3, Х4, Х5, Х6.

Перевірка тесту Фаррара-Глоубера на мультиколінеарність факторів включає кілька етапів.

1) Перевірка наявності мультиколінеарності всього масиву змінних .

Однією з умов класичної регресійної моделі є припущення незалежності пояснюючих змінних. Для виявлення мультиколлінеарності між факторами обчислюється матриця міжфакторних кореляцій з допомогою Пакету аналізу даних (таблиця 3).

Таблиця 3. Матриця міжфакторних кореляцій R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Між факторами Х1 та Х2, Х5 та Х4, Х6 та Х5 спостерігається сильна залежність (>0,5).

Визначник det(R) = 0,001488 обчислюється за допомогою функції МОПРЕД. Визначник матриці R прагне нуля, що дозволяє зробити припущення про загальну мультиколлінеарність факторів.

2) Перевірка наявності мультиколінеарності кожної змінної з іншими змінними:

· Обчислимо зворотну матрицю R-1 за допомогою функції Excel МОБР (таблиця 4):

Таблиця 4. Зворотна матриця R-1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Обчислення F-критеріїв, де - Діагональні елементи матриці, n = 17, k = 6 (таблиця 5).

Таблиця 5. Значення F-критеріїв

F1 (Х1) F2 (Х2) F3 (Х3) F4 (Х4) F5 (Х5) F6 (Х6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Фактичні значення F-критеріїв порівнюються з табличним значенням F табл = 3,21(FРАСПОБР(0,05;6;10)) при n1= 6 і n2 = n - k – 1=17-6-1=10 степенях свободи та рівні значущості α=0,05, де k – кількість факторів.

· Значення F-критеріїв для факторів Х1 та Х2 більше табличного, що свідчить про наявність мультиколінеарності між цими факторами. Найменше впливає на загальну мультиколінеарність факторів фактор Х3.

3) Перевірка наявності мультиколінеарності кожної пари змінних

· Обчислимо окремі коефіцієнти кореляції за формулою , де - Елементи матриці (таблиця 6)

Таблиця 6. Матриця коефіцієнтів приватних кореляцій

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Обчислення t-критеріїв за формулою (Таблиця 7)

n – число даних = 17

K – число факторів = 6

Таблиця 7.t-критерії для коефіцієнтів приватної кореляції

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t табл = СТЬЮДРАСПОБР(0,05;10) = 2,23

Фактичні значення t-критеріїв порівнюються з табличним значенням при ступенях свободи n-k-1 = 17-6-1=10 та рівні значущості α=0,05;

t21 > tтабл

t54 > tтабл

З таблиць 6 та 7 видно, що дві пари факторів X1 і Х2, Х4 та Х5 мають високу статистично значиму приватну кореляцію, тобто є мультиколлінеарними. Для того, щоб позбутися мультиколінеарності, можна виключити одну зі змінних колінеарної пари. У парі Х1 та Х2 залишаємо Х2, у парі Х4 та Х5 залишаємо Х5.

Таким чином, в результаті перевірки тесту Фаррара-Глоубер залишаються фактори: Х2, Х3, Х5, Х6.

Завершуючи процедури кореляційного аналізу, доцільно переглянути приватні кореляції вибраних факторів із результатом Y.

Побудуємо матрицю парних коефіцієнтів кореляції, з даних таблиці 8.

Таблиця 8. Дані випуску продукції із відібраними чинниками Х2, Х3, Х5, Х6.

№ спостереження Y X 2 X 3 X 5 X 6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

В останньому стовпці таблиці 9 наведено значення t-критерію для стовпця У.

Таблиця 9. Матриця коефіцієнтів приватної кореляції з результатом Y

Y X2 X3 X5 X6 t критерій (t табл (0,05; 11) = 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

З таблиці 9 видно, що змінна Yмає високу і одночасно статистично значиму приватну кореляцію з фактором Х2.


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Аналіз міжфакторних(Між «іксами»!) Коефіцієнтів кореляції показує, що значення 0,8 перевищує за абсолютною величиноюлише коефіцієнт кореляції між парою факторів Х 1 –Х 3 (виділений жирним шрифтом). Чинники Х 1 –Х 3 таким чином визнаються колінеарними.

2. Як було показано у пункті 1, фактори Х 1 –Х 3 є колінеарними, а це означає, що вони фактично дублюють один одного, і їхнє одночасне включення в модель призведе до неправильної інтерпретації відповідних коефіцієнтів регресії. Видно, що фактор Х 3 має більший за модулемкоефіцієнт кореляції із результатом Y, Чим фактор Х 1: r y , x 1 =0,519; r y , x 3 = 0,610; (Див. табл. 1). Це свідчить про сильніший вплив фактора Х 3 на зміну Y. Чинник Х 1 таким чином виключається з розгляду.

Для побудови рівняння регресії значення змінних ( Y,X 2 , X 3 , X 4 , X 5 , X 6) скопіюємо на чистий робочий лист ( дод. 3). Рівняння регресії будуємо за допомогою надбудови Аналіз даних… Регресія» (меню « Сервіс»® « Аналіз даних…» ® « Регресія»). Панель регресійного аналізу із заповненими полями зображена на Мал. 2.

Результати регресійного аналізу наведено в дод. 4та перенесені до табл. 2. Рівняння регресії має вигляд (див. Коефіцієнти»в табл. 2):

Рівняння регресії визнається статистично значущим, оскільки ймовірність його випадкового формування у вигляді, у якому воно отримано, становить 8,80×10 -6 (див. «Значність F»в табл. 2), що значно нижче прийнятого рівня значимості a=0,05.

Х 3 , Х 4 , Х 6 нижче за прийнятий рівень значимості a=0,05 (див. « P-Значення»в табл. 2), що свідчить про статистичну значущість коефіцієнтів та суттєвий вплив цих факторів на зміну річного прибутку Y.

Ймовірність випадкового формування коефіцієнтів за факторів Х 2 та Х 5 перевищує прийнятий рівень значимості a = 0,05 (див. P-Значення»в табл. 2), і ці коефіцієнти не визнаються статистично значущими.

Мал. 2. Панель регресійного аналізу моделі Y(X 2 , X 3 , X 4 , X 5 , X 6)

Таблиця 2

Y(X 2 , X 3 , X 4 , X 5 , X 6)

Регресійна статистика
Множинний R 0,868
R-квадрат 0,753
Нормований R-квадрат 0,694
Стандартна помилка 242,3
Спостереження
Дисперсійний аналіз
df SS MS F Значення F
Регресія 3749838,2 749967,6 12,78 8,80E-06
Залишок 1232466,8 58688,9
Разом 4982305,0
Рівняння регресії
Коефіцієнти Стандартна помилка t-статистика P-Значення
Y-перетин 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. За результатами перевірки статистичної значущості коефіцієнтів рівняння регресії, проведеної в попередньому пункті, будуємо нову регресійну модель, що містить лише інформативні фактори, до яких належать:

· Фактори, коефіцієнти при яких статистично значущі;

· фактори, у коефіцієнтів яких t‑статистика перевищує за модулем одиницю (іншими словами, абсолютна величина коефіцієнта більша за його стандартну помилку).

До першої групи належать фактори Х 3 , Х 4 , Х 6 , до другої - фактор X 2 . Чинник X 5 виключається з розгляду як неінформативний, і остаточно регресійна модель міститиме фактори X 2 , X 3 , X 4 , X 6 .

Для побудови рівняння регресії скопіюємо на чистий робочий лист значення змінних ( дод. 5)та проведемо регресійний аналіз ( Мал. 3). Його результати наведені в дод. 6та перенесені до табл. 3. Рівняння регресії має вигляд:

(див. « Коефіцієнти»в табл. 3).

Мал. 3. Панель регресійного аналізу моделі Y(X 2 , X 3 , X 4 , X 6)

Таблиця 3

Результати регресійного аналізу моделі Y(X 2 , X 3 , X 4 , X 6)

Регресійна статистика
Множинний R 0,866
R-квадрат 0,751
Нормований R-квадрат 0,705
Стандартна помилка 237,6
Спостереження
Дисперсійний аналіз
df SS MS F Значення F
Регресія 3740456,2 935114,1 16,57 2,14E-06
Залишок 1241848,7 56447,7
Разом 4982305,0
Рівняння регресії
Коефіцієнти Стандартна помилка t-статистика P-Значення
Y-перетин 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Рівняння регресії статистично значуще: ймовірність його випадкового формування нижче за допустимий рівень значущості a=0,05 (див. « Значення F»в табл. 3).

Статистично значущими визнаються і коефіцієнти за чинників Х 3 , Х 4 , Х 6: ймовірність їх випадкового формування нижче за допустимий рівень значимості a=0,05 (див. « P-Значення»в табл. 3). Це свідчить про суттєвий вплив річного розміру страхових зборів X 3 , річного розміру страхових виплат X 4 та форми власності X 6 на зміну річного прибутку Y.

Коефіцієнт за фактора Х 2 (річний розмір страхових резервів) перестав бути статистично значимим. Однак цей фактор все ж таки можна вважати інформативним, так як t‑статистика його коефіцієнта перевищує за модулемодиницю, хоча до подальших висновків щодо фактора Х 2 слід ставитись з деякою часткою обережності.

4. Оцінимо якість і точність останнього рівняння регресії, використовуючи деякі статистичні характеристики, отримані під час регресійного аналізу (див. . « Регресійну статистику» в табл. 3):

· множинний коефіцієнт детермінації

показує, що регресійна модель пояснює 75,1% варіації річного прибутку Y, причому ця варіація обумовлена ​​зміною включених до моделі регресії факторів X 2 , X 3 , X 4 та X 6 ;

· Стандартна помилка регресії

тис. руб.

показує, що передбачені рівнянням регресії значення річного прибутку Yвідрізняються від фактичних значень у середньому на 237,6 тис. руб.

Середня відносна помилка апроксимації визначається за наближеною формулою:

де тис. руб. - Середнє значення річного прибутку (визначено за допомогою вбудованої функції « Відмінник»; дод. 1).

Еотн показує, що передбачені рівнянням регресії значення річного прибутку Yвідрізняються від фактичних значень загалом на 26,7 %. Модель має незадовільну точність (при - точність моделі висока, при - хороша, при - задовільна, при - незадовільна).

5. Для економічної інтерпретації коефіцієнтів рівняння регресії зведемо до таблиці середні значення та стандартні відхилення змінних у вихідних даних ( табл. 4) . Середні значення були визначені за допомогою вбудованої функції. Відмінник», стандартні відхилення – за допомогою вбудованої функції « СТАНДОТКЛОН»(див. дод. 1).

По територіях Південного федерального округу РФ наводяться дані за 2011 рік

Території федерального округу

Валовий регіональний продукт, млрд. руб., Y

Інвестиції в основний капітал, млрд. руб., X1

1. Респ. Адигея

2. Респ. Дагестан

3. Респ. Інгушетія

4. Кабардино-БалкарськаРесп.

5. Респ. Калмикія

6. Карачаєво-ЧеркеськаРесп.

7. Респ. Північна Осетія Аланія

8. Краснодарський кра)

9. Ставропольський край

10. Астраханська обл.

11. Волгоградська обл.

12. Ростовська обл.

  • 1. Розрахуйте матрицю парних коефіцієнтів кореляції; оцініть статистичну значущість коефіцієнтів кореляції.
  • 2. Побудуйте поле кореляції результативної ознаки та найбільш тісно пов'язаного з ним фактора.
  • 3. Розрахуйте параметри лінійної парної регресії кожного фактора Х..
  • 4. Оцініть якість кожної моделі через коефіцієнт детермінації, середню помилку апроксимації та F-критерій Фішера. Виберіть найкращу модель.

становитиме 80% від його максимального значення. Уявіть графічно: фактичні та модельні значення, точки прогнозу.

  • 6. Використовуючи покрокову множинну регресію (метод виключення чи спосіб включення), побудуйте модель формування ціни квартири рахунок значних чинників. Дайте економічну інтерпретацію коефіцієнтів моделі регресії.
  • 7. Оцініть якість побудованої моделі. Чи покращилася якість моделі порівняно з однофакторною моделлю? Дайте оцінку впливу значимих факторів на результат за допомогою коефіцієнтів еластичності, - і -? коефіцієнтів.

При вирішенні цього завдання розрахунки та побудова графіків та діаграм будемо вести з використанням налаштування Excel Аналіз даних.

1. Розрахуємо матрицю парних коефіцієнтів кореляції та оцінимо статистичну значимість коефіцієнтів кореляції

У діалоговому вікні Кореляція у полі Вхідний інтервал вводимо діапазон осередків, що містять вихідні дані. Оскільки ми виділили і заголовки стовпців, то встановлюємо прапорець Мітки у першому рядку.

Отримали такі результати:

Таблиця 1.1 Матриця парних коефіцієнтів кореляції

Аналіз матриці коефіцієнтів парної кореляції показує, що залежна змінна Y, тобто валового регіонального продукту має тісніший зв'язок з Х1 (інвестиції в основний капітал). Коефіцієнт кореляції дорівнює 0,936. Це означає, що у 93,6% залежна змінна Y (валовий регіональний продукт) залежить від показника Х1 (інвестиції в основний капітал).

Статистична значимість коефіцієнтів кореляції визначимо з допомогою t-критерію Стьюдента. Табличне значення порівнюємо з розрахунковими значеннями.

Обчислимо табличне значення за допомогою функції СТЬЮДРАСПОБР.

t табл.=0,129 при довірчій ймовірності, що дорівнює 0,9 і ступенем свободи (n-2).

Статистичним є чинник Х1.

2. Побудуємо поле кореляції результативної ознаки (валового регіонального продукту) та найбільш тісно пов'язаного з ним фактора (інвестиції в основний капітал)

Для цього скористаємось інструментом побудови точкової діаграми програми Excel.

Через війну отримуємо полі кореляції ціни валового регіонального продукту, млрд. крб. та інвестиції в основний капітал, млрд. руб. (Малюнок 1.1.).

Малюнок 1.1

3. Розрахуємо параметри лінійної парної регресії кожного фактора Х

Для розрахунку параметрів лінійної парної регресії скористаємося інструментом Регресія, що входить до настоянки Аналіз даних.

У діалоговому вікні Регресія в полі Вхідний інтервал Y вводимо адресу діапазону осередків, які є залежною змінною. В полі

Вхідний інтервал Х вводимо адресу діапазону, що містить значення незалежних змінних. Виконаємо обчислення параметрів парної регресії для фактора Х.

Для Х1 отримали такі дані, подані у таблиці 1.2:

Таблиця 1.2

Рівняння регресії залежності ціни валового регіонального продукту від інвестиції в основний капітал має вигляд:

4. Оцінимо якість кожної моделі через коефіцієнт детермінації, середню помилку апроксимації та F-критерій Фішера. Встановимо, яка модель є найкращою.

Коефіцієнт детермінації, середню помилку апроксимації ми отримали в результаті розрахунків, проведених у пункті 3. Отримані дані представлені в наступних таблицях:

Дані Х1:

Таблиця 1.3

Таблиця 1.4б

А) Коефіцієнт детермінації визначає, яка частка варіації ознаки У врахована в моделі та обумовлена ​​впливом на нього фактора Х. Чим більше значення коефіцієнта детермінації, тим тісніше зв'язок між ознаками у побудованій математичній моделі.

У Excel позначається R-квадрат.

Виходячи з цього критерію найбільш адекватною є модель рівняння регресії залежності ціни валового регіонального продукту від інвестиції в основний капітал (Х1).

Б) Середню помилку апроксимації розрахуємо за формулою:

де чисельник – сума квадратів відхилення розрахункових значень від фактичних. У таблицях вона перебуває у стовпці SS, рядку Залишки.

Середнє значення ціни квартири розрахуємо в Excel за допомогою функції СРЗНАЧ. = 24,18182 млрд. руб.

При проведенні економічних розрахунків модель вважається досить точною, якщо середня помилка апроксимації менше 5%, модель вважається прийнятною, якщо середня помилка апроксимації менше 15%.

За даним критерієм найбільш адекватною є математична модель для рівняння регресії залежності ціни валового регіонального продукту від інвестиції в основний капітал (Х1).

для перевірки значимості моделі регресії використовується F-тест. Для цього виконується порівняння та критичного (табличного) значень F-критерію Фішера.

Розрахункові значення наведені у таблицях 1.4б (позначені літерою F).

Табличне значення F-критерій Фішера розрахуємо в Excel за допомогою функції FРАСПОБР. Імовірність візьмемо рівною 0,05. Отримали: = 4,75

Розрахункові значення F-критерій Фішера для кожного фактора можна порівняти з табличним значенням:

71,02> = 4,75 модель за даним критерієм адекватна.

Проаналізувавши дані за всіма трьома критеріями, можна зробити висновок, що найкращою є математична модель, побудована для фактора валового регіонального продукту, яка описана лінійним рівнянням

5. Для обраної моделі залежності ціни валового регіонального продукту

здійснимо прогнозування середнього значення показника за рівня значущості, якщо прогнозне значення фактора становитиме 80% від його максимального значення. Уявимо графічно: фактичні та модельні значення, точки прогнозу.

Розрахуємо прогнозне значення Х, за умовою воно становитиме 80% від максимального значення.

Розрахуємо Х max Excel за допомогою функції МАКС.

0,8 *52,8 = 42,24

Для отримання прогнозних оцінок залежної змінної підставимо отримане значення незалежної змінної лінійне рівняння:

5,07 +2,14 * 42,24 = 304,55 млрд. руб.

Визначимо довірчий інтервал прогнозу, який матиме такі межі:

Для обчислення довірчого інтервалу прогнозного значення розраховуємо величину відхилення від лінії регресії.

Для моделі парної регресії величина відхилення розраховується:

тобто. значення стандартної помилки таблиці 1.5а.

(Оскільки число ступенів свободи дорівнює одиниці, то знаменник дорівнюватиме n-2). кореляція парна регресія прогноз

Для розрахунку коефіцієнта скористаємося функцією Excel СТЬЮДРАСПОБР, можливість візьмемо рівну 0,1, число ступенів свободи 38.

Значення розрахуємо за допомогою Excel, отримаємо 12294.


Визначимо верхню та нижню межі інтервалу.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Таким чином, прогнозне значення = 304,55 тис.дол., перебуватиме між нижнім кордоном, що дорівнює 277,078 тис.дол. і верхнім кордоном, що дорівнює 332,022 млдр. руб.

Фактичні та модельні значення, точки прогнозу представлені графічно малюнку 1.2.


Малюнок 1.2

6. Використовуючи покрокову множинну регресію (метод виключення), побудуємо модель формування ціни валового регіонального продукту рахунок значних чинників

Для побудови множинної регресії скористаємося функцією регресії програми Excel, включивши в неї всі фактори. В результаті одержуємо результативні таблиці, з яких нам необхідний t-критерій Стьюдента.

Таблиця 1.8

Таблиця 1.8б

Таблиця 1.8 ст.

Отримуємо модель виду:

Оскільки< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Виберемо найменше за модулем значення t-критерію Стьюдента, воно дорівнює 8,427, порівнюємо його з табличним значенням, які розраховуємо в Excel, рівень значущості беремо рівним 0,10, число ступенів свободи n-m-1=12-4=8: =1,8595

Оскільки 8,427>1,8595 модель слід визнати адекватною.

7. Для оцінки значущого фактора отриманої математичної моделі, розрахуємо коефіцієнти еластичності, та - коефіцієнти

Коефіцієнт еластичності показує, наскільки відсотків зміниться результативна ознака при зміні факторної ознаки на 1%:

Е X4 = 2,137 * (10,69/24,182) = 0,94%

Тобто зі зростанням інвестиції в основний капітал 1%, вартість у середньому зростає на 0,94%.

p align="justify"> Коефіцієнт вказує на яку частину величини середнього квадратичного відхилення змінюється середнє значення залежної змінної зі зміною незалежної змінної на одне середньоквадратичне відхилення.

2,137* (14.736/33,632) = 0,936.

Дані середніх квадратичних відхилень взяті з таблиць, отриманих за допомогою інструментів Описова статистика.

Таблиця 1.11 Описова статистика (Y)

Таблиця 1.12 Описова статистика (Х4)

Коефіцієнт визначає частку впливу фактора у сумарному впливі всіх факторів:

Для розрахунку коефіцієнтів парної кореляції обчислюємо матрицю парних коефіцієнтів кореляції в Excel за допомогою інструмента Кореляція налаштування Аналізу даних.

Таблиця 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Висновок: З отриманих розрахунків можна дійти невтішного висновку, що результативний ознака Y (валовий регіональний продукт) має велику залежність від чинника X1 (інвестиції в основний капітал) (на 100%).

Список літератури

  • 1. Магнус Я.Р., Катишев П.К., Пересецький А.А. Економетрики. Початковий курс Навчальний посібник. 2-ге вид. – М.: Справа, 1998. – с. 69 – 74.
  • 2. Практикум з економетрики: Навчальний посібник/І.І. Єлісєєва, С.В. Куришева, Н.М. Гордєєнко та ін. 2002. – с. 49 – 105.
  • 3. Доугерті К. Введення в економетрику: Пров. з англ. - М: ІНФРА-М, 1999. - XIV, с. 262 – 285.
  • 4. Айвизян С.А., Міхтирян В.С. Прикладна математика та основи економетрики. -1998., з 115-147.
  • 5. Кремер Н.Ш., Путко Б.А. Економетрики. -2007. з 175-251.
y x (1) x (2) x (3) x (4) x (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
x (1) 0.43 1.00 0.85 0.98 0.11 0.34
x (2) 0.37 0.85 1.00 0.88 0.03 0.46
x (3) 0.40 0.98 0.88 1.00 0.03 0.28
x (4) 0.58 0.11 0.03 0.03 1.00 0.57
x (5) 0.33 0.34 0.46 0.28 0.57 1.00

Аналіз матриці парних коефіцієнтів кореляції показує, що результативний показник найбільш тісно пов'язаний із показником x(4) – кількість добрив, що витрачаються на 1 га ().

У той самий час зв'язок між ознаками-аргументами досить тісний. Так, існує практично функціональний зв'язок між числом колісних тракторів ( x(1)) і числом знарядь поверхневого обробітку ґрунту .

Про наявність мультиколлінеарності свідчать також коефіцієнти кореляції та . Враховуючи тісний взаємозв'язок показників x (1) , x(2) та x(3) , До регресійної моделі врожайності може увійти лише один з них.

Щоб продемонструвати негативний вплив мультиколлінеарності, розглянемо регресійну модель врожайності, включивши до неї всі вихідні показники:

F набл = 121.

У дужках вказано значення виправлених оцінок середньоквадратичних відхилень оцінок коефіцієнтів рівняння .

Під рівнянням регресії представлені такі його параметри адекватності: множинний коефіцієнт детермінації; виправлена ​​оцінка залишкової дисперсії, середня відносна помилка апроксимації та розрахункове значення-критерію F набл = 121.

Рівняння регресії значимо, т.к. F набл = 121 > F kp = 2,85 знайденого за таблицею F-розподілу при a = 0,05; n 1 =6 та n 2 =14.

З цього випливає, що Q10, тобто. і хоча б один із коефіцієнтів рівняння q j (j= 0, 1, 2, ..., 5) не дорівнює нулю.

Для перевірки гіпотези про значимість окремих коефіцієнтів регресії H0: q j =0 де j=1,2,3,4,5, порівнюють критичне значення t kp = 2,14, знайдене за таблицею t-розподілу при рівні значимості a = 2 Q=0,05 та числі ступенів свободи n=14, з розрахунковим значенням . З рівняння випливає, що статистично значущим є коефіцієнт регресії лише за x(4) , оскільки ½ t 4 ½=2,90 > t kp = 2,14.



Не піддаються економічної інтерпретації негативні знаки коефіцієнтів регресії при x(1) та x(5) . З негативних значень коефіцієнтів випливає, що підвищення насиченості сільського господарства колісними тракторами ( x(1)) та засобами оздоровлення рослин ( x(5)) негативно позначається на врожайності. Таким чином, отримане рівняння регресії є неприйнятним.

Для отримання рівняння регресії із значними коефіцієнтами використовуємо покроковий алгоритм регресійного аналізу. Спочатку використовуємо покроковий алгоритм із винятком змінних.

Виключимо з моделі змінну x(1) , якій відповідає мінімальне за абсолютною величиною значення ½ t 1 ½=0,01. Для змінних, що залишилися, знову побудуємо рівняння регресії:

Отримане рівняння значимо, т.к. F набл = 155 > F kp = 2,90, знайденого при рівні значимості a=0,05 та числах ступенів свободи n 1 =5 і n 2 =15 за таблицею F-розподілу, тобто. вектор q10. Однак у рівнянні значимий лише коефіцієнт регресії при x(4). Розрахункові значення? t j ½ для інших коефіцієнтів менше tкр = 2,131, знайденого за таблицею t-розподілу при a=2 Q=0,05 та n=15.

Виключивши з моделі змінну x(3) , якій відповідає мінімальне значення t 3 = 0,35 і отримаємо рівняння регресії:

(2.9)

В отриманому рівнянні статистично не значущий і економічно не інтерпретуємо коефіцієнт при x(5) . Виключивши x(5) отримаємо рівняння регресії:

(2.10)

Ми отримали значне рівняння регресії зі значними та інтерпретованими коефіцієнтами.

Однак отримане рівняння є не єдино "хорошою" і не "найкращою" моделлю врожайності в нашому прикладі.

Покажемо, що за умови мультиколлінеарності покроковий алгоритм із включенням змінних є ефективнішим.На першому кроці модель урожайності yвходить змінна x(4) , що має найвищий коефіцієнт кореляції з y, що пояснюється змінною - r(y,x(4)) = 0,58. На другому кроці, включаючи рівняння поряд з x(4) змінні x(1) або x(3) , ми отримаємо моделі, які з економічних міркувань та статистичних характеристик перевищують (2.10):

(2.11)

(2.12)

Включення в рівняння будь-якої з трьох змінних, що залишилися, погіршує його властивості. Дивись, наприклад, рівняння (2.9).

Таким чином, ми маємо три “хороші” моделі врожайності, з яких потрібно вибрати з економічних та статистичних міркувань одну.

За статистичними критеріями найбільш адекватна модель (2.11). Їй відповідають мінімальні значення залишкової дисперсії = 2,26 та середньої відносної помилки апроксимації та найбільші значення та F набл = 273.

Дещо гірші показники адекватності має модель (2.12), а потім - модель (2.10).

Тепер вибиратимемо найкращу з моделей (2.11) та (2.12). Ці моделі відрізняються одна від одної змінними x(1) та x(3) . Однак у моделях урожайностей змінна x(1) (кількість колісних тракторів на 100 га) більш краща, ніж змінна x(3) (кількість знарядь поверхневого обробітку грунту на 100 га), який є деякою мірою вторинним (або похідним від x (1)).

У зв'язку з економічних міркувань перевагу слід віддати моделі (2.12). Таким чином, після реалізації алгоритму покрокового регресійного аналізу з включенням змінних та врахування того, що до рівняння має увійти лише одна з трьох пов'язаних змінних ( x (1) , x(2) або x(3)) вибираємо остаточне рівняння регресії:

Рівняння значимо за a=0,05, т.к. F набл = 266 > F kp = 3,20, знайденого за таблицею F-розподілу при a= Q=0,05; n 1 =3 та n 2 =17. Значні і всі коефіцієнти регресії та у рівнянні ½ t j ½> t kp (a=2 Q=0,05; n = 17) = 2,11. Коефіцієнт регресії q 1 слід визнати значущим (q 1 ¹0) з економічних міркувань, причому t 1 =2,09 лише трохи менше t kp = 2,11.

З рівняння регресії випливає, що збільшення одиницю числа тракторів на 100 га ріллі (при фіксованому значенні x(4)) призводить до зростання врожайності зернових у середньому на 0,345 ц/га.

Наближений розрахунок коефіцієнтів еластичності е 1 »0,068 та е 2 »0,161 показує, що при збільшенні показників x(1) та x(4) на 1% урожайність зернових підвищується в середньому відповідно на 0,068% та 0,161%.

Множинний коефіцієнт детермінації свідчить про те, що тільки 46,9% варіації врожайності пояснюється показниками, що увійшли в модель ( x(1) та x(4)), тобто насиченістю рослинництва тракторами та добривами. Решта варіації обумовлена ​​дією неврахованих факторів ( x (2) , x (3) , x(5), погодні умови та ін.). Середня відносна помилка апроксимації характеризує адекватність моделі, як і і величина залишкової дисперсії . При інтерпретації рівняння регресії інтерес становлять значення відносних помилок апроксимації . Нагадаємо, що - модельне значення результативного показника, що характеризує середнє для сукупності районів, що розглядаються, значення врожайності за умови, що значення пояснюючих змінних x(1) та x(4) зафіксовані на тому самому рівні, а саме x (1) = x i(1) та x (4) = x i(4). Тоді за значеннями d iможна зіставляти райони за врожайністю. Райони, яким відповідають значення d i>0, мають урожайність вище середнього, а d i<0 - ниже среднего.

У нашому прикладі, за врожайністю найбільше ефективно рослинництво ведеться в районі, якому відповідає d 7 =28%, де врожайність на 28% вища за середню по регіону, і найменш ефективно - в районі з d 20 =-27,3%.


Завдання та вправи

2.1. З генеральної сукупності ( y, x (1) , ..., x(p)), де yмає нормальний закон розподілу з умовним математичним очікуванням і дисперсією s 2 взята випадкова вибірка обсягом n, і нехай ( y i, x i (1) , ..., x i(p)) - результат i-го спостереження ( i=1, 2, ..., n). Визначити: а) математичне очікування МНК-оцінки вектора q; б) коварійну матрицю МНК-оцінки вектора q; в) математичне очікування оцінки.

2.2. За умовою завдання 2.1 визначити математичне очікування суми квадратів відхилень, зумовлених регресією, тобто. EQ R, де

.

2.3. За умовою завдання 2.1 визначити математичне очікування суми квадратів відхилень, зумовлених залишковою варіацією щодо ліній регресії, тобто. EQост, де

2.4. Довести, що з виконанні гіпотези Н 0: q=0 статистика

має F-розподіл із числами ступенів свободи n 1 =p+1 і n 2 =n-p-1.

2.5. Довести, що з виконанні гіпотези Н 0: q j =0 статистика має t-розподіл із числом ступенів свободи n=n-p-1.

2.6. На підставі даних (табл.2.3) про залежність усушки кормового хліба ( y) від тривалості зберігання ( x) Визначити точкову оцінку умовного математичного очікування у припущенні, що генеральне рівняння регресії - лінійне.

Таблиця 2.3.

Потрібно: а) знайти оцінки та залишкової дисперсії s 2 у припущенні, що генеральне рівняння регресії має вигляд ; б) перевірити при a=0,05 значимість рівняння регресії, тобто. гіпотезу Н0: q=0; в) з надійністю g = 0,9 визначити інтервальні оцінки параметрів q0, q1; г) з надійністю g=0,95 визначити інтервальну оцінку умовного математичного очікування при х 0 = 6; д) визначити при g=0,95 довірчий інтервал передбачення у точці х=12.

2.7. З даних динаміку темпів приросту курсу акцій за 5 місяців, наведених у табл. 2.4.

Таблиця 2.4.

місяці ( x)
y (%)

та припущення, що генеральне рівняння регресії має вигляд , потрібно: а) визначити оцінки та параметри рівняння регресії та залишкової дисперсії s 2 ; б) перевірити при a=0,01 значимість коефіцієнта регресії, тобто. гіпотези H0: q1=0;

в) з надійністю g = 0,95 знайти інтервальні оцінки параметрів q0 і q1; г) з надійністю g=0,9 встановити інтервальну оцінку умовного математичного очікування при x 0 = 4; д) визначити при g=0,9 довірчий інтервал передбачення у точці x=5.

2.8. Результати дослідження динаміки приросту ваги молодняку ​​наведені в табл.2.5.

Таблиця 2.5.

Припускаючи, що генеральне рівняння регресії - лінійне, потрібно: а) визначити оцінки та параметри рівняння регресії та залишкової дисперсії s 2 ; б) перевірити при a=0,05 значимість рівняння регресії, тобто. гіпотези H0: q=0;

в) з надійністю g = 0,8 знайти інтервальні оцінки параметрів q0 і q1; г) з надійністю g=0,98 визначити та порівняти інтервальні оцінки умовного математичного очікування при x 0 = 3 і x 1 =6;

д) визначити при g=0,98 довірчий інтервал передбачення у точці x=8.

2.9. Собівартість ( y) одного екземпляра книги в залежності від тиражу ( x) (тис.екз.) характеризується даними, зібраними видавництвом (табл.2.6). Визначити МНК-оцінки та параметрів рівняння регресії гіперболічного вигляду , з надійністю g=0,9 побудувати довірчі інтервали для параметрів q 0 та q 1 , а також умовного математичного очікування при x=10.

Таблиця 2.6.

Визначити оцінки та параметрів рівняння регресії виду, перевірити при a=0,05 гіпотезу Н 0: q 1 =0 і побудувати з надійністю g=0,9 довірчі інтервали для параметрів q 0 та q 1 та умовного математичного очікування при x=20.

2.11. У табл. 2.8 подані дані про темпи приросту (%) наступних макроекономічних показників n= 10 розвинутих країн світу за 1992р.: ВНП - x(1) , промислового виробництва - x(2) , індексу цін - x (3) .

Таблиця 2.8.

Країни x та параметрів рівняння регресії, оцінку залишкової дисперсії; б) перевірити при a=0,05 значимість коефіцієнта регресії, тобто. Н 0: q 1 = 0; в) з надійністю g = 0,9 знайти інтервальні оцінки q0 і q1; г) знайти при g=0,95 довірчий інтервал для точки х 0 =х i, де i=5; д) порівняти статистичні характеристики рівнянь регресій: 1, 2 та 3.

2.12. Завдання 2.11 вирішити, прийнявши за величину, що пояснюється ( у) показник x(1) , а за пояснювальну ( х) змінну x (3) .

1. Айвазян С.А., Мхітарян В.С. Прикладна статистика та основи економетрики: Підручник. М., ЮНІТІ, 1998 (2-ге видання 2001);

2. Айвазян С.А., Мхітарян В.С. Прикладна статистика у завданнях та вправах: Підручник. М. ЮНІТІ - ДАНА, 2001;

3. Айвазян С.А., Єнюков І.С., Мешалкін Л.Д. Прикладна статистика Дослідження залежностей. М., Фінанси та статистика, 1985, 487с.;

4. Айвазян С.А., Бухштабер Ст М., Єнюков І.С., Мешалкін Л.Д. Прикладна статистика Класифікація та зниження розмірностей. М., Фінанси та статисика, 1989, 607с.;

5. Джонстон Дж. Економетричні методи, М: Статистика, 1980, 446с.;

6. Дубров А.В., Мхітарян В.С., Трошин Л.І. Багатовимірні статистичні методи. М., Фінанси та статистика, 2000;

7. Мхітарян В.С., Трошин Л.І. Дослідження залежностей методами кореляції та регресії. М., МЕСІ, 1995, 120с.;

8. Мхітарян В.С., Дубров А.М., Трошин Л.І. Багатовимірні статистичні методи економіки. М., МЕСІ, 1995, 149с.;

9. Дубров А.М., Мхітарян В.С., Трошин Л.І. Математична статистика для бізнесменів та менеджерів. М., МЕСІ, 2000, 140с.;

10. Лукашин Ю.І. Регресійні та адаптивні методи прогнозування: Навчальний посібник, М., МЕСІ, 1997.

11. Лукашин Ю.І. Адаптивні методи короткострокового прогнозування. - М., Статистика, 1979.


ДОДАТКИ


Додаток 1. Варіанти завдань для самостійних комп'ютерних досліджень.

КАТЕГОРІЇ

ПОПУЛЯРНІ СТАТТІ

2024 «kingad.ru» - УЗД дослідження органів людини