Визначення множинного коефіцієнта кореляції у MS Excel.

Спочатку модель увключають всі головні компоненти (у дужках вказано розрахункові значення t-Критерію):

Якість моделі характеризують: множинний коефіцієнт детермінації r = 0,517, середня відносна помилка апроксимації = 10,4%, залишкова дисперсія s 2= 1,79 та Fнабл = 121. Через те що Fнабл > Fкр = 2,85 при α = 0,05, v 1 = 6, v 2= 14, рівняння регресії значуще і хоча один із коефіцієнтів регресії - β 1 , β 2 , β 3 , β 4 - не дорівнює нулю.

Якщо значення рівняння регресії (гіпотеза Н 0:β 1 = β 2 = β 3 = β 4 = 0проверялась при ? = 0,05, то значимість коефіцієнтів регресії, тобто. гіпотези H 0: β j = 0 (j = 1, 2, 3, 4), слід перевіряти при рівні значимості, більшому, ніж 0,05, наприклад, при α = 0,1. Тоді при α = 0,1, v= 14 величина tкр = 1,76, і значущими, як випливає з рівняння (53.41), є коефіцієнти регресії β1, β2, β3.

Враховуючи, що головні компоненти не корельовані між собою, можна відразу виключити з рівняння всі незначні коефіцієнти, і рівняння набуде вигляду

(53.42)

Порівнявши рівняння (53.41) і (53.42), бачимо, що виключення незначних основних компонентів f 4і f 5, не позначилося на значеннях коефіцієнтів рівняння b 0 = 9,52, b 1 = 0,93, b 2 = 0,66 та відповідних t j (j = 0, 1, 2, 3).

Це зумовлено некорелюваністю основних компонентів. Тут цікава паралель рівнянь регресії за вихідними показниками (53.22), (53.23) та головними компонентами (53.41), (53.42).

Рівняння (53.42) значуще, оскільки Fнабл = 194> Fкр = 3,01, знайденого при α = 0,05, v 1 = 4, v 2= 16. Значні і коефіцієнти рівняння, оскільки t j > tкр . = 1,746, відповідного α = 0,01, v= 16 для j= 0, 1, 2, 3. Коефіцієнт детермінації r= 0,486 свідчить у тому, що 48,6% варіації уобумовлено впливом трьох перших основних компонент.

Рівняння (53.42) характеризується середньою відносною помилкою апроксимації = 9,99% та залишковою дисперсією s 2 = 1,91.

Рівняння регресії на головних компонентах (53.42) має дещо кращі апроксимуючі властивості порівняно з регресійною моделлю (53.23) за вихідними показниками: r= 0,486 > r= 0,469; = 9,99% < (х) = 10,5% та s 2 (f) = 1,91 < s 2 (x) = 1,97. Крім того, у рівнянні (53.42) головні компоненти є лінійними функціями всіх вихідних показників, у той час як до рівняння (53.23) входять лише дві змінні ( x 1і х 4). У ряді випадків доводиться враховувати, що модель (53.42) важко інтерпретується, тому що до неї входить третя головна компонента f 3, яка нами не інтерпретована і вклад якої у сумарну дисперсію вихідних показників ( x 1 , ..., х 5)становить лише 8,6%. Однак виняток f 3з рівняння (53.42) значно погіршує апроксимуючі властивості моделі: r= 0,349; = 12,4% та s 2(f) = 2,41. Тоді як регресійну модель врожайності доцільно вибрати рівняння (53.23).

Кластерний аналіз

У статистичних дослідженнях угруповання первинних даних є основним прийомом рішення завдання класифікації,а тому і основою всієї подальшої роботи із зібраною інформацією.

Зазвичай це завдання вирішується так. З безлічі ознак, що описують об'єкт, відбирається один, найбільш інформативний, з точки зору дослідника, і проводиться угруповання даних відповідно до значень цієї ознаки. Якщо потрібно провести класифікацію за декількома ознаками, ранжованим між собою за ступенем важливості, спочатку здійснюється класифікація за першою ознакою, потім кожен з отриманих класів розбивається на підкласи за другою ознакою і т.д. Подібно будується більшість комбінаційних статистичних угруповань.

У тих випадках, коли неможливо упорядкувати класифікаційні ознаки, застосовується найпростіший метод багатовимірної угруповання - створення інтегрального показника (індексу), функціонально залежить від вихідних ознак, з наступною класифікацією за цим показником.

Розвитком цього підходу є варіант класифікації за декількома узагальнюючими показниками (головними компонентами), отриманими за допомогою методів факторного або компонентного аналізу.

За наявності кількох ознак (вихідних чи узагальнених) завдання класифікації може бути вирішена методами кластерного аналізу, які від інших методів багатовимірної класифікації відсутністю навчальних вибірок, тобто. апріорної інформації про розподіл генеральної сукупності.

Відмінності між схемами розв'язання задачі з класифікації багато в чому визначаються тим, що розуміють під поняттями «схожість» та «ступінь подібності».

Після того, як сформульована мета роботи, природно спробувати визначити критерії якості, цільову функцію, значення якої дозволять зіставити різні схеми класифікації.

В економічних дослідженнях цільова функція, як правило, повинна мінімізувати певний параметр, визначений на безлічі об'єктів (наприклад, метою класифікації обладнання може бути угруповання, що мінімізує сукупність витрат часу та коштів на ремонтні роботи).

У випадках, коли формалізувати мету завдання не вдається, критерієм якості класифікації може бути можливість змістовної інтерпретації знайдених груп.

Розглянемо таке завдання. Нехай досліджується сукупність поб'єктів, кожен з яких характеризується kвиміряними ознаками. Потрібно розбити цю сукупність на однорідні у певному сенсі групи (класи). При цьому практично відсутня апріорна інформація про характер розподілу k-мірного вектора Хусередині класів.

Отримані в результаті розбиття групи зазвичай називаються кластерами* (таксонами**, образами), методи їх знаходження – кластер-аналізом (відповідно до чисельної таксономії або розпізнавання образів із самонавчанням).

* Clаster(англ.) - група елементів, що характеризуються будь-яким загальним властивістю.

**Тахоп(англ.) – систематизована група будь-якої категорії.

Необхідно з самого початку чітко уявляти, яке із двох завдань класифікації підлягає вирішенню. Якщо вирішується звичайна задача типізації, то сукупність спостережень розбивають на порівняно невелику кількість областей групування (наприклад, інтервальний варіаційний ряд у разі одномірних спостережень) так, щоб елементи однієї такої області знаходилися один від одного наскільки можна на невеликій відстані.

Вирішення іншого завдання полягає у визначенні природного розшарування результатів спостережень на чітко виражені кластери, що лежать один від одного на певній відстані.

Якщо перше завдання типізації завжди має рішення, то другому випадку може виявитися, що безліч спостережень не виявляє природного розшарування на кластери, тобто. утворює один кластер.

Хоча багато методів кластерного аналізу досить елементарні, переважна більшість робіт, у яких було запропоновано, належить до останнього десятиліття. Це пояснюється тим, що ефективне вирішення завдань пошуку кластерів, що вимагає виконання великої кількості арифметичних та логічних операцій, стало можливим лише з виникненням та розвитком обчислювальної техніки.

Звичайною формою представлення вихідних даних у завданнях кластерного аналізу є матриця

кожен рядок якого представляє результати вимірювань kознак, що розглядаються в одного з обстежених об'єктів. У конкретних ситуаціях може становити інтерес як угруповання об'єктів, і угруповання ознак. У тих випадках, коли різниця між двома цими завданнями не суттєва, наприклад при описі деяких алгоритмів, ми користуватимемося лише терміном «об'єкт», включаючи це поняття і термін «ознака».

Матриця Хне є єдиним способом представлення даних у задачах кластерного аналізу. Іноді вихідна інформація задана у вигляді квадратної матриці

елемент r ijякою визначає ступінь близькості i-го об'єкта до j-му.

Більшість алгоритмів кластерного аналізу повністю виходить із матриці відстаней (або близькостей) або потребує обчислення окремих її елементів, тому якщо дані представлені у формі X,то першим етапом розв'язання задачі пошуку кластерів буде вибір способу обчислення відстаней, або близькості між об'єктами або ознаками.

Дещо простіше вирішується питання про визначення близькості між ознаками. Як правило, кластерний аналіз ознак переслідує ті ж цілі, що і факторний аналіз: виділення груп пов'язаних між собою ознак, що відображають певну сторону об'єктів, що вивчаються. Мірою близькості у разі служать різні статистичні коефіцієнти зв'язку.


Подібна інформація.


Контрольна робота №2

Варіант №5

Завдання 1. Використовуючи комп'ютерні технології, провести кореляційно-регресійний аналіз досліджуваних економічних показників та побудувати регресійну модель………………………..…..3

1.1 Побудова кореляційного поля ………………………………………4

1.2 Побудова матриці коефіцієнтів парної кореляції……………6

1.3 Побудова та аналіз однофакторних регресійних моделей лінійного та експонентного виду засобами вбудованих функцій ТП MS Excel…………………………………………………………………………...6

1.4 Побудова лінійної однофакторної регресійної моделі……….10

1.5 Висновки………………………………………………………………………15

Завдання 2. Використовуючи комп'ютерні технології, вирішити завдання лінійного програмування……………………………………………….18

а) Завдання оптимального планування виробництва……………….19

1. Математичну постановку задачі……………………………………..19

2. Розміщення робочому аркуші ТП MS Excel вихідних даних, розрахунок значень обмежень, розрахунок значень цільової функції……………...19

3. Формулювання математичної моделі завдання у термінах осередків робочого листа ТП MS Excel…………………………………………………..20

4. Пошук оптимального рішення поставленого завдання засобами надбудови «Пошук рішення»………………………………………………..20

5. Аналіз результатів………………………………………………………….21

б) Завдання оптимізації плану перевезень (транспортне завдання)…23

1. Математичну постановку задачі……………………………………..23

2. Розміщення даних на робочому аркуші ТП MS Excel …………………...24

3. Постановка завдання у термінах робочого листа Excel використання утиліти «Пошук рішення»….…………………………25

4. Аналіз результатів………………………………………………………….26

Список використаної литературы………………………………………..28

Завдання 1. Використовуючи комп'ютерні технології, провести кореляційно-регресійний аналіз досліджуваних економічних показників та побудувати регресійну модель.

Як інструментарій дослідження використовувати:



Інструменти надбудови Пакет Аналізу ТП MS Excel;

Вбудовані функції бібліотеки Stats (Statistics) CKM Maple.

Умови завдання 1:

За вибірковими даними дослідити вплив факторів X1, X2 та Х3 на результативну ознаку Y.

Побудувати кореляційне поле та зробити припущення про наявність та тип зв'язку між досліджуваними факторами;

Оцінивши тісноту зв'язку між досліджуваними факторами, побудувати багатофакторну (однофакторну) лінійнурегресійну модель виду Y = f (X1, X2 Х3) або виду Y = f (X).

Оцінити:

Адекватність рівняння регресії за значенням коефіцієнта детермінованості R 2;

Значимість коефіцієнтів рівняння регресії за t-критерієм Стьюдента при заданому рівні довірчої ймовірності р = 0,05;

Ступінь випадковості зв'язку між кожним фактором Х та ознакою Y (критерій Фішера);

Залежність між показниками Х1, Х2, Х3 основних фондів та обсягом валової продукції У підприємства однієї з галузей промисловості характеризується такими даними:

Варіант 5

X 1 1.5 2.6 3.5 4.8 5.9 6.3 7.2 8.9 9.5 11.1 15.0
X 2 10.2 15.3 18.4 20.5 24.7 25.6 27.3 28.3 29.6 30.1 31.0
X 3 1.1 2.3 3.5 4.1 5.7 6.6 7.3 8.5 9.8 10.1 12.0
Y

Розв'язання завдання 1.

Рішення завдання 1 передбачає.

1. Побудова кореляційного поля.

2. Побудова матриці коефіцієнтів парної кореляції.

3. Побудова та аналіз однофакторних регресійних моделей лінійного та експонентного виду засобами вбудованих функцій ТП MS Excel.

4. Побудова лінійних однофакторних регресійних моделей засобами надбудови "Пакет аналізу".

5. Висновки.

Побудова кореляційного поля.

Розмістимо таблицю з вихідними даними у осередках A3:D15 робочого листа Excel.

Додаток1.1
Y X1 X2 X3
1,5 10,2 1,1
2,6 15,3 2,3
3,5 18,4 3,5
4,8 20,5 4,1
5,9 24,7 5,7
6,3 25,6 6,6
7,2 27,3 7,3
8,9 28,3 8,5
9,5 29,6 9,8
11,1 30,1 10,1
?

Використовуючи можливості майстра діаграм ТП MS Excel, побудуємо кореляційне поле, тобто представимо графічно зв'язок між результуючим ознакою Y і кожним з факторів X. З графіків видно, що між результуючим ознакою Y і кожним з факторів X існує прямо пропорційна залежність, що наближається до

.

.

Досліджуємо тісноту та характер зв'язку між факторами.

Побудова матриці коефіцієнтів парної кореляції.

Використовуючи надбудову "Пакет аналізу" ТП MS Excel (Сервіс - Аналіз даних - Кореляція), побудуємо матрицю коефіцієнтів парної кореляції. Вікно інструменту «Кореляція» представлене малюнку 1. Матриця коефіцієнтів парної кореляції представлено малюнку 2.

Рис.1. -Вікно «Кореляція»

Рис.2. - Матриця коефіцієнтів парної кореляції.

З цієї матриці видно, що всі фактори X1 - X3, що розглядаються, мають тісний зв'язок з результативною ознакою Y. Крім того, всі фактори Х між собою мультиколлінеарні. Тому побудова багатофакторної моделі виду Y = f (Х1, Х2, Х3) неможлива.

Коефіцієнт кореляції відбиває ступінь взаємозв'язку між двома показниками. Завжди набуває значення від -1 до 1. Якщо коефіцієнт розташувався близько 0, то говорять про відсутність зв'язку між змінними.

Якщо значення близько до одиниці (від 0,9, наприклад), між спостерігаються об'єктами існує сильна пряма взаємозв'язок. Якщо коефіцієнт близький до іншої крайньої точки діапазону (-1), то між змінними є сильний зворотний зв'язок. Коли значення знаходиться десь посередині від 0 до 1 або від 0 до -1, то йдеться про слабкий зв'язок (прямий або зворотний). Такий взаємозв'язок зазвичай не враховують: вважається, що його немає.

Розрахунок коефіцієнта кореляції в Excel

Розглянемо з прикладу способи розрахунку коефіцієнта кореляції, особливості прямої та зворотної взаємозв'язку між змінними.

Значення показників x та y:

Y – незалежна змінна, x – залежна. Необхідно знайти силу (сильна/слабка) та напрямок (прямий/зворотний) зв'язок між ними. Формула коефіцієнта кореляції виглядає так:


Щоб спростити її розуміння, розіб'ємо кілька нескладних елементів.

Між змінними визначається сильний прямий зв'язок.

Вбудована функція Корел дозволяє уникнути складних розрахунків. Розрахуємо коефіцієнт парної кореляції Excel з її допомогою. Викликаємо майстер функцій. Знаходимо необхідну. Аргументи функції – масив значень y та масив значень х:

Покажемо значення змінних на графіку:


Видно сильний зв'язок між y та х, т.к. лінії йдуть практично паралельно одна одній. Взаємозв'язок прямий: росте y – росте х, зменшується y – зменшується х.



Матриця парних коефіцієнтів кореляції в Excel

Кореляційна матриця є таблицею, на перетині рядків і стовпців якої знаходяться коефіцієнти кореляції між відповідними значеннями. Має сенс її будувати для кількох змінних.

Матриця коефіцієнтів кореляції в Excel будується за допомогою інструмента Кореляція з пакета Аналіз даних.


Між значеннями y та х1 виявлено сильний прямий взаємозв'язок. Між х1 і х2 є сильний зворотний зв'язок. Зв'язок із значеннями в стовпці х3 практично відсутній.

1. Розрахувати матрицю парних коефіцієнтів кореляції; проаналізувати тісноту та напрямок зв'язку результуючої ознаки Yз кожним із факторів Х; оцінити статистичну значущість коефіцієнтів кореляції r(Y,X i); вибрати найбільш інформативний фактор.

2. Побудувати модель парної регресії із найбільш інформативним чинником; дати економічну інтерпретацію коефіцієнта регресії.

3. Оцінити якість моделі за допомогою середньої відносної помилки апроксимації, коефіцієнта детермінації та F – критерію Фішера (прийняти рівень значущості α=0,05).

4. З довірчою ймовірністю γ=80% здійснити прогнозування середнього значення показника Y(Прогнозні значення факторів наведені у Додатку 6). Подати графічно фактичні та модельні значення Y, результати прогнозування

5. Методом включення збудувати двофакторні моделі, зберігаючи в них найбільш інформативний фактор; побудувати трифакторну модель з повним переліком факторів.

6. Вибрати найкращу з побудованих множинних моделей. Надати економічну інтерпретацію її коефіцієнтів.

7. Перевірити значимість коефіцієнтів множинної регресії за допомогою t-Критерія Стьюдента (прийняти рівень значущості α = 0,05). Чи покращилася якість множинної моделі в порівнянні з парною?

8. Дати оцінку впливу факторів на результат за допомогою коефіцієнтів еластичності, бета- та дельта-коефіцієнтів.

Задача 2. Моделювання одновимірного часового ряду

У Додатку 7 наведено тимчасові ряди Y(t)соціально-економічних показників Алтайського краю за період з 2000 р. по 2011 р. Потрібно дослідити динаміку показника, відповідного варіанту завдання.

варіант Позначення, найменування, одиниця виміру показника
Y1 Споживчі витрати загалом душу населення (на місяць), крб.
Y2 Викиди забруднюючих речовин в атмосферне повітря, тис. тонн
Y3 Середні ціни на вторинному ринку житла (на кінець року, за квадратний метр загальної площі), руб
Y4 Обсяг платних послуг на душу населення, руб
Y5 Середньорічна чисельність зайнятих в економіці, тис. осіб
Y6 Число власних легкових автомобілів на 1000 осіб населення (на кінець року), штук
Y7 Середньодушові грошові доходи (на місяць), руб
Y8 Індекс споживчих цін (грудень до грудня попереднього року), %
Y9 Інвестиції в основний капітал (у цінах, що фактично діяли), млн. руб
Y10 Оборот роздрібної торгівлі на душу населення (у цінах, що фактично діяли), руб


Порядок виконання роботи

1. Побудувати лінійну модель часового ряду, параметри якої оцінити МНК. Пояснити зміст коефіцієнта регресії.

2. Оцінити адекватність побудованої моделі, використовуючи властивості випадковості, незалежності та відповідності залишкової компоненти до нормального закону розподілу.

3. Оцінити точність моделі з урахуванням використання середньої відносної помилки апроксимації.

4. Здійснити прогнозування показника, що розглядається, на рік вперед (прогнозний інтервал розрахувати при довірчій ймовірності 70%).

5. Подати графічно фактичні значення показника, результати моделювання та прогнозування.

6. Провести розрахунок параметрів логарифмічного, поліноміального (поліном 2-го ступеня), статечного, експоненціального та гіперболічного трендів. На підставі графічного зображення та значення індексу детермінації вибрати найбільш підходящий вид тренду.

7. За допомогою кращої нелінійної моделі здійснити точкове прогнозування показника, що розглядається, на рік вперед. Зіставити отриманий результат з довірчим прогнозним інтервалом, побудованим під час використання лінійної моделі.

ПРИКЛАД

Виконання контрольної роботи

Завдання 1

Фірма займається реалізацією вживаних автомобілів. Найменування показників та вихідні дані для економетричного моделювання представлені в таблиці:

Ціна реалізації, тис.у.о. ( Y) Ціна нового авт., тис.у.о. ( Х1) Термін експлуатації, роки ( Х2) Ліве кермо - 1, праве кермо - 0, ( Х3)
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Потрібно:

1. Розрахувати матрицю парних коефіцієнтів кореляції; проаналізувати тісноту та напрямок зв'язку результуючої ознаки Y з кожним із факторів Х; оцінити статистичну значущість коефіцієнтів кореляції r(Y, X i); вибрати найбільш інформативний фактор.

Використовуємо Excel (Дані / Аналіз даних / КОРЕЛЯЦІЯ):

Отримаємо матрицю коефіцієнтів парної кореляції між усіма змінними:

У Х1 Х2 Х3
У
Х1 0,910987
Х2 -0,4156 -0,2603
Х3 0,190785 0,221927 -0,30308

Проаналізуємо коефіцієнти кореляції між результуючою ознакою Yі кожним із факторів X j:

> 0, отже, між змінними Yі Х 1 спостерігається пряма кореляційна залежність: що стоїть ціна нового автомобіля, то вище ціна реалізації.

> 0,7 – це залежність є тісної.

< 0, значит, между переменными Yі Х 2 спостерігається

зворотна кореляційна залежність: ціна реалізації нижче для авто-

мобілів із великим терміном експлуатації.

- Ця залежність помірна, ближче до слабкої.

> 0, отже, між змінними Yі Х 3 спостерігається пряма кореляційна залежність: ціна реалізації вища для автомобілів з лівим кермом.

< 0,4 – эта зависимость слабая.

Для перевірки важливості знайдених коефіцієнтів кореляції використовуємо критерій Стьюдента.

Для кожного коефіцієнта кореляції обчислимо t-статистику за формулою та занесемо результати розрахунків у додатковий стовпець кореляційної таблиці:

У Х1 Х2 Х3 t-статистики
У
Х1 0,910987 7,651524603
Х2 -0,4156 -0,2603 1,582847988
Х3 0,190785 0,221927 -0,30308 0,673265587

По таблиці критичних точок розподілу Ст'юдента за рівня значимості та числі ступенів свободи визначимо критичне значення (Додаток 1, або функція СТЬЮДРАСПОБР).Y та терміном експлуатації Х 2 достовірна.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Yта розташуванням керма Х 3 достовірна.

Таким чином, найбільш тісна та значуща залежність спостерігається між ціною реалізації Yта ціною нового автомобіля Х 1; фактор Х 1 є найінформативнішим.

Аналіз матриці парних коефіцієнтів кореляції показує, що результативний показник найбільш тісно пов'язаний із показником x(4) – кількість добрив, що витрачаються на 1 га ().

У той самий час зв'язок між ознаками-аргументами досить тісний. Так, існує практично функціональний зв'язок між числом колісних тракторів ( x(1)) і числом знарядь поверхневого обробітку ґрунту
.

Про наявність мультиколінеарності свідчать також коефіцієнти кореляції
і
. Враховуючи тісний взаємозв'язок показників x (1) , x(2) та x(3) , До регресійної моделі врожайності може увійти лише один з них.

Щоб продемонструвати негативний вплив мультиколлінеарності, розглянемо регресійну модель врожайності, включивши до неї всі вихідні показники:


F набл = 121.

У дужках вказано значення виправлених оцінок середньоквадратичних відхилень оцінок коефіцієнтів рівняння
.

Під рівнянням регресії представлені такі параметри адекватності: множинний коефіцієнт детермінації
; виправлена ​​оцінка залишкової дисперсії
, Середня відносна помилка апроксимації розрахункове значення-критерію F набл = 121.

Рівняння регресії значимо, т.к. F набл = 121 > F kp = 2,85 знайденого за таблицею F-розподілу при  = 0,05; 1 = 6 і 2 = 14.

На цьому випливає, що 0, тобто. і хоча б один із коефіцієнтів рівняння j (j= 0, 1, 2, ..., 5) не дорівнює нулю.

Для перевірки гіпотези про значущість окремих коефіцієнтів регресії H0: j = 0, де j=1,2,3,4,5, порівнюють критичне значення t kp = 2,14, знайдене за таблицею t-розподілу при рівні значимості  = 2 Q=0,05 та числі ступенів свободи=14, з розрахунковим значенням . З рівняння випливає, що статистично значущим є коефіцієнт регресії лише за x(4) , оскільки t 4 =2,90 > t kp = 2,14.

Не піддаються економічної інтерпретації негативні знаки коефіцієнтів регресії при x(1) та x(5) . З негативних значень коефіцієнтів випливає, що підвищення насиченості сільського господарства колісними тракторами ( x(1)) та засобами оздоровлення рослин ( x(5)) негативно позначається на врожайності. Таким чином, отримане рівняння регресії є неприйнятним.

Для отримання рівняння регресії із значними коефіцієнтами використовуємо покроковий алгоритм регресійного аналізу. Спочатку використовуємо покроковий алгоритм із винятком змінних.

Виключимо з моделі змінну x(1) , якій відповідає мінімальне за абсолютною величиною значення t 1 =0,01. Для змінних, що залишилися, знову побудуємо рівняння регресії:

Отримане рівняння значимо, т.к. F набл = 155 > F kp = 2,90, знайденого при рівні значущості  = 0,05 та числах ступенів свободи  1 =5 та  2 =15 за таблицею F-розподілу, тобто. вектор0. Однак у рівнянні значимий лише коефіцієнт регресії при x(4). Розрахункові значення t j для інших коефіцієнтів менше tкр = 2,131, знайденого за таблицею t-розподілу при  = 2 Q=0,05 та =15.

Виключивши з моделі змінну x(3) , якій відповідає мінімальне значення t 3 = 0,35 і отримаємо рівняння регресії:

(2.9)

В отриманому рівнянні статистично не значущий і економічно не інтерпретуємо коефіцієнт при x(5) . Виключивши x(5) отримаємо рівняння регресії:

(2.10)

Ми отримали значне рівняння регресії зі значними та інтерпретованими коефіцієнтами.

Однак отримане рівняння є не єдино "хорошою" і не "найкращою" моделлю врожайності в нашому прикладі.

Покажемо, що за умови мультиколлінеарності покроковий алгоритм із включенням змінних є ефективнішим.На першому кроці модель урожайності yвходить змінна x(4) , що має найвищий коефіцієнт кореляції з y, що пояснюється змінною r(y,x(4)) = 0,58. На другому кроці, включаючи рівняння поряд з x(4) змінні x(1) або x(3) , ми отримаємо моделі, які з економічних міркувань та статистичних характеристик перевищують (2.10):

(2.11)

(2.12)

Включення в рівняння будь-якої з трьох змінних, що залишилися, погіршує його властивості. Дивись, наприклад, рівняння (2.9).

Таким чином, ми маємо три “хороші” моделі врожайності, з яких потрібно вибрати з економічних та статистичних міркувань одну.

За статистичними критеріями найбільш адекватна модель (2.11). Їй відповідають мінімальні значення залишкової дисперсії =2,26 і середньої відносної помилки апроксимації найбільші значення
і F набл = 273.

Дещо гірші показники адекватності має модель (2.12), а потім - модель (2.10).

Тепер вибиратимемо найкращу з моделей (2.11) та (2.12). Ці моделі відрізняються одна від одної змінними x(1) та x(3) . Однак у моделях урожайностей змінна x(1) (кількість колісних тракторів на 100 га) більш краща, ніж змінна x(3) (кількість знарядь поверхневого обробітку грунту на 100 га), який є деякою мірою вторинним (або похідним від x (1)).

У зв'язку з економічних міркувань перевагу слід віддати моделі (2.12). Таким чином, після реалізації алгоритму покрокового регресійного аналізу з включенням змінних та врахування того, що до рівняння має увійти лише одна з трьох пов'язаних змінних ( x (1) ,x(2) або x(3)) вибираємо остаточне рівняння регресії:

Рівняння значимо при ? = 0,05, т.к. F набл = 266 > F kp = 3,20, знайденого за таблицею F-розподілу при  = Q=0,05; 1 =3 і 2 =17. Значні й усі коефіцієнти регресії і у рівнянні t j > t kp (=2 Q= 0,05; = 17) = 2,11. Коефіцієнт регресії 1 слід визнати значущим ( 1 0) з економічних міркувань, причому t 1 =2,09 лише трохи менше t kp = 2,11.

З рівняння регресії випливає, що збільшення одиницю числа тракторів на 100 га ріллі (при фіксованому значенні x(4)) призводить до зростання врожайності зернових у середньому на 0,345 ц/га.

Наближений розрахунок коефіцієнтів еластичності е 1 0,068 та е 2 0,161 показує, що при збільшенні показників x(1) та x(4) на 1% урожайність зернових підвищується в середньому відповідно на 0,068% та 0,161%.

Множинний коефіцієнт детермінації
свідчить про те, що тільки 46,9% варіації врожайності пояснюється показниками, що увійшли до моделі ( x(1) та x(4)), тобто насиченістю рослинництва тракторами та добривами. Решта варіації обумовлена ​​дією неврахованих факторів ( x (2) ,x (3) ,x(5), погодні умови та ін.). Середня відносна помилка апроксимаціїхарактеризує адекватність моделі, так само як і величина залишкової дисперсії
. При інтерпретації рівняння регресії інтерес становлять значення відносних помилок апроксимації
. Нагадаємо, що - модельне значення результативного показника, що характеризує середнє для сукупності районів, що розглядаються, значення врожайності за умови, що значення пояснюючих змінних x(1) та x(4) зафіксовані на тому самому рівні, а саме x (1) =x i(1) та x (4) = x i(4). Тоді за значенням iможна зіставляти райони за врожайністю. Райони, яким відповідають значення i>0, мають урожайність вище середнього, а i <0 - ниже среднего.

У нашому прикладі, за врожайністю найбільше ефективно рослинництво ведеться в районі, якому відповідає  7 =28%, де врожайність на 28% вища за середню по регіону, і найменш ефективно - в районі с 20 =27,3%.

КАТЕГОРІЇ

ПОПУЛЯРНІ СТАТТІ

2023 «kingad.ru» - УЗД дослідження органів людини