Конструирайте матрица от двойни коефициенти на корелация. Проверете за мултиколинеарност

Икономическите данни представляват количествени характеристики на всякакви икономически обекти или процеси. Те се формират под въздействието на много фактори, не всички от които са достъпни за външен контрол. Неконтролируемите фактори могат да приемат произволни стойности от някакъв набор от стойности и по този начин да накарат данните, които дефинират, да бъдат случайни. Една от основните задачи на икономическите изследвания е анализ на зависимостите между променливите.

При разглеждане на зависимостите между характеристиките е необходимо да се разграничат преди всичко два вида връзки:

  • функционален -се характеризират с пълно съответствие между промяната на факторната характеристика и промяната в получената стойност: Всяка стойност на факторна характеристика съответства на много специфични стойности на получената характеристика.Този тип връзка се изразява като формулирана връзка. Функционалната зависимост може да свърже ефективна характеристика с една или повече факторни характеристики. По този начин размерът на заплатите за почасовите заплати зависи от броя на отработените часове;
  • корелационен- няма пълно съответствие между промяната на два знака; въздействието на отделните фактори се проявява само средно, с масово наблюдение на реални данни. Едновременното въздействие върху изследваната черта на голям брой различни фактори води до факта, че една и съща стойност на факторна характеристика съответства на цялото разпределение на стойностите на получената характеристика,тъй като във всеки конкретен случай други факторни характеристики могат да променят силата и посоката на своето въздействие.

Трябва да се има предвид, че ако има функционална връзка между характеристиките, е възможно, знаейки стойността на факторната характеристика, да се определи точно стойността на резултантния знак.Само при наличие на корелационна зависимост тенденция на промяна в резултантната характеристикакогато се променя стойността на факторната характеристика.

При изучаване на връзките между знаците те се класифицират по посока, форма, брой фактори:

  • къмвръзките се разделят на правИ обратен.При директна връзка посоката на промяна на резултантната характеристика съвпада с посоката на промяна на факторната характеристика. При обратната връзка посоката на промяна в резултантната характеристика е противоположна на посоката на промяна във факторната характеристика. Например, колкото по-висока е квалификацията на работника, толкова по-високо е нивото на производителност на неговия труд (пряка връзка). Колкото по-висока е производителността на труда, толкова по-ниски са разходите за единица продукция (обратна връзка);
  • според формата(тип функция) връзките се разделят на линеен(права линия) и нелинейни(криволинеен). Линейна връзка се представя с права линия, а нелинейна връзка с крива (парабола, хипербола и др.). При линейна зависимост с нарастване на стойността на факторна характеристика има равномерно нарастване (намаляване) на стойността на резултантната характеристика;
  • от броя на факторите, действащи върху ефективната характеристика,връзките се разделят на еднофакторни(сдвоени) и многофакторни.

Изследването на зависимостта на вариациите на признака от условията на околната среда е съдържанието на корелационната теория.

При извършване на корелационен анализ целият набор от данни се разглежда като набор от променливи (фактори), всяка от които съдържа Пнаблюдения.

Когато се изучава връзката между два фактора, те обикновено се обозначават X=(x стр х 2,...,x n)И Y= (y ( , y 2 ,..., y и).

Ковариация -това е статистика мярка за взаимодействиедве променливи. Например, положителна стойност за ковариацията на възвръщаемостта на две ценни книжа показва, че възвръщаемостта на тези ценни книжа има тенденция да се движи в една посока.

Ковариация между две променливи хИ Yизчислено, както следва:

къде са действителните стойности на променливите

хИ G;

Ако случайни променливи Чи Йнезависимо, теоретичната ковариация е нула.

Ковариацията зависи от единиците, в които се измерват променливите хей Y, това е нестандартизирано количество. Следователно, за измерване сила на връзкатамежду две променливи се използва друга статистика, наречена коефициент на корелация.

За две променливи хИ Y двойка корелационен коефициент

се определя, както следва:

Където SSy-оценки на вариациите на количествата Хи Й.Тези оценки характеризират степен на разсейванестойности x (, x 2, ..., x n (y 1, y 2, y n)около средната ви стойност x(yсъответно), или променливост(променливост) на тези променливи върху набор от наблюдения.

дисперсия(оценка на дисперсията) се определя по формулата

Като цяло, за да се получи безпристрастна оценка на дисперсията, сумата от квадратите трябва да се раздели на броя на степените на свобода на оценката (и т.н.),Където П -размер на извадката, R -брой връзки, насложени върху пробата. Тъй като пробата вече е била използвана веднъж за определяне на средната стойност Х,тогава броят на насложените връзки в този случай е равен на едно (p = 1), а броят на степените на свобода на оценката (т.е. броят на независимите елементи на извадката) е равен на (P - 1).

По-естествено е да се измери степента на дисперсия на стойностите на променливата в същите единици, в които се измерва самата променлива. Този проблем се решава чрез индикатор, наречен стандартно отклонение (стандартно отклонение) или стандартна грешкапроменлива х(променлива Y)и се определя от отношението

Членовете в числителя на формула (3.2.1) изразяват взаимодействието на две променливи и определят знака на корелацията (положителен или отрицателен). Ако, например, има силна положителна връзка между променливите (увеличение на една променлива, докато другата се увеличава), всеки член ще бъде положително число. По същия начин, ако има силна отрицателна връзка между променливите, всички членове в числителя ще бъдат отрицателни числа, което води до отрицателна стойност на корелация.

Знаменателят на израза за коефициента на двойна корелация [вж формула (3.2.2)] просто нормализира числителя по такъв начин, че коефициентът на корелация се оказва лесно интерпретируемо число без измерение и приема стойности от -1 до +1.

Числителят на израза за коефициента на корелация, който е труден за тълкуване поради необичайните мерни единици, е ковариация HiU.Въпреки факта, че понякога се използва като независима характеристика (например във финансовата теория за описание на съвместната промяна в цените на акциите на две борси), по-удобно е да се използва коефициентът на корелация. Корелацията и ковариацията представляват по същество една и съща информация, но корелацията представя тази информация в по-полезна форма.

За качествена оценка на коефициента на корелация се използват различни скали, най-често скалата на Chaddock. В зависимост от стойността на коефициента на корелация връзката може да има една от следните оценки:

  • 0,1-0,3 - слаб;
  • 0,3-0,5 - забележимо;
  • 0,5-0,7 - умерено;
  • 0,7-0,9 - високо;
  • 0,9-1,0 - много високо.

Оценката на степента на близост на връзката с помощта на коефициента на корелация се извършва, като правило, въз основа на повече или по-малко ограничена информация за изследваното явление. В тази връзка е необходимо да се оцени значимостта на коефициента на линейна корелация, което позволява да се разширят заключенията, базирани на резултатите от извадката, към генералната съвкупност.

Оценката на значимостта на корелационния коефициент за малки размери на извадката се извършва с помощта на 7-тест на Стюдънт. В този случай действителната (наблюдаваната) стойност на този критерий се определя по формулата

Стойността / obs, изчислена с помощта на тази формула, се сравнява с критичната стойност на 7-критерия, която е взета от таблицата на стойностите на Student / -test ​​(вижте Приложение 2), като се вземе предвид даденото ниво на значимост oc и числото на степените на свобода - 2).

Ако 7 obs > 7 раздела, тогава получената стойност на корелационния коефициент се счита за значима (т.е. нулевата хипотеза, според която корелационният коефициент е равен на нула, се отхвърля). И по този начин се заключава, че има тясна статистическа връзка между изследваните променливи.

Ако стойността g y xблизо до нула, връзката между променливите е слаба. Ако корелацията между случайни променливи:

  • положителен, тогава когато една случайна променлива нараства, другата има тенденция да се увеличава средно;
  • отрицателна, тогава когато една случайна променлива нараства, другата има тенденция да намалява средно. Удобен графичен инструмент за анализиране на сдвоени данни е точкова диаграма, което представлява всяко наблюдение в пространство от две измерения, съответстващи на два фактора. Нарича се също диаграма на разсейване, която изобразява набор от стойности на две характеристики корелационно поле.Всяка точка в тази диаграма има координати x (. и y gТъй като силата на линейната връзка се увеличава, точките на графиката ще лежат по-близо до правата линия и величината Жще бъде по-близо до единството.

Коефициентите на корелация по двойки се използват за измерване на силата на линейните връзки между различни двойки характеристики от набор от тях. За много функции човек получава матрица от двойни коефициенти на корелация.

Нека целият набор от данни се състои от променлива Y = =(y стр y 2, ..., y p)И Tпроменливи (фактори) Х,всяка от които съдържа Пнаблюдения. Променливи стойности YИ Х,съдържащи се в наблюдаваната популация, се записват в таблица (Таблица 3.2.1).

Таблица 3.2.1

Променлива

Номер

наблюдения

X TZ

X tp

Въз основа на данните, съдържащи се в тази таблица, изчислете матрица на двойни корелационни коефициенти R,той е симетричен спрямо главния диагонал:


Анализът на матрицата на двойните коефициенти на корелация се използва при конструирането на модели на множество регресии.

Една корелационна матрица не може да опише напълно зависимостите между величините. В тази връзка многовариантният корелационен анализ разглежда две задачи:

  • 1. Определяне на тясната връзка на една случайна променлива с съвкупността от други променливи, включени в анализа.
  • 2. Определяне на близостта на връзката между две величини при фиксиране или изключване на влиянието на други величини.

Тези проблеми се решават с помощта на множествени и частични корелационни коефициенти, съответно.

Решението на първия проблем (определяне на тясната връзка на една случайна променлива с съвкупността от други променливи, включени в анализа) се извършва с помощта на примерен коефициент на множествена корелацияспоред формулата

Където Р- Р[см. формула (3.2.6)]; Rjj-алгебрично допълнение на елемент от същата матрица Р.

Коефициент на множествена корелация на квадрат SCHй 2 й _j J+l mобикновено се нарича примерен множествен коефициент на определяне; показва каква част от вариацията (произволно разпространение) на изследваната стойност Xjобяснява вариацията на останалите случайни променливи X ( , X 2 ,..., X t.

Коефициентите на множествена корелация и определяне са положителни величини, приемащи стойности в диапазона от 0 до 1. При апроксимиране на коефициента Р 2 до единица, можем да заключим, че връзката между случайните променливи е близка, но не и за нейната посока. Коефициентът на множествена корелация може да се увеличи само ако в модела са включени допълнителни променливи и няма да се увеличи, ако някоя от съществуващите характеристики бъде изключена.

Проверката на значимостта на коефициента на детерминация се извършва чрез сравняване на изчислената стойност на /'-критерия на Фишер

с табличен Ерабл. Табличната стойност на критерия (виж Приложение 1) се определя от даденото ниво на значимост a и степени на свобода v l = mnv 2 = n-m-l.Коефициент R 2е значително различно от нула, ако неравенството е в сила

Ако разглежданите случайни променливи корелират помежду ситогава стойността на коефициента на корелация на двойката е частично повлияна от влиянието на други величини. В тази връзка е необходимо да се изследва частичната корелация между количествата, като се изключи влиянието на други случайни променливи (една или повече).

Примерен частичен коефициент на корелацияопределена по формулата

Където R Jk, Rjj, R kk -алгебрични добавки към съответните матрични елементи Р[см. формула (3.2.6)].

Частичният коефициент на корелация, както и коефициентът на двойна корелация, варират от -1 до +1.

Израз (3.2.9) предмет на t = 3 ще изглежда така

Коефициентът r 12(3) се нарича коефициент на корелация между x (И x 2 за фиксирано x yТой е симетричен по отношение на първичните индекси 1, 2. Неговият вторичен индекс 3 се отнася до фиксирана променлива.

Пример 3.2.1. Изчисляване на двойни коефициенти,

множествена и частична корелация.

В табл 3.2.2 предоставя информация за обемите на продажбите и разходите за реклама на една компания, както и индекса на потребителските разходи за редица текущи години.

  • 1. Постройте диаграма на разсейване (корелационно поле) за променливите „обем на продажбите” и „индекс на потребителските разходи”.
  • 2. Определете степента на влияние на индекса на потребителските разходи върху обема на продажбите (изчислете коефициента на корелация на двойката).
  • 3. Оценете значимостта на изчисления коефициент на корелация на двойки.
  • 4. Постройте матрица от коефициенти на двойна корелация за три променливи.
  • 5. Намерете оценка на коефициента на множествена корелация.
  • 6. Намерете оценки на частичните коефициенти на корелация.

1. В нашия пример диаграмата на разсейване има формата, показана на фиг. 3.2.1. Удължаването на облака от точки на точковата диаграма по наклонената линия ни позволява да направим предположението, че има някаква обективна тенденция за пряка линейна връзка между стойностите на променливите X 2 Y(обем на продажбите).

Ориз. 3.2.1.

2. Междинни изчисления при изчисляване на коефициента на корелация между променливите X 2(Индекс на потребителските разходи) и Y(обем продажби) са дадени в табл. 3.2.3.

Средни стойностислучайни променливи X 2И Y,кои са най-простите индикатори, характеризиращи последователностите jCj, х 2,..., х 16 и y v y 2,..., y 16, изчислете по следните формули:


Обем на продажбите Y, хиляди рубли.

Индекс

консумират

телски

разходи

Обем на продажбите Y, хиляди рубли.

Индекс

консумират

телски

разходи

Таблица 3.2.3

л:, - х

(И - U)(x, - x)

(х, - х) 2

(y, - - y) 2

дисперсияхарактеризира степента на разпространение на ценностите x v x 2,x:

Нека сега разгледаме решението на пример 3.2.1 в Excel.

За да изчислите корелацията с помощта на Excel, можете да използвате функцията =correl(), определящ адресите на две колони с числа, както е показано на фиг. 3.2.2. Отговорът се поставя в D8 и е равен на 0,816.

Ориз. 3.2.2.

(Забележка: Аргументи на функцията корелите трябва да са числа или имена, масиви или препратки, съдържащи числа. Ако аргументът, който е масив или препратка, съдържа текст, булеви стойности или празни клетки, тогава такива стойности се игнорират; обаче се броят клетки, които съдържат нулеви стойности.

Ако масив! и array2 имат различен брой точки от данни, след това функцията correl връща стойността на грешката #n/a.

Ако array1 или array2 е празен или ако o (стандартното отклонение) на техните стойности е нула, тогава функцията correl връща стойността на грешка #div/0!.)

Критичната стойност на t-статистиката на Стюдънт също може да бъде получена с помощта на функцията студийно разпространение на 1 пакет Excel. Като аргументи на функцията трябва да посочите броя на степените на свобода, равни на П- 2 (в нашия пример 16 - 2= 14) и ниво на значимост a (в нашия пример a = 0,1) (фиг. 3.2.3). Ако истинска стойност/-статистиката, взета по модул е ​​по-голяма критичен,тогава с вероятност (1 - а) коефициентът на корелация е значително различен от нула.


Ориз. 3.2.3. Критичната стойност на /-статистиката е 1,7613

Excel включва набор от инструменти за анализ на данни (т.нар. пакет за анализ), предназначени за решаване на различни статистически проблеми. Да се ​​изчисли матрицата на двойните корелационни коефициенти Ртрябва да използвате инструмента Корелация (фиг. 3.2.4) и да зададете параметрите на анализа в съответния диалогов прозорец. Отговорът ще бъде поставен на нов работен лист (фиг. 3.2.5).

1 В Excel 2010 името на функцията studrasprobr променен на stu-

ДЕНТ.ОБР.2Х.

Ориз. 3.2.4.


Ориз. 3.2.5.

  • За основоположници на теорията на корелацията се считат английските статистици Ф. Галтън (1822-1911) и К. Пиърсън (1857-1936). Терминът „корелация“ е заимстван от естествените науки и означава „съотношение, съответствие“. Идеята за корелацията като взаимозависимост между случайни променливи е в основата на математико-статистическата теория на корелацията.

Задача 2

1. Постройте матрица от двойни корелационни коефициенти. Проверете за мултиколинеарност. Обосновете избора на фактори в модела.

2. Конструирайте уравнение на множествена регресия в линейна форма с избрани фактори.

3. Оценете статистическата значимост на регресионното уравнение и неговите параметри с помощта на тестовете на Fisher и Student.

4. Съставете регресионно уравнение със статистически значими фактори. Оценете качеството на регресионното уравнение, като използвате коефициента на определяне R2. Оценете точността на изградения модел.

5. Оценете прогнозата за обема на производството, ако прогнозните стойности на факторите са 75% от техните максимални стойности.

Проблемни условия (Вариант 21)

Според данните, представени в таблица 1 (n = 17), се изследва зависимостта на обема на производството Y (млн. рубли) от следните фактори (променливи):

X 1 – брой на промишлено производствения персонал, души.

X 2 - средна годишна цена на дълготрайните активи, милиона рубли.

Х 3 – амортизация на ДМА, %

X 4 – захранване, kWh.

X 5 - техническо оборудване на един работник, милиони рубли.

X 6 - производство на продаваема продукция на работник, rub.

Таблица 1. Данни за пускане на продукта

Y X 1 X 2 X 3 X 4 X 5 X 6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Конструирайте матрица от двойни коефициенти на корелация. Проверете за мултиколинеарност. Обосновете избора на фактори в модела

Таблица 2 показва матрица на коефициента на корелация на двойки за всички променливи, включени в разглеждането. Матрицата е получена с помощта на инструмента Корелацияот опаковката Анализ на данни V Excel.

Таблица 2. Матрица на корелационните коефициенти на двойки

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Визуалният анализ на матрицата ви позволява да установите:

1) Uима доста високи двойни корелации с променливи X1, X2 (>0,5) и ниско с променливи X3,X4,X5,X6 (<0,5);

2) Анализните променливи X1, X2 демонстрират доста високи двойни корелации, което налага проверка на факторите за наличие на мултиколинеарност между тях. Освен това едно от условията на класическия регресионен модел е допускането за независимост на обяснителните променливи.

За да идентифицираме мултиколинеарността на факторите, ние изпълняваме Тест на Фарар-Глоубер по фактори X1, X2, X3,X4,X5,X6.

Проверката на теста на Farrar-Glouber за мултиколинеарност на факторите включва няколко етапа.

1) Проверка за мултиколинеарност на целия масив от променливи .

Едно от условията на класическия регресионен модел е допускането за независимост на обяснителните променливи. За да се идентифицира мултиколинеарността между факторите, матрицата на междуфакторните корелации R се изчислява с помощта на пакета за анализ на данни (Таблица 3).

Таблица 3. Матрица на междуфакторните корелации R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Съществува силна зависимост (>0,5) между факторите X1 и X2, X5 и X4, X6 и X5.

Детерминантата det (R) = 0,001488 се изчислява с помощта на функцията MOPRED. Детерминантата на матрицата R клони към нула, което ни позволява да направим предположение за общата мултиколинеарност на факторите.

2) Проверка за мултиколинеарност на всяка променлива с други променливи:

· Нека изчислим обратната матрица R -1 с помощта на функцията на Excel MOBR (Таблица 4):

Таблица 4. Обратна матрица R -1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Изчисляване на F-критерии, където са диагоналните елементи на матрицата, n=17, k = 6 (Таблица 5).

Таблица 5. Стойности на F-тест

F1 (X1) F2 (X2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Действителните стойности на F-теста се сравняват с табличната стойност F таблица = 3,21(FDIST(0.05;6;10)) с n1= 6 и n2 = n - k – 1=17-6-1=10 степени на свобода и ниво на значимост α=0.05, където k е броят на факторите.

· Стойностите на F-критериите за фактори X1 и X2 са по-големи от табличните, което показва наличието на мултиколинеарност между тези фактори. Фактор X3 има най-малък ефект върху общата мултиколинеарност на факторите.

3) Проверка за мултиколинеарност на всяка двойка променливи

· Нека изчислим частичните коефициенти на корелация по формулата , където са елементите на матрицата (Таблица 6)

Таблица 6. Матрица на частичните коефициенти на корелация

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Изчисляване T-критерии по формулата (Таблица 7)

n - брой данни = 17

K - брой фактори = 6

Таблица 7.t-тестове за частични коефициенти на корелация

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t таблица = STUDARSOBR(0.05;10) = 2.23

Действителните стойности на t-тестовете се сравняват с табличните стойности със степени на свобода n-k-1 = 17-6-1=10 и ниво на значимост α=0,05;

t21 > tтаблица

t54 > ttable

От таблици 6 и 7 става ясно, че две двойки фактори X1 и X2, X4 и X5 имат висока статистически значима частична корелация, т.е. те са мултиколинеарни. За да се отървете от мултиколинеарността, можете да изключите една от променливите на колинеарната двойка. В двойката X1 и X2 оставяме X2, в двойката X4 и X5 оставяме X5.

По този начин, в резултат на проверката на теста на Farrar-Glouber, остават следните фактори: X2, X3, X5, X6.

При завършване на процедурите за корелационен анализ е препоръчително да се разгледат частичните корелации на избраните фактори с резултата Y.

Нека изградим матрица от сдвоени коефициенти на корелация въз основа на данните в таблица 8.

Таблица 8. Изходни данни за продукта с избрани фактори X2, X3, X5, X6.

Наблюдение № Y X 2 X 3 X 5 X 6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Последната колона на таблица 9 представя стойностите на t-теста за колоната Y.

Таблица 9. Матрица на частичните коефициенти на корелация с резултата Y

Y X2 X3 X5 X6 t критерий (t таблица (0,05;11)= 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

От таблица 9 става ясно, че променливата Yима висока и в същото време статистически значима частична корелация с фактор X2.


Y х 1 х 2 х 3 х 4 х 5 х 6
Y
х 1 0,519
х 2 -0,273 0,030
х 3 0,610 0,813 -0,116
х 4 -0,572 -0,013 -0,022 -0,091
х 5 0,297 0,043 -0,461 0,120 -0,359
х 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Анализ интерфакториален(между „X“!) коефициентите на корелация показват, че стойността от 0,8 надвишава в абсолютна стойностсамо коефициента на корелация между двойка фактори х 1 –х 3 (с удебелен шрифт). Фактори х 1 –х 3 се разпознават като колинеарни.

2. Както е показано в параграф 1, фактори х 1 –х 3 са колинеарни, което означава, че те на практика са дубликати един на друг и включването им едновременно в модела ще доведе до неправилна интерпретация на съответните регресионни коефициенти. Ясно е, че факторът х 3 има по-голям по модулкоефициент на корелация с резултата Yотколкото фактор х 1: r y , х 1 =0,519; r y , х 3 =0,610; (см. маса 1). Това говори за по-силно влияние на фактора х 3 на промяна Y. Фактор х 1 следователно се изключва от разглеждане.

За да се състави регресионно уравнение, стойностите на използваните променливи ( Y,х 2 , х 3 , х 4 , х 5 , х 6) копирайте в празен работен лист ( прил. 3). Изграждаме регресионното уравнение с помощта на добавката „ Анализ на данни...Регресия" (меню " Обслужване"® « Анализ на данни…» ® « Регресия"). Панелът за регресионен анализ с попълнени полета е показан в ориз. 2.

Резултатите от регресионния анализ са дадени в прил. 4и се премести в маса 2. Регресионното уравнение има формата (вижте „ Коефициенти" V маса 2):

Регресионното уравнение се счита за статистически значимо, тъй като вероятността за случайното му формиране във формата, в която е получено, е 8,80 × 10 -6 (вж. "Значение F" V маса 2), което е значително по-ниско от приетото ниво на значимост от a=0,05.

х 3 , х 4 , х 6 под приетото ниво на значимост a=0,05 (виж „ P-стойност" V маса 2), което показва статистическата значимост на коефициентите и значителното влияние на тези фактори върху промяната в годишната печалба Y.

Вероятност за случайно образуване на коефициенти за фактори х 2 и х 5 надвишава приетото ниво на значимост a=0,05 (виж „ P-стойност" V маса 2), и тези коефициенти не се считат за статистически значими.

ориз. 2. Панел за регресионен анализ на модела Y(х 2 , х 3 , х 4 , х 5 , х 6)

таблица 2

Y(х 2 , х 3 , х 4 , х 5 , х 6)

Регресионна статистика
множествено число R 0,868
R-квадрат 0,753
Нормализиран R-квадрат 0,694
Стандартна грешка 242,3
Наблюдения
Дисперсионен анализ
df СС Г-ЦА Е Значение F
Регресия 3749838,2 749967,6 12,78 8.80E-06
остатък 1232466,8 58688,9
Обща сума 4982305,0
Регресионно уравнение
Коефициенти Стандартна грешка t-статистика P-стойност
Y-пресечка 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. Въз основа на резултатите от проверката на статистическата значимост на коефициентите на регресионното уравнение, извършена в предходния параграф, ние изграждаме нов регресионен модел, съдържащ само информативни фактори, които включват:

· фактори, чиито коефициенти са статистически значими;

фактори, чиито коефициенти T- статистиката надвишава единица по абсолютна стойност (с други думи, абсолютната стойност на коефициента е по-голяма от неговата стандартна грешка).

Първата група включва фактори х 3 , х 4 , х 6, към втория - фактор х 2. Фактор х 5 се изключва от разглеждане като неинформативен и крайният регресионен модел ще съдържа фактори х 2 , х 3 , х 4 , х 6 .

За да съставите регресионно уравнение, копирайте стойностите на използваните променливи в празен работен лист ( прил. 5)и извършване на регресионен анализ ( ориз. 3). Резултатите от него са дадени в прил. 6и се премести в маса 3. Регресионното уравнение е:

(см. " Коефициенти" V маса 3).

ориз. 3. Панел за регресионен анализ на модела Y(х 2 , х 3 , х 4 , х 6)

Таблица 3

Резултати от регресионен анализ на модела Y(х 2 , х 3 , х 4 , х 6)

Регресионна статистика
множествено число R 0,866
R-квадрат 0,751
Нормализиран R-квадрат 0,705
Стандартна грешка 237,6
Наблюдения
Дисперсионен анализ
df СС Г-ЦА Е Значение F
Регресия 3740456,2 935114,1 16,57 2.14E-06
остатък 1241848,7 56447,7
Обща сума 4982305,0
Регресионно уравнение
Коефициенти Стандартна грешка t-статистика P-стойност
Y-пресечка 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Регресионното уравнение е статистически значимо: вероятността за случайното му образуване е под приемливото ниво на значимост от a=0,05 (вижте „ Значение F" V маса 3).

Коефициентите за факторите също се считат за статистически значими х 3 , х 4 , х 6: вероятността за произволното им образуване е под приемливото ниво на значимост a=0,05 (виж „ P-стойност" V маса 3). Това показва значително влияние на годишните застрахователни премии х 3, годишен размер на осигурителните вноски х 4 и форми на собственост х 6 за промяна в годишната печалба Y.

Коефициент на фактор х 2 (годишен размер на застрахователните резерви) не е статистически значим. Въпреки това, този фактор все още може да се счита за информативен, тъй като T- статистиката на неговия коефициент надвишава по модулединица, въпреки че допълнителни заключения относно фактора х 2 трябва да се третира с известна предпазливост.

4. Нека оценим качеството и точността на последното регресионно уравнение, като използваме някои статистически характеристики, получени по време на регресионния анализ (вж. . « Регресионна статистика" В маса 3):

множествен коефициент на детерминация

показва, че регресионният модел обяснява 75,1% от вариацията в годишната печалба Yи тази вариация се дължи на промени във факторите, включени в регресионния модел х 2 , х 3 , х 4 и х 6 ;

стандартна грешка на регресия

хиляди рубли.

показва, че стойностите на годишната печалба, предвидени от регресионното уравнение Yсе различават от действителните стойности средно с 237,6 хиляди рубли.

Средната относителна грешка на приближението се определя по приблизителната формула:

Където хиляди рубли. - средна годишна печалба (определена с помощта на вградената функция “ СРЕДНО АРИТМЕТИЧНО»; прил. 1).

д rel показва, че стойностите на годишната печалба, предвидени от регресионното уравнение Yсе различават от действителните стойности средно с 26,7%. Моделът е с незадоволителна точност (при - точността на модела е висока, при - добър с - задоволително, с - незадоволително).

5. За икономическото тълкуване на коефициентите на регресионното уравнение ние таблицираме средните стойности и стандартните отклонения на променливите в изходните данни ( маса 4) . Средните стойности бяха определени с помощта на вградената функция " СРЕДНО АРИТМЕТИЧНО", стандартни отклонения - с помощта на вградената функция " СТАНДАРТНО ОТКЛОНЕНИЕ" (см. прил. 1).

Данните за 2011 г. са предоставени за териториите на Южния федерален окръг на Руската федерация

Територии на федералния окръг

Брутен регионален продукт, милиарди рубли, Y

Инвестиции в дълготрайни активи, милиарди рубли, X1

1. Представител Адигея

2. Представител Дагестан

3. Представител Ингушетия

4. Кабардино-Балкарска република

5. Представител Калмикия

6. Карачаево-Черкеска република

7. Представител Северна Осетия Алания

8. Краснодарски край)

9. Ставрополски край

10. Астраханска област.

11. Волгоградска област.

12. Ростовска област.

  • 1. Изчислете матрицата на двойните корелационни коефициенти; оценете статистическата значимост на корелационните коефициенти.
  • 2. Конструирайте поле на корелация между ефективната характеристика и най-тясно свързания с нея фактор.
  • 3. Изчислете параметрите на регресията на линейната двойка за всеки фактор X.
  • 4. Оценете качеството на всеки модел чрез коефициента на детерминация, средната грешка на приближението и F теста на Фишер. Изберете най-добрия модел.

ще бъде 80% от максималната си стойност. Представете графично: действителни и моделни стойности, прогнозни точки.

  • 6. Използвайки поетапна множествена регресия (метод на изключване или метод на включване), изградете модел на формиране на цената на апартамента поради значими фактори. Дайте икономическа интерпретация на коефициентите на регресионния модел.
  • 7. Оценете качеството на изградения модел. Качеството на модела подобри ли се в сравнение с еднофакторния модел? Оценете влиянието на значимите фактори върху резултата, като използвате коефициентите на еластичност, в - и -? коефициенти

При решаването на този проблем ще извършим изчисления и ще изградим графики и диаграми, като използваме настройките за анализ на данни в Excel.

1. Изчислете матрицата на коефициентите на корелация на двойки и оценете статистическата значимост на коефициентите на корелация

В диалоговия прозорец Корелация, в полето Интервал на въвеждане въведете диапазона от клетки, съдържащи изходните данни. Тъй като сме избрали и заглавията на колоните, поставяме отметка в квадратчето Етикети на първия ред.

Получихме следните резултати:

Таблица 1.1 Матрица на корелационните коефициенти на двойки

Анализът на матрицата на коефициентите на двойна корелация показва, че зависимата променлива Y, т.е. брутният регионален продукт, има по-тясна връзка с X1 (инвестиции в основен капитал). Коефициентът на корелация е 0,936. Това означава, че 93,6% от зависимата променлива Y (брутен регионален продукт) зависи от показателя X1 (инвестиции в основен капитал).

Ще определим статистическата значимост на корелационните коефициенти с помощта на t-теста на Стюдънт. Сравняваме табличната стойност с изчислените стойности.

Нека изчислим стойността на таблицата с помощта на функцията STUDISCOVER.

t таблица = 0,129 с ниво на достоверност 0,9 и степени на свобода (n-2).

Фактор X1 е статистически значим.

2. Нека изградим поле на корелация между ефективния атрибут (брутен регионален продукт) и фактора, който е най-тясно свързан с него (инвестиция в основен капитал)

За да направим това, ще използваме инструмента за точкова диаграма на Excel.

В резултат на това получаваме корелационното поле на цената на брутния регионален продукт, милиарди рубли. и инвестиции в дълготрайни активи, милиарди рубли. (Фигура 1.1.).

Фигура 1.1

3. Изчислете параметрите на линейната двойка регресия за всеки фактор X

За да изчислим параметрите на линейната регресия по двойки, ще използваме инструмента за регресия, включен в настройката за анализ на данни.

В диалоговия прозорец Регресия в полето Интервал на въвеждане Y въведете адреса на диапазона от клетки, които зависимата променлива представлява. В полето

Въведете интервал X, въвеждаме адреса на диапазона, който съдържа стойностите на независимите променливи. Нека изчислим параметрите на сдвоената регресия за фактор X.

За X1 получихме следните данни, представени в таблица 1.2:

Таблица 1.2

Регресионното уравнение за зависимостта на цената на брутния регионален продукт от инвестициите в основен капитал има формата:

4. Нека оценим качеството на всеки модел чрез коефициента на детерминация, средната грешка на приближението и F-теста на Fisher. Нека да определим кой модел е най-добрият.

Получихме коефициента на определяне, средната грешка на приближаване, в резултат на изчисленията, извършени в параграф 3. Получените данни са представени в следните таблици:

X1 данни:

Таблица 1.3а

Таблица 1.4b

А) Коефициентът на детерминация определя каква част от вариацията на признака Y се взема предвид в модела и се дължи на влиянието върху него на фактор X. Колкото по-голяма е стойността на коефициента на детерминация, толкова по-тясна е връзката между черти в изградения математически модел.

Excel се отнася за R-квадрат.

Въз основа на този критерий най-адекватният модел е регресионното уравнение на зависимостта на цената на брутния регионален продукт от инвестициите в основен капитал (Х1).

Б) Изчисляваме средната грешка на приближението по формулата:

където числителят е сумата от квадратите на отклонението на изчислените стойности от действителните. В таблиците той се намира в колоната SS, редът Remaining.

Изчисляваме средната цена на апартамент в Excel с помощта на функцията AVERAGE. = 24,18182 милиарда рубли.

При извършване на икономически изчисления моделът се счита за достатъчно точен, ако средната грешка на приближението е по-малка от 5%; моделът се счита за приемлив, ако средната грешка на приближението е по-малка от 15%.

По този критерий най-адекватен е математическият модел за регресионното уравнение на зависимостта на цената на брутния регионален продукт от инвестициите в основен капитал (Х1).

C) F-тестът се използва за тестване на значимостта на регресионния модел. За да направите това, се прави сравнение и на критичните (таблични) стойности на F-теста на Fisher.

Изчислените стойности са дадени в таблици 1.4b (обозначени с буквата F).

Ще изчислим табличната стойност на F теста на Fisher в Excel с помощта на функцията FDIST. Нека вземем вероятността равна на 0,05. Получено: = 4.75

Изчислените стойности на F теста на Fisher за всеки фактор са сравними със стойността на таблицата:

71.02 > = 4.75 моделът е адекватен по този критерий.

След като анализираме данните и по трите критерия, можем да заключим, че най-добрият математически модел е изграден за фактора брутен регионален продукт, който се описва с линейното уравнение

5. За избрания модел на зависимост на цената на брутния регионален продукт

Ще прогнозираме средната стойност на индикатора на ниво на значимост, ако прогнозираната стойност на фактора е 80% от максималната му стойност. Нека го представим графично: действителни и моделни стойности, прогнозни точки.

Нека изчислим прогнозираната стойност на X; според условието тя ще бъде 80% от максималната стойност.

Нека изчислим X max в Excel с помощта на функцията MAX.

0,8 *52,8 = 42,24

За да получим прогнозни оценки на зависимата променлива, заместваме получената стойност на независимата променлива в линейното уравнение:

5,07+2,14*42,24 = 304,55 милиарда рубли.

Нека определим доверителния интервал на прогнозата, който ще има следните граници:

За да изчислим доверителния интервал за прогнозираната стойност, изчисляваме отклонението от регресионната линия.

За сдвоен регресионен модел стойността на отклонението се изчислява:

тези. стойност на стандартната грешка от таблица 1.5a.

(Тъй като броят на степените на свобода е равен на едно, знаменателят ще бъде равен на n-2). корелационна двойка регресионна прогноза

За да изчислим коефициента, ще използваме функцията на Excel STUDISCOVER, ще вземем вероятността равна на 0,1 и броя на степените на свобода 38.

Изчисляваме стойността с помощта на Excel и получаваме 12294.


Да определим горната и долната граница на интервала.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

По този начин прогнозната стойност = 304,55 хиляди долара ще бъде между долната граница, равна на 277,078 хиляди долара. и горна граница, равна на 332,022 милиарда. Разтрийте.

Действителните и моделните стойности, прогнозните точки са представени графично на Фигура 1.2.


Фигура 1.2

6. Използвайки поетапна множествена регресия (метод на елиминиране), ще изградим модел за формиране на цената на брутния регионален продукт поради значими фактори

За да изградим множествена регресия, ще използваме функцията за регресия на Excel, включително всички фактори. В резултат на това получаваме таблиците с резултати, от които се нуждаем от t-теста на Student.

Таблица 1.8а

Таблица 1.8б

Таблица 1.8c.

Получаваме модел като:

Тъй като< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Нека изберем най-малката абсолютна стойност на t-теста на Стюдънт, тя е равна на 8.427, сравняваме я с табличната стойност, която изчисляваме в Excel, приемаме нивото на значимост равно на 0.10, броят на степените на свобода n-m-1= 12-4=8: =1,8595

Тъй като 8.427>1.8595 моделът трябва да се счита за адекватен.

7. За да оценим значимия фактор на получения математически модел, изчисляваме коефициентите на еластичност и - коефициентите

Коефициентът на еластичност показва с какъв процент ще се промени ефективният атрибут, когато факторният атрибут се промени с 1%:

E X4 = 2,137 * (10,69/24,182) = 0,94%

Тоест, при увеличение на инвестициите в основен капитал от 1%, себестойността се увеличава средно с 0,94%.

Коефициентът показва с каква част от стандартното отклонение се променя средната стойност на зависимата променлива с промяна на независимата променлива с едно стандартно отклонение.

2,137* (14.736/33,632) = 0,936.

Данните за стандартното отклонение се вземат от таблици, получени с помощта на инструмента за описателна статистика.

Таблица 1.11 Описателни статистики (Y)

Таблица 1.12 Описателни статистики (X4)

Коефициентът определя дела на влиянието на фактора в общото влияние на всички фактори:

За да изчислим коефициентите на корелация на двойки, ние изчисляваме матрицата на коефициентите на корелация на двойки в Excel с помощта на инструмента за корелация в настройките за анализ на данни.

Таблица 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Заключение: От получените изчисления можем да заключим, че ефективният атрибут Y (брутен регионален продукт) има голяма зависимост от фактор X1 (инвестиции в основен капитал) (със 100%).

Библиография

  • 1. Магнус Ю.Р., Катишев П.К., Пересецки А.А. Иконометрия. Курс за начинаещи. Урок. 2-ро изд. - М.: Дело, 1998. - с. 69 - 74.
  • 2. Семинар по иконометрия: Учебник / I.I. Елисеева, С.В. Куришева, Н.М. Гордеенко и др., 2002. - стр. 49 - 105.
  • 3. Дохърти К. Въведение в иконометрията: Прев. от английски - М.: ИНФРА-М, 1999. - XIV, с. 262 - 285.
  • 4. Айвизян С.А., Михтирян В.С. Приложна математика и основи на иконометрията. -1998., стр. 115-147.
  • 5. Кремер Н.Ш., Путко Б.А. Иконометрия. -2007. от 175-251.
г х (1) х (2) х (3) х (4) х (5)
г 1.00 0.43 0.37 0.40 0.58 0.33
х (1) 0.43 1.00 0.85 0.98 0.11 0.34
х (2) 0.37 0.85 1.00 0.88 0.03 0.46
х (3) 0.40 0.98 0.88 1.00 0.03 0.28
х (4) 0.58 0.11 0.03 0.03 1.00 0.57
х (5) 0.33 0.34 0.46 0.28 0.57 1.00

Анализът на матрицата на сдвоените коефициенти на корелация показва, че ефективният показател е най-тясно свързан с индикатора х(4) - количеството на консумирания тор на 1 хектар ().

В същото време връзката между атрибутите-аргументи е доста тясна. По този начин има практически функционална връзка между броя на колесните трактори ( х(1)) и броя на инструментите за повърхностна обработка на почвата .

Наличието на мултиколинеарност се показва и от корелационните коефициенти и . Отчитайки тясната връзка между показателите х (1) , х(2) и х(3), само един от тях може да бъде включен в регресионния модел на добива.

За да демонстрирате отрицателното въздействие на мултиколинеарността, помислете за регресионен модел на доходността, включително всички входни индикатори:

F obs = 121.

Стойностите на коригираните оценки на стандартните отклонения на оценките на коефициентите на уравнението са посочени в скоби .

В уравнението на регресията са представени следните параметри на адекватност: множествен коефициент на детерминация; коригирана оценка на остатъчната дисперсия, средна относителна грешка на апроксимация и изчислена стойност на критерия F obs = 121.

Уравнението на регресията е важно, защото F obs = 121 > F kp = 2,85 намерено от таблицата Е-разпределения при a=0,05; n 1 =6 и n 2 =14.

От това следва, че Q¹0, т.е. и поне един от коефициентите на уравнението q й (й= 0, 1, 2, ..., 5) не е нула.

За проверка на хипотезата за значимостта на индивидуалните регресионни коефициенти H0: q j =0, където й=1,2,3,4,5, сравнете критичната стойност T kp = 2,14, установено от табл T-разпределения при ниво на значимост a=2 Q=0,05 и броя на степените на свобода n=14, с изчислената стойност . От уравнението следва, че регресионният коефициент е статистически значим само когато х(4) от ½ T 4 ½=2,90 > T kp =2,14.



Отрицателните знаци на регресионните коефициенти не се поддават на икономическа интерпретация, когато х(1) и х(5) . От отрицателните стойности на коефициентите следва, че увеличаването на наситеността на селското стопанство с колесни трактори ( х(1)) и продукти за растителна защита ( х(5)) има отрицателен ефект върху добива. Следователно полученото регресионно уравнение е неприемливо.

За да получим регресионно уравнение със значими коефициенти, използваме алгоритъм за регресионен анализ стъпка по стъпка. Първоначално използваме алгоритъм стъпка по стъпка с елиминиране на променливи.

Нека изключим променливата от модела х(1) , което съответства на минималната абсолютна стойност от ½ T 1 ½=0,01. За останалите променливи отново изграждаме регресионното уравнение:

Полученото уравнение е важно, защото F наблюдавано = 155 > F kp = 2,90, намерено при ниво на значимост a = 0,05 и броя на степените на свобода n 1 = 5 и n 2 = 15 съгласно таблицата Е-разпределение, т.е. вектор q¹0. Въпреки това, само коефициентът на регресия при х(4) . Прогнозни стойности ½ T j ½ за други коефициенти е по-малко T kr = 2.131, намерено от табл T-разпределения при a=2 Q=0,05 и n=15.

Чрез изключване на променливата от модела х(3) , което съответства на минималната стойност T 3 =0,35 и получаваме регресионното уравнение:

(2.9)

В полученото уравнение коефициентът at х(5) . Чрез изключване х(5) получаваме регресионното уравнение:

(2.10)

Получихме значимо регресионно уравнение със значими и интерпретируеми коефициенти.

Въпреки това, полученото уравнение не е единственият „добър“ и не е „най-добрият“ модел на доходност в нашия пример.

Нека покажем това в условието на мултиколинеарност поетапният алгоритъм с включване на променливи е по-ефективен.Първата стъпка в модела на доходността гвключена променлива х(4) , който има най-висок коефициент на корелация с г, обяснено с променливата - r(г,х(4))=0,58. Във втората стъпка, включително уравнението заедно с х(4) променливи х(1) или х(3), ще получим модели, които по икономически причини и статистически характеристики надвишават (2.10):

(2.11)

(2.12)

Включването на която и да е от трите останали променливи в уравнението влошава свойствата му. Вижте например уравнение (2.9).

Така имаме три „добри“ модела на доходност, от които трябва да изберем един по икономически и статистически причини.

По статистически критерии най-адекватен е модел (2.11). Съответства на минималните стойности на остатъчната дисперсия = 2,26 и средната относителна грешка на приближението и най-големите стойности и Fob = 273.

Модел (2.12) е с малко по-лоши показатели за адекватност, следван от модел (2.10).

Сега ще изберем най-добрия от моделите (2.11) и (2.12). Тези модели се различават един от друг по отношение на променливите х(1) и х(3) . Въпреки това, в моделите на доходност променливата х(1) (брой колесни трактори на 100 ха) е по-предпочитан от променлив х(3) (брой оръдия за повърхностна обработка на 100 ха), което до известна степен е вторично (или произлиза от х (1)).

В тази връзка по икономически причини следва да се даде предпочитание на модел (2.12). По този начин, след прилагане на алгоритъма за поетапен регресионен анализ с включване на променливи и като се вземе предвид фактът, че само една от трите свързани променливи трябва да влезе в уравнението ( х (1) , х(2) или х(3)) изберете крайното регресионно уравнение:

Уравнението е значимо при a=0,05, тъй като F obs = 266 > F kp = 3,20, намерено от таблицата Е-разпределения при a= Q=0,05; n 1 =3 и n 2 =17. Всички регресионни коефициенти в уравнение ½ също са значими T j½> T kp(a=2 Q=0,05; n=17)=2,11. Коефициентът на регресия q 1 трябва да се счита за значим (q 1 ¹0) по икономически причини, докато T 1 =2,09 само малко по-малко T kp = 2,11.

От уравнението на регресията следва, че увеличение с един на броя на тракторите на 100 хектара обработваема земя (при фиксирана стойност х(4)) води до повишаване на добивите на зърно средно с 0,345 ц/ха.

Приблизителното изчисление на коефициентите на еластичност e 1 »0,068 и e 2 »0,161 показва, че с увеличаване на показателите х(1) и х(4) с 1%, добивът на зърно се увеличава средно съответно с 0,068% и 0,161%.

Множественият коефициент на детерминация показва, че само 46,9% от вариацията на добива се обяснява с индикаторите, включени в модела ( х(1) и х(4)), тоест насищането на растениевъдството с трактори и торове. Останалата част от вариацията се дължи на действието на неотчетени фактори ( х (2) , х (3) , х(5), метеорологични условия и др.). Средната относителна грешка на апроксимацията характеризира адекватността на модела, както и стойността на остатъчната дисперсия. При интерпретирането на уравнението на регресията са от интерес стойностите на относителните грешки на приближението . Нека припомним, че - моделната стойност на ефективния индикатор характеризира средната стойност на добива за съвкупността от разглежданите региони, при условие че стойностите на обяснителните променливи х(1) и х(4) са фиксирани на едно и също ниво, а именно х (1) = x i(1) и х (4) = xi(4) . След това, според стойностите на d азМожете да сравнявате региони по добив. Области, на които съответстват стойностите на d аз>0, имат добив над средния и d аз<0 - ниже среднего.

В нашия пример, по отношение на добива, растениевъдството е най-ефективно в площта, съответстваща на d 7 =28%, където добивът е с 28% по-висок от средния за региона, а най-малко ефективен е в зоната с d 20 =-27,3%.


Задачи и упражнения

2.1. От общата популация ( г, х (1) , ..., х(p)), където гима нормален закон на разпределение с условно математическо очакване и дисперсия s 2, произволна извадка от н, остави ( y i, x i (1) , ..., x i(p)) - резултат азтото наблюдение ( аз=1, 2, ..., н). Определете: a) математическото очакване на оценката на вектора чрез най-малките квадрати р; б) ковариационна матрица на оценката на вектора чрез метода на най-малките квадрати р; в) математическо очакване на оценката.

2.2. Съгласно условията на задача 2.1, намерете математическото очакване на сумата от квадратите на отклоненията, дължащи се на регресия, т.е. EQ R, Където

.

2.3. Съгласно условията на задача 2.1, определете математическото очакване на сумата от квадратите на отклоненията, причинени от остатъчната вариация спрямо регресионните линии, т.е. Еквалайзерост, къде

2.4. Докажете, че когато хипотезата H 0 е изпълнена: q=0 статистика

има F-разпределение със степени на свобода n 1 =p+1 и n 2 =n-p-1.

2.5. Докажете, че когато хипотезата H 0: q j =0 е изпълнена, статистиката има t-разпределение с брой степени на свобода n=n-p-1.

2.6. Въз основа на данните (Таблица 2.3) за зависимостта на свиването на фуражния хляб ( г) върху продължителността на съхранение ( х) намерете точкова оценка на условното очакване при допускането, че общото регресионно уравнение е линейно.

Таблица 2.3.

Изисква се: а) да се намерят оценки на остатъчната дисперсия s 2 при допускането, че общото регресионно уравнение има формата ; б) проверете при a=0,05 значимостта на регресионното уравнение, т.е. хипотеза H 0: q=0; в) с надеждност g=0,9 определят интервални оценки на параметрите q 0, q 1; г) с надеждност g=0,95 определя интервалната оценка на условното математическо очакване при х 0 =6; д) определя се при g=0,95 доверителният интервал на прогнозата в точката х=12.

2.7. Въз основа на данни за динамиката на темпа на нарастване на цените на акциите за 5 месеца, дадени в табл. 2.4.

Таблица 2.4.

месеца ( х)
г (%)

и предположението, че общото регресионно уравнение има формата , се изисква: а) да се определят оценки както на параметрите на регресионното уравнение, така и на остатъчната дисперсия s 2 ; б) проверете при a=0,01 значимостта на регресионния коефициент, т.е. хипотези H 0: q 1 =0;

в) с надеждност g=0,95 да се намерят интервални оценки на параметрите q 0 и q 1; г) с надеждност g=0,9 установете интервална оценка на условното математическо очакване при х 0 =4; д) определя се при g=0,9 доверителният интервал на прогнозата в точката х=5.

2.8. Резултатите от изследването на динамиката на наддаване на тегло на млади животни са дадени в таблица 2.5.

Таблица 2.5.

Ако приемем, че общото регресионно уравнение е линейно, се изисква: а) да се определят оценки както на параметрите на регресионното уравнение, така и на остатъчната дисперсия s 2 ; б) проверете при a=0,05 значимостта на регресионното уравнение, т.е. хипотези H 0: q=0;

в) с надеждност g=0,8 да се намерят интервални оценки на параметрите q 0 и q 1; г) с надеждност g=0,98 определят и сравняват интервалните оценки на условното математическо очакване при х 0 =3 и х 1 =6;

д) определя се при g=0,98 доверителният интервал на прогнозата в точката х=8.

2.9. Цена ( г) един екземпляр от книгата в зависимост от тиража ( х) (хиляда екземпляра) се характеризира с данни, събрани от издателството (Таблица 2.6). Определяне на оценки на най-малките квадрати и параметри на уравнение на хиперболична регресия с надеждност g=0,9, конструиране на доверителни интервали за параметри q 0 и q 1, както и условното очакване при х=10.

Таблица 2.6.

Определете оценките и параметрите на регресионното уравнение на формата , тествайте хипотезата H 0 при a = 0,05: q 1 = 0 и конструирайте доверителни интервали с надеждност g = 0,9 за параметрите q 0 и q 1 и условното математическо очакване при х=20.

2.11. В табл 2.8 са представени данни за темпове на растеж (%) на следните макроикономически показатели н=10 развити страни в света за 1992 г.: БНП - х(1) , промишлено производство - х(2) , ценови индекс - х (3) .

Таблица 2.8.

Държави x и параметри на регресионното уравнение, оценка на остатъчната дисперсия; б) проверете при a=0,05 значимостта на регресионния коефициент, т.е. Н 0: q 1 =0; в) с надеждност g=0,9, намерете интервални оценки q 0 и q 1; г) намерете при g=0,95 доверителния интервал за в точката х 0 =x i, Където аз=5; д) сравнете статистическите характеристики на регресионните уравнения: 1, 2 и 3.

2.12. Решете задача 2.11, като вземете ( при) индекс х(1) , а за пояснението ( х) променлива х (3) .

1. Айвазян С.А., Мхитарян В.С. Приложна статистика и основи на иконометрията: Учебник. М., ЕДИНСТВО, 1998 г. (2-ро издание 2001 г.);

2. Айвазян С.А., Мхитарян В.С. Приложна статистика в задачи и упражнения: Учеб. М. ЕДИНСТВО – ДАНА, 2001;

3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Приложна статистика. Изследване на зависимости. М., Финанси и статистика, 1985, 487 с.;

4. Айвазян С.А., Бухстабер В.М., Енюков И.С., Мешалкин Л.Д. Приложна статистика. Класификация и намаляване на размерите. М., Финанси и статистика, 1989, 607 стр.;

5. Джонстън Дж. Иконометрични методи, М.: Статистика, 1980 г., 446 стр.;

6. Дубров А.В., Мхитарян В.С., Трошин Л.И. Многомерни статистически методи. М., Финанси и статистика, 2000 г.;

7. Мхитарян V.S., Трошин L.I. Изследване на зависимости с помощта на корелационни и регресионни методи. М., МЕСИ, 1995, 120 с.;

8. Мхитарян V.S., Дубров A.M., Трошин L.I. Многомерни статистически методи в икономиката. М., МЕСИ, 1995, 149 с.;

9. Дубров A.M., Мхитарян V.S., Трошин L.I. Математическа статистика за бизнесмени и мениджъри. М., МЕСИ, 2000, 140 с.;

10. Лукашин Ю.И. Регресия и адаптивни методи за прогнозиране: Учебник, М., МЕСИ, 1997.

11. Лукашин Ю.И. Адаптивни методи за краткосрочно прогнозиране. - М., Статистика, 1979.


ПРИЛОЖЕНИЯ


Приложение 1. Варианти на задачи за самостоятелно компютърно изследване.

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2023 “kingad.ru” - ултразвуково изследване на човешки органи