Дадена е матрица от сдвоени коефициенти на корелация. Построяване на матрица от двойни коефициенти на корелация

З 1 (T)

З 2 (T)

T

y(t)

З 1 (T)

З 2 (T)

T

y(t)

Основната задача при избора на факторите, включени в корелационния модел, е да се включат в анализа всички основни фактори, които влияят върху нивото на изследваното явление. Въпреки това не е препоръчително да се въвежда голям брой фактори в модела; по-правилно е да се изберат само сравнително малък брой от основните фактори, които вероятно са в корелация с избрания функционален индикатор.

Това може да стане с помощта на така наречената двустепенна селекция. В съответствие с него в модела се включват всички предварително избрани фактори. След това сред тях, на базата на специална количествена оценка и допълнителен качествен анализ, се идентифицират незначително влияещи фактори, които постепенно се отхвърлят, докато останат такива, за които може да се твърди, че наличният статистически материал е в съответствие с хипотезата за тяхната съвместен значим ефект върху зависимата променлива с избраната форма на връзка.

Двустепенният подбор получи най-пълен израз в метода на така наречения многоетапен регресионен анализ, при който отсяването на незначителни фактори се извършва въз основа на техните показатели за значимост, по-специално въз основа на стойността на t f - изчислената стойност на критерия на Стюдънт.

Изчислете t f според намерените коефициенти на корелация на двойки и ги сравнете с t критично за 5% ниво на значимост (двустранно) и 18 степени на свобода (ν = n-2).

където r е стойността на коефициента на корелация на двойката;

n – брой наблюдения (n=20)

Когато сравнявате t f за всеки коефициент с T кр = 2,101 получаваме, че намерените коефициенти се признават за значими, тъй като t f > t кр.

t f за r yx 1 = 2, 5599 ;

t f за r yx 2 = 7,064206 ;

t f за r yx 3 = 2,40218 ;

t f за r x1 x 2 = 4,338906 ;

t f за r x1 x 3 = 15,35065;

t f за r x2 x 3 = 4,749981

При избора на фактори, включени в анализа, те са обект на специфични изисквания. На първо място, показателите, изразяващи тези фактори, трябва да бъдат количествено измерими.

Факторите, включени в модела, не трябва да са във функционална или тясна връзка помежду си. Наличието на такива връзки се характеризира с мултиколинеарност.

Мултиколинеарността показва, че някои фактори характеризират една и съща страна на изследваното явление. Поради това едновременното им включване в модела е непрактично, тъй като те се дублират до известна степен. Ако няма специални предположения в полза на един от тези фактори, трябва да се даде предпочитание на един от тях, който се характеризира с голям коефициент на двойна (или частична) корелация.

Смята се, че граничната стойност е стойността на коефициента на корелация между двата фактора, равна на 0,8.

Мултиколинеарността обикновено води до израждане на матрицата на променливите и следователно до факта, че основната детерминанта намалява стойността си и в границите става близо до нула. Оценките на коефициентите на регресионното уравнение стават силно зависими от точността на намиране на първоначалните данни и променят драстично своите стойности, когато броят на наблюденията се промени.

Матрица на коефициентите на двойна корелация

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

Възлите на матрицата съдържат сдвоени коефициенти на корелация, които характеризират близостта на връзката между факторните характеристики. Анализирайки тези коефициенти, отбелязваме, че колкото по-голяма е тяхната абсолютна стойност, толкова по-голямо е влиянието на съответния факторен знак върху резултантния. Анализът на получената матрица се извършва на два етапа:

1. Ако първата колона на матрицата съдържа корелационни коефициенти, за които /r /< 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Данный фактор оказывает меньшее влияние на результативный признак, нежели оставшиеся четыре признака.

2. Анализирайки двойните коефициенти на корелация на факторните характеристики помежду си, (r XiXj), характеризиращи плътността на тяхната връзка, е необходимо да се оцени тяхната независимост един от друг, тъй като това е необходимо условие за по-нататъшен регресионен анализ. С оглед на факта, че в икономиката няма абсолютно независими признаци, е необходимо да се отделят, ако е възможно, най-независимите. Факторни признаци, които са в тясна корелация един с друг, се наричат ​​мултиколинеарни. Включването на мултиколинеарни характеристики в модела прави невъзможно икономическото тълкуване на регресионния модел, тъй като промяната в един фактор води до промяна в свързаните с него фактори, което може да доведе до „разпадане“ на модела като цяло.

Критерият за мултиколениалност на факторите е следният:

/r XiXj / > 0,8

В получената матрица от сдвоени коефициенти на корелация този критерий се изпълнява от два индикатора, разположени в пресечната точка на редовете И . От всяка двойка от тези характеристики, една трябва да бъде оставена в модела, тя трябва да има по-голямо влияние върху резултантната характеристика. В резултат на това факторите и са изключени от модела; темпът на нарастване на себестойността на продажбите и темпът на нарастване на обема на нейното изпълнение.

И така, въвеждаме фактори X1 и X2 в регресионния модел.

След това се извършва регресионен анализ (услуга, анализ на данни, регресия). Отново съставя таблица с изходни данни с фактори X1 и X2. Регресията като цяло се използва за анализ на въздействието върху отделна зависима променлива на стойностите на независими променливи (фактори) и позволява корелацията между характеристиките да бъде представена под формата на някаква функционална зависимост, наречена регресионно уравнение или корелация- регресионен модел.

В резултат на регресионния анализ получаваме резултатите от изчисляването на многовариантна регресия. Нека анализираме получените резултати.

Всички регресионни коефициенти са значими според t-теста на Стюдънт. Коефициентът на множествена корелация R е 0,925, квадратът на тази стойност (коефициент на определяне) означава, че вариацията на резултантния признак е средно 85,5% поради вариацията на факторните черти, включени в модела. Коефициентът на детерминизъм характеризира плътността на връзката между набора от факторни характеристики и показателя за ефективност. Колкото по-близо е стойността на R-квадрат до 1, толкова по-силна е връзката. В нашия случай индикатор, равен на 0,855, показва правилния избор на фактори и наличието на връзка между факторите и показателя за ефективност.

Разгледаният модел е адекватен, тъй като изчислената стойност на F-критерия на Фишер значително надвишава табличната му стойност (F obl = 52.401; F tabl = 1.53).

Като общ резултат от направения корелационно-регресионен анализ е уравнението на множествената регресия, което има вида:

Полученото регресионно уравнение отговаря на целите на корелационния и регресионен анализ и представлява линеен модел на зависимостта на балансовата печалба на фирмата от два фактора: темпа на нарастване на производителността на труда и коефициента на индустриална собственост.

Въз основа на получения модел можем да заключим, че при повишаване на нивото на производителност на труда с 1% спрямо предходния период, балансовата печалба ще се увеличи с 0,95 процентни пункта; увеличение на коефициента на индустриална собственост с 1% ще доведе до увеличение на ефективния показател с 27,9 процентни пункта. Следователно доминиращото влияние върху растежа на балансовата печалба е увеличението на стойността на индустриалната собственост (обновяване и растеж на дълготрайните активи на предприятието).

Съгласно модела на множествената регресия се извършва многофакторна прогноза на ефективния признак. Нека се знае, че X1 = 3,0 и X3 = 0,7. Нека заместим стойностите на факторните знаци в модела, получаваме Cup = 0,95 * 3,0 + 27,9 * 0,7 - 19,4 = 2,98. По този начин, с увеличаване на производителността на труда и модернизация на дълготрайните активи в предприятието, балансовата печалба през 1-во тримесечие на 2005 г. спрямо предходния период (4-то тримесечие на 2004 г.) ще се увеличи с 2,98%.

Икономическите данни са количествени характеристики на всякакви икономически обекти или процеси. Те се формират под въздействието на много фактори, не всички от които са достъпни за външен контрол. Неконтролируемите фактори могат да приемат произволни стойности от набор от стойности и по този начин да причинят произволността на данните, които определят. Една от основните задачи на икономическите изследвания е анализ на зависимостите между променливите.

Като се имат предвид зависимостите между характеристиките, е необходимо да се разграничат преди всичко два вида връзки:

  • функционален -се характеризират с пълно съответствие между промяната в факторния атрибут и промяната в получената стойност: всяка стойност на атрибута-фактор съответства на добре дефинирани стойности на ефективния атрибут.Този тип връзка се изразява като формулирана връзка. Функционалната зависимост може да свърже резултатна черта с една или повече факторни черти. По този начин размерът на заплатите за почасови заплати зависи от броя на отработените часове;
  • корелация- няма пълно съответствие между промяната на два знака, влиянието на отделните фактори се проявява само средно, с масово наблюдение на действителните данни. Едновременното въздействие върху изследваната черта на голям брой различни фактори води до факта, че същата стойност на атрибута-фактор съответства на цялото разпределение на стойностите на получения атрибут,тъй като във всеки конкретен случай други факторни признаци могат да променят силата и посоката на своето въздействие.

Трябва да се има предвид, че ако има функционална връзка между знаците, е възможно, знаейки стойността на знака на фактора, да се определи точно стойността на резултата.Само при наличие на корелационна зависимост тенденция на промяна на ефективния признакпри промяна на стойността на факторния знак.

Изучавайки връзката между знаците, те се класифицират според посоката, формата, броя на факторите:

  • къмвръзките се разделят на правИ обратен.При пряка връзка посоката на промяна на резултантния атрибут съвпада с посоката на промяна на знаковия фактор. При обратната връзка посоката на промяна в ефективната характеристика е противоположна на посоката на промяна във фактора на характеристиката. Например, колкото по-висока е квалификацията на работника, толкова по-високо е нивото на производителност на неговия труд (пряка връзка). Колкото по-висока е производителността на труда, толкова по-ниска е себестойността на единица продукция (обратна връзка);
  • информирам(тип функция) връзките се разделят на линеен(праволинейна) и нелинейни(криволинеен). Линейната връзка се показва като права линия, нелинейната връзка - като крива (парабола, хипербола и др.). При линейна връзка с увеличаване на стойността на факторния атрибут има равномерно увеличение (намаляване) на стойността на резултантния атрибут;
  • от броя на факторите, действащи върху ефективния знак,комуникациите се делят на еднофакторни(сдвоени) и многофакторни.

Изследването на зависимостта на изменението на знака от околните условия е съдържанието на теорията на корелацията.

При извършване на корелационен анализ целият набор от данни се разглежда като набор от променливи (фактори), всяка от които съдържа Пнаблюдения.

Когато се изучава връзката между два фактора, те обикновено се обозначават X=(x стр х 2,...,x p)И Y= (y ( , y 2 ,..., y и).

Ковариация -това е статистическо мярка за взаимодействиедве променливи. Например, положителна стойност за ковариацията на възвръщаемостта на две ценни книжа показва, че възвръщаемостта на тези ценни книжа има тенденция да се движи в същата посока.

Ковариация между две променливи хИ Yизчислено, както следва:

къде са действителните стойности на променливите

хИ G;

Ако случайни променливи Хи Йса независими, теоретичната ковариация е нула.

Ковариацията зависи от единиците, в които се измерват променливите хей Y, това е ненормализирано количество. Следователно, за измерване комуникационни силимежду две променливи се използва друга статистика, наречена коефициент на корелация.

За две променливи хИ Y двойка корелационен коефициент

се определя, както следва:

Където SSy-дисперсионни оценки Хи Й.Тези оценки характеризират степен на дисперсиястойности x (, x 2, ..., x n (y 1, y 2, y n)около средната ви стойност x (yсъответно), или променливост(променливост) на тези променливи върху набор от наблюдения.

дисперсия(оценка на дисперсията) се определя по формулата

В общия случай, за да се получи безпристрастна оценка на дисперсията, сумата от квадратите трябва да се раздели на броя на степените на свобода на оценката (и т.н.),Където П -размер на извадката, R -броя на връзките, наложени върху извадката. Тъй като пробата вече е била използвана веднъж за определяне на средната стойност х,тогава броят на насложените връзки в този случай е равен на единица (p = 1), а броят на степените на свобода на оценката (т.е. броят на независимите елементи на извадката) е равен на (P - 1).

По-естествено е степента на разпространение в стойностите на променливите да се измерва в същите единици, в които се измерва самата променлива. Този проблем се решава чрез индикатор, наречен стандартно отклонение (стандартно отклонение) или стандартна грешкапроменлива х(променлива Y)и се определя от съотношението

Членовете в числителя на формула (3.2.1) изразяват взаимодействието на две променливи и определят знака на корелацията (положителен или отрицателен). Ако, например, има силна положителна връзка между променливите (увеличаване на една променлива, когато другата се увеличава), всеки член ще бъде положително число. По същия начин, ако има силна отрицателна връзка между променливите, всички членове в числителя ще бъдат отрицателни числа, което води до отрицателна стойност на корелация.

Знаменателят на израза за коефициента на корелация на двойката [вж. формула (3.2.2)] просто нормализира числителя по такъв начин, че коефициентът на корелация се оказва лесно интерпретируемо число, което няма измерение и приема стойности от -1 до +1.

Числителят на израза за коефициента на корелация, който е труден за тълкуване поради необичайни единици, е XY ковариация.Въпреки факта, че понякога се използва като независима характеристика (например в теорията на финансите за описание на съвместната промяна в цените на акциите на две борси), по-удобно е да се използва коефициентът на корелация. Корелацията и ковариацията представляват по същество една и съща информация, но корелацията представя тази информация в по-удобна форма.

За качествена оценка на коефициента на корелация се използват различни скали, най-често скалата на Chaddock. В зависимост от стойността на коефициента на корелация връзката може да има една от следните оценки:

  • 0,1-0,3 - слаб;
  • 0,3-0,5 - забележимо;
  • 0,5-0,7 - умерено;
  • 0,7-0,9 - високо;
  • 0,9-1,0 - много високо.

Оценката на степента на близост на връзката с помощта на коефициента на корелация се извършва, като правило, въз основа на повече или по-малко ограничена информация за изследваното явление. В тази връзка е необходимо да се оцени значимостта на коефициента на линейна корелация, което позволява да се разширят заключенията, базирани на резултатите от извадката, към генералната съвкупност.

Оценката на значимостта на корелационния коефициент за малки извадки се извършва с помощта на 7-тест на Стюдънт. В този случай действителната (наблюдаваната) стойност на този критерий се определя по формулата

Стойността / obs, изчислена с помощта на тази формула, се сравнява с критичната стойност на θ-критерия, който се взема от таблицата със стойности на /-теста на Student (вижте Приложение 2), като се вземе предвид даденото ниво на значимост σ и броя на степените на свобода - 2).

Ако 7 obs > 7 tab, тогава получената стойност на коефициента на корелация се признава за значима (т.е. нулевата хипотеза, която твърди, че коефициентът на корелация е равен на нула, се отхвърля). И така се заключава, че има тясна статистическа връзка между изследваните променливи.

Ако стойността y xблизо до нула, връзката между променливите е слаба. Ако корелацията между случайни променливи:

  • е положителен, тогава когато една случайна променлива нараства, другата има тенденция да се увеличава средно;
  • е отрицателна, тогава, когато една случайна променлива нараства, другата има тенденция да намалява средно. Удобен графичен инструмент за анализиране на сдвоени данни е точкова диаграма, което представлява всяко наблюдение в пространство от две измерения, съответстващи на два фактора. Точкова диаграма, която изобразява набор от стойности на две характеристики, също се нарича корелационно поле.Всяка точка от тази диаграма има x координати (. и y gТъй като силата на линейната връзка се увеличава, точките на графиката ще лежат по-близо до права линия и величината Жще бъде по-близо до единството.

Корелационните коефициенти на двойки се използват за измерване на силата на линейните връзки между различни двойки характеристики от техния набор. За набор от функции вземете матрица от двойни коефициенти на корелация.

Нека целият набор от данни се състои от променлива Y==(на r y 2, ..., y p)И Tпроменливи (фактори) х,всяка от които съдържа Пнаблюдения. Променливи стойности YИ х,съдържащи се в наблюдаваната популация, се записват в таблицата (Таблица 3.2.1).

Таблица 3.2.1

Променлива

Номер

наблюдения

X t3

Х tp

Въз основа на данните, съдържащи се в тази таблица, изчислете матрицата на двойните корелационни коефициенти R,той е симетричен спрямо главния диагонал:


Анализът на матрицата на двойните корелационни коефициенти се използва при конструирането на модели на множествена регресия.

Една корелационна матрица не може да опише напълно зависимостите между величините. В тази връзка в многовариантния корелационен анализ се разглеждат два проблема:

  • 1. Определяне на тясността на връзката на една случайна променлива с съвкупността от други променливи, включени в анализа.
  • 2. Определяне на плътността на връзката между две величини при фиксиране или изключване на влиянието на други величини.

Тези проблеми се решават съответно с помощта на множествени и частични корелационни коефициенти.

Решението на първия проблем (определяне на плътността на връзката на една случайна променлива с набора от други променливи, включени в анализа) се извършва с помощта на примерен коефициент на множествена корелацияспоред формулата

Където Р- Р[см. формула (3.2.6)]; Rjj-алгебрично допълнение на елемент от същата матрица Р.

Квадратът на коефициента на множествена корелация SCHj2 й _j J+l mНаречен селективен множествен коефициент на детерминация; той показва каква част от вариацията (случайно разсейване) на изследваното количество Xjобяснява вариацията на други случайни променливи X ( , X 2 ,..., X t.

Коефициентите на множествена корелация и определяне са положителни стойности, приемащи стойности в диапазона от 0 до 1. Когато коефициентът се приближи Р 2 до единица, можем да заключим, че връзката на случайните променливи е близка, но не и за нейната посока. Коефициентът на множествена корелация може да се увеличи само ако в модела са включени допълнителни променливи и няма да се увеличи, ако някоя от наличните функции бъде изключена.

Проверката на значимостта на коефициента на детерминация се извършва чрез сравняване на изчислената стойност на /'-критерия на Фишер

с табличен Ерабл. Табличната стойност на критерия (виж Приложение 1) се определя от даденото ниво на значимост a и степени на свобода v l \u003d mnv 2 \u003d n-m-l.Коефициент R2е значително различно от нула, ако неравенството

Ако разглежданите случайни величини корелират помежду ситогава стойността на коефициента на корелация на двойката е частично повлияна от влиянието на други величини. В тази връзка е необходимо да се изследва частичната корелация между променливите, като същевременно се изключи влиянието на други случайни променливи (една или повече).

Примерен частичен коефициент на корелациясе определя по формулата

Където RJk, Rjj, Rkk -алгебрични добавки към съответните матрични елементи Р[см. формула (3.2.6)].

Коефициентът на частична корелация, както и коефициентът на корелация по двойки, варират от -1 до +1.

Израз (3.2.9) при условието t = 3 ще изглежда така

Коефициентът r 12(3) се нарича коефициент на корелация между x (И x 2 за фиксирано x yТой е симетричен по отношение на първичните индекси 1, 2. Неговият вторичен индекс 3 се отнася за фиксирана променлива.

Пример 3.2.1. Изчисляване на двойни коефициенти,

множествена и частична корелация.

В табл. 3.2.2 предоставя информация за обемите на продажбите и разходите за реклама на една компания, както и индекса на потребителските разходи за редица текущи години.

  • 1. Постройте точкова диаграма (корелационно поле) за променливите „обем на продажбите“ и „индекс на потребителските разходи“.
  • 2. Определете степента на влияние на индекса на потребителските разходи върху обема на продажбите (изчислете коефициента на корелация на двойката).
  • 3. Оценете значимостта на изчисления коефициент на корелация на двойки.
  • 4. Изградете матрица от двойни корелационни коефициенти за три променливи.
  • 5. Намерете оценка на коефициента на множествена корелация.
  • 6. Намерете оценки на частичните корелационни коефициенти.

1. В нашия пример диаграмата на разсейване има формата, показана на фиг. 3.2.1. Удължението на облака от точки в диаграмата на разсейване по наклонена права линия ни позволява да направим предположение, че има някаква обективна тенденция за пряка линейна зависимост между стойностите на променливите X 2 Y(обем на продажбите).

Ориз. 3.2.1.

2. Междинни изчисления при изчисляване на коефициента на корелация между променливите X 2(индекс на потребителските разходи) и Y(обем продажби) са дадени в табл. 3.2.3.

Средни стойностислучайни променливи X 2И Y,кои са най-простите индикатори, характеризиращи последователностите jCj, х 2,..., х 16 и y v y 2,..., y 16 , изчисляваме по следните формули:


Обем на продажбите Y, хиляди рубли

Индекс

консумират

Телски

разходи

Обем на продажбите Y, хиляди рубли

Индекс

консумират

Телски

разходи

Таблица 3.2.3

л:, - х

(И - Y)(x, - x)

(х, - х) 2

(y, - - y) 2

дисперсияхарактеризира степента на разпространение на ценностите x v x 2, x:

Помислете сега за решението на Пример 3.2.1 в Excel.

За да изчислите корелацията с помощта на Excel, можете да използвате функцията =correl(), указващ адресите на две колони с числа, както е показано на фиг. 3.2.2. Отговорът се поставя в D8 и е равен на 0,816.

Ориз. 3.2.2.

(Забележка: Аргументи на функцията корелите трябва да са числа или имена, масиви или препратки, съдържащи числа. Ако аргументът, който е масив или връзка, съдържа текст, булеви стойности или празни клетки, тогава тези стойности се игнорират; обаче клетките, които съдържат нулеви стойности, се броят.

Ако масив! и array2 имат различен брой точки от данни, отколкото функцията correl връща стойността за грешка #n/a.

Ако array1 или array2 е празен или ако o (стандартното отклонение) на техните стойности е нула, тогава функцията correl връща стойността на грешка #div/0 !.)

Критичната стойност на /-статистиката на Студент също може да бъде получена с помощта на функцията steudrasprobr 1 Excel пакет. Като аргументи на функцията трябва да посочите броя на степените на свобода, равен на П- 2 (в нашия пример 16 - 2= 14) и ниво на значимост a (в нашия пример a = 0,1) (фиг. 3.2.3). Ако истинска стойност/-статистика, взета по модул, повече критичен,тогава с вероятност (1 - а) коефициентът на корелация е значително различен от нула.


Ориз. 3.2.3. Критичната стойност на /-статистиката е 1,7613

Excel включва набор от инструменти за анализ на данни (т.нар. пакет за анализ), предназначени за решаване на различни статистически проблеми. Да се ​​изчисли матрицата на двойните корелационни коефициенти Ризползвайте инструмента Корелация (фиг. 3.2.4) и задайте параметрите на анализа в съответния диалогов прозорец. Отговорът ще бъде поставен на нов работен лист (фиг. 3.2.5).

1 В Excel 2010, името на функцията steudrasprobr променен на steu-

DENT.ORD.2X.

Ориз. 3.2.4.


Ориз. 3.2.5.

  • За основоположници на корелационната теория се смятат английските статистици Ф. Галтън (1822-1911) и К. Пиърсън (1857-1936). Терминът "корелация" е заимстван от естествените науки и означава "съотношение, съответствие". Концепцията за корелация като взаимозависимост между случайни величини е в основата на математико-статистическата теория на корелацията.

За териториите на Южния федерален окръг на Руската федерация са дадени данни за 2011 г

Територии на федералния окръг

Брутен регионален продукт, милиарди рубли, Y

Инвестиции в основен капитал, милиарди рубли, X1

1. Представител Адигея

2. Представител Дагестан

3. Представител Ингушетия

4. Кабардино-Балкарска република

5. Представител Калмикия

6. Карачаево-Черкеска република

7. Представител Северна Осетия Алания

8. Краснодарски край)

9. Ставрополски край

10. Астраханска област

11. Волгоградска област

12. Ростовска област

  • 1. Изчислете матрицата на сдвоените коефициенти на корелация; оценете статистическата значимост на корелационните коефициенти.
  • 2. Изградете корелационното поле на резултантната характеристика и най-тясно свързания фактор.
  • 3. Изчислете параметрите на регресията на линейната двойка за всеки фактор X.
  • 4. Оценете качеството на всеки модел чрез коефициента на детерминация, средната апроксимационна грешка и F-теста на Fisher. Изберете най-добрия модел.

ще бъде 80% от максималната си стойност. Представете графично: действителни и моделни стойности, прогнозни точки.

  • 6. Използвайки поетапна множествена регресия (метод на изключване или метод на включване), изградете модел на формиране на цената на апартамента поради значими фактори. Дайте икономическа интерпретация на коефициентите на регресионния модел.
  • 7. Оценете качеството на изградения модел. Подобри ли се качеството на модела в сравнение с еднофакторния модел? Дайте оценка на влиянието на значимите фактори върху резултата, като използвате коефициенти на еластичност, в - и -? коефициенти.

При решаването на този проблем ще извършим изчисления и ще начертаем графики и диаграми с помощта на настройките на Excel Анализ на данните.

1. Изчислете матрицата на сдвоените корелационни коефициенти и оценете статистическата значимост на корелационните коефициенти

В диалоговия прозорец Корелация, в полето Интервал на въвеждане въведете диапазона от клетки, съдържащи изходните данни. Тъй като избрахме и заглавията на колоните, поставяме отметка в квадратчето Етикети в първия ред.

Получихме следните резултати:

Таблица 1.1 Матрица на коефициентите на двойна корелация

Анализът на матрицата на двойните корелационни коефициенти показва, че зависимата променлива Y, т.е. брутният регионален продукт, има по-тясна връзка с X1 (инвестиции в основен капитал). Коефициентът на корелация е 0,936. Това означава, че зависимата променлива Y (брутен регионален продукт) е 93,6% зависима от X1 (инвестиции в дълготрайни активи).

Статистическата значимост на коефициентите на корелация ще бъде определена с помощта на t-теста на Student. Таблицата се сравнява с изчислените стойности.

Нека изчислим стойността на таблицата с помощта на функцията STUDRIST.

t таблица = 0,129 с ниво на достоверност равно на 0,9 и степен на свобода (n-2).

Факторът X1 е статистически значим.

2. Нека изградим полето на корелация на ефективния признак (брутен регионален продукт) и най-тясно свързания фактор (инвестиции в основен капитал)

За целта ще използваме инструмента за конструиране на точкова диаграма в Excel.

В резултат на това получаваме полето на корелация на цената на брутния регионален продукт, милиарди рубли. и инвестиции в основен капитал, милиарди рубли. (Фигура 1.1.).

Фигура 1.1

3. Изчислете параметрите на линейната двойка регресия за всеки фактор X

За да изчислим параметрите на линейна регресия по двойки, ще използваме инструмента за регресия, включен в настройката за анализ на данни.

В диалоговия прозорец Регресия в полето Интервал на въвеждане Y въведете адреса на диапазона от клетки, който представлява зависимата променлива. В полето

Въведете интервал X, въвеждаме адреса на диапазона, който съдържа стойностите на независимите променливи. Нека изчислим параметрите на двойната регресия за фактор X.

За X1 бяха получени следните данни, представени в таблица 1.2:

Таблица 1.2

Регресионното уравнение за зависимостта на цената на брутния регионален продукт от инвестициите в основен капитал има вида:

4. Да оценим качеството на всеки модел чрез коефициента на детерминация, средната апроксимационна грешка и F-критерия на Фишер. Нека да разберем кой модел е най-добрият.

Коефициентът на определяне, средната грешка на приближаване, получихме в резултат на изчисленията, извършени в параграф 3. Получените данни са представени в следните таблици:

Данни за X1:

Таблица 1.3а

Таблица 1.4b

А) Коефициентът на детерминация определя каква част от вариацията на атрибута Y се взема предвид в модела и се дължи на влиянието върху него на фактора X. Колкото по-голяма е стойността на коефициента на детерминация, толкова по-тясна е връзката между атрибутите в изградения математически модел.

В Excel се обозначава R-квадрат.

Въз основа на този критерий най-адекватният модел е регресионното уравнение на зависимостта на цената на брутния регионален продукт от инвестициите в дълготрайни активи (Х1).

B) Изчислете средната грешка на приближението по формулата:

където числителят е сумата от квадратите на отклоненията на изчислените стойности от действителните. В таблиците той е в колоната SS, ред Остатъци.

Изчисляваме средната стойност на цената на апартамент в Excel с помощта на функцията AVERAGE. = 24,18182 милиарда рубли

При извършване на икономически изчисления моделът се счита за достатъчно точен, ако средната грешка на приближението е по-малка от 5%, моделът се счита за приемлив, ако средната грешка на приближението е по-малка от 15%.

По този критерий най-адекватен е математическият модел за регресионното уравнение на зависимостта на цената на брутния регионален продукт от инвестициите в дълготрайни активи (Х1).

C) F-тест се използва за тестване на значимостта на регресионния модел. За това се прави и сравнение на критичните (таблични) стойности на F-теста на Фишер.

Изчислените стойности са дадени в таблици 1.4b (обозначени с буквата F).

Табличната стойност на F-теста на Fisher се изчислява в Excel с помощта на функцията FDISP. Приемаме вероятността равна на 0,05. Получено: = 4.75

Изчислените стойности на F-теста на Фишер за всеки фактор са сравними с табличната стойност:

71.02 > = 4.75 моделът е адекватен по този критерий.

След като анализираме данните и за трите критерия, можем да заключим, че най-добър е изграденият математически модел за фактора брутен регионален продукт, който се описва с линейното уравнение

5. За избрания модел на зависимостта на цената от брутния регионален продукт

ще прогнозираме средната стойност на индикатора на ниво значимост, ако прогнозираната стойност на фактора е 80% от максималната му стойност. Да представим графично: действителни и моделни стойности, прогнозни точки.

Изчислете прогнозираната стойност на X, според условието тя ще бъде 80% от максималната стойност.

Изчислете X max в Excel с помощта на функцията MAX.

0,8 *52,8 = 42,24

За да получим прогнозни оценки на зависимата променлива, заместваме получената стойност на независимата променлива в линейното уравнение:

5,07 + 2,14 * 42,24 \u003d 304,55 милиарда рубли.

Нека определим доверителния интервал на прогнозата, който ще има следните граници:

За да изчислим доверителния интервал за прогнозираната стойност, изчисляваме отклонението от регресионната линия.

За сдвоен регресионен модел стойността на отклонението се изчислява:

тези. стойността на стандартната грешка от таблица 1.5a.

(Тъй като броят на степените на свобода е една, знаменателят ще бъде равен на n-2). корелационна двойна регресионна прогноза

За да изчислим коефициента, ще използваме функцията на Excel STUDRASP, вероятността ще бъде приета равна на 0,1, броят на степените на свобода е 38.

Изчисляваме стойността с помощта на Excel, получаваме 12294.


Нека дефинираме горната и долната граница на интервала.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

По този начин прогнозната стойност = 304,55 хиляди долара ще бъде между долната граница, равна на 277,078 хиляди долара. и горна граница, равна на 332,022 милиарда рубли. Разтрийте.

Действителните и моделните стойности, прогнозните точки са представени графично на Фигура 1.2.


Фигура 1.2

6. Чрез стъпаловидна множествена регресия (метод на изключване) ще изградим модел за формиране на цената на брутния регионален продукт от значими фактори

За да изградим множествена регресия, ще използваме функцията Excel Regression, включвайки всички фактори в нея. В резултат на това получаваме таблици с резултати, от които се нуждаем от t-теста на Student.

Таблица 1.8а

Таблица 1.8б

Таблица 1.8c.

Получаваме модела на изгледа:

Тъй като< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Нека изберем най-малката модулна стойност на t-теста на Стюдънт, тя е равна на 8,427, сравним я с табличната стойност, която изчисляваме в Excel, вземем нивото на значимост равно на 0,10, броят на степените на свобода n-m-1=12- 4=8: =1,8595

Тъй като 8.427>1.8595 моделът трябва да се признае за адекватен.

7. За да оценим значимия фактор на получения математически модел, изчисляваме коефициентите на еластичност и - коефициентите

Коефициентът на еластичност показва с колко процента ще се промени резултатният знак, когато знакът на фактора се промени с 1%:

E X4 \u003d 2,137 * (10,69 / 24,182) \u003d 0,94%

Тоест при увеличение на инвестициите в основен капитал с 1% себестойността се увеличава средно с 0,94%.

Коефициентът показва с каква част от стойността на стандартното отклонение се променя средната стойност на зависимата променлива с промяна на независимата променлива с едно стандартно отклонение.

2,137* (14.736/33,632) = 0,936.

Данните за стандартното отклонение се вземат от таблици, получени с помощта на инструмента за описателна статистика.

Таблица 1.11 Описателни статистики (Y)

Таблица 1.12 Описателни статистики (X4)

Коефициентът определя дела на влиянието на фактора в общото влияние на всички фактори:

За да изчислим коефициентите на корелация на двойки, ние изчисляваме матрицата на коефициентите на корелация на двойки в Excel с помощта на инструмента за корелация на настройките за анализ на данни.

Таблица 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Заключение: Въз основа на получените изчисления можем да заключим, че ефективният атрибут Y (брутен регионален продукт) е силно зависим от фактор X1 (инвестиции в основен капитал) (със 100%).

Библиография

  • 1. Магнус Я.Р., Катишев П.К., Пересецки А.А. Иконометрия. Първоначален курс. Урок. 2-ро изд. - М.: Дело, 1998. - с. 69 - 74.
  • 2. Семинар по иконометрия: Учебник / I.I. Елисеева, С.В. Куришева, Н.М. Gordeenko и други 2002. - p. 49 - 105.
  • 3. Дъгърти К. Въведение в иконометрията: пер. от английски. - М.: ИНФРА-М, 1999. - XIV, с. 262 - 285.
  • 4. Aivyzyan S.A., Mikhtiryan V.S. Приложна математика и основи на иконометрията. -1998., стр. 115-147.
  • 5. Кремер Н.Ш., Путко Б.А. Иконометрия. -2007. от 175-251.
г х (1) х (2) х (3) х (4) х (5)
г 1.00 0.43 0.37 0.40 0.58 0.33
х (1) 0.43 1.00 0.85 0.98 0.11 0.34
х (2) 0.37 0.85 1.00 0.88 0.03 0.46
х (3) 0.40 0.98 0.88 1.00 0.03 0.28
х (4) 0.58 0.11 0.03 0.03 1.00 0.57
х (5) 0.33 0.34 0.46 0.28 0.57 1.00

Анализът на матрицата на сдвоените корелационни коефициенти показва, че показателят за ефективност е най-тясно свързан с показателя х(4) - количеството използвани торове на 1 ха ().

В същото време връзката между признаци-аргументи е доста тясна. Така че практически има функционална зависимост между броя на колесните трактори ( х(1)) и броя на инструментите за повърхностна обработка на почвата .

Наличието на мултиколинеарност се доказва и от корелационните коефициенти и . Предвид тясната връзка на показателите х (1) , х(2) и х(3) , само един от тях може да влезе в регресионния модел на добива.

За да демонстрирате отрицателното въздействие на мултиколинеарността, помислете за модел на регресия на доходността, включващ всички входни данни:

Фобове = 121.

В скоби са стойностите на коригираните оценки на стандартните отклонения на оценките на коефициентите на уравнението .

Под уравнението на регресията са представени следните параметри на адекватност: множествен коефициент на детерминация; коригирана оценка на остатъчната дисперсия, средна относителна апроксимационна грешка и изчислена стойност на -критерия Fobs = 121.

Уравнението на регресията е важно, защото F obl = 121 > F kp = 2,85 намира се от таблицата Е- разпределения при a=0,05; n 1 =6 и n 2 =14.

От това следва, че Q¹0, т.е. и поне един от коефициентите на уравнението q й (й= 0, 1, 2, ..., 5) не е равно на нула.

За проверка на хипотезата за значимостта на индивидуалните регресионни коефициенти H0: q j =0, където й=1,2,3,4,5, сравнете критичната стойност T kp = 2,14, установено от табл T-разпределения при ниво на значимост a=2 Q=0,05 и броя на степените на свобода n=14, с изчислената стойност . От уравнението следва, че регресионният коефициент е статистически значим само когато х(4) от ½ T 4½=2,90 > T kp=2,14.



Отрицателните знаци на регресионните коефициенти при х(1) и х(5) . От отрицателните стойности на коефициентите следва, че увеличаването на насищането на селското стопанство с колесни трактори ( х(1)) и продукти за растителна защита ( х(5)) се отразява негативно на добива. Следователно полученото регресионно уравнение е неприемливо.

За да получим регресионно уравнение със значими коефициенти, използваме алгоритъм за регресионен анализ стъпка по стъпка. Първоначално използваме алгоритъм стъпка по стъпка с елиминиране на променливи.

Изключете променлива от модела х(1) , което съответства на минималната абсолютна стойност от ½ T 1½=0,01. За останалите променливи отново ще изградим регресионното уравнение:

Полученото уравнение е значимо, т.к F obs = 155 > F kp = 2,90, намерено при ниво на значимост a=0,05 и брой степени на свобода n 1 =5 и n 2 =15 съгласно таблицата Е-разпределения, т.е. вектор q¹0. Въпреки това, само коефициентът на регресия е значим в уравнението при х(4) . Изчислени стойности ½ T j ½ за други коефициенти, по-малки от T kr = 2,131 се намира в таблицата T-разпределения за a=2 Q=0,05 и n=15.

Изключване на променлива от модела х(3) , което съответства на минималната стойност T 3 =0,35 и получете регресионното уравнение:

(2.9)

В полученото уравнение той не е статистически значим и не можем да интерпретираме икономически коефициента при х(5) . Изключвайки х(5) получаваме регресионното уравнение:

(2.10)

Получихме значимо регресионно уравнение със значими и интерпретируеми коефициенти.

Въпреки това, полученото уравнение не е единственият „добър“ или „най-добър“ модел на доходност в нашия пример.

Нека покажем това в условията на мултиколинеарност алгоритъмът стъпка по стъпка с включване на променливи е по-ефективен.Първата стъпка в модела на доходността гвключва променлива х(4) , който има най-висок коефициент на корелация с г, обяснено с променливата - r(г,х(4))=0,58. Във втората стъпка, включително уравнението заедно с х(4) променливи х(1) или х(3) , ще получим модели, които са по-добри от (2.10) по икономически причини и статистически характеристики:

(2.11)

(2.12)

Включването на която и да е от трите останали променливи в уравнението влошава неговите свойства. Вижте например уравнение (2.9).

Така имаме три „добри“ модела на доходност, от които един трябва да бъде избран по икономически и статистически причини.

По статистически критерии модел (2.11) е най-адекватен. Съответства на минималните стойности на остатъчната дисперсия = 2,26 и средната относителна грешка на приближаване и най-големите стойности и Fobs = 273.

Модел (2.12) има малко по-лоши показатели за адекватност, а след това модел (2.10).

Сега ще изберем най-добрия от моделите (2.11) и (2.12). Тези модели се различават един от друг по променливи х(1) и х(3) . Въпреки това, в моделите на доходност, променливата х(1) (брой колесни трактори на 100 ха) е за предпочитане пред променлив х(3) (брой оръдия за повърхностна обработка на 100 ха), което е донякъде второстепенно (или произлиза от х (1)).

В тази връзка по икономически причини следва да се даде предпочитание на модел (2.12). По този начин, след прилагане на алгоритъма за поетапен регресионен анализ с включване на променливи и като се вземе предвид фактът, че само една от трите свързани променливи трябва да влезе в уравнението ( х (1) , х(2) или х(3)) изберете крайното регресионно уравнение:

Уравнението е значимо при a=0,05, тъй като F obl = 266 > F kp = 3,20 намира се от таблицата Е-разпределения за a= Q=0,05; n 1 =3 и n 2 =17. Всички регресионни коефициенти също са значими в уравнение ½ T j½> T kp (a=2 Q=0,05; n=17)=2,11. Коефициентът на регресия q 1 трябва да се признае за значим (q 1 ¹0) по икономически причини, докато T 1 =2,09 само малко по-малко T kp = 2,11.

От уравнението на регресията следва, че увеличението на единица в броя на тракторите на 100 хектара обработваема земя (с фиксирана стойност х(4)) води до повишаване на добивите на зърно средно с 0,345 ц/ха.

Приблизителното изчисление на коефициентите на еластичност e 1 "0,068 и e 2" 0,161 показва, че с увеличаване на показателите х(1) и х(4) с 1% добивът на зърно се повишава средно съответно с 0,068% и 0,161%.

Множественият коефициент на детерминация показва, че само 46,9% от вариацията на добива се обяснява с индикаторите, включени в модела ( х(1) и х(4)), тоест насищането на растениевъдството с трактори и торове. Останалата част от вариацията се дължи на действието на неотчетени фактори ( х (2) , х (3) , х(5), метеорологични условия и др.). Средната относителна апроксимационна грешка характеризира адекватността на модела, както и стойността на остатъчната дисперсия. При интерпретирането на уравнението на регресията стойностите на относителните грешки на приближението са от интерес . Спомнете си, че - моделната стойност на ефективния индикатор характеризира средната стойност на производителността за съвкупността от разглежданите области, при условие че стойностите на обяснителните променливи х(1) и х(4) фиксирани на същото ниво, а именно х (1) = x i(1) и х (4) = x i(4) . Тогава за стойностите на d аздобивите могат да се сравняват. Области, които съответстват на d стойности аз>0, имат добив над средния и d аз<0 - ниже среднего.

В нашия пример растениевъдството е най-ефективно в района, съответстващ на d 7 \u003d 28%, където добивът е с 28% по-висок от средния за региона, а най-малко ефективен - в района с d 20 =-27,3%.


Задачи и упражнения

2.1. От общата популация ( г, х (1) , ..., х(p)), където гима нормален закон на разпределение с условно математическо очакване и дисперсия s 2, произволна извадка от обем н, остави ( y i, x i (1) , ..., x i(p)) - резултат азтото наблюдение ( аз=1, 2, ..., н). Определете: a) математическото очакване на оценката на вектора чрез най-малките квадрати р; б) ковариационната матрица на оценката на вектора чрез метода на най-малките квадрати р; в) математическото очакване на оценката.

2.2. Съгласно условието на задача 2.1, намерете математическото очакване на сумата от квадратите на отклоненията, дължащи се на регресия, т.е. EQ R, Където

.

2.3. Съгласно условието на задача 2.1, определете математическото очакване на сумата от квадратите на отклоненията, дължащи се на остатъчната вариация спрямо регресионните линии, т.е. Еквалайзерост къде

2.4. Докажете, че при хипотеза Н 0: q=0 статистиката

има F-разпределение със степени на свобода n 1 =p+1 и n 2 =n-p-1.

2.5. Докажете, че когато хипотезата H 0: q j =0 е изпълнена, статистиката има t-разпределение с брой степени на свобода n=n-p-1.

2.6. Въз основа на данните (Таблица 2.3) за зависимостта на свиването на фуражния хляб ( г) относно продължителността на съхранение ( х) намерете точкова оценка на условното математическо очакване при допускането, че общото регресионно уравнение е линейно.

Таблица 2.3.

Изисква се: а) да се намерят оценки и остатъчна дисперсия s 2 при допускането, че общото регресионно уравнение има формата ; б) проверете за a=0,05 значимостта на регресионното уравнение, т.е. хипотеза H 0: q=0; в) с надеждност g=0,9 определят интервалните оценки на параметрите q 0 , q 1 ; г) с надеждност g=0,95 определя интервалната оценка на условното математическо очакване за х 0=6; д) определете при g=0,95 доверителния интервал на прогнозиране в точката х=12.

2.7. Въз основа на данните за динамиката на темпа на нарастване на цената на акциите за 5 месеца, дадени в табл. 2.4.

Таблица 2.4.

месеца ( х)
г (%)

и предположението, че общото регресионно уравнение има формата , се изисква: а) да се определят оценките и параметрите на регресионното уравнение и остатъчната дисперсия s 2 ; б) проверете при a=0,01 значимостта на регресионния коефициент, т.е. хипотези H 0: q 1 =0;

в) с надеждност g=0,95 намират интервални оценки на параметрите q 0 и q 1 ; г) с надеждност g = 0,9 установете интервална оценка на условното математическо очакване за х 0=4; д) определете при g=0,9 доверителния интервал на прогнозиране в точката х=5.

2.8. Резултатите от изследването на динамиката на наддаване на тегло при млади животни са дадени в таблица 2.5.

Таблица 2.5.

Ако приемем, че общото регресионно уравнение е линейно, се изисква: а) да се определят оценките и параметрите на регресионното уравнение и остатъчната дисперсия s 2 ; б) проверете за a=0,05 значимостта на регресионното уравнение, т.е. хипотези H 0: q=0;

в) с надеждност g=0,8 намират интервални оценки на параметрите q 0 и q 1 ; г) с надеждност g=0,98 определят и сравняват интервалните оценки на условното математическо очакване за х 0 =3 и х 1 =6;

д) определете при g=0,98 доверителния интервал на прогнозиране в точката х=8.

2.9. Себестойност ( г) един екземпляр от книгата в зависимост от тиража ( х) (хиляда екземпляра) се характеризира с данни, събрани от издателството (Таблица 2.6). Определете оценките на най-малките квадрати и параметрите на уравнението на хиперболичната регресия, с надеждност g=0,9 изградете доверителни интервали за параметрите q 0 и q 1, както и условното математическо очакване при х=10.

Таблица 2.6.

Определете оценките и параметрите на регресионното уравнение от вида х=20.

2.11. В табл. 2.8 отчетени темпове на растеж (%) на следните макроикономически показатели н\u003d 10 развити страни в света за 1992 г.: БНП - х(1) , промишлено производство - х(2) , ценови индекс - х (3) .

Таблица 2.8.

Държави x и параметри на регресионното уравнение, оценка на остатъчната дисперсия; б) проверете при a=0,05 значимостта на регресионния коефициент, т.е. Н 0: q 1 =0; в) с надеждност g=0,9 намират интервални оценки q 0 и q 1 ; г) намерете при g=0,95 доверителния интервал за в точката х 0 =x i, Където аз=5; д) сравнете статистическите характеристики на регресионните уравнения: 1, 2 и 3.

2.12. Решете задача 2.11, като вземете стойността, която трябва да бъде обяснена ( при) индекс х(1) , а за пояснението ( х) променлива х (3) .

1. Айвазян С.А., Мхитарян В.С. Приложна статистика и основи на иконометрията: Учебник. М., UNITI, 1998 (2-ро издание 2001);

2. Айвазян С.А., Мхитарян В.С. Приложна статистика в задачи и упражнения: Учеб. М. ЕДИНСТВО – ДАНА, 2001;

3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Приложна статистика. Изследване на зависимости. М., Финанси и статистика, 1985, 487с.;

4. Айвазян С.А., Бухщабер В.М., Енюков И.С., Мешалкин Л.Д. Приложна статистика. Класификация и намаляване на размерността. М., Финанси и статистика, 1989, 607с.;

5. Джонстън Дж. Иконометрични методи, Москва: Статистика, 1980 г., 446 стр.;

6. Дубров А.В., Мхитарян В.С., Трошин Л.И. Многомерни статистически методи. М., Финанси и статистика, 2000 г.;

7. Мхитарян V.S., Трошин L.I. Изследване на зависимости чрез методи на корелация и регресия. М., МЕСИ, 1995, 120 с.;

8. Мхитарян V.S., Дубров A.M., Трошин L.I. Многомерни статистически методи в икономиката. М., МЕСИ, 1995, 149с.;

9. Дубров A.M., Мхитарян V.S., Трошин L.I. Математическа статистика за бизнесмени и мениджъри. М., МЕСИ, 2000, 140с.;

10. Лукашин Ю.И. Регресия и адаптивни методи за прогнозиране: Учебник, М., МЕСИ, 1997.

11. Лукашин Ю.И. Адаптивни методи за краткосрочно прогнозиране. - М., Статистика, 1979.


ПРИЛОЖЕНИЯ


Приложение 1. Варианти на задачи за самостоятелно компютърно изследване.

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2023 "kingad.ru" - ултразвуково изследване на човешки органи