Zbuduj macierz współczynników korelacji par. Sprawdź wielowspółliniowość

Dane ekonomiczne reprezentują ilościowe cechy wszelkich obiektów lub procesów gospodarczych. Powstają pod wpływem wielu czynników, z których nie wszystkie są dostępne kontroli zewnętrznej. Czynniki niekontrolowane mogą przyjmować losowe wartości z jakiegoś zbioru wartości i tym samym powodować, że definiowane przez nie dane będą losowe. Jednym z głównych zadań badań ekonomicznych jest analiza zależności pomiędzy zmiennymi.

Rozpatrując zależności pomiędzy charakterystykami należy przede wszystkim rozróżnić dwa rodzaje połączeń:

  • funkcjonalny - charakteryzują się całkowitą zgodnością między zmianą charakterystyki czynnika a zmianą wartości wynikowej: Każda wartość cechy czynnikowej odpowiada bardzo konkretnym wartościom wynikowej cechy. Ten typ relacji wyraża się jako związek formalny. Zależność funkcjonalna może łączyć efektywną cechę z jedną lub większą liczbą cech czynnikowych. Zatem wysokość wynagrodzenia w przypadku wynagrodzenia zależnego od czasu zależy od liczby przepracowanych godzin;
  • korelacyjny- brak jest pełnej zgodności pomiędzy zmianą dwóch znaków, wpływ poszczególnych czynników objawia się jedynie średnio, przy masowej obserwacji rzeczywistych danych. Jednoczesny wpływ na badaną cechę dużej liczby różnych czynników prowadzi do tego, że jedna i ta sama wartość cechy czynnikowej odpowiada całemu rozkładowi wartości wynikowej cechy, ponieważ w każdym konkretnym przypadku inne cechy czynników mogą zmieniać siłę i kierunek ich oddziaływania.

Należy pamiętać, że jeżeli między cechami istnieje związek funkcjonalny, to znając wartość cechy czynnikowej, można dokładnie określić wartość wynikowego znaku. Tylko w przypadku zależności korelacyjnej trend zmian charakterystyki wypadkowej gdy zmienia się wartość charakterystyki czynnikowej.

Badając relacje między znakami, klasyfikuje się je według kierunku, formy i liczby czynników:

  • w kierunku połączenia są podzielone na prosty I odwracać. Przy bezpośrednim połączeniu kierunek zmiany charakterystyki wynikowej pokrywa się z kierunkiem zmiany charakterystyki współczynnikowej. W przypadku sprzężenia zwrotnego kierunek zmiany charakterystyki wynikowej jest przeciwny do kierunku zmiany charakterystyki czynnikowej. Na przykład im wyższe kwalifikacje pracownika, tym wyższy poziom produktywności jego pracy (bezpośredni związek). Im wyższa wydajność pracy, tym niższy koszt jednostki produkcji (sprzężenie zwrotne);
  • zgodnie z formą(rodzaj funkcji) połączenia są podzielone liniowy(linia prosta) i nieliniowy(krzywolinijny). Zależność liniową reprezentuje linia prosta, zależność nieliniowa – krzywa (parabola, hiperbola itp.). W zależności liniowej wraz ze wzrostem wartości cechy czynnikowej następuje równomierny wzrost (spadek) wartości cechy wynikowej;
  • przez liczbę czynników wpływających na efektywną charakterystykę, połączenia są podzielone na jednoczynnikowy(w parze) i wieloczynnikowe.

Treścią teorii korelacji jest badanie zależności zmienności cechy od warunków środowiskowych.

Podczas przeprowadzania analizy korelacji cały zestaw danych jest uważany za zbiór zmiennych (czynników), z których każdy zawiera P obserwacje.

Badając związek między dwoma czynnikami, zwykle są one wyznaczane X=(x s x 2,...,x n) I Y= (y ( , y 2 ,..., y i).

Kowariancja - to jest statystyczne miarę interakcji dwie zmienne. Na przykład dodatnia wartość kowariancji zwrotów z dwóch papierów wartościowych wskazuje, że zwroty z tych papierów wartościowych mają tendencję do zmiany w jednym kierunku.

Kowariancja między dwiema zmiennymi X I Y obliczone w następujący sposób:

gdzie są rzeczywiste wartości zmiennych

X I G;

Jeśli zmienne losowe Chi Y niezależny, teoretyczna kowariancja wynosi zero.

Kowariancja zależy od jednostek, w jakich mierzone są zmienne Hej Tak, jest to ilość niestandaryzowana. Dlatego mierzyć siła połączenia między dwiema zmiennymi używana jest inna statystyka zwana współczynnikiem korelacji.

Dla dwóch zmiennych X I Współczynnik korelacji pary Y

definiuje się następująco:

Gdzie SSy- szacunki wariancji wielkości Hej Y. Szacunki te charakteryzują stopień rozproszenia wartości x (, x 2, ..., x n (y 1, y 2, y n) wokół Twojej średniej x(y odpowiednio) lub zmienność(zmienność) tych zmiennych w zestawie obserwacji.

Dyspersja(oszacowanie wariancji) określa się ze wzoru

Ogólnie rzecz biorąc, aby otrzymać obiektywną estymację wariancji, sumę kwadratów należy podzielić przez liczbę stopni swobody estymaty (itp), Gdzie P - wielkość próbki, R - liczba połączeń nałożonych na próbkę. Ponieważ próbka została już raz użyta do określenia średniej X, wówczas liczba nałożonych na siebie połączeń w tym przypadku jest równa jeden (p = 1), a liczba stopni swobody oszacowania (czyli liczba niezależnych elementów próby) jest równa (P - 1).

Bardziej naturalne jest mierzenie stopnia rozproszenia wartości zmiennych w tych samych jednostkach, w których mierzona jest sama zmienna. Problem ten rozwiązuje wskaźnik tzw odchylenie standardowe (odchylenie standardowe) Lub Standardowy błąd zmienny X(zmienny T) i określone przez relację

Wyrazy licznika wzoru (3.2.1) wyrażają interakcję dwóch zmiennych i wyznaczają znak korelacji (dodatni lub ujemny). Jeśli na przykład istnieje silna dodatnia zależność między zmiennymi (wzrost jednej zmiennej przy jednoczesnym wzroście drugiej), każdy wyraz będzie liczbą dodatnią. Podobnie, jeśli istnieje silna ujemna zależność między zmiennymi, wszystkie wyrazy w liczniku będą liczbami ujemnymi, co spowoduje ujemną wartość korelacji.

Mianownik wyrażenia na współczynnik korelacji parami [patrz wzór (3.2.2)] po prostu normalizuje licznik w taki sposób, że współczynnik korelacji okazuje się łatwą do interpretacji liczbą bez wymiaru i przyjmuje wartości od -1 do +1.

Licznikiem wyrażenia na współczynnik korelacji, który jest trudny do interpretacji ze względu na nietypowe jednostki miary, jest kowariancja HiU. Pomimo tego, że czasami wykorzystuje się go jako niezależną cechę (np. w teorii finansów do opisania łącznej zmiany cen akcji na dwóch giełdach), wygodniej jest zastosować współczynnik korelacji. Korelacja i kowariancja reprezentują zasadniczo te same informacje, ale korelacja przedstawia te informacje w bardziej użytecznej formie.

Do jakościowej oceny współczynnika korelacji stosuje się różne skale, najczęściej skalę Chaddocka. W zależności od wartości współczynnika korelacji związek może mieć jedną z następujących ocen:

  • 0,1-0,3 - słaby;
  • 0,3-0,5 - zauważalne;
  • 0,5-0,7 - umiarkowany;
  • 0,7-0,9 - wysoki;
  • 0,9-1,0 - bardzo wysoki.

Ocena stopnia bliskości powiązania za pomocą współczynnika korelacji przeprowadzana jest z reguły na podstawie mniej lub bardziej ograniczonych informacji o badanym zjawisku. W tym zakresie istnieje potrzeba oceny istotności współczynnika korelacji liniowej, który pozwala na rozszerzenie wniosków z wyników próby na populację ogólną.

Ocenę istotności współczynnika korelacji dla małych liczebności prób przeprowadza się za pomocą testu 7-Studenta. W tym przypadku rzeczywistą (obserwowaną) wartość tego kryterium określa wzór

Wartość /ob obliczoną za pomocą tego wzoru porównuje się z wartością krytyczną 7-kryterium, która jest pobierana z tabeli wartości /-testu Studenta (patrz Załącznik 2) biorąc pod uwagę zadany poziom istotności oc i liczbę stopni swobody (P - 2).

Jeżeli 7 obs > 7 tabl., to uzyskaną wartość współczynnika korelacji uznaje się za istotną (tzn. hipotezę zerową stwierdzającą, że współczynnik korelacji jest równy zeru, odrzuca się). Można zatem stwierdzić, że pomiędzy badanymi zmiennymi istnieje ścisła zależność statystyczna.

Jeśli wartość g i x bliski zeru, związek między zmiennymi jest słaby. Jeżeli korelacja pomiędzy zmiennymi losowymi:

  • dodatni, wówczas gdy jedna zmienna losowa wzrasta, druga ma tendencję do średniego wzrostu;
  • ujemna, wówczas gdy jedna zmienna losowa wzrasta, druga ma tendencję do średniego spadku. Wygodnym narzędziem graficznym do analizy sparowanych danych jest wykres punktowy, który reprezentuje każdą obserwację w przestrzeni dwóch wymiarów odpowiadających dwóm czynnikom. Nazywa się również wykresem rozrzutu, który przedstawia zestaw wartości dwóch cech pole korelacyjne. Każdy punkt na tym diagramie ma współrzędne x (. i y g W miarę wzrostu siły zależności liniowej punkty na wykresie będą znajdować się bliżej linii prostej i wielkości G będzie bliżej jedności.

Współczynniki korelacji parami służą do pomiaru siły zależności liniowych pomiędzy różnymi parami cech ze zbioru. Dla wielu funkcji się dostaje macierz współczynników korelacji par.

Niech cały zbiór danych składa się ze zmiennej Y = =(t.p y 2, ..., tak p) I T zmienne (czynniki) X, z których każdy zawiera P obserwacje. Wartości zmienne Y I X, zawarte w obserwowanej populacji zapisano w tabeli (tabela 3.2.1).

Tabela 3.2.1

Zmienny

Numer

obserwacje

XTZ

X tp

Na podstawie danych zawartych w tej tabeli oblicz macierz współczynników korelacji par R, jest symetryczny względem głównej przekątnej:


Analizę macierzy współczynników korelacji par wykorzystuje się przy konstruowaniu modeli regresji wielokrotnej.

Jedna macierz korelacji nie jest w stanie w pełni opisać zależności pomiędzy wielkościami. W związku z tym wielowymiarowa analiza korelacji uwzględnia dwa problemy:

  • 1. Określenie ścisłego związku jednej zmiennej losowej z ogółem innych zmiennych objętych analizą.
  • 2. Określenie bliskości związku dwóch wielkości przy ustaleniu lub wykluczeniu wpływu innych wielkości.

Problemy te rozwiązuje się odpowiednio za pomocą współczynników korelacji wielokrotnej i częściowej.

Rozwiązanie pierwszego problemu (określenie ścisłego związku jednej zmiennej losowej z ogółem innych zmiennych objętych analizą) przeprowadza się za pomocą przykładowy współczynnik korelacji wielokrotnej według formuły

Gdzie R- R[cm. wzór (3.2.6)]; Rjj- dopełnienie algebraiczne elementu tej samej macierzy R.

Kwadratowy współczynnik korelacji wielokrotnej SCHj 2 J _J J+l m zwykle tzw próbka wielokrotny współczynnik determinacji; pokazuje, jaka część zmienności (losowego rozrzutu) badanej wartości Xj wyjaśnia zmienność pozostałych zmiennych losowych X ( , X 2 ,..., X t.

Współczynniki korelacji wielokrotnej i determinacji są wielkościami dodatnimi, przyjmując wartości z zakresu od 0 do 1. Przy aproksymacji współczynnika R 2 do jedności, możemy stwierdzić, że związek pomiędzy zmiennymi losowymi jest ścisły, ale nie co do jego kierunku. Współczynnik korelacji wielokrotnej może wzrosnąć tylko wtedy, gdy w modelu zostaną uwzględnione dodatkowe zmienne i nie wzrośnie, jeśli wykluczy się którąkolwiek z istniejących cech.

Sprawdzenie istotności współczynnika determinacji odbywa się poprzez porównanie obliczonej wartości /'-kryterium Fishera

z tabelarycznym F rab. Wartość tabelaryczna kryterium (patrz Załącznik 1) jest określona przez dany poziom istotności a i stopnie swobody v l = mnv 2 = n-m-l. Współczynnik R2 jest znacząco różna od zera, jeśli nierówność jest spełniona

Jeśli brane są pod uwagę zmienne losowe korelują ze sobą wówczas na wartość współczynnika korelacji pary wpływa częściowo wpływ innych wielkości. W związku z tym istnieje potrzeba zbadania częściowej korelacji między wielkościami przy jednoczesnym wykluczeniu wpływu innych zmiennych losowych (jednej lub większej liczby).

Przykładowy współczynnik korelacji częściowej określone przez formułę

Gdzie R Jk , Rjj, R kk - dodatki algebraiczne do odpowiednich elementów macierzy R[cm. wzór (3.2.6)].

Częściowy współczynnik korelacji, a także współczynnik korelacji par waha się od -1 do +1.

Wyrażenie (3.2.9) z zastrzeżeniem t = 3 będzie wyglądać

Nazywa się współczynnik r 12(3). współczynnik korelacji między x ( I x 2 dla ustalonego x y Jest symetryczny względem indeksów pierwotnych 1, 2. Jego indeks wtórny 3 odnosi się do zmiennej stałej.

Przykład 3.2.1. Obliczanie współczynników par,

korelacja wielokrotna i częściowa.

W tabeli 3.2.2 podaje informacje o wielkości sprzedaży i kosztach reklamy jednej firmy, a także o wskaźniku wydatków konsumenckich dla kilku bieżących lat.

  • 1. Skonstruuj diagram punktowy (pole korelacji) dla zmiennych „wielkość sprzedaży” i „wskaźnik wydatków konsumenckich”.
  • 2. Określić stopień wpływu wskaźnika wydatków konsumenckich na wielkość sprzedaży (obliczyć współczynnik korelacji par).
  • 3. Ocenić istotność obliczonego współczynnika korelacji par.
  • 4. Konstruować macierz współczynników korelacji parami dla trzech zmiennych.
  • 5. Znaleźć oszacowanie współczynnika korelacji wielokrotnej.
  • 6. Znaleźć oszacowania współczynników korelacji cząstkowej.

1. W naszym przykładzie diagram rozproszenia ma postać pokazaną na ryc. 3.2.1. Wydłużenie chmury punktów na wykresie punktowym wzdłuż linii ukośnej pozwala przyjąć założenie, że istnieje obiektywna tendencja do bezpośredniej liniowej zależności pomiędzy wartościami zmiennych X2 Y(wielkość sprzedaży).

Ryż. 3.2.1.

2. Obliczenia pośrednie przy obliczaniu współczynnika korelacji pomiędzy zmiennymi X2(Indeks wydatków konsumenckich) i Y(wielkość sprzedaży) podano w tabeli. 3.2.3.

Wartości średnie zmienne losowe X2 I Y, jakie są najprostsze wskaźniki charakteryzujące ciągi jCj, x 2,..., x 16 i y v 2 ,..., y 16, oblicz korzystając ze wzorów:


Wielkość sprzedaży Y, tysiące rubli.

Indeks

konsumować

telsky'ego

wydatki

Wielkość sprzedaży Y, tysiące rubli.

Indeks

konsumować

telsky'ego

wydatki

Tabela 3.2.3

ja:, - X

(I - U)(x, - x)

(x, - x) 2

(y, - - y) 2

Dyspersja charakteryzuje stopień rozproszenia wartości xvx2,x:

Rozważmy teraz rozwiązanie przykładu 3.2.1 w Excelu.

Aby obliczyć korelację za pomocą Excela, możesz skorzystać z funkcji =correl(), określając adresy dwóch kolumn liczb, jak pokazano na ryc. 3.2.2. Odpowiedź znajduje się w D8 i jest równa 0,816.

Ryż. 3.2.2.

(Uwaga: argumenty funkcji korele muszą być liczbami lub nazwami, tablicami lub odniesieniami zawierającymi liczby. Jeżeli argument będący tablicą lub odwołaniem zawiera tekst, wartości logiczne lub puste komórki, wówczas wartości te są ignorowane; jednak zliczane są komórki zawierające wartości zerowe.

Jeśli tablica! i tablica2 mają różną liczbę punktów danych, wówczas funkcja correl zwraca wartość błędu #n/a.

Jeśli tablica1 lub tablica2 jest pusta lub jeśli o (odchylenie standardowe) ich wartości wynosi zero, to funkcja correl zwraca wartość błędu #div/0!.)

Wartość krytyczną statystyki t-Studenta można również otrzymać za pomocą tej funkcji dystrybucja 1 pakietu Excel. Jako argumenty funkcji należy podać liczbę stopni swobody równą P- 2 (w naszym przykładzie 16 - 2= 14) i poziom istotności a (w naszym przykładzie a = 0,1) (ryc. 3.2.3). Jeśli aktualna wartość/-statystyka pobierana modulo jest większa krytyczny, wówczas z prawdopodobieństwem (1 - a) współczynnik korelacji jest istotnie różny od zera.


Ryż. 3.2.3. Wartość krytyczna statystyki / wynosi 1,7613

Excel zawiera zestaw narzędzi do analizy danych (tzw. pakiet analityczny) przeznaczony do rozwiązywania różnych problemów statystycznych. Obliczanie macierzy współczynników korelacji par R należy skorzystać z narzędzia Korelacja (rys. 3.2.4) i w odpowiednim oknie dialogowym ustawić parametry analizy. Odpowiedź zostanie umieszczona na nowym arkuszu (ryc. 3.2.5).

1 W programie Excel 2010 nazwa funkcji studrasprobr zmieniono na stu-

DENT.OBR.2X.

Ryż. 3.2.4.


Ryż. 3.2.5.

  • Za twórców teorii korelacji uważa się statystyków angielskich F. Galtona (1822-1911) i K. Pearsona (1857-1936). Termin „korelacja” został zapożyczony z nauk przyrodniczych i oznacza „korelację, zgodność”. Idea korelacji jako współzależności między zmiennymi losowymi leży u podstaw matematyczno-statystycznej teorii korelacji.

Zadanie 2

1. Konstruować macierz współczynników korelacji par. Sprawdź wielowspółliniowość. Uzasadnij wybór czynników w modelu.

2. Konstruować równanie regresji wielokrotnej w postaci liniowej z wybranymi czynnikami.

3. Ocenić istotność statystyczną równania regresji i jego parametrów za pomocą testu Fishera i Studenta.

4. Konstruować równanie regresji z czynnikami istotnymi statystycznie. Ocenić jakość równania regresji wykorzystując współczynnik determinacji R2. Oceń dokładność skonstruowanego modelu.

5. Oceń prognozę wielkości produkcji, jeśli prognozowane wartości czynników wynoszą 75% ich wartości maksymalnych.

Warunki problematyczne (opcja 21)

Zgodnie z danymi przedstawionymi w tabeli 1 (n = 17) bada się zależność wielkości produkcji Y (w milionach rubli) od następujących czynników (zmiennych):

X 1 – liczba pracowników produkcji przemysłowej, ludzie.

X 2 – średni roczny koszt środków trwałych, mln rubli.

X 3 – amortyzacja środków trwałych, %

X 4 – zasilanie, kWh.

X 5 – wyposażenie techniczne jednego pracownika, milion rubli.

X 6 – produkcja produktów rynkowych na jednego pracownika, rub.

Tabela 1. Dane dotyczące wydania produktu

Y x1 x2 x3 X 4 x5 x6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Zbuduj macierz współczynników korelacji par. Sprawdź wielowspółliniowość. Uzasadnij wybór czynników w modelu

Tabela 2 pokazuje macierz współczynników korelacji par dla wszystkich zmiennych branych pod uwagę. Macierz otrzymano za pomocą narzędzia Korelacja z pakietu Analiza danych V Przewyższać.

Tabela 2. Macierz współczynników korelacji par

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Analiza wizualna matrycy pozwala ustalić:

1) U ma dość wysokie korelacje parami ze zmiennymi X1, X2 (>0,5) i niski ze zmiennymi X3, X4, X5, X6 (<0,5);

2) Zmienne analityczne X1, X2 wykazują dość wysokie korelacje parami, co powoduje konieczność sprawdzenia czynników pod kątem występowania między nimi wielowspółliniowości. Ponadto jednym z warunków klasycznego modelu regresji jest założenie niezależności zmiennych objaśniających.

Aby zidentyfikować wieloliniowość czynników, wykonujemy Test Farrara-Gloubera przez współczynniki X1, X2, X3, X4, X5, X6.

Sprawdzanie testu Farrara-Gloubera na wielowspółliniowość czynników składa się z kilku etapów.

1) Sprawdzanie współliniowości całej tablicy zmiennych .

Jednym z warunków klasycznego modelu regresji jest założenie niezależności zmiennych objaśniających. Aby zidentyfikować współliniowość czynników, oblicza się macierz korelacji międzyczynnikowych R za pomocą pakietu Data Analysis Package (tabela 3).

Tabela 3. Macierz korelacji międzyczynnikowych R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Istnieje silna zależność (>0,5) pomiędzy czynnikami X1 i X2, X5 i X4, X6 i X5.

Wyznacznik det (R) = 0,001488 oblicza się za pomocą funkcji MOPRED. Wyznacznik macierzy R dąży do zera, co pozwala przyjąć założenie o ogólnej wielowspółliniowości czynników.

2) Sprawdzanie współliniowości każdej zmiennej z innymi zmiennymi:

· Obliczmy macierz odwrotną R -1 korzystając z funkcji Excela MOBR (tabela 4):

Tabela 4. Macierz odwrotna R -1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Obliczenie kryteriów F, gdzie są elementami przekątnymi macierzy, n=17, k=6 (tab. 5).

Tabela 5. Wartości testu F

F1 (X1) F2 (X2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Rzeczywiste wartości testu F porównuje się z wartością z tabeli Tabela F = 3,21(FROKŁ.(0,05;6;10)) przy n1= 6 i n2 = n - k – 1=17-6-1=10 stopni swobody i poziomie istotności α=0,05, gdzie k jest liczbą czynników.

· Wartości kryteriów F dla czynników X1 i X2 są większe od wartości tabelarycznych, co wskazuje na występowanie wielowspółliniowości pomiędzy tymi czynnikami. Czynnik X3 ma najmniejszy wpływ na ogólną wielokolinearność czynników.

3) Sprawdzanie współliniowości każdej pary zmiennych

· Obliczmy współczynniki korelacji cząstkowej korzystając ze wzoru , gdzie są elementy macierzy (tabela 6)

Tabela 6. Macierz współczynników korelacji cząstkowej

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Obliczenia T-kryteria według wzoru (Tabela 7)

n - liczba danych = 17

K - liczba czynników = 6

Tabela 7.Test-t dla częściowych współczynników korelacji

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t tabela = STUDARSOBR(0,05;10) = 2,23

Rzeczywiste wartości testów t porównuje się z wartością tabelaryczną przy stopniach swobody n-k-1 = 17-6-1=10 i poziomie istotności α=0,05;

t21 > tabela

t54 > tabela

Z tabel 6 i 7 jasno wynika, że ​​dwie pary czynników X1 i X2, X4 i X5 mają wysoką istotną statystycznie korelację cząstkową, to znaczy są wielowspółliniowe. Aby pozbyć się współliniowości, można wykluczyć jedną ze zmiennych pary współliniowej. W parze X1 i X2 zostawiamy X2, w parze X4 i X5 zostawiamy X5.

Zatem w wyniku sprawdzenia testu Farrara-Gloubera pozostają następujące czynniki: X2, X3, X5, X6.

Kończąc procedury analizy korelacji warto przyjrzeć się korelacjom cząstkowym wybranych czynników z wynikiem Y.

Zbudujmy macierz sparowanych współczynników korelacji na podstawie danych z tabeli 8.

Tabela 8. Dane wyjściowe produktu z wybranymi współczynnikami X2, X3, X5, X6.

Obserwacja nr. Y x2 x3 x5 x6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Ostatnia kolumna tabeli 9 przedstawia wartości testu t dla kolumny Y.

Tabela 9. Macierz współczynników korelacji cząstkowej z wynikiem Y

Y X2 X3 X5 X6 kryterium t (tabela t (0,05;11)= 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

Z tabeli 9 wynika, że ​​zmienna Y ma wysoką, a jednocześnie istotną statystycznie korelację cząstkową z czynnik X2.


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Analiza międzyczynnikowe(pomiędzy „X”!) współczynniki korelacji wskazują, że wartość 0,8 przekracza w wartości bezwzględnej jedynie współczynnik korelacji pomiędzy parą czynników X 1 –X 3 (pogrubione). Czynniki X 1 –X 3 są zatem uznawane za współliniowe.

2. Jak pokazano w ust. 1, czynniki X 1 –X 3 są współliniowe, co oznacza, że ​​są wzajemnie duplikatami, a uwzględnienie ich jednocześnie w modelu spowoduje błędną interpretację odpowiadających im współczynników regresji. Oczywiste jest, że czynnikiem X 3 ma większy modulo współczynnik korelacji z wynikiem Y niż czynnik X 1: r y , X 1 =0,519; r y , X 3 = 0,610; (cm. tabela 1). Wskazuje to na silniejszy wpływ czynnika X 3 na zmianę Y. Czynnik X 1 zostaje zatem wyłączony z rozpatrywania.

Aby skonstruować równanie regresji, wartości użytych zmiennych ( Y,X 2 , X 3 , X 4 , X 5 , X 6) skopiuj do pustego arkusza ( przym. 3). Równanie regresji budujemy za pomocą dodatku „ Analiza danych...Regresja" (menu " Praca"® « Analiza danych…» ® « Regresja„). Panel analizy regresji z wypełnionymi polami jest pokazany w Ryż. 2.

Wyniki analizy regresji podano w przym. 4 i przeniósł się do tabela 2. Równanie regresji ma postać (patrz „ Szanse" V tabela 2):

Równanie regresji uważa się za istotne statystycznie, ponieważ prawdopodobieństwo jego losowego powstania w postaci, w której zostało uzyskane, wynosi 8,80 × 10 -6 (patrz. „Znaczenie F” V tabela 2), czyli znacznie poniżej przyjętego poziomu istotności a=0,05.

X 3 , X 4 , X 6 poniżej przyjętego poziomu istotności a=0,05 (patrz „ Wartość P” V tabela 2), co wskazuje na istotność statystyczną współczynników i istotny wpływ tych czynników na zmianę rocznego zysku Y.

Prawdopodobieństwo losowego tworzenia się współczynników dla czynników X 2 i X 5 przekracza przyjęty poziom istotności a=0,05 (patrz „ Wartość P” V tabela 2), a współczynniki te nie są uważane za istotne statystycznie.

Ryż. 2. Panel analizy regresji modelu Y(X 2 , X 3 , X 4 , X 5 , X 6)

Tabela 2

Y(X 2 , X 3 , X 4 , X 5 , X 6)

Statystyka regresji
Liczba mnoga R 0,868
Plac R 0,753
Znormalizowany R-kwadrat 0,694
Standardowy błąd 242,3
Obserwacje
Analiza wariancji
zm SS SM F Znaczenie F
Regresja 3749838,2 749967,6 12,78 8.80E-06
Reszta 1232466,8 58688,9
Całkowity 4982305,0
Równanie regresji
Szanse Standardowy błąd statystyka t Wartość P
Przecięcie Y 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. Na podstawie wyników sprawdzenia istotności statystycznej współczynników równania regresji przeprowadzonego w poprzednim akapicie budujemy nowy model regresji zawierający wyłącznie czynniki informacyjne, do których zaliczają się:

· czynniki, których współczynniki są istotne statystycznie;

czynniki, których współczynniki T-statystyka przekracza jedność w wartości bezwzględnej (innymi słowy, wartość bezwzględna współczynnika jest większa niż jego błąd standardowy).

Pierwsza grupa obejmuje czynniki X 3 , X 4 , X 6, do drugiego - czynnika X 2. Czynnik X 5 zostaje wykluczony z rozważań jako nieinformujący, a ostateczny model regresji będzie zawierał czynniki X 2 , X 3 , X 4 , X 6 .

Aby zbudować równanie regresji, skopiuj wartości użytych zmiennych do pustego arkusza ( przym. 5) i przeprowadzić analizę regresji ( Ryż. 3). Podano jego wyniki przym. 6 i przeniósł się do tabela 3. Równanie regresji to:

(cm. " Szanse" V tabela 3).

Ryż. 3. Panel analizy regresji modelu Y(X 2 , X 3 , X 4 , X 6)

Tabela 3

Wyniki analizy regresyjnej modelu Y(X 2 , X 3 , X 4 , X 6)

Statystyka regresji
Liczba mnoga R 0,866
Plac R 0,751
Znormalizowany R-kwadrat 0,705
Standardowy błąd 237,6
Obserwacje
Analiza wariancji
zm SS SM F Znaczenie F
Regresja 3740456,2 935114,1 16,57 2.14E-06
Reszta 1241848,7 56447,7
Całkowity 4982305,0
Równanie regresji
Szanse Standardowy błąd statystyka t Wartość P
Przecięcie Y 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Równanie regresji jest istotne statystycznie: prawdopodobieństwo jego losowego powstania jest poniżej akceptowalnego poziomu istotności a=0,05 (patrz „ Znaczenie F” V tabela 3).

Za istotne statystycznie uważa się również współczynniki dla czynników X 3 , X 4 , X 6: prawdopodobieństwo ich losowego powstania jest poniżej akceptowalnego poziomu istotności a=0,05 (patrz „ Wartość P” V tabela 3). Wskazuje to na istotny wpływ rocznych składek ubezpieczeniowych X 3, roczna wysokość składek ubezpieczeniowych X 4 i formy własności X 6 za zmianę rocznego zysku Y.

Współczynnik współczynnika X 2 (roczna wielkość rezerw ubezpieczeniowych) nie jest istotna statystycznie. Jednak czynnik ten nadal można uznać za informacyjny, ponieważ T-statystyka jego współczynnika przekracza modulo jednostki, chociaż dalsze wnioski dotyczące czynnika X 2 należy traktować z pewną ostrożnością.

4. Oceńmy jakość i dokładność ostatniego równania regresji, korzystając z pewnych charakterystyk statystycznych uzyskanych podczas analizy regresji (patrz . « Statystyka regresji„W tabela 3):

wielokrotny współczynnik determinacji

pokazuje, że model regresji wyjaśnia 75,1% zmienności rocznego zysku Y, a zmienność ta wynika ze zmian czynników uwzględnionych w modelu regresji X 2 , X 3 , X 4 i X 6 ;

standardowy błąd regresji

tysiąc rubli.

pokazuje, że wartości rocznego zysku przewidywane przez równanie regresji Y różnią się od wartości rzeczywistych średnio o 237,6 tys. Rubli.

Średni względny błąd aproksymacji określa się za pomocą przybliżonego wzoru:

Gdzie tysiąc rubli. - średnioroczny zysk (określany za pomocą wbudowanej funkcji „ PRZECIĘTNY»; przym. 1).

mi rel pokazuje, że wartości rocznego zysku przewidywane przez równanie regresji Y różnią się od wartości rzeczywistych średnio o 26,7%. Model ma niezadowalającą dokładność (at - dokładność modelu jest wysoka, at - dobry z - zadowalający, z - niezadowalający).

5. W celu ekonomicznej interpretacji współczynników równania regresji zestawiamy średnie wartości i odchylenia standardowe zmiennych w danych źródłowych ( tabela 4) . Wartości średnie wyznaczono za pomocą wbudowanej funkcji „ PRZECIĘTNY", odchylenia standardowe - przy użyciu wbudowanej funkcji " ODCHYLENIE STANDARDOWE" (cm. przym. 1).

Dane za rok 2011 podane są dla terytoriów Południowego Okręgu Federalnego Federacji Rosyjskiej

Terytoria Okręgu Federalnego

Produkt regionalny brutto, miliard rubli, Y

Inwestycje w środki trwałe, miliardy rubli, X1

1. Rep. Adygea

2. Przedstawiciel Dagestan

3. Przedstawiciel Inguszetia

4. Republika Kabardyno-Bałkarska

5. Przedstawiciel Kałmucja

6. Republika Karaczajo-Czerkieska

7. Rep. Północna Osetia Alania

8. Region Krasnodarski)

9. Region Stawropola

10. Region Astrachania.

11. Region Wołgogradu.

12. Region rostowski.

  • 1. Oblicz macierz współczynników korelacji par; ocenić istotność statystyczną współczynników korelacji.
  • 2. Konstruować pole korelacji pomiędzy charakterystyką efektywną a czynnikiem najściślej z nią powiązanym.
  • 3. Oblicz parametry regresji liniowej par dla każdego współczynnika X.
  • 4. Ocenić jakość każdego modelu poprzez współczynnik determinacji, średni błąd przybliżenia i test F Fishera. Wybierz najlepszy model.

wyniesie 80% wartości maksymalnej. Przedstaw graficznie: wartości rzeczywiste i modelowe, punkty prognozy.

  • 6. Stosując krok po kroku regresję wielokrotną (metodę wykluczania lub metodę włączania) zbuduj model kształtowania się ceny mieszkania ze względu na czynniki istotne. Podaj interpretację ekonomiczną współczynników modelu regresji.
  • 7. Ocenić jakość skonstruowanego modelu. Czy jakość modelu uległa poprawie w porównaniu z modelem jednoczynnikowym? Ocenić wpływ istotnych czynników na wynik za pomocą współczynników elastyczności, w - i -? współczynniki

Rozwiązując ten problem, przeprowadzimy obliczenia oraz skonstruujemy wykresy i diagramy, korzystając z ustawień analizy danych Excel.

1. Oblicz macierz współczynników korelacji par i oceń istotność statystyczną współczynników korelacji

W oknie dialogowym Korelacja w polu Interwał wejściowy wprowadź zakres komórek zawierających dane źródłowe. Ponieważ wybraliśmy także nagłówki kolumn, zaznaczamy pole wyboru Etykiety w pierwszym wierszu.

Otrzymaliśmy następujące wyniki:

Tabela 1.1 Macierz współczynników korelacji par

Analiza macierzy współczynników korelacji parami pokazuje, że zmienna zależna Y, czyli produkt regionalny brutto, ma bliższy związek z X1 (inwestycje w środki trwałe). Współczynnik korelacji wynosi 0,936. Oznacza to, że 93,6% zmiennej zależnej Y (produkt regionalny brutto) zależy od wskaźnika X1 (inwestycje w środki trwałe).

Istotność statystyczną współczynników korelacji określimy za pomocą testu t-Studenta. Porównujemy wartość tabeli z wartościami obliczonymi.

Obliczmy wartość tabeli za pomocą funkcji STUDISCOVER.

tabela t = 0,129 przy poziomie ufności 0,9 i stopniach swobody (n-2).

Czynnik X1 jest istotny statystycznie.

2. Skonstruujmy pole korelacji pomiędzy atrybutem efektywnym (produkt regionalny brutto) a czynnikiem najściślej z nim powiązanym (inwestycje w środki trwałe)

W tym celu użyjemy narzędzia wykresu punktowego programu Excel.

W rezultacie otrzymujemy pole korelacji dla ceny produktu regionalnego brutto, miliard rubli. oraz inwestycje w środki trwałe, miliardy rubli. (Rysunek 1.1.).

Rysunek 1.1

3. Oblicz parametry regresji liniowej par dla każdego współczynnika X

Do obliczenia parametrów liniowej regresji parami użyjemy narzędzia Regresja zawartego w ustawieniu Analiza danych.

W oknie dialogowym Regresja, w polu Interwał wejściowy Y wprowadź adres zakresu komórek reprezentowanego przez zmienną zależną. W polu

Przedział wejściowy X wpisujemy adres zakresu zawierającego wartości zmiennych niezależnych. Obliczmy parametry regresji sparowanej dla czynnika X.

Dla X1 otrzymaliśmy następujące dane przedstawione w tabeli 1.2:

Tabela 1.2

Równanie regresji zależności ceny produktu regionalnego brutto od inwestycji w środki trwałe ma postać:

4. Oceńmy jakość każdego modelu poprzez współczynnik determinacji, średni błąd aproksymacji i test F Fishera. Ustalmy, który model jest najlepszy.

Współczynnik determinacji, średni błąd aproksymacji, otrzymaliśmy w wyniku obliczeń przeprowadzonych w paragrafie 3. Uzyskane dane przedstawiono w poniższych tabelach:

Dane X1:

Tabela 1.3a

Tabela 1.4b

A) Współczynnik determinacji określa, jaka część zmienności cechy Y jest uwzględniana w modelu i wynika z wpływu na nią czynnika X. Im większa wartość współczynnika determinacji, tym ściślejszy jest związek pomiędzy charakterystyki w skonstruowanym modelu matematycznym.

Excel odnosi się do R-kwadratu.

W oparciu o to kryterium najwłaściwszym modelem jest równanie regresji zależności ceny produktu regionalnego brutto od inwestycji w środki trwałe (X1).

B) Średni błąd aproksymacji obliczamy ze wzoru:

gdzie licznik jest sumą kwadratów odchylenia obliczonych wartości od rzeczywistych. W tabelach znajduje się w kolumnie SS, w wierszu Pozostało.

Średnią cenę mieszkania obliczamy w Excelu korzystając z funkcji ŚREDNIA. = 24,18182 miliardów rubli.

Przy przeprowadzaniu obliczeń ekonomicznych model uznaje się za wystarczająco dokładny, jeśli średni błąd aproksymacji jest mniejszy niż 5%, a model uznaje się za akceptowalny, jeśli średni błąd aproksymacji jest mniejszy niż 15%.

Według tego kryterium najwłaściwszy jest model matematyczny równania regresji zależności ceny produktu regionalnego brutto od inwestycji w środki trwałe (X1).

C) Test F służy do testowania istotności modelu regresji. W tym celu dokonuje się również porównania krytycznych (tabelarycznych) wartości testu F Fishera.

Obliczone wartości podano w tabelach 1.4b (oznaczone literą F).

Wartość tabelaryczną testu F Fishera obliczymy w programie Excel za pomocą funkcji ROZKŁAD.F. Przyjmijmy prawdopodobieństwo równe 0,05. Otrzymano: = 4,75

Obliczone wartości testu F Fishera dla każdego czynnika są porównywalne z wartością tabelaryczną:

71,02 > = 4,75 model jest adekwatny według tego kryterium.

Analizując dane według wszystkich trzech kryteriów, można stwierdzić, że najlepszy model matematyczny budowany jest dla współczynnika produktu regionalnego brutto, który opisuje równanie liniowe

5. Dla wybranego modelu zależności ceny produktu regionalnego brutto

Przewidujemy średnią wartość wskaźnika na poziomie istotności, jeśli przewidywana wartość współczynnika wynosi 80% jego wartości maksymalnej. Przedstawmy to graficznie: wartości rzeczywiste i modelowe, punkty prognozy.

Obliczmy przewidywaną wartość X; zgodnie z warunkiem będzie to 80% wartości maksymalnej.

Obliczmy X max w Excelu za pomocą funkcji MAX.

0,8 *52,8 = 42,24

Aby otrzymać predykcyjne oszacowania zmiennej zależnej, otrzymaną wartość zmiennej niezależnej podstawiamy do równania liniowego:

5,07+2,14*42,24 = 304,55 miliarda rubli.

Wyznaczmy przedział ufności prognozy, który będzie miał następujące granice:

Aby obliczyć przedział ufności dla wartości przewidywanej, obliczamy odchylenie od linii regresji.

Dla modelu regresji sparowanej wartość odchylenia obliczana jest:

te. wartość błędu standardowego z tabeli 1.5a.

(Ponieważ liczba stopni swobody jest równa jeden, mianownik będzie równy n-2). prognoza regresji par korelacji

Do obliczenia współczynnika skorzystamy z funkcji Excela STUDISCOVER, przyjmiemy prawdopodobieństwo równe 0,1 i liczbę stopni swobody 38.

Obliczamy wartość za pomocą Excela i otrzymujemy 12294.


Wyznaczmy górną i dolną granicę przedziału.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Tym samym prognozowana wartość = 304,55 tys. dolarów będzie mieściła się pomiędzy dolną granicą wynoszącą 277,078 tys. dolarów. a górna granica wynosi 332,022 mld. Pocierać.

Wartości rzeczywiste, modelowe i punkty prognozy przedstawiono graficznie na rysunku 1.2.


Rysunek 1.2

6. Stosując krok po kroku regresję wielokrotną (metodę eliminacji) zbudujemy model kształtowania się ceny produktu regionalnego brutto ze względu na czynniki istotne

Aby zbudować regresję wielokrotną, użyjemy funkcji regresji programu Excel, uwzględniającej wszystkie czynniki. W rezultacie otrzymujemy tabele wyników, z których potrzebny jest test t-Studenta.

Tabela 1.8a

Tabela 1.8b

Tabela 1.8c.

Otrzymujemy taki model:

Ponieważ< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Wybierzmy najmniejszą wartość bezwzględną testu t-Studenta, która wynosi 8,427, porównajmy ją z wartością tabelaryczną, którą obliczamy w Excelu, przyjmijmy poziom istotności równy 0,10, liczbę stopni swobody n-m-1= 12-4=8:=1,8595

Ponieważ 8,427>1,8595 model należy uznać za odpowiedni.

7. Aby ocenić istotny współczynnik powstałego modelu matematycznego, obliczamy współczynniki elastyczności i - współczynniki

Współczynnik elastyczności pokazuje, o ile procent zmieni się atrybut efektywny, gdy atrybut współczynnika zmieni się o 1%:

E X4 = 2,137 * (10,69/24,182) = 0,94%

Oznacza to, że przy wzroście inwestycji w środki trwałe o 1% koszt wzrasta średnio o 0,94%.

Współczynnik pokazuje, o jaką część odchylenia standardowego zmienia się średnia wartość zmiennej zależnej przy zmianie zmiennej niezależnej o jedno odchylenie standardowe.

2,137* (14.736/33,632) = 0,936.

Dane odchylenia standardowego pobierane są z tabel uzyskanych za pomocą narzędzia Statystyka opisowa.

Tabela 1.11 Statystyka opisowa (Y)

Tabela 1.12 Statystyka opisowa (X4)

Współczynnik określa udział wpływu czynnika w łącznym wpływie wszystkich czynników:

Aby obliczyć współczynniki korelacji par, obliczamy macierz współczynników korelacji par w programie Excel za pomocą narzędzia Korelacja w ustawieniach Analizy danych.

Tabela 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Wniosek: Z przeprowadzonych obliczeń wynika, że ​​efektywny atrybut Y (produkt regionalny brutto) jest w dużej mierze uzależniony od czynnika X1 (inwestycje w środki trwałe) (o 100%).

Bibliografia

  • 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Kurs dla początkujących. Instruktaż. wydanie 2. - M.: Delo, 1998. - s. 69 - 74.
  • 2. Warsztaty z ekonometrii: Podręcznik / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i wsp. 2002. - s. 10-10. 49 - 105.
  • 3. Dougherty K. Wprowadzenie do ekonometrii: Tłum. z angielskiego - M.: INFRA-M, 1999. - XIV, s. 2-3 262 - 285.
  • 4. Ayvyzyan SA, Mikhtiryan V.S. Matematyka stosowana i podstawy ekonometrii. -1998., s. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Ekonometria. -2007. od 175-251.
y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analiza macierzy sparowanych współczynników korelacji pokazuje, że wskaźnik efektywny jest najbliżej powiązany ze wskaźnikiem X(4) - ilość nawozu zużytego na 1 hektar ().

Jednocześnie związek między atrybutami-argumentami jest dość ścisły. Istnieje zatem praktycznie funkcjonalna zależność pomiędzy liczbą ciągników kołowych ( X(1)) i liczbą narzędzi do uprawy powierzchniowej .

Na obecność wielowspółliniowości wskazują także współczynniki korelacji oraz . Biorąc pod uwagę ścisły związek pomiędzy wskaźnikami X (1) , X(2) i X(3), tylko jeden z nich może zostać uwzględniony w modelu regresji rentowności.

Aby wykazać negatywny wpływ wieloliniowości, należy rozważyć model regresji rentowności, obejmujący wszystkie wskaźniki wejściowe:

F obs = 121.

Wartości skorygowanych oszacowań odchyleń standardowych oszacowań współczynników równania podano w nawiasach .

W równaniu regresji przedstawiono następujące parametry adekwatności: wielokrotny współczynnik determinacji; skorygowane oszacowanie wariancji resztowej, średni błąd względny aproksymacji oraz obliczona wartość kryterium Fobs = 121.

Równanie regresji jest istotne, ponieważ F obs = 121 > F kp = 2,85 znalezione w tabeli F-rozkłady przy a=0,05; n 1 = 6 i n 2 = 14.

Wynika z tego, że Q¹0, tj. i co najmniej jeden ze współczynników równania q J (J= 0, 1, 2, ..., 5) nie jest zerem.

Aby przetestować hipotezę o istotności poszczególnych współczynników regresji H0: q j =0, gdzie J=1,2,3,4,5, porównaj wartość krytyczną T kp = 2,14, wynika z tabeli T-rozkłady na poziomie istotności a=2 Q=0,05 i liczbę stopni swobody n=14, z obliczoną wartością . Z równania wynika, że ​​współczynnik regresji jest istotny statystycznie tylko wtedy, gdy X(4) od ½ T 4 ½ = 2,90 > T kp =2,14.



Ujemne znaki współczynników regresji nie nadają się do interpretacji ekonomicznej, kiedy X(1) i X(5) . Z ujemnych wartości współczynników wynika, że ​​wzrost nasycenia rolnictwa ciągnikami kołowymi ( X(1)) i produkty ochrony zdrowia roślin ( X(5)) ma negatywny wpływ na plon. Dlatego otrzymane równanie regresji jest niedopuszczalne.

Aby otrzymać równanie regresji ze znaczącymi współczynnikami, stosujemy algorytm analizy regresji krok po kroku. Początkowo stosujemy algorytm krok po kroku z eliminacją zmiennych.

Wykluczmy zmienną z modelu X(1) , co odpowiada minimalnej wartości bezwzględnej ½ T 1 ½ = 0,01. Dla pozostałych zmiennych ponownie konstruujemy równanie regresji:

Otrzymane równanie jest istotne, ponieważ F zaobserwowane = 155 > F kp = 2,90, znalezione na poziomie istotności a=0,05 i liczbach stopni swobody n 1 =5 i n 2 =15 zgodnie z tabelą F-dystrybucja, tj. wektor q¹0. Jednak tylko współczynnik regresji przy X(4) . Szacunkowe wartości ½ T j ½ dla innych współczynników jest mniejsze T kr = 2,131, wynika z tabeli T-rozkłady przy a=2 Q=0,05 i n=15.

Wykluczając zmienną z modelu X(3) , co odpowiada wartości minimalnej T 3 = 0,35 i otrzymujemy równanie regresji:

(2.9)

W otrzymanym równaniu współczynnik przy X(5) . Wykluczając X(5) otrzymujemy równanie regresji:

(2.10)

Otrzymaliśmy istotne równanie regresji ze znaczącymi i możliwymi do interpretacji współczynnikami.

Jednak powstałe równanie nie jest jedynym „dobrym” i nie „najlepszym” modelem plonów w naszym przykładzie.

Pokażmy to w warunku wieloliniowości bardziej efektywny jest algorytm krokowy z uwzględnieniem zmiennych. Pierwszy krok w modelu rentowności y zmienna zawarta X(4) , który ma najwyższy współczynnik korelacji z y, wyjaśnione przez zmienną - R(y,X(4))=0,58. W drugim kroku należy uwzględnić równanie wraz z X(4) zmienne X(1) lub X(3) otrzymamy modele, które ze względów ekonomicznych i statystycznych przekraczają (2.10):

(2.11)

(2.12)

Uwzględnienie w równaniu którejkolwiek z trzech pozostałych zmiennych pogarsza jego właściwości. Zobacz na przykład równanie (2.9).

Mamy zatem trzy „dobre” modele plonów, spośród których musimy wybrać jeden ze względów ekonomicznych i statystycznych.

Według kryteriów statystycznych najbardziej adekwatny jest model (2.11). Odpowiada to minimalnym wartościom wariancji rezydualnej = 2,26 i średniemu błędowi względnemu aproksymacji oraz największym wartościom i Fob = 273.

Nieco gorsze wskaźniki adekwatności ma model (2.12), za nim plasuje się model (2.10).

Wybierzemy teraz najlepszy z modeli (2.11) i (2.12). Modele te różnią się między sobą pod względem zmiennych X(1) i X(3) . Jednak w modelach rentowności zmienna X(1) (liczba ciągników kołowych na 100 ha) jest bardziej preferowana niż zmienna X(3) (liczba narzędzi do uprawy powierzchniowej na 100 ha), która jest w pewnym stopniu wtórna (lub pochodzi X (1)).

W tym względzie, ze względów ekonomicznych, należy preferować model (2.12). Zatem po wdrożeniu algorytmu analizy regresji krokowej z uwzględnieniem zmiennych i uwzględnieniu faktu, że do równania powinna wejść tylko jedna z trzech powiązanych zmiennych ( X (1) , X(2) lub X(3)) wybierz końcowe równanie regresji:

Równanie jest istotne przy a=0,05, ponieważ F obs = 266 > F kp = 3,20, wynika z tabeli F-rozkłady w a= Q=0,05; n 1 = 3 i n 2 = 17. Wszystkie współczynniki regresji w równaniu ½ są również istotne T j½> T kp(a=2 Q=0,05; n=17)=2,11. Współczynnik regresji q 1 należy uznać za istotny (q 1 ¹0) ze względów ekonomicznych, natomiast T 1 = 2,09 tylko nieco mniej T kp = 2,11.

Z równania regresji wynika, że ​​zwiększenie o jeden liczby ciągników przypadających na 100 ha gruntów ornych (przy stałej wartości X(4)) prowadzi do wzrostu plonów ziarna średnio o 0,345 c/ha.

Przybliżone obliczenie współczynników elastyczności e 1 »0,068 i e 2 »0,161 pokazuje, że wraz ze wzrostem wskaźników X(1) i X(4) o 1% plon ziarna wzrasta średnio odpowiednio o 0,068% i 0,161%.

Wielokrotny współczynnik determinacji wskazuje, że jedynie 46,9% zmienności plonów wyjaśniane jest wskaźnikami zawartymi w modelu ( X(1) i X(4)), czyli nasycenie produkcji roślinnej ciągnikami i nawozami. Pozostała część zmienności wynika z działania nieuwzględnionych czynników ( X (2) , X (3) , X(5), warunki pogodowe itp.). Średni błąd względny aproksymacji charakteryzuje adekwatność modelu, a także wartość wariancji resztowej. Przy interpretacji równania regresji interesujące są wartości względnych błędów aproksymacji . Przypomnijmy, że - modelowa wartość efektywnego wskaźnika charakteryzuje średnią wartość plonu dla całości rozpatrywanych regionów, pod warunkiem, że wartości zmiennych objaśniających X(1) i X(4) są ustalone na tym samym poziomie, a mianowicie X (1) = x ja(1) i X (4) = x ja(4) . Następnie, zgodnie z wartościami d I Możesz porównywać regiony według plonów. Obszary, którym odpowiadają wartości d I> 0, mają ponadprzeciętną wydajność, oraz d I<0 - ниже среднего.

W naszym przykładzie, pod względem plonowania, produkcja roślinna jest najbardziej efektywna na obszarze odpowiadającym d 7 =28%, gdzie plon jest o 28% wyższy od średniej regionalnej, a najmniej efektywny jest na obszarze o d 20 =-27,3%.


Zadania i ćwiczenia

2.1. Z populacji ogólnej ( y, X (1) , ..., X(p)), gdzie y ma prawo rozkładu normalnego z warunkowymi matematycznymi oczekiwaniami i wariancją s 2, losową próbą N, Odpuść sobie ( tak, ja, x ja (1) , ..., x ja(p)) - wynik I obserwacja ( I=1, 2, ..., N). Wyznacz: a) matematyczne oczekiwanie oszacowania wektora metodą najmniejszych kwadratów Q; b) macierz kowariancji oszacowania wektora metodą najmniejszych kwadratów Q; c) matematyczne oczekiwania oceny.

2.2. Zgodnie z warunkami zadania 2.1 znajdź matematyczne oczekiwanie sumy kwadratów odchyleń spowodowanych regresją, tj. EQ R, Gdzie

.

2.3. Zgodnie z warunkami zadania 2.1 wyznaczyć matematyczne oczekiwanie sumy kwadratów odchyleń spowodowanych zmianą resztową względem linii regresji, tj. EQ ost, gdzie

2.4. Udowodnić, że gdy spełniona jest hipoteza H 0: statystyka q=0

ma rozkład F ze stopniami swobody n 1 = p+1 i n 2 = n-p-1.

2.5. Udowodnić, że gdy spełniona jest hipoteza H 0: q j =0, statystyka ma rozkład t z liczbą stopni swobody n=n-p-1.

2.6. Na podstawie danych (tab. 2.3) dotyczących zależności skurczu pieczywa paszowego ( y) na czas przechowywania ( X) znajdź oszacowanie punktowe oczekiwania warunkowego przy założeniu, że ogólne równanie regresji jest liniowe.

Tabela 2.3.

Wymagane: a) znaleźć oszacowania wariancji resztowej s 2 przy założeniu, że równanie regresji ogólnej ma postać ; b) sprawdzić przy a=0,05 istotność równania regresji, tj. hipoteza H 0: q=0; c) z niezawodnością g=0,9 wyznaczyć estymaty przedziałowe parametrów q 0, q 1; d) z niezawodnością g=0,95 wyznaczyć estymację przedziałową warunkowego oczekiwania matematycznego przy X 0 = 6; e) wyznaczyć przy g=0,95 przedział ufności przewidywania w tym punkcie X=12.

2.7. Na podstawie danych o dynamice dynamiki cen akcji za 5 miesięcy podanych w tabeli. 2.4.

Tabela 2.4.

miesiące ( X)
y (%)

oraz przy założeniu, że równanie regresji ogólnej ma postać , należy: a) wyznaczyć oszacowania zarówno parametrów równania regresji, jak i wariancji reszt s 2 ; b) sprawdzić przy a=0,01 istotność współczynnika regresji, tj. hipotezy H 0: q 1 =0;

c) przy niezawodności g=0,95 znaleźć estymaty przedziałowe parametrów q 0 i q 1; d) przy niezawodności g=0,9 ustalić przedziałową estymację warunkowego oczekiwania matematycznego przy X 0 =4; e) wyznaczyć przy g=0,9 przedział ufności przewidywania w tym punkcie X=5.

2.8. Wyniki badań dynamiki przyrostów masy ciała młodych zwierząt przedstawiono w tabeli 2.5.

Tabela 2.5.

Zakładając, że równanie regresji ogólnej jest liniowe, należy: a) wyznaczyć oszacowania zarówno parametrów równania regresji, jak i wariancji reszt s 2 ; b) sprawdzić przy a=0,05 istotność równania regresji, tj. hipotezy H 0: q=0;

c) przy niezawodności g=0,8 znaleźć estymaty przedziałowe parametrów q 0 i q 1; d) z niezawodnością g=0,98 wyznaczyć i porównać oszacowania przedziałowe warunkowego oczekiwania matematycznego w X 0 = 3 i X 1 =6;

e) wyznaczyć przy g=0,98 przedział ufności przewidywania w tym punkcie X=8.

2.9. Koszt ( y) jeden egzemplarz książki w zależności od nakładu ( X) (tys. egzemplarzy) charakteryzują dane zebrane przez wydawnictwo (tabela 2.6). Wyznacz estymatory i parametry równania regresji hiperbolicznej metodą najmniejszych kwadratów o niezawodności g=0,9, skonstruuj przedziały ufności dla parametrów q 0 i q 1 oraz oczekiwanie warunkowe przy X=10.

Tabela 2.6.

Wyznacz oszacowania i parametry równania regresji postaci , przetestuj hipotezę H 0 przy a = 0,05: q 1 = 0 i skonstruuj przedziały ufności z wiarygodnością g = 0,9 dla parametrów q 0 i q 1 oraz warunkowego oczekiwania matematycznego przy X=20.

2.11. W tabeli 2.8 przedstawił dane dotyczące dynamiki (w %) następujących wskaźników makroekonomicznych N= 10 rozwiniętych krajów świata w roku 1992: PNB - X(1) , produkcja przemysłowa - X(2) , wskaźnik cen - X (3) .

Tabela 2.8.

Kraje x i parametry równania regresji, estymacja wariancji resztowej; b) sprawdzić przy a=0,05 istotność współczynnika regresji, tj. H0: q1 =0; c) przy niezawodności g=0,9 znaleźć oszacowania przedziałów q 0 i q 1; d) znajdź przy g=0,95 przedział ufności dla tego punktu X 0 =x ja, Gdzie I=5; e) porównać charakterystyki statystyczne równań regresji: 1, 2 i 3.

2.12. Rozwiąż problem 2.11, biorąc ( Na) indeks X(1) , oraz w celach wyjaśniających ( X) zmienny X (3) .

1. Ayvazyan SA, Mkhitaryan V.S. Statystyka stosowana i podstawy ekonometrii: Podręcznik. M., UNITY, 1998 (wyd. 2 2001);

2. Ayvazyan SA, Mkhitaryan V.S. Statystyka stosowana w zadaniach i ćwiczeniach: Podręcznik. M. JEDNOŚĆ - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Statystyka stosowana. Badania zależności. M., Finanse i statystyka, 1985, 487 s.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Statystyka stosowana. Klasyfikacja i redukcja wymiarów. M., Finanse i statystyka, 1989, 607 s.;

5. Johnston J. Metody ekonometryczne, M.: Statistics, 1980, 446 s.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Wielowymiarowe metody statystyczne. M., Finanse i statystyka, 2000;

7. Mkhitaryan V.S., Troshin L.I. Badanie zależności metodami korelacji i regresji. M., MESI, 1995, 120 s.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Wielowymiarowe metody statystyczne w ekonomii. M., MESI, 1995, 149 s.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Statystyka matematyczna dla przedsiębiorców i menedżerów. M., MESI, 2000, 140 s.;

10. Lukashin Yu.I. Metody prognozowania regresyjnego i adaptacyjnego: Podręcznik, M., MESI, 1997.

11. Lukashin Yu.I. Adaptacyjne metody prognozowania krótkoterminowego. - M., Statystyka, 1979.


APLIKACJE


Aneks 1. Opcje zadań do niezależnych badań komputerowych.

KATEGORIE

POPULARNE ARTYKUŁY

2023 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich