Proste praktyczne przykłady regresji liniowej. Estymacja parametrów regresji liniowej

Jak wspomniano powyżej, w przypadku zależności liniowej równaniem regresji jest równanie linii prostej.

Wyróżnić

Y = a ty/x + B ty/x X

X = a x/y + B x/y Y

Tutaj A I B– współczynniki, czyli parametry, które wyznacza się za pomocą wzorów. Wartość współczynnika B obliczony

Ze wzorów jasno wynika, że ​​współczynniki regresji B ty/x I B x/y mają ten sam znak co współczynnik korelacji, wymiar równy stosunkowi wymiarów badanych wskaźników X I U, i są powiązane zależnością:

Aby obliczyć współczynnik A wystarczy podstawić do równań regresji średnie wartości skorelowanych zmiennych



Wykres teoretycznych linii regresji (ryc. 17) wygląda następująco:

Rysunek 17. Teoretyczne linie regresji

Z powyższych wzorów łatwo wykazać, że nachylenia linii regresji są odpowiednio równe


Ponieważ
, To
. Oznacza to, że linia regresji Y NA X ma mniejsze nachylenie do osi x niż linia regresji X NA Y.

Bliżej do jedności, tym mniejszy jest kąt między liniami regresji. Linie te łączą się tylko wtedy, gdy
.

Na
regresje bezpośrednie opisano równaniami
,
.

Zatem równania regresji pozwalają:

    określić, jak bardzo zmienia się jedna wielkość w stosunku do drugiej;

    przewidzieć wyniki.

2. Metodyka wykonywania prac obliczeniowych i graficznych nr 2

Praca obliczeniowo-graficzna zawiera 4 sekcje.

W pierwszej części:

    Temat jest sformułowany;

    Cel pracy jest sformułowany.

W drugiej części:

    Sformułowano warunek problemu;

    Wypełniana jest tabela danych próbki początkowej.

W trzeciej części:

    Wyniki pomiarów prezentowane są w formie serii zmian;

    Podano graficzną reprezentację szeregu zmian.

    Formułuje się wniosek.

W czwartej części:

    Obliczane są główne cechy statystyczne szeregu pomiarów;

    Na podstawie wyników obliczeń formułuje się wniosek.

Forma pracy:

    Pracę wykonuje się w osobnym zeszycie lub na wyciętych kartkach.

    Strona tytułowa jest wypełniona według wzoru.

Rosyjski Uniwersytet Państwowy

kultura fizyczna, sport, młodzież i turystyka

Katedra Nauk Przyrodniczych

Analizy korelacyjne i regresyjne

Praca obliczeniowa i graficzna nr 2

na kursie matematyki

Ukończyli: student 1 tys. 1 garnek. 1g.

Iwanow S.M.

Nauczyciel:

doc. wydziały UNM i IT

Moskwa – 2012

(Przykład projektu strony tytułowej)

Przykład wykonania pracy obliczeniowo-graficznej nr 2.

Temat pracy: Analizy korelacji i regresji.

Cel pracy: Określ związek między wskaźnikami dwóch próbek.

Postęp prac:

    Wymyśl dwie próbki ze swojej dyscypliny sportowej o tym samym rozmiarze n.

    Narysuj pole korelacji i wyciągnij wstępny wniosek.

    Określ wiarygodność współczynnika korelacji i wyciągnij końcowy wniosek.

    Skonstruuj teoretyczne linie regresji na polu korelacji i wskaż ich punkt przecięcia.

1. Stan problemu: Wyniki grupy lekkoatletów określono w biegu na 100 m przez płotki X I(c) i skok w dal Y I(m) (stół). Sprawdź, czy pomiędzy badanymi cechami istnieje korelacja i określ rzetelność współczynnika korelacji.

Przykładowa tabela danych źródłowych: Wyniki przedstawiono w tabeli danych początkowych.

Tabela 6

Wyniki biegania i skakania

p/s

X I, Z

Y I , M

p/s

X I, Z

Y I, M

Rozwiązanie:

2 . Skonstruujmy pole korelacyjne (diagram punktowy) i wyciągnijmy wstępny wniosek dotyczący zależności pomiędzy badanymi cechami.

Rysunek 18. Pole korelacji

Wstępny wniosek:

Zależność wskaźników wyników w biegu na 100 m przez płotki X I(c) i skok w dal Y I(cm):

    liniowy;

    negatywny;

3 . Obliczmy sparowany liniowy współczynnik korelacji Bravaisa-Pearsona, po wcześniejszym obliczeniu głównych wskaźników statystycznych obu próbek. Aby je obliczyć, stworzymy tabelę, w której przedostatnia i ostatnia kolumna są niezbędne do obliczenia odchyleń standardowych, jeśli są nieznane. Dla naszego przykładu wartości te zostały obliczone w pierwszej pracy obliczeniowej i graficznej, ale dla przejrzystości pokażemy obliczenia dodatkowo.

Tabela 7

Tabela pomocnicza do obliczania współczynnika

Korelacje Bravaisa-Pearsona

X I , Z

Y I, cm

13,59

X =
,

y =
,

.

Uzyskana wartość współczynnika korelacji pozwala potwierdzić wniosek wstępny i wyciągnąć wniosek końcowy – związek pomiędzy badanymi cechami:

    liniowy;

    negatywny;

4 . Określmy rzetelność współczynnika korelacji.

Załóżmy, że nie ma związku pomiędzy wynikiem w biegu na 100 m a skokiem w dal ( N O : R= 0).

Wniosek: istnieje silny, negatywny, statystycznie istotny ( R=0,95) związek biegu na 100 m z przeszkodami i skoku w dal. Oznacza to, że wraz z poprawą wyniku w skoku w dal maleje czas potrzebny na przebiegnięcie dystansu 100 m.

5 . Obliczmy współczynnik determinacji:

W rezultacie jedynie w 96% związek wyników w biegu na 100 m przez płotki i skoku w dal można wytłumaczyć ich wzajemnym wpływem, a resztę, czyli 4%, tłumaczy się wpływem innych, nieuwzględnionych czynników.

6. Obliczmy współczynniki równań regresji bezpośredniej i odwrotnej za pomocą wzorów, podstawiamy wartości obliczonych współczynników do odpowiedniego wzoru i zapisujemy równania regresji bezpośredniej i odwrotnej:

Y= za 1 + B 1 X- równanie regresji bezpośredniej;

X = a 2 + B 2 Y- równanie regresji odwrotnej.

Skorzystajmy z wyników obliczeń podanych powyżej:

X =
; y =
;
;
13,59;
6,4,

Obliczmy współczynnik B 1 , korzystając ze wzoru:

Aby obliczyć współczynnik A 1 B 1 X I Y

A 1 I B 1

Y = 22 - 1,15X

Obliczmy współczynnik B 2 , korzystając ze wzoru:

Aby obliczyć współczynnik A 2 zamiast tego wstaw do równania regresji bezpośredniej B 2 obliczoną wartość i zamiast tego X I Yśrednie arytmetyczne dwóch próbek z tabeli:

Zastąpmy uzyskane wartości współczynników A 1 I B 1 do równania regresji bezpośredniej i zapisz równanie linii prostej:

X = 18,92 - 0,83Y

W ten sposób otrzymaliśmy równania regresji bezpośredniej i odwrotnej:

Y = 22 - 1,15X- równanie regresji bezpośredniej;

X = 18,92 - 0,83Y- równanie regresji odwrotnej.

Aby sprawdzić poprawność obliczeń, wystarczy podstawić wartość średnią do równania bezpośredniego i określić wartość Y. Otrzymana wartość Y powinna być bliska lub równa wartości średniej .

Y = 22 - 1,15 = 22 - 1,15 13,59 = 6,4 =.

Podstawiając średnią do równania regresji odwrotnej , wynikowa wartość X powinna być bliska lub równa wartości średniej .

X = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Skonstruujmy linie regresji na polu korelacji.

Aby graficznie skonstruować teoretyczne linie regresji, a także skonstruować dowolną linię prostą, musisz mieć dwa punkty z zakresu wartości X I Y.

Ponadto w równaniu regresji bezpośredniej zmienna niezależna X i zależne Y, a w przeciwnym kierunku – zmienna niezależna Y i zależne X.

Y = 22 - 1,15X

X

Y

X = 18,92 - 0,83Y

Y

X

Współrzędne punktu przecięcia prostych równań regresji bezpośredniej i odwrotnej są wartościami średnich arytmetycznych dwóch próbek (biorąc pod uwagę błędy zaokrągleń w obliczeniach przybliżonych).

Wniosek: znając wynik biegu na 100 m z przeszkodami, korzystając z równania regresji bezpośredniej, można teoretycznie wyznaczyć wynik skoku w dal; i odwrotnie, znając wynik skoku w dal za pomocą równania regresji odwrotnej, możesz określić wynik biegu z przeszkodami.

Zadanie.

Dla przedsiębiorstw przemysłu lekkiego w regionie uzyskano informacje charakteryzujące zależność wielkości produkcji (Y, mln rubli) od wielkości inwestycji kapitałowych (Y, mln rubli).

Tabela 1.

Zależność wielkości produkcji od wielkości inwestycji kapitałowych.

X
Y

Wymagany:

1. Znaleźć parametry równania regresji liniowej, podać interpretację ekonomiczną współczynnika regresji.

2. Oblicz resztę; znajdź pozostałą sumę kwadratów; oszacować wariancję reszt; wykreśl pozostałości.

3. Sprawdź spełnienie wymagań wstępnych MNC.

4. Sprawdź istotność parametrów równania regresji za pomocą testu t-Studenta (α = 0,05).

5. Oblicz współczynnik determinacji, sprawdź istotność równania regresji za pomocą testu F Fishera (α = 0,05), znajdź średni błąd względny aproksymacji. Wyciągnij wnioski na temat jakości modelu.

6. Oszacuj średnią wartość wskaźnika Y na poziomie istotności α = 0,1, jeśli przewidywana wartość czynnika X wynosi 80% jego wartości maksymalnej.

7. Przedstaw graficznie rzeczywiste i modelowe wartości Y punktu prognozowanego.

8. Utwórz równania regresji nieliniowej i wykreśl je:

Hiperboliczny;

Potężny;

Orientacyjny.

9. Dla wskazanych modeli znaleźć współczynniki determinacji i średnie względne błędy aproksymacji. Porównaj modele w oparciu o te cechy i wyciągnij wnioski.

Znajdźmy parametry równania regresji liniowej i podajmy ekonomiczną interpretację współczynnika regresji.

Równanie regresji liniowej to: ,

Obliczenia dotyczące znalezienia parametrów aib podano w tabeli 2.

Tabela 2.

Obliczanie wartości w celu znalezienia parametrów równania regresji liniowej.

Równanie regresji wygląda następująco: y = 13,8951 + 2,4016*x.

Wraz ze wzrostem wielkości inwestycji kapitałowych (X) o 1 milion rubli. wielkość produkcji (Y) wzrośnie średnio o 2,4016 mln rubli. Istnieje zatem dodatnia korelacja znaków, która wskazuje na efektywność przedsiębiorstw i opłacalność inwestycji w ich działalność.

2. Oblicz resztę; znajdź pozostałą sumę kwadratów; oszacujmy wariancję reszt i wykreśl pozostałości.

Pozostałą część oblicza się ze wzoru: e ja = y ja - y prog.

Resztkowa suma kwadratów odchyleń: = 207,74.

Dyspersja pozostałości: 25.97.

Obliczenia przedstawiono w tabeli 3.

Tabela 3.

Y X Y=a+b*xi e ja = y i - y progn. e ja 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Suma 0,00 207,74
Przeciętny 111,4 40,6

Wykres bilansu wygląda następująco:


Ryc.1. Wykres salda

3. Sprawdźmy spełnienie przesłanek MNC, które obejmują elementy:

- sprawdzenie, czy oczekiwanie matematyczne składnika losowego jest równe zeru;

- losowy charakter szczątków;

- kontrola niezależności;

- zgodność liczby reszt z prawem rozkładu normalnego.

Sprawdzanie równości oczekiwań matematycznych poziomów szeregu reszt do zera.

Przeprowadzane podczas testowania odpowiedniej hipotezy zerowej H 0: . W tym celu konstruowana jest statystyka t, gdzie .

, zatem hipoteza zostaje przyjęta.

Losowy charakter pozostałości.

Sprawdźmy losowość poziomów szeregu reszt stosując kryterium punktu zwrotnego:

Liczbę punktów zwrotnych wyznacza się z tabeli reszt:

e ja = y i - y progn. Punkty zwrotne e ja 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Suma 0,00 207,74 354,62
Przeciętny

= 6 > , zatem spełniona jest właściwość losowości reszt.

Niezależność reszty sprawdzane za pomocą testu Durbina-Watsona:

=4 - 1,707 = 2,293.

Ponieważ mieścił się on w przedziale od d 2 do 2, to na podstawie tego kryterium możemy stwierdzić, że własność niezależności jest spełniona. Oznacza to, że w szeregu dynamiki nie występuje autokorelacja, zatem model jest adekwatny w świetle tego kryterium.

Zgodność szeregu reszt z prawem dystrybucji normalnej wyznaczane za pomocą kryterium R/S z poziomami krytycznymi (2,7-3,7);

Obliczmy wartość RS:

RS = (e max - e min)/ S,

gdzie emax jest maksymalną wartością poziomów liczby reszt E(t) = 8,07;

e min - minimalna wartość poziomów liczby reszt E(t) = -6,54.

S – odchylenie standardowe, = 4,8044.

RS = (e maks. - e min)/ S = (8,07 + 6,54)/4,8044 = 3,04.

Od 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Tym samym, po rozważeniu różnych kryteriów spełnienia przesłanek MNC, dochodzimy do wniosku, że przesłanki MNC są spełnione.

4. Sprawdźmy istotność parametrów równania regresji za pomocą testu t-Studenta α = 0,05.

Sprawdzenie istotności poszczególnych współczynników regresji wiąże się z wyznaczeniem obliczonych wartości test t (statystyka t) dla odpowiednich współczynników regresji:

Następnie obliczone wartości porównuje się z wartościami tabelarycznymi stół= 2,3060. Wartość tabelaryczna kryterium ustalana jest przy ( N- 2) stopnie swobody ( N- liczba obserwacji) i odpowiadający mu poziom istotności a (0,05)

Jeżeli obliczona wartość testu t z (N- 2) stopnie swobody przekraczają wartość tabelaryczną na danym poziomie istotności, współczynnik regresji uznaje się za istotny.

W naszym przypadku współczynniki regresji a 0 są nieistotne, a 1 to współczynniki znaczące.

Sparowana regresja liniowa

PRAKTYKA

Sparowana regresja liniowa: warsztaty. –

Studia z ekonometrii polegają na zdobywaniu przez studentów doświadczenia w konstruowaniu modeli ekonometrycznych, podejmowaniu decyzji dotyczących specyfikacji i identyfikacji modelu, wyborze metody szacowania parametrów modelu, ocenie jego jakości, interpretacji wyników, uzyskiwaniu szacunków prognostycznych itp. Warsztaty pomogą studentom zdobyć praktyczne umiejętności w tych zagadnieniach.

Zatwierdzone przez Radę Redakcyjną i Wydawniczą

Opracował: M.B. Perova, doktor nauk ekonomicznych, profesor

Postanowienia ogólne

Badania ekonometryczne rozpoczynają się od teorii ustalającej zależności między zjawiskami. Z całego szeregu czynników wpływających na atrybut efektywny, wyróżniono te najważniejsze. Po stwierdzeniu istnienia zależności pomiędzy badanymi cechami, za pomocą analizy regresji ustalany jest dokładny rodzaj tej zależności.

Analiza regresji polega na zdefiniowaniu wyrażenia analitycznego (zdefiniowaniu funkcji), w którym zmiana jednej wartości (charakterystyka wynikowa) następuje pod wpływem wartości niezależnej (charakterystyka silniowa). Zależność tę można określić ilościowo, konstruując równanie regresji lub funkcję regresji.

Podstawowym modelem regresji jest model regresji sparowanej (jednoczynnikowej). Regresja sparowana– równanie związku dwóch zmiennych Na I X:

Gdzie – zmienna zależna (atrybut wynikowy);

– zmienna niezależna objaśniająca (charakterystyka czynnikowa).

W zależności od charakteru zmiany Na ze zmianą X rozróżnia regresje liniowe i nieliniowe.

Regresja liniowa

Ta funkcja regresji nazywana jest wielomianem pierwszego stopnia i służy do opisu procesów przebiegających równomiernie w czasie.

Posiadanie losowego członka (błędy regresji) wiąże się z wpływem na zmienną zależną innych czynników nieuwzględnionych w równaniu, z możliwą nieliniowością modelu, błędami pomiaru, a co za tym idzie pojawieniem się równanie błędu losowego regresja może wynikać z następującego celu powodów:

1) niereprezentatywność próby. Model regresji sparowanej zawiera czynnik, który nie jest w stanie w pełni wyjaśnić zmienności cechy wyniku, na którą w znacznie większym stopniu może wpływać wiele innych czynników (pominiętych zmiennych). Przykładowo wynagrodzenie może zależeć, oprócz kwalifikacji, od poziomu wykształcenia, doświadczenia zawodowego, płci itp.;

2) istnieje możliwość, że zmienne biorące udział w modelu mogą być mierzone z błędem. Przykładowo, dane o wydatkach gospodarstw domowych na żywność zestawiane są z rejestrów uczestników badania, którzy z założenia dokładnie rejestrują swoje codzienne wydatki. Oczywiście możliwe są błędy.

Na podstawie obserwacji próbki szacuje się równanie regresji próbki ( linia regresji):

,

Gdzie
– oszacowania parametrów równania regresji (
).

Analityczna forma zależności pomiędzy badaną parą cech (funkcją regresji) wyznacza się w następujący sposób metody:

    Na podstawie analizy teoretycznej i logicznej charakter badanych zjawisk, ich istota społeczno-ekonomiczna. Jeśli na przykład zbadamy związek pomiędzy dochodami gospodarstw domowych a wielkością depozytów gospodarstw domowych w bankach, to oczywiste jest, że zależność jest bezpośrednia.

    Metoda graficzna, gdy charakter połączenia ocenia się wizualnie.

Zależność tę widać wyraźnie budując wykres, nanosząc wartości atrybutu na oś x X, a na rzędnej - wartości cechy Na. Poprzez wykreślenie punktów odpowiadających wartościom X I Na, otrzymujemy pole korelacyjne:

a) jeżeli punkty są losowo rozproszone po całym polu, oznacza to brak zależności między tymi cechami;

b) jeżeli punkty skupiają się wokół osi biegnącej od lewego dolnego rogu do prawego górnego rogu, to pomiędzy cechami istnieje bezpośredni związek;

c) jeżeli punkty skupiają się wokół osi biegnącej od lewego górnego rogu do prawego dolnego rogu – wówczas zachodzi odwrotna zależność pomiędzy cechami.

Jeśli połączymy punkty pola korelacji odcinkami prostymi, otrzymamy linię łamaną z pewną tendencją do wzrostu. Będzie to empiryczna linia komunikacji lub empiryczna linia regresji. Po jego wyglądzie można ocenić nie tylko obecność, ale także formę zależności pomiędzy badanymi cechami.

Konstruowanie równania regresji sparowanej

Konstrukcja równania regresji sprowadza się do oszacowania jego parametrów. Oszacowania tych parametrów można znaleźć na różne sposoby. Jedną z nich jest metoda najmniejszych kwadratów (LSM). Istota tej metody jest następująca. Każda wartość odpowiada wartości empirycznej (obserwowanej). . Konstruując równanie regresji, na przykład równanie linii prostej, dla każdej wartości będzie odpowiadać wartości teoretycznej (obliczonej). . Obserwowane wartości nie leżą dokładnie na linii regresji, tj. nie pasuje . Nazywa się różnicę między rzeczywistymi i obliczonymi wartościami zmiennej zależnej reszta:

Metoda najmniejszych kwadratów pozwala uzyskać takie oszacowania parametrów, przy których suma kwadratów odchyleń rzeczywistych wartości wynikowej charakterystyki Na od teoretycznych , tj. suma kwadratów reszt jest minimalna:

W przypadku równań liniowych i równań nieliniowych redukowalnych do liniowych rozwiązuje się następujący układ ze względu na: A I B:

Gdzie N- wielkość próbki.

Po rozwiązaniu układu równań otrzymujemy wartości A I B, co pozwala nam pisać równanie regresji(równanie regresji):

Gdzie – zmienna objaśniająca (niezależna);

–zmienna objaśniana (zależna);

Linia regresji przechodzi przez punkt ( ,) i równości są spełnione:

Można skorzystać z gotowych wzorów wynikających z tego układu równań:

Gdzie – wartość średnia cechy zależnej;

–średnia wartość cechy niezależnej;

– średnia arytmetyczna wartości iloczynu cech zależnych i niezależnych;

– wariancja cechy niezależnej;

– kowariancja pomiędzy cechami zależnymi i niezależnymi.

Przykładowa kowariancja dwie zmienne X, Na jest wartością średnią iloczynu odchyleń tych zmiennych od ich średnich

Parametr B Na X ma duże znaczenie praktyczne i nazywany jest współczynnikiem regresji. Współczynnik regresji pokazuje, o ile jednostek średnio zmienia się wartość Na X na 1 jednostkę miary.

Znak parametru B w równaniu regresji parami wskazuje kierunek zależności:

Jeśli
, wówczas związek między badanymi wskaźnikami jest bezpośredni, tj. ze wzrastającym znakiem czynnika X efektywny znak również wzrasta Na, i wzajemnie;

Jeśli
, wówczas zależność między badanymi wskaźnikami jest odwrotna, tj. ze wzrastającym znakiem czynnika X wynikowy znak Na maleje i odwrotnie.

Wartość parametru A w równaniu regresji sparowanej w niektórych przypadkach można interpretować jako wartość początkową wynikowej cechy Na. Taka interpretacja parametru A możliwe tylko wtedy, gdy wartość
ma znaczenie.

Po skonstruowaniu równania regresji zaobserwowane wartości y można przedstawić jako:

Resztki , jak błędy , są jednak zmiennymi losowymi, w przeciwieństwie do błędów , obserwowalne. Pozostała część to ta część zmiennej zależnej y, którego nie można wyjaśnić za pomocą równania regresji.

Na podstawie równania regresji można obliczyć wartości teoretyczne X dla dowolnych wartości X.

W analizie ekonomicznej często używa się pojęcia elastyczności funkcji. Funkcja sprężystości
obliczona jako zmiana względna y do względnej zmiany X. Elastyczność pokazuje, o ile procent zmienia się funkcja
gdy zmienna niezależna zmienia się o 1%.

Ponieważ elastyczność funkcji liniowej
nie jest wartością stałą, ale zależy od X, wówczas współczynnik elastyczności oblicza się zwykle jako średni wskaźnik elastyczności.

Współczynnik elastyczności pokazuje, o jaki procent średnio zmieni się wartość wynikowej cechy Na gdy zmienia się charakterystyka czynnika X o 1% od swojej średniej wartości:

Gdzie
– średnie wartości zmiennych X I Na w próbce.

Ocena jakości skonstruowanego modelu regresji

Jakość modelu regresji– adekwatność skonstruowanego modelu do danych pierwotnych (obserwowanych).

Do pomiaru szczelności połączenia, tj. aby zmierzyć, jak blisko jest ona do funkcjonalnej, należy wyznaczyć wariancję, która mierzy odchylenia Na z Na X oraz scharakteryzowanie zmienności resztowej spowodowanej innymi czynnikami. Stanowią one podstawę wskaźników charakteryzujących jakość modelu regresji.

Jakość regresji parami określa się za pomocą współczynników charakteryzujących

1) bliskość powiązania – wskaźnik korelacji, współczynnik korelacji liniowej sparowanej;

2) błąd aproksymacji;

3) jakość równania regresji i jego poszczególnych parametrów - błędy średniokwadratowe równania regresji jako całości i jego poszczególnych parametrów.

Dla równań regresji dowolnego typu jest to określane wskaźnik korelacji, co charakteryzuje jedynie szczelność zależności korelacyjnej, tj. stopień jego zbliżenia do połączenia funkcjonalnego:

,

Gdzie – dyspersja silniowa (teoretyczna);

– całkowita rozbieżność.

Indeks korelacji przyjmuje wartości
, w której,

Jeśli

Jeśli
- połączenie między znakami X I Na jest funkcjonalny, tym bliżej do 1, tym bliższy jest związek między badanymi cechami. Jeśli
, wówczas połączenie można uznać za bliskie

Odchylenia potrzebne do obliczenia wskaźników szczelności sprzęgła obliczane są:

Całkowita rozbieżność, mierząc całkowitą zmienność wynikającą z działania wszystkich czynników:

Wariancja czynnikowa (teoretyczna), mierzenie zmienności uzyskanej cechy Na ze względu na działanie znaku czynnika X:

Odchylenie resztkowe, charakteryzujące zmienność cechy Na ze względu na wszystkie czynniki z wyjątkiem X(tj. z wykluczonymi X):

Następnie zgodnie z zasadą dodawania wariancji:

Jakość łaźni parowej liniowy regresję można również zdefiniować za pomocą współczynnik korelacji liniowej pary:

,

Gdzie
– kowariancja zmiennych X I Na;

– odchylenie standardowe charakterystyki niezależnej;

– odchylenie standardowe charakterystyki zależnej.

Współczynnik korelacji liniowej charakteryzuje bliskość i kierunek zależności pomiędzy badanymi cechami. Mierzy się go w granicach [-1; +1]:

Jeśli
– wówczas związek między cechami jest bezpośredni;

Jeśli
– wówczas zależność między znakami jest odwrotna;

Jeśli
– wówczas nie ma związku pomiędzy cechami;

Jeśli
Lub
– wówczas związek pomiędzy cechami jest funkcjonalny, tj. charakteryzuje się pełną zgodnością pomiędzy X I Na. Bliżej do 1, tym bliższy jest związek między badanymi cechami.

Jeżeli wskaźnik korelacji (sparowany współczynnik korelacji liniowej) podniesiemy do kwadratu, otrzymamy współczynnik determinacji.

Współczynnik determinacji– reprezentuje udział wariancji czynnika w sumie i pokazuje, o jaki procent jest zmienność wynikowej cechy Na można wytłumaczyć zmiennością charakterystyki czynnika X:

Nie charakteryzuje ona całej odmiany Na z charakterystyki czynnika X, ale tylko tę jego część, która odpowiada równaniu regresji liniowej, tj. pokazuje proporcję zmienności wynikowej charakterystyki, która jest liniowo powiązana ze zmianą charakterystyki czynnika.

Ogrom
– proporcja zmienności wynikowej cechy, której model regresji nie mógł uwzględnić.

Rozrzut punktów w polu korelacji może być bardzo duży, a obliczone równanie regresji może dawać duży błąd w estymacji analizowanego wskaźnika.

Średni błąd przybliżenia pokazuje średnie odchylenie obliczonych wartości od rzeczywistych:

Maksymalna dopuszczalna wartość wynosi 12–15%.

Błąd standardowy jest miarą rozrzutu zmiennej zależnej wokół linii regresji i dla całego zbioru obserwowanych wartości jest obliczany standardowy (RMS) błąd równania regresji, czyli odchylenie standardowe wartości rzeczywistych Na w stosunku do wartości teoretycznych obliczonych za pomocą równania regresji Na X .

,

Gdzie
– liczba stopni swobody;

M– liczba parametrów równania regresji (dla równania linii prostej M=2).

Możesz oszacować wartość błędu średniokwadratowego, porównując ją

a) ze średnią wartością wynikowej cechy Na;

b) z odchyleniem standardowym charakterystyki Na:

Jeśli
, wówczas właściwe jest zastosowanie tego równania regresji.

Odrębnie oceniane standard (średniokwadratowe) błędy parametrów równania i wskaźnika korelacji:

;
;
.

X- odchylenie standardowe X.

Sprawdzenie znaczenia równania regresji i wskaźników szczelności połączenia

Aby skonstruowany model nadawał się do dalszych obliczeń ekonomicznych, samo sprawdzenie jakości zbudowanego modelu nie wystarczy. Należy także sprawdzić istotność (istotność) oszacowań równania regresji uzyskanych metodą najmniejszych kwadratów oraz wskaźnika siły zależności, tj. konieczne jest sprawdzenie ich pod kątem zgodności z prawdziwymi parametrami relacji.

Wynika to z faktu, że wskaźniki wyliczane z ograniczonej populacji zachowują element losowości właściwy poszczególnym wartościom atrybutu. Są zatem jedynie szacunkami pewnego wzorca statystycznego. Należy ocenić stopień dokładności i istotności (rzetelności, istotności) parametrów regresji. Pod znaczenie zrozumieć prawdopodobieństwo, że wartość testowanego parametru nie wynosi zero i nie obejmuje wartości przeciwnych znaków.

Kontrola znaczenia– sprawdzenie założenia, że ​​parametry są różne od zera.

Ocena znaczenia równania regresji sparowanej sprowadza się do sprawdzenia hipotez dotyczących znaczenia równania regresji jako całości i jego poszczególnych parametrów ( A, B), współczynnik determinacji pary lub wskaźnik korelacji.

W takim przypadku można zaproponować: główne hipotezyH 0 :

1)
– współczynniki regresji są nieistotne i równanie regresji jest również nieistotne;

2)
– sparowany współczynnik determinacji jest nieistotny i równanie regresji również jest nieistotne.

Następujące hipotezy są alternatywne (lub odwrotne):

1)
– współczynniki regresji są istotnie różne od zera, a skonstruowane równanie regresji jest istotne;

2)
– sparowany współczynnik determinacji jest istotnie różny od zera, a skonstruowane równanie regresji jest istotne.

Testowanie hipotezy o znaczeniu równania regresji w parach

Aby przetestować hipotezę o statystycznej nieistotności równania regresji jako całości i współczynniku determinacji, używamy F-kryterium(Próba Fishera):

Lub

Gdzie k 1 = M–1 ; k 2 = NM – liczba stopni swobody;

N– liczba jednostek populacji;

M– liczba parametrów równania regresji;

–rozproszenie czynników;

– wariancja resztkowa.

Hipotezę testuje się w następujący sposób:

1) jeśli wartość rzeczywista (obserwowana). F-kryterium jest większe od wartości krytycznej (tabelarycznej) tego kryterium
, to z prawdopodobieństwem
główna hipoteza o nieistotności równania regresji lub sparowanego współczynnika determinacji zostaje odrzucona, a równanie regresji uznaje się za istotne;

2) jeżeli rzeczywista (obserwowana) wartość kryterium F jest mniejsza niż wartość krytyczna tego kryterium
, to z prawdopodobieństwem (
) przyjmuje się główną hipotezę o nieistotności równania regresji lub sparowanego współczynnika determinacji, a skonstruowane równanie regresji uważa się za nieistotne.

Krytyczna wartość F-kryteria znajdują się w odpowiednich tabelach w zależności od poziomu istotności i liczbę stopni swobody
.

Liczba stopni swobody– wskaźnik, który definiuje się jako różnicę pomiędzy liczebnością próby ( N) oraz liczbę oszacowanych parametrów dla danej próbki ( M). W przypadku modelu regresji parami liczbę stopni swobody oblicza się jako:
, ponieważ na podstawie próbki szacowane są dwa parametry (
).

Poziom istotności – wartość ustalona
,

Gdzie – prawdopodobieństwo ufności estymowanego parametru mieszczącego się w przedziale ufności. Zwykle akceptowana jest wartość 0,95. Zatem to prawdopodobieństwo, że szacowany parametr nie będzie mieścił się w przedziale ufności równym 0,05 (5%).

Następnie w przypadku oceny istotności równania regresji sparowanej wartość krytyczną testu F oblicza się jako
:

.

Testowanie hipotezy o istotności parametrów równania regresji sparowanej i wskaźnika korelacji

Sprawdzając istotność parametrów równania (założenie, że parametry różnią się od zera), stawia się główną hipotezę o nieistotności uzyskanych szacunków (
. Jako alternatywną (odwrotną) hipotezę wysuwa się na temat znaczenia parametrów równania (
).

Aby przetestować wysuwane hipotezy, stosuje się go T -kryterium (T-Statystyka) Test studenta. Obserwowana wartość T-kryteria są porównywane z wartością T-kryterium określone z tabeli rozkładu Studenta (wartość krytyczna). Krytyczna wartość T-kryteria
zależy od dwóch parametrów: poziomu istotności i liczbę stopni swobody
.

Postawione hipotezy są sprawdzane w następujący sposób:

1) jeśli wartość bezwzględna wartości obserwowanej T-kryteria większe od wartości krytycznej T-kryteria, tj.
, to z prawdopodobieństwem
odrzucono główną hipotezę o nieistotności parametrów regresji, tj. parametry regresji nie są równe 0;

2) jeżeli jest to wartość bezwzględna wartości obserwowanej T-kryteria są mniejsze lub równe wartości krytycznej T-kryteria, tj.
, to z prawdopodobieństwem
przyjęto główną hipotezę o nieistotności parametrów regresji, tj. Parametry regresji prawie nie różnią się od 0 lub są równe 0.

Ocena istotności współczynników regresji za pomocą testu Studenta odbywa się poprzez porównanie ich oszacowań z wartością błędu standardowego:

;

Do oceny istotności statystycznej wskaźnika korelacji (współczynnika liniowego) wykorzystuje się go również T-Test t-Studenta.

Czasami tak się dzieje: problem można rozwiązać niemal arytmetycznie, ale na myśl przychodzą przede wszystkim wszelkiego rodzaju całki Lebesgue’a i funkcje Bessela. Zaczynasz więc trenować sieć neuronową, potem dodajesz jeszcze kilka ukrytych warstw, eksperymentujesz z liczbą neuronów, funkcjami aktywacji, potem przypominasz sobie o SVM i Random Forest i zaczynasz wszystko od nowa. A jednak pomimo mnóstwa zabawnych metod nauczania statystyki, regresja liniowa pozostaje jednym z popularnych narzędzi. Istnieją ku temu przesłanki, a jedną z nich jest intuicyjność interpretacji modelu.

Kilka formuł

W najprostszym przypadku model liniowy można przedstawić w następujący sposób:

Y ja = za 0 + za 1 x ja + ε ja

Gdzie a 0 jest matematycznym oczekiwaniem zmiennej zależnej y i, gdy zmienna x i jest równa zero; a 1 to oczekiwana zmiana zmiennej zależnej y i przy zmianie x i o jeden (współczynnik ten dobiera się tak, aby wartość ½Σ(y i -ŷ i) 2 była minimalna – jest to tzw. „funkcja resztowa”); ε i - błąd losowy.
W tym przypadku współczynniki a 1 i a 0 można wyrazić poprzez współczynnik korelacji Pearsona, odchylenia standardowe i średnie wartości zmiennych x i y:

 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Diagnostyka i błędy modelu

Aby model był poprawny konieczne jest spełnienie warunków Gaussa-Markowa, tj. błędy muszą być homoskedastyczne z zerowymi oczekiwaniami matematycznymi. Wykres reszt e i = y i - ŷ i pomaga określić, jak adekwatny jest skonstruowany model (e i można uznać za oszacowanie ε i).
Spójrzmy na wykres reszt w przypadku prostej zależności liniowej y 1 ~ x (w dalszej części wszystkie przykłady podano w języku R):

Ukryty tekst

set.seed(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Reszty są mniej więcej równomiernie rozłożone na osi poziomej, co wskazuje na „brak systematycznej zależności pomiędzy wartościami składnika losowego w dowolnych dwóch obserwacjach”. Przyjrzyjmy się teraz temu samemu wykresowi, ale zbudowanemu dla modelu liniowego, który w rzeczywistości nie jest liniowy:

Ukryty tekst

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Według wykresu y 2 ~ x wydaje się, że można założyć zależność liniową, jednak reszty mają wzór, co oznacza, że ​​​​czysta regresja liniowa nie sprawdzi się tutaj. Oto, co właściwie oznacza heteroskedastyczność:

Ukryty tekst

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Model liniowy z takimi „zawyżonymi” resztami nie jest poprawny. Czasami przydatne jest również wykreślenie kwantyli reszt względem kwantyli, których można by się spodziewać, gdyby reszty miały rozkład normalny:

Ukryty tekst

qqnorm(rezydencja(fit1)) qqline(rezydencja(fit1)) qqnorm(rezydencja(fit2)) qqline(rezydencja(fit2))



Drugi wykres wyraźnie pokazuje, że założenie o normalności reszt można odrzucić (co ponownie wskazuje, że model jest błędny). Są też takie sytuacje:

Ukryty tekst

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Jest to tzw. wartość odstająca, która może znacznie zniekształcić wyniki i prowadzić do błędnych wniosków. R ma sposób, aby to wykryć - używając standaryzowanej miary dfbetas i wartości kapelusza:
> round(dfbetas(fit4), 3) (Przecięcie) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,037 6 -0,245 0,131 7 0,055 0,084 8 0,027 0,055.....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Jak widać, pierwszy wyraz wektora x4 ma zauważalnie większy wpływ na parametry modelu regresji niż pozostałe, będąc tym samym wartością odstającą.

Wybór modelu dla regresji wielokrotnej

Naturalnie przy regresji wielokrotnej pojawia się pytanie: czy warto brać pod uwagę wszystkie zmienne? Z jednej strony wydawałoby się, że warto, bo... każda zmienna potencjalnie niesie przydatne informacje. Dodatkowo zwiększając liczbę zmiennych zwiększamy R2 (swoją drogą, właśnie z tego powodu miary tej nie można uznać za wiarygodną przy ocenie jakości modelu). Z drugiej strony warto pamiętać o takich rzeczach jak AIC i BIC, które wprowadzają kary za złożoność modelu. Wartość bezwzględna kryterium informacyjnego sama w sobie nie ma sensu, dlatego konieczne jest porównanie tych wartości w kilku modelach: w naszym przypadku przy różnej liczbie zmiennych. Najlepszy będzie model z minimalną wartością kryterium informacyjnego (choć jest o czym dyskutować).
Spójrzmy na zbiór danych UScrime z biblioteki MASS:
biblioteka(MASS) dane(UScrime) stepAIC(lm(y~., dane=UScrime))
Model o najmniejszej wartości AIC ma następujące parametry:
Wywołanie: lm(wzór = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, dane = UScrime) Współczynniki: (Przecięcie) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,265 2,234 -6,087 18,735 6.133 -3796.032
Zatem optymalnym modelem uwzględniającym AIC będzie:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Współczynniki: Oszacuj Std. Wartość t błędu Pr(>|t|) (Przechwytywanie) -6426,101 1194,611 -5,379 4,04e-06 *** M 9,332 3,350 2,786 0,00828 ** Ed 18,012 5,275 3,414 0,00153 ** Po1 10,265 1,5 52 6.613 8.26e-08 ** * MF 2,234 1,360 1,642 0,10874 U1 -6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob. -3796,032 1490,646 -2,547 0,01505 * Znak. kody: 0 „***” 0,001 „**” 0,01 „*” 0,05 „.” 0,1 „ ” 1
Jeśli przyjrzysz się uważnie, okaże się, że zmienne M.F i U1 mają dość wysoką wartość p, co wydaje się nam sugerować, że zmienne te nie są aż tak istotne. Jednak wartość p jest raczej niejednoznaczną miarą przy ocenie znaczenia konkretnej zmiennej dla modelu statystycznego. Fakt ten wyraźnie widać na przykładzie:
dane<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Oszacuj standard. Wartość t błędu Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7,503873 8,816818e-14 V5 1,1644978 0,1385375 8,405652 7,370156e-17 V6 1,0613459 0,1317248 8,057300 1,242584e-15 V7 1.0092041 0.1287784 7.836752 7.021785e-15 V8 0.9307010 0.1219609 7.631143 3.391212e-14 V9 0.8624487 0.1198499 7.196073 8. 362082e-13 V10 0,9763194 0,0879140 11,105393 6,027585e-28
Wartości p każdej zmiennej wynoszą praktycznie zero i można założyć, że wszystkie zmienne są ważne dla tego modelu liniowego. Ale w rzeczywistości, jeśli przyjrzysz się uważnie szczątkom, okazuje się, że jest coś takiego:

Ukryty tekst

plot(predict(fit), resid(fit), pch=".")



Jednak alternatywne podejście opiera się na analizie wariancji, w której kluczową rolę odgrywają wartości p. Porównajmy model bez zmiennej M.F z modelem zbudowanym z uwzględnieniem tylko AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Analiza tabeli wariancji Model 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Model 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Suma Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
Biorąc pod uwagę wartość P wynoszącą 0,1087 na poziomie istotności α=0,05, możemy stwierdzić, że nie ma statystycznie istotnych dowodów na korzyść hipotezy alternatywnej, tj. na korzyść modelu z dodatkową zmienną M.F. Stosowanie metody graficznej.
Metoda ta służy wizualnemu zobrazowaniu formy powiązania pomiędzy badanymi wskaźnikami ekonomicznymi. W tym celu rysuje się wykres w prostokątnym układzie współrzędnych, na osi rzędnych nanosi się poszczególne wartości cechy wypadkowej Y, a na osi odciętych poszczególne wartości cechy współczynnika X.
Zbiór punktów charakterystyki wypadkowej i czynnikowej nazywa się pole korelacyjne.
Na podstawie pola korelacji możemy postawić hipotezę (dla populacji), że zależność pomiędzy wszystkimi możliwymi wartościami X i Y jest liniowa.

Równanie regresji liniowej ma postać y = bx + a + ε
Tutaj ε jest błędem losowym (odchylenie, zakłócenie).
Przyczyny istnienia błędu losowego:
1. Brak uwzględnienia w modelu regresji istotnych zmiennych objaśniających;
2. Agregacja zmiennych. Na przykład funkcja konsumpcji całkowitej jest próbą ogólnego wyrażenia sumy indywidualnych decyzji dotyczących wydatków. Jest to jedynie przybliżenie poszczególnych relacji, które mają różne parametry.
3. Błędny opis struktury modelu;
4. Nieprawidłowa specyfikacja funkcjonalna;
5. Błędy pomiarowe.
Ponieważ odchylenia ε i dla każdej konkretnej obserwacji i są losowe, a ich wartości w próbie są nieznane, to:
1) z obserwacji x i oraz y i można uzyskać jedynie oszacowania parametrów α i β
2) Oszacowaniami parametrów α i β modelu regresji są odpowiednio wartości a i b, które mają charakter losowy, gdyż odpowiadają próbie losowej;
Wówczas estymujące równanie regresji (zbudowane z przykładowych danych) będzie miało postać y = bx + a + ε, gdzie e i są zaobserwowanymi wartościami (oszacowaniami) błędów ε i , a a i b są odpowiednio oszacowaniami parametry α i β modelu regresji, które należy znaleźć.
Do estymacji parametrów α i β stosuje się metodę najmniejszych kwadratów (metoda najmniejszych kwadratów).
Układ równań normalnych.

Dla naszych danych układ równań ma postać:

10a + 356b = 49
356a + 2135b = 9485

Z pierwszego równania wyrażamy a i podstawiamy je do drugiego równania
Otrzymujemy b = 68,16, a = 11,17

Równanie regresji:
y = 68,16 x - 11,17

1. Parametry równania regresji.
Przykładowe środki.



Przykładowe odchylenia.


Odchylenie standardowe

1.1. Współczynnik korelacji
Obliczamy wskaźnik bliskości połączenia. Wskaźnikiem tym jest przykładowy współczynnik korelacji liniowej, który oblicza się ze wzoru:

Współczynnik korelacji liniowej przyjmuje wartości od –1 do +1.
Powiązania między cechami mogą być słabe i mocne (bliskie). Ich kryteria oceniane są według skali Chaddocka:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
W naszym przykładzie związek między cechą Y a czynnikiem X jest bardzo wysoki i bezpośredni.

1.2. Równanie regresji(oszacowanie równania regresji).

Równanie regresji liniowej to y = 68,16 x -11,17
Współczynnikom równania regresji liniowej można nadać znaczenie ekonomiczne. Współczynnik równania regresji pokazuje, ile jednostek. wynik ulegnie zmianie, gdy współczynnik zmieni się o 1 jednostkę.
Współczynnik b = 68,16 pokazuje średnią zmianę efektywnego wskaźnika (w jednostkach miary y) wraz ze wzrostem lub spadkiem wartości współczynnika x na jednostkę jego miary. W tym przykładzie, przy wzroście o 1 jednostkę, y wzrasta średnio o 68,16.
Współczynnik a = -11,17 formalnie pokazuje przewidywany poziom y, ale tylko wtedy, gdy x = 0 jest zbliżone do wartości próbnych.
Ale jeśli x = 0 jest dalekie od przykładowych wartości x , to dosłowna interpretacja może prowadzić do błędnych wyników i nawet jeśli linia regresji opisuje dość dokładnie obserwowane wartości próbek, nie ma gwarancji, że to również ma to miejsce w przypadku ekstrapolacji w lewo lub w prawo.
Podstawiając odpowiednie wartości x do równania regresji, możemy wyznaczyć wyrównane (przewidywane) wartości wskaźnika wydajności y(x) dla każdej obserwacji.
Zależność pomiędzy y i x wyznacza znak współczynnika regresji b (jeśli > 0 – zależność bezpośrednia, w przeciwnym wypadku – odwrotność). W naszym przykładzie połączenie jest bezpośrednie.

1.3. Współczynnik elastyczności.
Nie zaleca się stosowania współczynników regresji (w przykładzie b) do bezpośredniej oceny wpływu czynników na charakterystykę wypadkową, jeżeli występuje różnica w jednostkach miary wskaźnika wypadkowego y i charakterystyki czynnikowej x.
W tym celu obliczane są współczynniki elastyczności i współczynniki beta. Współczynnik elastyczności oblicza się ze wzoru:


Pokazuje, o jaki procent średnio zmienia się efektywny atrybut y, gdy atrybut współczynnika x zmienia się o 1%. Nie uwzględnia stopnia zmienności czynników.
W naszym przykładzie współczynnik elastyczności jest większy niż 1. Zatem jeśli X zmieni się o 1%, Y zmieni się o więcej niż 1%. Innymi słowy, X znacząco wpływa na Y.
Współczynnik beta pokazuje, o jaką część wartości jej odchylenia standardowego zmieni się wartość średnia wynikowej charakterystyki, gdy charakterystyka czynnikowa zmieni się o wartość jej odchylenia standardowego przy wartości pozostałych zmiennych niezależnych ustalonych na stałym poziomie:

Te. zwiększenie x o odchylenie standardowe tego wskaźnika spowoduje wzrost średniego Y o 0,9796 odchylenia standardowego tego wskaźnika.

1.4. Błąd przybliżenia.
Oceńmy jakość równania regresji wykorzystując błąd przybliżenia bezwzględnego.


Ponieważ błąd przekracza 15%, nie zaleca się stosowania tego równania jako regresji.

1.6. Współczynnik determinacji.
Kwadrat współczynnika (wielokrotnej) korelacji nazywany jest współczynnikiem determinacji, który pokazuje proporcję zmienności wynikowego atrybutu wyjaśnioną zmianą atrybutu czynnika.
Najczęściej przy interpretacji współczynnika determinacji wyraża się go w procentach.
R2 = 0,982 = 0,9596
te. w 95,96% przypadków zmiany x prowadzą do zmian w y. Innymi słowy, dokładność wyboru równania regresji jest wysoka. Pozostałe 4,04% zmiany Y wyjaśniono czynnikami nieuwzględnionymi w modelu.

X y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Estymacja parametrów równania regresji.
2.1. Znaczenie współczynnika korelacji.

Korzystając z tabeli Studenta z poziomem istotności α=0,05 i stopniami swobody k=7, znajdujemy tkryt:
t krytyczny = (7;0,05) = 1,895
gdzie m = 1 to liczba zmiennych objaśniających.
Jeżeli t zaobserwowane > t krytyczne, to otrzymaną wartość współczynnika korelacji uznaje się za istotną (odrzuca się hipotezę zerową mówiącą, że współczynnik korelacji jest równy zeru).
Ponieważ t obs > t kryty, odrzucamy hipotezę, że współczynnik korelacji jest równy 0. Inaczej mówiąc, współczynnik korelacji jest istotny statystycznie
W przypadku regresji liniowej sparowanej t 2 r = t 2 b i następnie testowanie hipotez o istotności współczynników regresji i korelacji jest równoznaczne z testowaniem hipotezy o istotności równania regresji liniowej.

2.3. Analiza dokładności wyznaczania estymatorów współczynników regresji.
Bezstronnym oszacowaniem rozproszenia zaburzeń jest wartość:


S 2 y = 94,6484 - niewyjaśniona wariancja (miara rozrzutu zmiennej zależnej wokół linii regresji).
S y = 9,7287 - błąd standardowy oszacowania (błąd standardowy regresji).
S a - odchylenie standardowe zmiennej losowej a.


S b - odchylenie standardowe zmiennej losowej b.

2.4. Przedziały ufności dla zmiennej zależnej.
Prognozowanie ekonomiczne w oparciu o skonstruowany model zakłada utrzymanie istniejących wcześniej zależności pomiędzy zmiennymi przez okres realizacji.
Aby przewidzieć zmienną zależną wynikowego atrybutu, należy znać przewidywane wartości wszystkich czynników uwzględnionych w modelu.
Przewidywane wartości czynników podstawia się do modelu i uzyskuje się predykcyjne oszacowania punktowe badanego wskaźnika. (a + bx p ± ε)
Gdzie

Obliczmy granice przedziału, w którym skupi się 95% możliwych wartości Y przy nieograniczonej liczbie obserwacji i X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Indywidualne przedziały ufności dlaYprzy danej wartościX.
(a + bx i ± ε)
Gdzie

x ja y = -11,17 + 68,16x tj εi min ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Z prawdopodobieństwem 95% można zagwarantować, że wartość Y dla nieograniczonej liczby obserwacji nie wyjdzie poza granice znalezionych przedziałów.

2.5. Testowanie hipotez dotyczących współczynników równania regresji liniowej.
1) statystyka t. Test t-Studenta.
Sprawdźmy hipotezę H 0 o równości poszczególnych współczynników regresji do zera (jeśli alternatywa nie jest równa H 1) na poziomie istotności α=0,05.
t krytyczny = (7;0,05) = 1,895


Ponieważ 12,8866 > 1,895, potwierdza się istotność statystyczna współczynnika regresji b (odrzucamy hipotezę, że współczynnik ten jest równy zero).


Ponieważ 2,0914 > 1,895, potwierdza się istotność statystyczna współczynnika regresji a (odrzucamy hipotezę, że współczynnik ten jest równy zero).

Przedział ufności dla współczynników równania regresji.
Wyznaczmy przedziały ufności współczynników regresji, które przy wiarygodności 95% będą wyglądały następująco:
(b - t krytyczny S b ; b + t krytyczny S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Z prawdopodobieństwem 95% można stwierdzić, że wartość tego parametru będzie mieścić się w znalezionym przedziale.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Z prawdopodobieństwem 95% można stwierdzić, że wartość tego parametru będzie mieścić się w znalezionym przedziale.

2) Statystyka F. Kryterium Fishera.
Badanie istotności modelu regresji odbywa się za pomocą testu F Fishera, którego obliczoną wartość wyznacza się jako stosunek wariancji pierwotnej serii obserwacji badanego wskaźnika do bezstronnego oszacowania wariancji ciągu resztowego dla tego modelu.
Jeżeli obliczona wartość przy lang=EN-US>n-m-1) stopniach swobody jest większa od wartości tabelarycznej na danym poziomie istotności, wówczas model uznaje się za istotny.

gdzie m jest liczbą czynników w modelu.
Istotność statystyczną sparowanej regresji liniowej ocenia się za pomocą następującego algorytmu:
1. Postawiono hipotezę zerową, że równanie jako całość jest nieistotne statystycznie: H 0: R 2 = 0 na poziomie istotności α.
2. Następnie określ rzeczywistą wartość kryterium F:


gdzie m=1 dla regresji parami.
3. Wartość tabelaryczną wyznacza się z tablic rozkładu Fishera dla danego poziomu istotności, biorąc pod uwagę, że liczba stopni swobody dla całkowitej sumy kwadratów (większa wariancja) wynosi 1, a liczba stopni swobody dla reszty suma kwadratów (mniejsza wariancja) w regresji liniowej wynosi n-2.
4. Jeśli rzeczywista wartość testu F jest mniejsza niż wartość z tabeli, wówczas mówią, że nie ma powodu do odrzucania hipotezy zerowej.
W przeciwnym wypadku hipoteza zerowa zostaje odrzucona, a hipoteza alternatywna dotycząca statystycznej istotności równania jako całości zostaje przyjęta z prawdopodobieństwem (1-α).
Wartość tabelaryczna kryterium o stopniach swobody k1=1 i k2=7, Fkp=5,59
Ponieważ rzeczywista wartość F > Fkp, współczynnik determinacji jest istotny statystycznie (znalezione oszacowanie równania regresji jest statystycznie wiarygodne).

Sprawdzanie autokorelacji reszt.
Istotnym warunkiem konstrukcji jakościowego modelu regresji z wykorzystaniem OLS jest niezależność wartości odchyleń losowych od wartości odchyleń we wszystkich pozostałych obserwacjach. Zapewnia to brak korelacji pomiędzy odchyleniami, a w szczególności odchyleniami sąsiednimi.
Autokorelacja (korelacja szeregowa) definiuje się jako korelację pomiędzy obserwowanymi wskaźnikami uporządkowanymi w czasie (szereg czasowy) lub przestrzennym (szereg krzyżowy). Autokorelacja reszt (wariancji) jest powszechna w analizie regresji, gdy wykorzystuje się dane szeregów czasowych, i bardzo rzadko, gdy wykorzystuje się dane przekrojowe.
W problemach gospodarczych jest to znacznie częstsze dodatnia autokorelacja, zamiast autokorelacja ujemna. W większości przypadków dodatnia autokorelacja jest spowodowana stałym, kierunkowym wpływem niektórych czynników nieuwzględnionych w modelu.
Ujemna autokorelacja w rzeczywistości oznacza, że ​​po dodatnim odchyleniu następuje ujemne i odwrotnie. Taka sytuacja może mieć miejsce, jeśli uwzględnić tę samą zależność pomiędzy popytem na napoje bezalkoholowe a dochodami w oparciu o dane sezonowe (zima-lato).
Wśród główne przyczyny powodujące autokorelację można wyróżnić:
1. Błędy specyfikacji. Nieuwzględnienie w modelu istotnej zmiennej objaśniającej lub błędny wybór formy zależności prowadzi zwykle do systemowych odchyleń punktów obserwacyjnych od linii regresji, co może prowadzić do autokorelacji.
2. Bezwładność. Wiele wskaźników ekonomicznych (inflacja, bezrobocie, PNB itp.) ma pewną cykliczność związaną z falowaniem działalności gospodarczej. Dlatego zmiana wskaźników nie następuje natychmiast, ale ma pewną bezwładność.
3. Efekt pajęczej sieci. W wielu obszarach produkcyjnych i innych wskaźniki ekonomiczne reagują na zmiany warunków ekonomicznych z opóźnieniem (opóźnieniem).
4. Wygładzanie danych. Często dane za pewien długi okres czasu uzyskuje się poprzez uśrednienie danych w przedziałach składowych. Może to prowadzić do pewnego wygładzenia wahań, jakie wystąpiły w rozpatrywanym okresie, co z kolei może powodować autokorelację.
Konsekwencje autokorelacji są podobne do konsekwencji heteroskedastyczności: wnioski ze statystyk t i F, które określają istotność współczynnika regresji i współczynnika determinacji, prawdopodobnie będą błędne.

Wykrywanie autokorelacji

1. Metoda graficzna
Istnieje wiele opcji graficznego definiowania autokorelacji. Jeden z nich łączy odchylenia e i z momentami ich powstania, tj. W tym przypadku na osi odciętych wykreślany jest czas uzyskania danych statystycznych lub numer seryjny obserwacji, a na osi rzędnych odchyłki e i (lub szacunki odchyłek).
Naturalne jest założenie, że jeśli istnieje pewne powiązanie między odchyleniami, to następuje autokorelacja. Brak zależności będzie najprawdopodobniej wskazywał na brak autokorelacji.
Autokorelacja stanie się wyraźniejsza, jeśli wykreślimy zależność e i od e i-1.

Test Durbina-Watsona.
Kryterium to jest najbardziej znane z wykrywania autokorelacji.
Analizując statystycznie równania regresji, na początkowym etapie często sprawdza się wykonalność jednego warunku wstępnego: warunków statystycznej niezależności odchyleń od siebie. W tym przypadku sprawdzana jest nieskorelacja sąsiednich wartości e i.

y y(x) e ja = y-y(x) mi 2 (tj. – e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Do analizy korelacji odchyleń wykorzystuje się statystykę Durbina-Watsona:

Wartości krytyczne d 1 i d 2 wyznaczane są na podstawie specjalnych tabel dla wymaganego poziomu istotności α, liczby obserwacji n = 9 i liczby zmiennych objaśniających m = 1.
Autokorelacja nie zachodzi, jeśli spełniony jest warunek:
d 1< DW и d 2 < DW < 4 - d 2 .
Bez odwoływania się do tabel można zastosować regułę przybliżoną i założyć, że nie ma autokorelacji reszt jeśli 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.
KATEGORIE

POPULARNE ARTYKUŁY

2023 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich