Uzależnienie regresywne. Analiza regresji

W modelowaniu statystycznym analiza regresji jest badaniem stosowanym do oceny związku między zmiennymi. Ta metoda matematyczna obejmuje wiele innych metod modelowania i analizowania wielu zmiennych, w których nacisk kładzie się na związek między zmienną zależną a jedną lub większą liczbą zmiennych niezależnych. Mówiąc dokładniej, analiza regresji pomaga nam zrozumieć, jak zmienia się typowa wartość zmiennej zależnej, jeśli zmienia się jedna ze zmiennych niezależnych, podczas gdy inne zmienne niezależne pozostają niezmienne.

We wszystkich przypadkach estymacja docelowa jest funkcją zmiennych niezależnych i nazywa się ją funkcją regresji. W analizie regresji interesujące jest również scharakteryzowanie zmiany zmiennej zależnej jako funkcji regresji, którą można opisać za pomocą rozkładu prawdopodobieństwa.

Problemy analizy regresji

Ta metoda badań statystycznych jest szeroko stosowana w prognozowaniu, gdzie jej zastosowanie ma znaczną przewagę, ale czasami może prowadzić do złudzeń lub fałszywych zależności, dlatego zaleca się ostrożne stosowanie jej w tej materii, gdyż np. korelacja nie oznacza związek przyczynowy.

Opracowano wiele metod analizy regresji, takich jak regresja liniowa i zwykła metoda najmniejszych kwadratów, które są parametryczne. Ich istota polega na tym, że funkcję regresji definiuje się w kategoriach skończonej liczby nieznanych parametrów, które są estymowane na podstawie danych. Regresja nieparametryczna pozwala, aby jej funkcja mieściła się w określonym zestawie funkcji, który może być nieskończenie wymiarowy.

Jako metoda badań statystycznych, analiza regresji w praktyce zależy od formy procesu generowania danych i jego powiązania z podejściem regresyjnym. Ponieważ prawdziwa forma generowania procesu danych jest zwykle nieznaną liczbą, analiza regresji danych często zależy w pewnym stopniu od założeń dotyczących procesu. Założenia te można czasami przetestować, jeśli dostępna jest wystarczająca ilość danych. Modele regresji są często przydatne nawet wtedy, gdy założenia są umiarkowanie naruszone, chociaż mogą nie działać z maksymalną wydajnością.

W węższym sensie regresja może odnosić się konkretnie do estymacji ciągłych zmiennych odpowiedzi, w przeciwieństwie do dyskretnych zmiennych odpowiedzi stosowanych w klasyfikacji. Przypadek ciągłej zmiennej wyjściowej nazywany jest także regresją metryczną, aby odróżnić ją od problemów pokrewnych.

Fabuła

Najwcześniejszą formą regresji jest dobrze znana metoda najmniejszych kwadratów. Została opublikowana przez Legendre'a w 1805 r. i Gaussa w 1809 r. Legendre i Gauss zastosowali tę metodę do problemu wyznaczania na podstawie obserwacji astronomicznych orbit ciał wokół Słońca (głównie komet, ale później także nowo odkrytych mniejszych planet). Gauss opublikował dalszy rozwój teorii najmniejszych kwadratów w 1821 r., włączając wersję twierdzenia Gaussa – Markowa.

Termin „regresja” został ukuty przez Francisa Galtona w XIX wieku w celu opisania zjawiska biologicznego. Pomysł polegał na tym, że wzrost potomków w stosunku do wzrostu ich przodków ma tendencję do zmniejszania się w kierunku normalnej średniej. Dla Galtona regresja miała wyłącznie biologiczne znaczenie, ale później Udney Yoley i Karl Pearson kontynuowali jego pracę i przenieśli ją do bardziej ogólnego kontekstu statystycznego. W pracach Yule'a i Pearsona zakłada się, że łączny rozkład zmiennych odpowiedzi i objaśniających jest rozkładem Gaussa. Założenie to zostało odrzucone przez Fischera w artykułach z lat 1922 i 1925. Fisher zasugerował, że rozkład warunkowy zmiennej odpowiedzi jest gaussowski, ale rozkład łączny nie musi być. Pod tym względem propozycja Fischera jest bliższa sformułowaniu Gaussa z 1821 r. Przed rokiem 1970 uzyskanie wyniku analizy regresji zajmowało czasami nawet 24 godziny.

Metody analizy regresji pozostają obszarem aktywnych badań. W ostatnich dziesięcioleciach opracowano nowe metody solidnej regresji; regresje obejmujące skorelowane odpowiedzi; metody regresji uwzględniające różne typy brakujących danych; regresja nieparametryczna; Metody regresji bayesowskiej; regresje, w których zmienne predykcyjne są mierzone z błędem; regresja z większą liczbą predyktorów niż obserwacji oraz wnioskowanie przyczynowo-skutkowe za pomocą regresji.

Modele regresji

Modele analizy regresji obejmują następujące zmienne:

  • Nieznane parametry, oznaczona beta, która może być skalarem lub wektorem.
  • Zmienne niezależne, X.
  • Zmienne zależne, Y.

Różne dziedziny nauki, w których stosowana jest analiza regresji, używają różnych terminów zamiast zmiennych zależnych i niezależnych, ale we wszystkich przypadkach model regresji wiąże Y z funkcją X i β.

Przybliżenie jest zwykle zapisywane jako E(Y | X) = F(X, β). Aby przeprowadzić analizę regresji, należy określić rodzaj funkcji f. Rzadziej opiera się na wiedzy o relacji pomiędzy Y i X, która nie opiera się na danych. Jeżeli taka wiedza nie jest dostępna, wybiera się elastyczną lub wygodną formę F.

Zmienna zależna Y

Załóżmy teraz, że wektor o nieznanych parametrach β ma długość k. Aby przeprowadzić analizę regresji, użytkownik musi podać informację o zmiennej zależnej Y:

  • Jeśli zaobserwowano N punktów danych w postaci (Y, X), gdzie N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jeśli zostanie zaobserwowane dokładnie N = K, a funkcja F jest liniowa, wówczas równanie Y = F(X, β) można rozwiązać dokładnie, a nie w przybliżeniu. Sprowadza się to do rozwiązania zestawu N-równań z N-niewiadomymi (elementami β), które mają unikalne rozwiązanie, o ile X jest liniowo niezależne. Jeżeli F jest nieliniowe, rozwiązanie może nie istnieć lub może istnieć wiele rozwiązań.
  • Najczęstszą sytuacją jest obserwowanie N > punktów danych. W tym przypadku dane zawierają wystarczającą ilość informacji, aby oszacować unikalną wartość β, która najlepiej pasuje do danych, oraz model regresji, w którym zastosowanie do danych można postrzegać jako nadokreślony system w β.

W tym drugim przypadku analiza regresji dostarcza narzędzi pozwalających na:

  • Znalezienie rozwiązania dla nieznanych parametrów β, które np. zminimalizuje odległość pomiędzy zmierzoną i przewidywaną wartością Y.
  • Przy pewnych założeniach statystycznych analiza regresji wykorzystuje nadmiar informacji w celu dostarczenia informacji statystycznych o nieznanych parametrach β i przewidywanych wartościach zmiennej zależnej Y.

Wymagana liczba niezależnych pomiarów

Rozważmy model regresji, który ma trzy nieznane parametry: β 0 , β 1 i β 2 . Załóżmy, że eksperymentator dokonuje 10 pomiarów tej samej wartości wektora zmiennej niezależnej X. W tym przypadku analiza regresji nie daje jednoznacznego zestawu wartości. Najlepsze, co możesz zrobić, to oszacować średnią i odchylenie standardowe zmiennej zależnej Y. Podobnie, mierząc dwie różne wartości X, możesz uzyskać wystarczającą ilość danych do regresji z dwiema niewiadomymi, ale nie z trzema lub większą liczbą niewiadomych.

Jeżeli pomiary eksperymentatora zostały wykonane przy trzech różnych wartościach wektora zmiennej niezależnej X, to analiza regresji dostarczy unikalnego zestawu oszacowań dla trzech nieznanych parametrów w β.

W przypadku ogólnej regresji liniowej powyższe stwierdzenie jest równoznaczne z wymogiem, aby macierz X T X była odwracalna.

Założenia statystyczne

Gdy liczba pomiarów N jest większa od liczby nieznanych parametrów k i błędów pomiaru ε i, wówczas z reguły nadwyżka informacji zawarta w pomiarach jest następnie rozpowszechniana i wykorzystywana do predykcji statystycznych dotyczących nieznanych parametrów. Nadmiar informacji nazywany jest stopniem swobody regresji.

Podstawowe założenia

Klasyczne założenia analizy regresji obejmują:

  • Próbkowanie jest reprezentatywne dla przewidywania wnioskowania.
  • Człon błędu jest zmienną losową ze średnią zerową, która jest uzależniona od zmiennych objaśniających.
  • Zmienne niezależne mierzone są bez błędów.
  • Jako zmienne niezależne (predyktory) są one liniowo niezależne, to znaczy nie można wyrazić żadnego predyktora jako liniowej kombinacji pozostałych.
  • Błędy są nieskorelowane, to znaczy macierz kowariancji błędów przekątnych, a każdy niezerowy element jest wariancją błędu.
  • Wariancja błędu jest stała we wszystkich obserwacjach (homoscedastyczność). Jeśli nie, można zastosować ważoną metodę najmniejszych kwadratów lub inne metody.

Te warunki wystarczające do estymacji metodą najmniejszych kwadratów mają wymagane właściwości, w szczególności założenia te powodują, że estymacje parametrów będą obiektywne, spójne i efektywne, zwłaszcza gdy zostaną uwzględnione w klasie estymatorów liniowych. Należy zauważyć, że dowody rzadko spełniają określone warunki. Oznacza to, że metodę stosuje się nawet wtedy, gdy założenia nie są prawidłowe. Odchylenia od założeń można czasami wykorzystać jako miarę użyteczności modelu. Wiele z tych założeń można złagodzić, stosując bardziej zaawansowane metody. Raporty z analizy statystycznej zazwyczaj obejmują analizę testów na przykładowych danych i metodologii pod kątem przydatności modelu.

Dodatkowo zmienne w niektórych przypadkach odnoszą się do wartości zmierzonych w lokalizacjach punktowych. W zmiennych mogą występować trendy przestrzenne i autokorelacje przestrzenne, które naruszają założenia statystyczne. Regresja geograficzna ważona jest jedyną metodą, która pozwala na wykorzystanie takich danych.

Cechą regresji liniowej jest to, że zmienna zależna, czyli Yi, jest liniową kombinacją parametrów. Na przykład prosta regresja liniowa wykorzystuje jedną zmienną niezależną xi i dwa parametry β 0 i β 1 do modelowania n-punktów.

W wielokrotnej regresji liniowej istnieje wiele niezależnych zmiennych lub ich funkcji.

Kiedy z populacji pobierana jest losowa próba, jej parametry pozwalają na otrzymanie przykładowego modelu regresji liniowej.

W tym aspekcie najbardziej popularna jest metoda najmniejszych kwadratów. Służy do uzyskania estymatorów parametrów, które minimalizują sumę kwadratów reszt. Ten rodzaj minimalizacji (typowy dla regresji liniowej) tej funkcji prowadzi do układu równań normalnych i układu równań liniowych z parametrami, które rozwiązuje się w celu uzyskania estymatorów parametrów.

Przy dalszym założeniu, że błąd populacji jest ogólnie propagowany, badacz może wykorzystać te szacunki błędu standardowego do utworzenia przedziałów ufności i przeprowadzenia testów hipotez dotyczących jego parametrów.

Analiza regresji nieliniowej

Przykład, w którym funkcja nie jest liniowa względem parametrów, wskazuje, że sumę kwadratów należy minimalizować za pomocą procedury iteracyjnej. Wprowadza to wiele komplikacji, które definiują różnice pomiędzy liniowymi i nieliniowymi metodami najmniejszych kwadratów. W rezultacie wyniki analizy regresji przy zastosowaniu metody nieliniowej są czasami nieprzewidywalne.

Obliczanie mocy i wielkości próbki

Generalnie nie ma spójnych metod dotyczących liczby obserwacji w funkcji liczby zmiennych niezależnych w modelu. Pierwsza reguła została zaproponowana przez Dobra i Hardina i wygląda następująco: N = t^n, gdzie N to liczebność próby, n to liczba zmiennych niezależnych, a t to liczba obserwacji potrzebnych do osiągnięcia pożądanej dokładności, gdyby model miał tylko jedna zmienna niezależna. Na przykład badacz buduje model regresji liniowej, korzystając ze zbioru danych obejmującego 1000 pacjentów (N). Jeżeli badacz uzna, że ​​do dokładnego zdefiniowania prostej (m) potrzeba pięciu obserwacji, wówczas maksymalna liczba zmiennych niezależnych, które model może obsłużyć, wynosi 4.

Inne metody

Chociaż parametry modelu regresji są zwykle szacowane metodą najmniejszych kwadratów, istnieją inne metody, które są stosowane znacznie rzadziej. Są to na przykład następujące metody:

  • Metody bayesowskie (np. regresja liniowa bayesowska).
  • Regresja procentowa stosowana w sytuacjach, w których za bardziej odpowiednie uważa się zmniejszenie błędów procentowych.
  • Najmniejsze odchylenia bezwzględne, które są bardziej odporne w obecności wartości odstających, co prowadzi do regresji kwantylowej.
  • Regresja nieparametryczna, która wymaga dużej liczby obserwacji i obliczeń.
  • Metryka uczenia się na odległość, która uczy się znajdować znaczącą metrykę odległości w danej przestrzeni wejściowej.

Oprogramowanie

Wszystkie główne pakiety oprogramowania statystycznego wykonują analizę regresji metodą najmniejszych kwadratów. Prostą regresję liniową i analizę regresji wielokrotnej można stosować w niektórych aplikacjach arkuszy kalkulacyjnych, a także w niektórych kalkulatorach. Chociaż wiele pakietów oprogramowania statystycznego może wykonywać różne typy nieparametrycznej i solidnej regresji, metody te są mniej ujednolicone; różne pakiety oprogramowania wdrażają różne metody. Opracowano specjalistyczne oprogramowanie do regresji do stosowania w takich obszarach, jak analiza badań i neuroobrazowanie.

Studenci w trakcie studiów bardzo często spotykają się z różnymi równaniami. Jedno z nich – równanie regresji – zostało omówione w tym artykule. Ten typ równania jest używany specjalnie do opisu charakterystyki zależności między parametrami matematycznymi. Ten typ równości jest stosowany w statystyce i ekonometrii.

Definicja regresji

W matematyce regresja oznacza pewną wielkość opisującą zależność średniej wartości zbioru danych od wartości innej wielkości. Równanie regresji pokazuje, jako funkcję określonej cechy, średnią wartość innej cechy. Funkcja regresji ma postać prostego równania y = x, w którym y pełni rolę zmiennej zależnej, a x jest zmienną niezależną (czynnik cechy). W rzeczywistości regresję wyraża się jako y = f (x).

Jakie są rodzaje relacji między zmiennymi?

Ogólnie rzecz biorąc, istnieją dwa przeciwstawne typy relacji: korelacja i regresja.

Pierwsza charakteryzuje się równością zmiennych warunkowych. W tym przypadku nie wiadomo, która zmienna zależy od drugiej.

Jeżeli pomiędzy zmiennymi nie ma równości, a warunki mówią, która zmienna jest objaśniająca, a która zależna, to możemy mówić o istnieniu powiązania drugiego typu. Aby skonstruować równanie regresji liniowej, konieczne będzie ustalenie, jaki typ zależności jest obserwowany.

Rodzaje regresji

Obecnie istnieje 7 różnych typów regresji: hiperboliczna, liniowa, wielokrotna, nieliniowa, parami, odwrotna i logarytmicznie liniowa.

Hiperboliczne, liniowe i logarytmiczne

Równanie regresji liniowej stosuje się w statystyce w celu jasnego wyjaśnienia parametrów równania. Wygląda na to, że y = c+t*x+E. Równanie hiperboliczne ma postać hiperboli regularnej y = c + m / x + E. Równanie logarytmicznie liniowe wyraża zależność za pomocą funkcji logarytmicznej: In y = In c + m * In x + In E.

Wielorakie i nieliniowe

Dwa bardziej złożone typy regresji są wielokrotne i nieliniowe. Równanie regresji wielokrotnej wyraża się funkcją y = f(x 1, x 2 ... x c) + E. W tej sytuacji y pełni rolę zmiennej zależnej, a x pełni rolę zmiennej objaśniającej. Zmienna E ma charakter stochastyczny, uwzględnia wpływ innych czynników w równaniu. Równanie regresji nieliniowej jest nieco kontrowersyjne. Z jednej strony w odniesieniu do branych pod uwagę wskaźników nie ma ona charakteru liniowego, z drugiej zaś w roli wskaźników oceniających ma charakter liniowy.

Regresje odwrotne i sparowane

Odwrotność to rodzaj funkcji, którą należy przekształcić do postaci liniowej. W najbardziej tradycyjnych programach aplikacyjnych ma postać funkcji y = 1/c + m*x+E. Równanie regresji parami pokazuje zależność pomiędzy danymi w funkcji y = f (x) + E. Podobnie jak w innych równaniach, y zależy od x, a E jest parametrem stochastycznym.

Pojęcie korelacji

Jest to wskaźnik świadczący o istnieniu związku pomiędzy dwoma zjawiskami lub procesami. Siłę związku wyraża się jako współczynnik korelacji. Jego wartość waha się w przedziale [-1;+1]. Wskaźnik ujemny wskazuje na obecność sprzężenia zwrotnego, wskaźnik dodatni wskazuje na bezpośrednie sprzężenie zwrotne. Jeżeli współczynnik przyjmuje wartość równą 0, wówczas zależności nie ma. Im wartość jest bliższa 1, tym związek między parametrami jest silniejszy, a im bliższy 0, tym jest on słabszy.

Metody

Korelacyjne metody parametryczne pozwalają ocenić siłę związku. Wykorzystuje się je na podstawie estymacji rozkładu do badania parametrów zgodnych z prawem rozkładu normalnego.

Parametry równania regresji liniowej są niezbędne do identyfikacji rodzaju zależności, funkcji równania regresji oraz oceny wskaźników wybranej formuły zależności. Pole korelacji służy jako metoda identyfikacji połączenia. W tym celu wszystkie istniejące dane muszą zostać przedstawione graficznie. Wszystkie znane dane należy przedstawić w prostokątnym dwuwymiarowym układzie współrzędnych. W ten sposób powstaje pole korelacyjne. Wartości współczynnika opisującego zaznaczono na osi odciętych, natomiast wartości współczynnika zależnego na osi rzędnych. Jeśli istnieje funkcjonalna zależność pomiędzy parametrami, są one ułożone w formie linii.

Jeżeli współczynnik korelacji takich danych jest mniejszy niż 30%, możemy mówić o niemal całkowitym braku połączenia. Jeśli wynosi od 30% do 70%, oznacza to obecność połączeń średnio-bliskich. Wskaźnik 100% świadczy o funkcjonalnym połączeniu.

Równanie regresji nieliniowej, podobnie jak równanie liniowe, należy uzupełnić o wskaźnik korelacji (R).

Korelacja dla regresji wielokrotnej

Współczynnik determinacji jest wskaźnikiem kwadratu korelacji wielokrotnej. Mówi o ścisłym związku prezentowanego zestawu wskaźników z badaną cechą. Można także mówić o naturze wpływu parametrów na wynik. Za pomocą tego wskaźnika szacuje się równanie regresji wielokrotnej.

Aby obliczyć wskaźnik korelacji wielokrotnej, należy obliczyć jego wskaźnik.

Metoda najmniejszych kwadratów

Metoda ta jest sposobem na oszacowanie współczynników regresji. Jego istotą jest minimalizacja sumy kwadratów odchyleń uzyskanych w wyniku zależności współczynnika od funkcji.

Za pomocą takiej metody można oszacować równanie regresji liniowej parami. Tego typu równania stosuje się w przypadku wykrycia sparowanej zależności liniowej między wskaźnikami.

Parametry równania

Każdy parametr funkcji regresji liniowej ma określone znaczenie. Sparowane równanie regresji liniowej zawiera dwa parametry: c i m. Parametr m pokazuje średnią zmianę końcowego wskaźnika funkcji y, pod warunkiem, że zmienna x zmniejszy się (zwiększy) o jedną jednostkę konwencjonalną. Jeżeli zmienna x wynosi zero, to funkcja jest równa parametrowi c. Jeśli zmienna x nie jest zerowa, wówczas czynnik c nie ma znaczenia ekonomicznego. Jedynym wpływem na funkcję jest znak przed czynnikiem c. Jeśli jest minus, możemy powiedzieć, że zmiana wyniku jest powolna w porównaniu do współczynnika. Jeśli jest plus, oznacza to przyspieszoną zmianę wyniku.

Każdy parametr zmieniający wartość równania regresji można wyrazić za pomocą równania. Na przykład współczynnik c ma postać c = y - mx.

Zgrupowane dane

Istnieją warunki zadań, w których wszystkie informacje są pogrupowane według atrybutu x, ale dla pewnej grupy wskazane są odpowiednie średnie wartości zależnego wskaźnika. W tym przypadku średnie wartości charakteryzują, jak zmienia się wskaźnik w zależności od x. Zatem pogrupowane informacje pomagają znaleźć równanie regresji. Służy do analizy relacji. Jednak ta metoda ma swoje wady. Niestety, średnie wskaźniki często podlegają wahaniom zewnętrznym. Wahania te nie odzwierciedlają wzorca związku; po prostu maskują jego „szum”. Średnie pokazują wzorce zależności znacznie gorsze niż równanie regresji liniowej. Można je jednak wykorzystać jako podstawę do znalezienia równania. Mnożąc liczbę pojedynczej populacji przez odpowiednią średnią, można otrzymać sumę y w obrębie grupy. Następnie musisz zsumować wszystkie otrzymane kwoty i znaleźć końcowy wskaźnik y. Nieco trudniej jest dokonać obliczeń ze wskaźnikiem sumy xy. Jeśli odstępy są małe, możemy warunkowo przyjąć, że wskaźnik x dla wszystkich jednostek (w grupie) będzie taki sam. Należy pomnożyć go przez sumę y, aby otrzymać sumę iloczynów x i y. Następnie wszystkie kwoty sumuje się i otrzymuje całkowitą kwotę xy.

Równanie regresji wielokrotnej parami: ocena ważności związku

Jak wspomniano wcześniej, regresja wielokrotna ma funkcję w postaci y = f (x 1,x 2,…,x m)+E. Najczęściej równanie takie wykorzystuje się do rozwiązania problemu podaży i popytu na produkt, dochodu odsetkowego od nabytych akcji oraz do badania przyczyn i rodzaju funkcji kosztu produkcji. Jest również aktywnie wykorzystywane w szerokiej gamie badań i obliczeń makroekonomicznych, jednak na poziomie mikroekonomii równanie to jest stosowane nieco rzadziej.

Głównym zadaniem regresji wielokrotnej jest zbudowanie modelu danych zawierającego ogromną ilość informacji w celu dalszego określenia, jaki wpływ ma każdy z czynników indywidualnie i łącznie na modelowany wskaźnik i jego współczynniki. Równanie regresji może przyjmować wiele różnych wartości. W tym przypadku do oceny zależności stosuje się zwykle dwa rodzaje funkcji: liniową i nieliniową.

Funkcja liniowa jest przedstawiona w postaci zależności: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. W tym przypadku a2, am uważa się za „czyste” współczynniki regresji. Są one niezbędne do scharakteryzowania średniej zmiany parametru y wraz ze zmianą (spadkiem lub wzrostem) każdego odpowiedniego parametru x o jedną jednostkę, pod warunkiem stabilnych wartości innych wskaźników.

Równania nieliniowe mają np. postać funkcji potęgowej y=ax 1 b1 x 2 b2 ...x m bm. W tym przypadku wskaźniki b 1, b 2 ..... b m nazywane są współczynnikami elastyczności, pokazują, jak zmieni się wynik (o ile%) wraz ze wzrostem (spadkiem) odpowiedniego wskaźnika x o 1% i przy stabilnym wskaźniku innych czynników.

Jakie czynniki należy wziąć pod uwagę konstruując regresję wielokrotną

Aby poprawnie zbudować regresję wielokrotną, należy dowiedzieć się, na jakie czynniki należy zwrócić szczególną uwagę.

Konieczne jest pewne zrozumienie natury zależności między czynnikami ekonomicznymi a modelowanym obiektem. Czynniki, które będą musiały zostać uwzględnione, muszą spełniać następujące kryteria:

  • Należy poddać pomiarowi ilościowemu. Aby móc zastosować współczynnik opisujący jakość obiektu, należy w każdym przypadku nadać mu postać ilościową.
  • Nie powinno być żadnej wzajemnej korelacji czynników ani relacji funkcjonalnej. Takie działania najczęściej prowadzą do nieodwracalnych konsekwencji - układ równań zwyczajnych staje się bezwarunkowy, a to pociąga za sobą jego zawodność i niejasne szacunki.
  • W przypadku ogromnego wskaźnika korelacji nie ma możliwości stwierdzenia izolowanego wpływu czynników na końcowy wynik wskaźnika, dlatego współczynniki stają się nieinterpretowalne.

Metody konstrukcyjne

Istnieje ogromna liczba metod i metod wyjaśniających, w jaki sposób można wybrać czynniki do równania. Wszystkie te metody opierają się jednak na doborze współczynników za pomocą wskaźnika korelacji. Wśród nich są:

  • Metoda eliminacji.
  • Metoda przełączania.
  • Analiza regresji krokowej.

Pierwsza metoda polega na odfiltrowaniu wszystkich współczynników z całkowitego zbioru. Druga metoda polega na wprowadzeniu wielu dodatkowych czynników. Cóż, trzecia polega na eliminacji czynników, które zostały wcześniej użyte w równaniu. Każda z tych metod ma prawo istnieć. Mają swoje wady i zalety, ale wszyscy mogą na swój sposób rozwiązać problem eliminacji niepotrzebnych wskaźników. Z reguły wyniki uzyskane każdą indywidualną metodą są dość zbliżone.

Metody analizy wieloczynnikowej

Takie metody wyznaczania czynników opierają się na uwzględnieniu indywidualnych kombinacji wzajemnie powiązanych cech. Należą do nich analiza dyskryminacyjna, rozpoznawanie kształtów, analiza głównych składowych i analiza skupień. Ponadto istnieje również analiza czynnikowa, ale pojawiła się ona w związku z rozwojem metody składowej. Wszystkie mają zastosowanie w określonych okolicznościach, z zastrzeżeniem pewnych warunków i czynników.

Celem analizy regresji jest pomiar związku pomiędzy zmienną zależną a jedną (analiza regresji parami) lub większą liczbą (wielu) zmiennych niezależnych. Zmienne niezależne nazywane są także zmiennymi czynnikowymi, objaśniającymi, determinantami, regresorami i predyktorami.

Zmienna zależna jest czasami nazywana zmienną ustaloną, wyjaśnioną lub zmienną „odpowiedzi”. Niezwykle powszechne zastosowanie analizy regresji w badaniach empirycznych wynika nie tylko z faktu, że jest ona wygodnym narzędziem do testowania hipotez. Regresja, zwłaszcza regresja wielokrotna, jest skuteczną metodą modelowania i prognozowania.

Wyjaśnienie zasad pracy z analizą regresji zacznijmy od prostszej metody – metody par.

Analiza regresji sparowanej

Pierwsze kroki przy zastosowaniu analizy regresji będą niemal identyczne z tymi, które wykonaliśmy przy obliczaniu współczynnika korelacji. Trzy główne warunki efektywności analizy korelacji metodą Pearsona – rozkład normalny zmiennych, pomiar przedziałowy zmiennych, liniowa zależność między zmiennymi – mają znaczenie również dla regresji wielokrotnej. W związku z tym w pierwszym etapie konstruowane są wykresy rozrzutu, przeprowadzana jest analiza statystyczna i opisowa zmiennych oraz obliczana jest linia regresji. Podobnie jak w przypadku analizy korelacji, linie regresji konstruowane są metodą najmniejszych kwadratów.

Aby jaśniej zobrazować różnice pomiędzy obydwoma metodami analizy danych, przejdźmy do omówionego już przykładu ze zmiennymi „wsparcie z SPJ” i „udział ludności wiejskiej”. Dane źródłowe są identyczne. Różnica w wykresach rozrzutu będzie taka, że ​​w analizie regresji prawidłowo będzie wykreślić zmienną zależną – w naszym przypadku „wsparcie SPS” na osi Y, podczas gdy w analizie korelacji nie ma to znaczenia. Po oczyszczeniu wartości odstających wykres rozrzutu wygląda następująco:

Podstawową ideą analizy regresji jest to, że mając ogólny trend dla zmiennych – w postaci linii regresji – można przewidzieć wartość zmiennej zależnej, biorąc pod uwagę wartości zmiennej niezależnej.

Wyobraźmy sobie zwykłą matematyczną funkcję liniową. Dowolną linię prostą w przestrzeni euklidesowej można opisać wzorem:

gdzie a jest stałą określającą przemieszczenie wzdłuż osi rzędnych; b jest współczynnikiem określającym kąt nachylenia linii.

Znając nachylenie i stałą, możesz obliczyć (przewidywać) wartość y dla dowolnego x.

Ta najprostsza funkcja stała się podstawą modelu analizy regresji, z zastrzeżeniem, że nie przewidzimy wartości y dokładnie, ale w określonym przedziale ufności, tj. około.

Stała jest punktem przecięcia linii regresji i osi y (przecięcie F, zwykle oznaczane w pakietach statystycznych jako „przechwytywacz”). W naszym przykładzie głosowania na Związek Sił Prawicy jego zaokrąglona wartość wyniesie 10,55. Współczynnik kątowy b będzie wynosić w przybliżeniu -0,1 (ponieważ w analizie korelacji znak wskazuje rodzaj połączenia - bezpośrednie lub odwrotne). Zatem powstały model będzie miał postać SP C = -0,1 x Sel. nas. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Różnicę pomiędzy wartościami pierwotnymi i przewidywanymi nazywamy resztą (z tym fundamentalnym dla statystyki terminem spotkaliśmy się już przy analizie tablic kontyngencji). Zatem dla przypadku „Republiki Adygei” reszta będzie wynosić 3,92 – 5,63 = -1,71. Im większa wartość modułowa reszty, tym mniej skutecznie przewidywana wartość.

Obliczamy przewidywane wartości i reszty dla wszystkich przypadków:
Wydarzenie Usiadł. nas. dzięki

(oryginalny)

dzięki

(przewidywany)

Resztki
Republika Adygei 47 3,92 5,63 -1,71 -
Republika Ałtaju 76 5,4 2,59 2,81
Republika Baszkortostanu 36 6,04 6,78 -0,74
Republika Buriacji 41 8,36 6,25 2,11
Republika Dagestanu 59 1,22 4,37 -3,15
Republika Inguszetii 59 0,38 4,37 3,99
Itp.

Analiza stosunku wartości początkowych i przewidywanych służy ocenie jakości otrzymanego modelu i jego zdolności predykcyjnej. Jednym z głównych wskaźników statystyki regresji jest współczynnik korelacji wielokrotnej R - współczynnik korelacji między pierwotnymi i przewidywanymi wartościami zmiennej zależnej. W analizie regresji parami jest on równy zwykłemu współczynnikowi korelacji Pearsona między zmiennymi zależnymi i niezależnymi, w naszym przypadku - 0,63. Aby sensownie zinterpretować wielokrotne R, należy je przekształcić w współczynnik determinacji. Odbywa się to analogicznie jak w analizie korelacji – poprzez podniesienie do kwadratu. Współczynnik determinacji R-kwadrat (R 2) pokazuje proporcję zmienności zmiennej zależnej, która jest wyjaśniona przez zmienną(-y) niezależną(-e).

W naszym przypadku R 2 = 0,39 (0,63 2); oznacza to, że zmienna „udział ludności wiejskiej” wyjaśnia około 40% zmienności zmiennej „wsparcie z SPJ”. Im większy współczynnik determinacji, tym wyższa jakość modelu.

Kolejnym wskaźnikiem jakości modelu jest błąd standardowy oszacowania. Jest to miara tego, jak szeroko punkty są „rozproszone” wokół linii regresji. Miarą rozrzutu zmiennych przedziałowych jest odchylenie standardowe. W związku z tym błąd standardowy oszacowania jest odchyleniem standardowym rozkładu reszt. Im wyższa jego wartość, tym większy rozrzut i gorszy model. W naszym przypadku błąd standardowy wynosi 2,18. To właśnie o tę kwotę nasz model będzie „średnio błądzić” przy przewidywaniu wartości zmiennej „wsparcie SPS”.

Statystyki regresji obejmują również analizę wariancji. Za jego pomocą dowiadujemy się: 1) jaka część zmienności (rozproszenia) zmiennej zależnej jest wyjaśniona przez zmienną niezależną; 2) jaką część wariancji zmiennej zależnej odpowiadają reszty (część niewyjaśniona); 3) jaki jest stosunek tych dwóch wielkości (stosunek /"). Statystyka rozproszenia jest szczególnie ważna w przypadku badań reprezentacyjnych - pokazuje, jak prawdopodobne jest, że istnieje związek pomiędzy zmiennymi niezależnymi i zależnymi w populacji. Natomiast dla badania ciągłe (jak w naszym przykładzie) nieprzydatne są wyniki badań analizy wariancji. W tym przypadku sprawdzają, czy zidentyfikowany wzór statystyczny jest spowodowany splotem losowych okoliczności, jak charakterystyczny jest dla zespołu warunków, w których występuje badana populacja jest zlokalizowana, tj. ustala się, że uzyskany wynik nie dotyczy jakiegoś szerszego agregatu ogólnego, ale stopnia jego regularności, braku wpływów przypadkowych.

W naszym przypadku statystyki ANOVA przedstawiają się następująco:

SS zm SM F oznaczający
Regres. 258,77 1,00 258,77 54,29 0.000000001
Reszta 395,59 83,00 L,11
Całkowity 654,36

Współczynnik F wynoszący 54,29 jest znaczący na poziomie 0,0000000001. W związku z tym możemy z całą pewnością odrzucić hipotezę zerową (że odkryta przez nas zależność jest dziełem przypadku).

Kryterium t pełni podobną funkcję, ale w odniesieniu do współczynników regresji (przecięcie kątowe i F). Stosując kryterium / testujemy hipotezę, że w populacji ogólnej współczynniki regresji są równe zeru. W naszym przypadku ponownie możemy z całą pewnością odrzucić hipotezę zerową.

Analiza regresji wielokrotnej

Model regresji wielokrotnej jest prawie identyczny z modelem regresji sparowanej; jedyna różnica polega na tym, że do funkcji liniowej włącza się kolejno kilka zmiennych niezależnych:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jeśli istnieją więcej niż dwie zmienne niezależne, nie jesteśmy w stanie uzyskać wizualnego obrazu ich związku; pod tym względem regresja wielokrotna jest mniej „wizualna” niż regresja parami. Jeśli masz dwie niezależne zmienne, przydatne może być wyświetlenie danych na wykresie rozrzutu 3D. W profesjonalnych pakietach oprogramowania statystycznego (np. Statistica) istnieje możliwość obracania trójwymiarowego wykresu, co pozwala dobrze wizualnie przedstawić strukturę danych.

Podczas pracy z regresją wielokrotną, w przeciwieństwie do regresji parami, konieczne jest określenie algorytmu analizy. Standardowy algorytm uwzględnia wszystkie dostępne predyktory w ostatecznym modelu regresji. Algorytm krok po kroku polega na sekwencyjnym włączaniu (wykluczaniu) zmiennych niezależnych na podstawie ich „wagi wyjaśniającej”. Metoda krokowa jest dobra, gdy istnieje wiele zmiennych niezależnych; „oczyszcza” model ze szczerze mówiąc słabych predyktorów, czyniąc go bardziej zwartym i zwięzłym.

Dodatkowym warunkiem poprawności regresji wielokrotnej (wraz z przedziałem, normalnością i liniowością) jest brak wielowspółliniowości – występowanie silnych korelacji pomiędzy zmiennymi niezależnymi.

Interpretacja statystyk regresji wielokrotnej uwzględnia wszystkie elementy, które rozważaliśmy w przypadku regresji parami. Ponadto istnieją inne ważne elementy statystyki analizy regresji wielokrotnej.

Pracę z regresją wielokrotną zilustrujemy na przykładzie testowania hipotez wyjaśniających różnice w poziomie aktywności wyborczej pomiędzy regionami Rosji. Specyficzne badania empiryczne sugerują, że na poziom frekwencji wyborczej wpływają:

Czynnik narodowy (zmienna „ludność rosyjska”; operacjonalizowany jako udział ludności rosyjskiej w podmiotach Federacji Rosyjskiej). Zakłada się, że wzrost udziału ludności rosyjskiej prowadzi do spadku frekwencji wyborczej;

Czynnik urbanizacji (zmienna „ludność miejska”; operacjonalizowana jako udział ludności miejskiej w podmiotach Federacji Rosyjskiej; z tym czynnikiem pracowaliśmy już w ramach analizy korelacji). Zakłada się, że wzrost udziału ludności miejskiej prowadzi także do spadku frekwencji wyborczej.

Zmienną zależną „intensywność aktywności wyborczej” („aktywność”) operacjonalizuje się na podstawie danych dotyczących średniej frekwencji według regionów w wyborach federalnych w latach 1995–2003. Początkowa tabela danych dla dwóch zmiennych niezależnych i jednej zależnej będzie wyglądać następująco:

Wydarzenie Zmienne
Aktywa. Gor. nas. Rus. nas.
Republika Adygei 64,92 53 68
Republika Ałtaju 68,60 24 60
Republika Buriacji 60,75 59 70
Republika Dagestanu 79,92 41 9
Republika Inguszetii 75,05 41 23
Republika Kałmucji 68,52 39 37
Republika Karaczajo-Czerkieska 66,68 44 42
Republika Karelii 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

Itp. (po oczyszczeniu emisji pozostają 83 z 88 przypadków)

Statystyki opisujące jakość modelu:

1. Wielokrotność R = 0,62; L-kwadrat = 0,38. W rezultacie czynnik narodowy i czynnik urbanizacji wyjaśniają łącznie około 38% zmienności zmiennej „aktywność wyborcza”.

2. Średni błąd wynosi 3,38. Dokładnie tak „przeciętnie błędny” jest skonstruowany model w przewidywaniu poziomu frekwencji.

3. Stosunek /l zmienności wyjaśnionej i niewyjaśnionej wynosi 25,2 na poziomie 0,000000003. Hipotezę zerową o losowości zidentyfikowanych zależności odrzuca się.

4. Kryterium / dla współczynników stałych i regresji zmiennych „ludność miejska” i „ludność rosyjska” jest istotne na poziomie 0,0000001; Odpowiednio 0,00005 i 0,007. Hipoteza zerowa mówiąca o losowości współczynników została odrzucona.

Dodatkowymi statystykami przydatnymi w analizie zależności pomiędzy pierwotnymi i przewidywanymi wartościami zmiennej zależnej są odległość Mahalanobisa i odległość Cooka. Pierwsza jest miarą jednoznaczności przypadku (pokazuje, jak bardzo kombinacja wartości wszystkich zmiennych niezależnych dla danego przypadku odbiega od wartości średniej dla wszystkich zmiennych niezależnych jednocześnie). Druga jest miarą wpływu sprawy. Różne obserwacje mają różny wpływ na nachylenie linii regresji, a odległość Cooka można wykorzystać do porównania ich w tym wskaźniku. Może to być przydatne podczas usuwania wartości odstających (wartość odstającą można uznać za przypadek o zbyt dużym wpływie).

W naszym przykładzie do wyjątkowych i wpływowych przypadków zalicza się Dagestan.

Wydarzenie Oryginalny

wartości

Predska

wartości

Resztki Dystans

Mahalanobisa

Dystans
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Ałtaju 68,60 69.91 -1,31 6,80 0,01
Republika Buriacji 60,75 65,56 -4,81 0,23 0,01
Republika Dagestanu 79,92 71,01 8,91 10,57 0,44
Republika Inguszetii 75,05 70,21 4,84 6,73 0,08
Republika Kałmucji 68,52 69,59 -1,07 4,20 0,00

Sam model regresji ma następujące parametry: Przecięcie Y (stała) = 75,99; b (poziomo) = -0,1; Kommersant (rosyjski nas.) = -0,06. Ostateczna formuła.

W poprzednich postach analiza często skupiała się na pojedynczej zmiennej liczbowej, takiej jak zwroty z funduszy inwestycyjnych, czas ładowania strony internetowej lub spożycie napojów bezalkoholowych. W tej i kolejnych notatkach przyjrzymy się metodom przewidywania wartości zmiennej numerycznej w zależności od wartości jednej lub większej liczby innych zmiennych numerycznych.

Materiał zostanie zilustrowany przykładem przekrojowym. Prognozowanie wielkości sprzedaży w sklepie odzieżowym. Sieć dyskontowych sklepów odzieżowych Słoneczniki rozwija się nieprzerwanie od 25 lat. Spółka nie posiada jednak obecnie systematycznego podejścia do wyboru nowych placówek. Lokalizacja, w której firma zamierza otworzyć nowy sklep, ustalana jest na podstawie subiektywnych rozważań. Kryteriami wyboru są korzystne warunki wynajmu lub pomysł menadżera na idealną lokalizację sklepu. Wyobraź sobie, że jesteś szefem działu projektów specjalnych i planowania. Otrzymałeś zadanie opracowania planu strategicznego otwierania nowych sklepów. Plan ten powinien zawierać prognozę rocznej sprzedaży nowo otwartych sklepów. Wierzysz, że powierzchnia handlowa jest bezpośrednio powiązana z przychodami i chcesz uwzględnić to w procesie decyzyjnym. Jak opracować model statystyczny, aby przewidzieć roczną sprzedaż na podstawie wielkości nowego sklepu?

Zazwyczaj analiza regresji służy do przewidywania wartości zmiennej. Jego celem jest opracowanie modelu statystycznego, który może przewidzieć wartości zmiennej zależnej lub odpowiedzi na podstawie wartości co najmniej jednej zmiennej niezależnej lub objaśniającej. W tej notatce przyjrzymy się prostej regresji liniowej – metodzie statystycznej, która pozwala przewidzieć wartości zmiennej zależnej Y przez niezależne wartości zmiennych X. W kolejnych uwagach zostanie opisany model regresji wielokrotnej przeznaczony do przewidywania wartości zmiennej niezależnej Y na podstawie wartości kilku zmiennych zależnych ( X 1, X 2, …, X k).

Pobierz notatkę w formacie lub, przykłady w formacie

Rodzaje modeli regresji

Gdzie ρ 1 – współczynnik autokorelacji; Jeśli ρ 1 = 0 (brak autokorelacji), D≈ 2; Jeśli ρ 1 ≈ 1 (dodatnia autokorelacja), D≈ 0; Jeśli ρ 1 = -1 (ujemna autokorelacja), D ≈ 4.

W praktyce stosowanie kryterium Durbina-Watsona opiera się na porównaniu wartości D z krytycznymi wartościami teoretycznymi d L I d U dla danej liczby obserwacji N, liczba zmiennych niezależnych modelu k(dla prostej regresji liniowej k= 1) i poziom istotności α. Jeśli D< d L , hipoteza o niezależności odchyleń losowych zostaje odrzucona (zachodzi zatem dodatnia autokorelacja); Jeśli D>du, hipoteza nie jest odrzucana (tzn. nie ma autokorelacji); Jeśli d L< D < d U nie ma wystarczających podstaw do podjęcia decyzji. Gdy obliczona wartość D przekracza 2, a następnie z d L I d U Porównywany jest nie sam współczynnik D i wyrażenie (4 – D).

Aby obliczyć statystyki Durbina-Watsona w Excelu, przejdźmy do dolnej tabeli na ryc. 14 Wycofanie salda. Licznik w wyrażeniu (10) oblicza się za pomocą funkcji =SUMMAR(tablica1;tablica2), a mianownik =SUMMAR(tablica) (rys. 16).

Ryż. 16. Wzory do obliczania statystyki Durbina-Watsona

W naszym przykładzie D= 0,883. Główne pytanie brzmi: jaką wartość statystyki Durbina-Watsona należy uznać za wystarczająco małą, aby stwierdzić, że istnieje dodatnia autokorelacja? Konieczne jest skorelowanie wartości D z wartościami krytycznymi ( d L I du), w zależności od liczby obserwacji N oraz poziom istotności α (ryc. 17).

Ryż. 17. Wartości krytyczne statystyki Durbina-Watsona (fragment tabeli)

Zatem w problemie wielkości sprzedaży w sklepie dostarczającym towar do domu występuje jedna zmienna niezależna ( k= 1), 15 obserwacji ( N= 15) i poziom istotności α = 0,05. Stąd, d L= 1,08 i DU= 1,36. Ponieważ D = 0,883 < d L= 1,08, pomiędzy resztami występuje dodatnia autokorelacja, nie można zastosować metody najmniejszych kwadratów.

Testowanie hipotez dotyczących nachylenia i współczynnika korelacji

Powyżej regresję zastosowano wyłącznie do prognozowania. Wyznaczanie współczynników regresji i przewidywanie wartości zmiennej Y dla danej wartości zmiennej X Zastosowano metodę najmniejszych kwadratów. Dodatkowo zbadaliśmy błąd średniokwadratowy oszacowania i współczynnik korelacji mieszanej. Jeżeli analiza reszt potwierdzi, że nie zostały naruszone warunki stosowalności metody najmniejszych kwadratów, a prosty model regresji liniowej jest odpowiedni, to na podstawie przykładowych danych można postawić tezę, że pomiędzy zmiennymi w badaniu istnieje liniowa zależność populacja.

AplikacjaT -kryteria nachylenia. Testując, czy nachylenie populacji β 1 jest równe zeru, można stwierdzić, czy istnieje statystycznie istotna zależność pomiędzy zmiennymi X I Y. Jeśli hipoteza ta zostanie odrzucona, można argumentować, że pomiędzy zmiennymi X I Y istnieje zależność liniowa. Hipotezę zerową i alternatywną formułuje się następująco: H 0: β 1 = 0 (nie ma zależności liniowej), H1: β 1 ≠ 0 (istnieje zależność liniowa). A-przeorat T-statystyka jest równa różnicy między nachyleniem próbki a hipotetyczną wartością nachylenia populacji, podzieloną przez pierwiastek średniokwadratowy błędu oszacowania nachylenia:

(11) T = (B 1 β 1 ) / Sb 1

Gdzie B 1 – nachylenie regresji bezpośredniej na danych próbnych, β1 – hipotetyczne nachylenie populacji bezpośredniej, i statystyki testowe T To ma T-dystrybucja z n – 2 stopnie swobody.

Sprawdźmy, czy istnieje statystycznie istotna zależność pomiędzy wielkością sklepu a roczną sprzedażą przy α = 0,05. T-kryterium jest wyświetlane razem z innymi parametrami, jeśli jest używane Pakiet analityczny(opcja Regresja). Pełne wyniki pakietu analitycznego pokazano na ryc. 4, fragment dotyczący statystyki t - na ryc. 18.

Ryż. 18. Wyniki aplikacji T

Od ilości sklepów N= 14 (patrz rys. 3), wartość krytyczna T-statystykę na poziomie istotności α = 0,05 można znaleźć korzystając ze wzoru: t L=STUDENT.ARV(0,025;12) = –2,1788, gdzie 0,025 to połowa poziomu istotności, a 12 = N – 2; ty=STUDENT.OBR(0,975;12) = +2,1788.

Ponieważ T-statystyka = 10,64 > ty= 2,1788 (ryc. 19), hipoteza zerowa H 0 odrzucony. Z drugiej strony, R-wartość dla X= 10,6411, obliczone ze wzoru =1-ROZKŁ.STUDENTA(D3,12,TRUE), jest w przybliżeniu równe zeru, więc hipoteza H 0 ponownie odrzucony. Fakt, że R-wartość bliska zeru oznacza, że ​​gdyby nie istniała prawdziwa liniowa zależność pomiędzy wielkością sklepów a roczną sprzedażą, wykrycie jej za pomocą regresji liniowej byłoby praktycznie niemożliwe. Istnieje zatem statystycznie istotna liniowa zależność pomiędzy średnią roczną sprzedażą w sklepie a wielkością sklepu.

Ryż. 19. Testowanie hipotezy o nachyleniu populacji na poziomie istotności 0,05 i 12 stopniach swobody

AplikacjaF -kryteria nachylenia. Alternatywnym podejściem do testowania hipotez dotyczących nachylenia prostej regresji liniowej jest zastosowanie F-kryteria. Przypomnijmy Ci to F-test służy do testowania związku pomiędzy dwiema wariancjami (więcej szczegółów można znaleźć w artykule). Podczas testowania hipotezy nachylenia miarą błędów losowych jest wariancja błędu (suma kwadratów błędów podzielona przez liczbę stopni swobody), więc F-kryterium wykorzystuje współczynnik wariancji wyjaśniony regresją (tj. wartość SSR, podzielone przez liczbę zmiennych niezależnych k), do wariancji błędu ( MSE = S YX 2 ).

A-przeorat F-statystyka jest równa średniemu kwadratowi regresji (MSR) podzielonemu przez wariancję błędu (MSE): F = MSR/ MSE, Gdzie MSR=SSR / k, MSE =SSE/(N– k – 1), k– liczba zmiennych niezależnych w modelu regresji. Statystyki testowe F To ma F-dystrybucja z k I N– k – 1 stopnie swobody.

Dla danego poziomu istotności α regułę decyzyjną formułuje się następująco: jeżeli F>FU, hipoteza zerowa zostaje odrzucona; w przeciwnym razie nie zostanie odrzucony. Wyniki zaprezentowane w formie zbiorczej tabeli analizy wariancji przedstawiono na rys. 20.

Ryż. 20. Analiza tabeli wariancji do sprawdzenia hipotezy o istotności statystycznej współczynnika regresji

Podobnie T-kryterium F-kryterium jest wyświetlane w tabeli, gdy jest stosowane Pakiet analityczny(opcja Regresja). Pełne efekty pracy Pakiet analityczny są pokazane na ryc. 4, fragment dot F-statystyka – na ryc. 21.

Ryż. 21. Wyniki aplikacji F-kryteria uzyskane za pomocą pakietu analitycznego Excel

Statystyka F wynosi 113,23 i R-wartość bliska zeru (komórka ZnaczenieF). Jeżeli poziom istotności α wynosi 0,05, określ wartość krytyczną F-rozkłady o jednym i 12 stopniach swobody można otrzymać korzystając ze wzoru FU=F.OBR(1-0,05;1;12) = 4,7472 (ryc. 22). Ponieważ F = 113,23 > FU= 4,7472 i R-wartość bliska 0< 0,05, нулевая гипотеза H 0 zostaje odrzucony, tj. Wielkość sklepu jest ściśle powiązana z jego roczną sprzedażą.

Ryż. 22. Testowanie hipotezy nachylenia populacji na poziomie istotności 0,05 przy jednym i 12 stopniach swobody

Przedział ufności zawierający nachylenie β 1 . Aby przetestować hipotezę o liniowym związku między zmiennymi, można skonstruować przedział ufności zawierający nachylenie β 1 i sprawdzić, czy hipotetyczna wartość β 1 = 0 należy do tego przedziału. Środek przedziału ufności zawierającego nachylenie β 1 jest nachyleniem próbki B 1 , a jego granice są ilościami b 1 ±tn –2 Sb 1

Jak pokazano na ryc. 18, B 1 = +1,670, N = 14, Sb 1 = 0,157. T 12 =STUDENT.ARV(0,975;12) = 2,1788. Stąd, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 lub + 1,328 ≤ β 1 ≤ +2,012. Zatem istnieje prawdopodobieństwo wynoszące 0,95, że nachylenie populacji mieści się w przedziale od +1,328 do +2,012 (tj. od 1 328 000 do 2 012 000 dolarów). Ponieważ wartości te są większe od zera, istnieje statystycznie istotna liniowa zależność pomiędzy roczną sprzedażą a powierzchnią sklepu. Gdyby przedział ufności zawierał zero, nie byłoby związku między zmiennymi. Dodatkowo przedział ufności oznacza, że ​​każde zwiększenie powierzchni sklepu o 1000 mkw. ft. skutkuje wzrostem średniego wolumenu sprzedaży o kwotę od 1 328 000 do 2 012 000 dolarów.

StosowanieT -kryteria współczynnika korelacji. wprowadzono współczynnik korelacji R, który jest miarą związku między dwiema zmiennymi numerycznymi. Można go wykorzystać do ustalenia, czy istnieje statystycznie istotna zależność między dwiema zmiennymi. Oznaczmy współczynnik korelacji pomiędzy populacjami obu zmiennych symbolem ρ. Hipotezy zerowe i alternatywne formułuje się w następujący sposób: H 0: ρ = 0 (brak korelacji), H 1: ρ ≠ 0 (istnieje korelacja). Sprawdzanie istnienia korelacji:

Gdzie R = + , Jeśli B 1 > 0, R = – , Jeśli B 1 < 0. Тестовая статистика T To ma T-dystrybucja z n – 2 stopnie swobody.

W problemie dotyczącym sieci sklepów Słoneczniki r 2= 0,904, a b 1- +1,670 (patrz ryc. 4). Ponieważ b 1> 0, współczynnik korelacji pomiędzy roczną sprzedażą a wielkością sklepu wynosi R= +√0,904 = +0,951. Przetestujmy hipotezę zerową, że nie ma korelacji między tymi zmiennymi, używając T-Statystyka:

Na poziomie istotności α = 0,05 hipotezę zerową należy odrzucić, ponieważ T= 10,64 > 2,1788. Można zatem postawić tezę, że istnieje statystycznie istotna zależność pomiędzy roczną sprzedażą a wielkością sklepu.

Omawiając wnioski dotyczące nachylenia populacji, przedziały ufności i testy hipotez są używane zamiennie. Jednak obliczenie przedziału ufności zawierającego współczynnik korelacji okazuje się trudniejsze, gdyż rodzaj rozkładu próbkowania statystyki R zależy od rzeczywistego współczynnika korelacji.

Estymacja oczekiwań matematycznych i przewidywanie poszczególnych wartości

W tej sekcji omówiono metody szacowania matematycznego oczekiwania odpowiedzi Y i przewidywania poszczególnych wartości Y dla danych wartości zmiennej X.

Konstruowanie przedziału ufności. W przykładzie 2 (patrz sekcja powyżej Metoda najmniejszych kwadratów) równanie regresji pozwoliło przewidzieć wartość zmiennej Y X. W problemie wyboru lokalizacji punktu sprzedaży detalicznej średnioroczny wolumen sprzedaży w sklepie o powierzchni 4000 mkw. stóp wynosiło 7,644 miliona dolarów, jednakże to oszacowanie matematycznych oczekiwań populacji ogólnej jest punktowe. Aby oszacować oczekiwania matematyczne populacji, zaproponowano koncepcję przedziału ufności. Podobnie możemy wprowadzić to pojęcie przedział ufności dla matematycznego oczekiwania odpowiedzi dla danej wartości zmiennej X:

Gdzie , = B 0 + B 1 X ja– przewidywana wartość jest zmienna Y Na X = X ja, S YX– błąd średniokwadratowy, N- wielkość próbki, XI- określona wartość zmiennej X, µ Y|X = XI– matematyczne oczekiwanie zmiennej Y Na X = Xi, SSX =

Analiza wzoru (13) pokazuje, że szerokość przedziału ufności zależy od kilku czynników. Na danym poziomie istotności wzrost amplitudy wahań wokół linii regresji, mierzonej za pomocą pierwiastka błędu średniokwadratowego, prowadzi do zwiększenia szerokości przedziału. Z drugiej strony, jak można się spodziewać, wzrostowi liczebności próby towarzyszy zawężenie przedziału. Ponadto szerokość przedziału zmienia się w zależności od wartości XI. Jeżeli wartość zmiennej Y przewidywane dla ilości X, zbliżona do wartości średniej , przedział ufności okazuje się węższy niż przy przewidywaniu reakcji dla wartości odległych od średniej.

Załóżmy, że wybierając lokalizację sklepu chcemy skonstruować 95% przedział ufności dla średniorocznej sprzedaży wszystkich sklepów o powierzchni 4000 mkw. stopy:

Dlatego też średnioroczny wolumen sprzedaży we wszystkich sklepach o powierzchni 4 tys. stóp, z prawdopodobieństwem 95% mieści się w przedziale od 6,971 do 8,317 mln dolarów.

Oblicz przedział ufności dla przewidywanej wartości. Oprócz przedziału ufności dla matematycznego oczekiwania reakcji dla danej wartości zmiennej X, często konieczna jest znajomość przedziału ufności dla przewidywanej wartości. Choć wzór na obliczenie takiego przedziału ufności jest bardzo podobny do wzoru (13), to przedział ten zawiera wartość przewidywaną, a nie estymację parametru. Przedział czasu dla przewidywanej odpowiedzi YX = Xi dla określonej wartości zmiennej XI określone wzorem:

Załóżmy, że wybierając lokalizację punktu sprzedaży detalicznej chcemy skonstruować 95% przedział ufności dla przewidywanej rocznej wielkości sprzedaży dla sklepu o powierzchni 4000 mkw. stopy:

W związku z tym przewidywany roczny wolumen sprzedaży sklepu o powierzchni 4000 mkw. stóp, z prawdopodobieństwem 95% mieści się w przedziale od 5,433 do 9,854 mln dolarów. Jak widać, przedział ufności dla przewidywanej wartości odpowiedzi jest znacznie szerszy niż przedział ufności dla jej matematycznego oczekiwania. Dzieje się tak dlatego, że zmienność w przewidywaniu poszczególnych wartości jest znacznie większa niż w szacowaniu oczekiwań matematycznych.

Pułapki i problemy etyczne związane ze stosowaniem regresji

Trudności związane z analizą regresji:

  • Ignorowanie warunków stosowalności metody najmniejszych kwadratów.
  • Błędna ocena przesłanek stosowalności metody najmniejszych kwadratów.
  • Niewłaściwy wybór metod alternatywnych w przypadku naruszenia warunków stosowalności metody najmniejszych kwadratów.
  • Zastosowanie analizy regresji bez głębokiej znajomości przedmiotu badań.
  • Ekstrapolacja regresji poza zakres zmiennej objaśniającej.
  • Pomieszanie zależności statystycznych i przyczynowych.

Powszechne stosowanie arkuszy kalkulacyjnych i oprogramowania statystycznego wyeliminowało problemy obliczeniowe, które utrudniały stosowanie analizy regresji. Doprowadziło to jednak do tego, że z analizy regresji korzystali użytkownicy, którzy nie posiadali wystarczających kwalifikacji i wiedzy. Skąd użytkownicy mogą wiedzieć o metodach alternatywnych, skoro wielu z nich w ogóle nie ma pojęcia o warunkach stosowania metody najmniejszych kwadratów i nie wie, jak sprawdzić ich wdrożenie?

Badacz nie powinien dać się ponieść analizowaniu liczb – obliczaniu przesunięcia, nachylenia i współczynnika korelacji mieszanej. Potrzebuje głębszej wiedzy. Zilustrujmy to klasycznym przykładem zaczerpniętym z podręczników. Anscombe wykazał, że wszystkie cztery zestawy danych pokazane na ryc. 23, mają te same parametry regresji (ryc. 24).

Ryż. 23. Cztery sztuczne zbiory danych

Ryż. 24. Analiza regresji czterech sztucznych zbiorów danych; skończone Pakiet analityczny(kliknij na zdjęcie, aby powiększyć obraz)

Zatem z punktu widzenia analizy regresji wszystkie te zbiory danych są całkowicie identyczne. Gdyby na tym analiza się zakończyła, stracilibyśmy wiele przydatnych informacji. Świadczą o tym wykresy punktowe (Rysunek 25) i wykresy reszt (Rysunek 26) skonstruowane dla tych zbiorów danych.

Ryż. 25. Wykresy punktowe dla czterech zbiorów danych

Wykresy punktowe i wykresy reszt wskazują, że dane te różnią się od siebie. Jedynym zbiorem rozłożonym wzdłuż linii prostej jest zbiór A. Wykres reszt obliczonych ze zbioru A nie ma żadnego wzoru. Nie można tego powiedzieć o zbiorach B, C i D. Wykres punktowy wykreślony dla zbioru B wykazuje wyraźny wzór kwadratowy. Wniosek ten potwierdza wykres resztowy, który ma kształt paraboliczny. Wykres punktowy i wykres reszt pokazują, że zbiór danych B zawiera wartość odstającą. W tej sytuacji konieczne jest wykluczenie ze zbioru danych wartości odstającej i powtórzenie analizy. Metodę wykrywania i eliminowania wartości odstających w obserwacjach nazywa się analizą wpływu. Po wyeliminowaniu wartości odstającej wynik ponownej estymacji modelu może być zupełnie inny. Wykres rozrzutu wykreślony na podstawie danych ze zbioru G ilustruje nietypową sytuację, w której model empiryczny jest w istotny sposób zależny od indywidualnej reakcji ( X 8 = 19, Y 8 = 12,5). Takie modele regresji należy obliczać szczególnie ostrożnie. Zatem wykresy rozrzutu i reszt są niezbędnym narzędziem analizy regresji i powinny stanowić jej integralną część. Bez nich analiza regresji nie jest wiarygodna.

Ryż. 26. Wykresy reszt dla czterech zbiorów danych

Jak uniknąć pułapek w analizie regresji:

  • Analiza możliwych zależności pomiędzy zmiennymi X I Y zawsze zaczynaj od narysowania wykresu punktowego.
  • Przed interpretacją wyników analizy regresji należy sprawdzić warunki jej stosowalności.
  • Wykreśl reszty w funkcji zmiennej niezależnej. Umożliwi to określenie stopnia dopasowania modelu empirycznego do wyników obserwacji oraz wykrycie naruszenia stałości wariancji.
  • Użyj histogramów, wykresów łodyg i liści, wykresów pudełkowych i wykresów rozkładu normalnego, aby przetestować założenie o rozkładzie błędu normalnego.
  • Jeżeli nie są spełnione warunki stosowalności metody najmniejszych kwadratów, należy zastosować metody alternatywne (na przykład modele regresji kwadratowej lub wielokrotnej).
  • Jeżeli spełnione są warunki stosowania metody najmniejszych kwadratów, należy przetestować hipotezę o istotności statystycznej współczynników regresji i skonstruować przedziały ufności zawierające oczekiwanie matematyczne i przewidywaną wartość odpowiedzi.
  • Unikaj przewidywania wartości zmiennej zależnej poza zakresem zmiennej niezależnej.
  • Należy pamiętać, że zależności statystyczne nie zawsze mają charakter przyczynowo-skutkowy. Pamiętaj, że korelacja między zmiennymi nie oznacza, że ​​istnieje między nimi związek przyczynowo-skutkowy.

Streszczenie. Jak pokazano na schemacie blokowym (Rysunek 27), w uwagach opisano prosty model regresji liniowej, warunki jego zastosowania oraz sposób testowania tych warunków. Uważany za T-kryterium badania istotności statystycznej nachylenia regresji. Do przewidywania wartości zmiennej zależnej wykorzystano model regresji. Rozpatrzono przykład dotyczący wyboru lokalizacji punktu sprzedaży detalicznej, w którym badana jest zależność rocznej wielkości sprzedaży od powierzchni sklepu. Uzyskane informacje pozwalają dokładniej wybrać lokalizację sklepu i przewidzieć jego roczną wielkość sprzedaży. W poniższych notatkach będziemy kontynuować dyskusję na temat analizy regresji, a także przyjrzymy się modelom regresji wielokrotnej.

Ryż. 27. Schemat struktury notatki

Wykorzystano materiały z książki Levin i wsp. Statystyka dla menedżerów. – M.: Williams, 2004. – s. 25 792–872

Jeżeli zmienna zależna ma charakter kategoryczny, należy zastosować regresję logistyczną.

PODSUMOWANIE WYNIKÓW

Tabela 8.3a. Statystyka regresji
Statystyka regresji
Liczba mnoga R 0,998364
Plac R 0,99673
Znormalizowany R-kwadrat 0,996321
Standardowy błąd 0,42405
Obserwacje 10

Na początek przyjrzyjmy się górnej części obliczeń, przedstawionej w tabeli 8.3a – statystykom regresji.

Wartość R-kwadrat, zwana także miarą pewności, charakteryzuje jakość otrzymanej linii regresji. Jakość ta wyraża się stopniem zgodności danych źródłowych z modelem regresji (danymi obliczonymi). Miara pewności zawsze mieści się w przedziale.

W większości przypadków wartość R-kwadrat mieści się pomiędzy tymi wartościami, zwanymi wartościami ekstremalnymi, tj. pomiędzy zerem a jeden.

Jeśli wartość R-kwadrat jest bliska jedności, oznacza to, że skonstruowany model wyjaśnia prawie całą zmienność odpowiednich zmiennych. I odwrotnie, wartość R-kwadrat bliska zeru oznacza, że ​​jakość skonstruowanego modelu jest niska.

W naszym przykładzie miara pewności wynosi 0,99673, co wskazuje na bardzo dobre dopasowanie prostej regresji do danych pierwotnych.

Liczba mnoga R- współczynnik korelacji wielokrotnej R - wyraża stopień zależności zmiennych niezależnych (X) i zmiennej zależnej (Y).

Wielokrotność R jest równa pierwiastkowi kwadratowemu współczynnika determinacji; wielkość ta przyjmuje wartości z zakresu od zera do jednego.

W prostej analizie regresji liniowej wielokrotność R jest równa współczynnikowi korelacji Pearsona. Rzeczywiście, wielokrotność R w naszym przypadku jest równa współczynnikowi korelacji Pearsona z poprzedniego przykładu (0,998364).

Tabela 8.3b. Współczynniki regresji
Szanse Standardowy błąd statystyka t
Przecięcie Y 2,694545455 0,33176878 8,121757129
Zmienna X 1 2,305454545 0,04668634 49,38177965
* Podano skróconą wersję obliczeń

Rozważmy teraz środkową część obliczeń przedstawioną w tabeli 8.3b. Tutaj podany jest współczynnik regresji b (2,305454545) i przemieszczenie wzdłuż osi rzędnych, tj. stała a (2,694545455).

Na podstawie obliczeń możemy napisać równanie regresji w następujący sposób:

Y= x*2,305454545+2,694545455

Kierunek zależności między zmiennymi wyznacza się na podstawie znaków (ujemnych lub dodatnich) współczynniki regresji(współczynnik b).

Jeśli znak na współczynnik regresji- dodatni, związek pomiędzy zmienną zależną a zmienną niezależną będzie dodatni. W naszym przypadku znak współczynnika regresji jest dodatni, zatem zależność również jest dodatnia.

Jeśli znak na współczynnik regresji- ujemna, związek między zmienną zależną a zmienną niezależną jest ujemny (odwrotny).

W tabeli 8.3c. Zaprezentowano wyniki wyprowadzenia reszt. Aby wyniki te pojawiły się w raporcie, należy podczas uruchamiania narzędzia „Regresja” aktywować pole wyboru „Reszty”.

WYCOFANIE RESZTY

Tabela 8.3c. Resztki
Obserwacja Przewidywany Y Resztki Bilanse standardowe
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Korzystając z tej części raportu, możemy zobaczyć odchylenia każdego punktu od skonstruowanej linii regresji. Największa wartość bezwzględna

KATEGORIE

POPULARNE ARTYKUŁY

2023 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich