Co to jest funkcja regresji. Analiza regresji - statystyczna metoda badania zależności zmiennej losowej od zmiennych

Analiza regresji jest metodą ustalania analitycznego wyrażenia zależności stochastycznej między badanymi cechami. Równanie regresji pokazuje, jak średnio się zmienia Na przy zmianie któregoś z X I , i wygląda jak:

Gdzie y- zmienna zależna (zawsze jest jedna);

X I - zmienne niezależne (czynniki) (może ich być kilka).

Jeśli istnieje tylko jedna zmienna niezależna, jest to prosta analiza regresji. Jeśli jest ich kilka P 2), wówczas taka analiza nazywana jest wielowymiarową.

W trakcie analizy regresji rozwiązywane są dwa główne zadania:

    konstrukcja równania regresji, tj. znalezienie rodzaju związku między wskaźnikiem rezultatu a czynnikami niezależnymi X 1 , X 2 , …, X N .

    ocena istotności otrzymanego równania, tj. określenie, w jakim stopniu wybrane cechy czynnikowe wyjaśniają zmienność cechy y.

Analiza regresji jest wykorzystywana głównie do planowania, a także do opracowywania ram regulacyjnych.

W przeciwieństwie do analizy korelacji, która odpowiada jedynie na pytanie, czy istnieje związek między analizowanymi cechami, analiza regresji daje również swój sformalizowany wyraz. Ponadto, jeśli analiza korelacji bada jakikolwiek związek czynników, to analiza regresji bada zależność jednostronną, tj. połączenie pokazujące, jak zmiana znaków czynników wpływa na wynikowy znak.

Analiza regresji jest jedną z najbardziej rozwiniętych metod statystyki matematycznej. Ściśle mówiąc, wdrożenie analizy regresji wymaga spełnienia szeregu specjalnych wymagań (w szczególności X l ,X 2 ,...,X N ;y muszą być niezależnymi zmiennymi losowymi o rozkładzie normalnym o stałych wariancjach). W rzeczywistości ścisłe przestrzeganie wymagań analizy regresji i korelacji jest bardzo rzadkie, ale obie te metody są bardzo powszechne w badaniach ekonomicznych. Zależności w gospodarce mogą być nie tylko bezpośrednie, ale także odwrotne i nieliniowe. Model regresji można zbudować w obecności dowolnej zależności, jednak w analizie wielowymiarowej stosuje się tylko modele liniowe postaci:

Konstrukcję równania regresji przeprowadza się z reguły metodą najmniejszych kwadratów, której istotą jest minimalizacja sumy kwadratów odchyleń rzeczywistych wartości wynikowego atrybutu od jego obliczonych wartości, tj.:

Gdzie T - liczba obserwacji;

J =a+b 1 X 1 J + b 2 X 2 J + ... + b N X N J - obliczona wartość współczynnika wyniku.

Zaleca się wyznaczanie współczynników regresji za pomocą pakietów analitycznych na komputer osobisty lub specjalnego kalkulatora finansowego. W najprostszym przypadku współczynniki regresji jednoczynnikowego równania regresji liniowej postaci y = a + bx można znaleźć za pomocą wzorów:

analiza skupień

Analiza skupień jest jedną z metod analizy wielowymiarowej, służącą do grupowania (grupowania) populacji, której elementy charakteryzują się wieloma cechami. Wartości każdej z cech służą jako współrzędne każdej jednostki badanej populacji w wielowymiarowej przestrzeni cech. Każda obserwacja, charakteryzująca się wartościami kilku wskaźników, może być reprezentowana jako punkt w przestrzeni tych wskaźników, których wartości są uważane za współrzędne w przestrzeni wielowymiarowej. Odległość między punktami R I Q Z k współrzędne definiuje się jako:

Głównym kryterium grupowania jest to, że różnice między skupieniami powinny być bardziej znaczące niż między obserwacjami przypisanymi do tego samego skupienia, tj. w przestrzeni wielowymiarowej należy przestrzegać nierówności:

Gdzie R 1, 2 - odległość między skupieniami 1 i 2.

Podobnie jak procedury analizy regresji, procedura grupowania jest dość pracochłonna, zaleca się jej wykonanie na komputerze.

W swoich pracach datowanych na 1908 r. Opisał to na przykładzie pracy pośrednika w sprzedaży nieruchomości. Specjalista ds. sprzedaży domów prowadził w swoich notatkach szeroki zakres danych wejściowych dla każdego konkretnego budynku. Na podstawie wyników aukcji określono, który czynnik miał największy wpływ na cenę transakcyjną.

Analiza dużej liczby transakcji dała ciekawe wyniki. Na ostateczną cenę wpływ miało wiele czynników, które czasami prowadziły do ​​paradoksalnych wniosków, a nawet wręcz „odstających”, gdy dom o wysokim potencjale początkowym był sprzedawany po niższej cenie.

Drugim przykładem zastosowania takiej analizy jest praca, której powierzono ustalenie wynagrodzeń pracowników. Złożoność zadania polegała na tym, że wymagano nie rozdysponowania wszystkim ustalonej kwoty, lecz ścisłego dopasowania jej wartości do konkretnej wykonywanej pracy. Pojawienie się wielu problemów o praktycznie podobnych rozwiązaniach wymagało ich bardziej szczegółowego zbadania na poziomie matematycznym.

Istotne miejsce zajął rozdział „analiza regresji”, który połączył praktyczne metody badania zależności mieszczących się w pojęciu regresji. Zależności te obserwuje się między danymi uzyskanymi w toku badań statystycznych.

Wśród wielu zadań do rozwiązania stawia sobie trzy główne cele: zdefiniowanie równania regresji o postaci ogólnej; budowanie oszacowań parametrów, które są nieznane, które są częścią równania regresji; testowanie hipotez regresji statystycznej. Badając związek, jaki powstaje między parą wielkości otrzymanych w wyniku obserwacji eksperymentalnych i tworzących szereg (zbiór) typu (x1, y1), ..., (xn, yn), opierają się na zapisów teorii regresji i przyjąć, że dla jednej wielkości Y zachodzi pewien rozkład prawdopodobieństwa, podczas gdy druga wielkość X pozostaje stała.

Wynik Y zależy od wartości zmiennej X, zależność tę można określić różnymi wzorami, natomiast na dokładność uzyskanych wyników ma wpływ charakter obserwacji i cel analizy. Model eksperymentalny opiera się na pewnych założeniach, które są uproszczone, ale prawdopodobne. Głównym warunkiem jest, aby parametr X był wartością kontrolowaną. Jego wartości są ustalane przed rozpoczęciem eksperymentu.

Jeśli podczas eksperymentu używana jest para niekontrolowanych wartości XY, wówczas analiza regresji jest przeprowadzana w ten sam sposób, ale do interpretacji wyników, podczas których badany jest związek badanych zmiennych losowych, stosowane są metody Metody statystyki matematycznej nie są tematem abstrakcyjnym. Znajdują zastosowanie w życiu w różnych dziedzinach działalności człowieka.

W literaturze naukowej termin analiza regresji liniowej znalazł szerokie zastosowanie do określenia powyższej metody. W przypadku zmiennej X używany jest termin regresor lub predyktor, a zależne zmienne Y są również nazywane zmiennymi kryterialnymi. Ta terminologia odzwierciedla tylko matematyczną zależność zmiennych, ale nie związki przyczynowo-przyczynowe.

Analiza regresji jest najpowszechniejszą metodą stosowaną w przetwarzaniu wyników szerokiej gamy obserwacji. Za pomocą tej metody badane są zależności fizyczne i biologiczne, jest ona wdrażana zarówno w ekonomii, jak iw technice. Wiele innych obszarów wykorzystuje modele analizy regresji. Analiza wariancji, wielowymiarowa analiza statystyczna ściśle współpracują z tą metodą badania.

Analiza regresji i korelacji - metody badań statystycznych. Są to najczęstsze sposoby pokazania zależności parametru od jednej lub kilku zmiennych niezależnych.

Poniżej, na konkretnych praktycznych przykładach, rozważymy te dwie bardzo popularne wśród ekonomistów analizy. Podamy również przykład uzyskiwania wyników, gdy zostaną one połączone.

Analiza regresji w Excelu

Pokazuje wpływ niektórych wartości (niezależnych, niezależnych) na zmienną zależną. Na przykład, jak liczba ludności aktywnej zawodowo zależy od liczby przedsiębiorstw, płac i innych parametrów. Albo: jak inwestycje zagraniczne, ceny energii itp. wpływają na poziom PKB.

Wynik analizy pozwala na ustalenie priorytetów. I na podstawie głównych czynników przewidywać, planować rozwój obszarów priorytetowych, podejmować decyzje zarządcze.

Regresja się dzieje:

  • liniowy (y = a + bx);
  • paraboliczny (y = a + bx + cx 2);
  • wykładniczy (y = a * exp(bx));
  • potęga (y = a*x^b);
  • hiperboliczny (y = b/x + a);
  • logarytmiczna (y = b * 1n(x) + a);
  • wykładniczy (y = a * b^x).

Rozważ przykład budowania modelu regresji w Excelu i interpretowania wyników. Weźmy regresję liniową.

Zadanie. W 6 przedsiębiorstwach przeanalizowano przeciętne miesięczne wynagrodzenie oraz liczbę pracowników, którzy odeszli. Konieczne jest określenie zależności liczby emerytów od przeciętnego wynagrodzenia.

Model regresji liniowej ma następującą postać:

Y \u003d za 0 + za 1 x 1 + ... + a k x k.

Gdzie a to współczynniki regresji, x to zmienne wpływające, a k to liczba czynników.

W naszym przykładzie Y jest wskaźnikiem odchodzących pracowników. Czynnikiem wpływającym są płace (x).

Excel ma wbudowane funkcje, których można użyć do obliczenia parametrów modelu regresji liniowej. Ale dodatek Analysis ToolPak zrobi to szybciej.

Aktywuj potężne narzędzie analityczne:

Po aktywacji dodatek będzie dostępny w zakładce Dane.

Teraz zajmiemy się bezpośrednio analizą regresji.



Przede wszystkim zwracamy uwagę na R-kwadrat i współczynniki.

R-kwadrat to współczynnik determinacji. W naszym przykładzie jest to 0,755, czyli 75,5%. Oznacza to, że obliczone parametry modelu wyjaśniają związek między badanymi parametrami o 75,5%. Im wyższy współczynnik determinacji, tym lepszy model. Dobry - powyżej 0,8. Słaby - mniej niż 0,5 (taką analizę trudno uznać za rozsądną). W naszym przykładzie - „nieźle”.

Współczynnik 64,1428 pokazuje, jakie będzie Y, jeśli wszystkie zmienne w rozpatrywanym modelu będą równe 0. Oznacza to, że inne czynniki, nieopisane w modelu, również wpływają na wartość analizowanego parametru.

Współczynnik -0,16285 pokazuje wagę zmiennej X na Y. Oznacza to, że przeciętne miesięczne wynagrodzenie w ramach tego modelu wpływa na liczbę rezygnujących z wagi -0,16285 (jest to niewielki stopień wpływu). Znak „-” wskazuje na negatywny wpływ: im wyższa pensja, tym mniej rezygnuje. Co jest sprawiedliwe.



Analiza korelacji w Excelu

Analiza korelacji pomaga ustalić, czy istnieje związek między wskaźnikami w jednej, czy w dwóch próbach. Np. między czasem pracy maszyny a kosztem naprawy, ceną sprzętu a czasem eksploatacji, wzrostem i wagą dzieci itp.

Jeśli istnieje związek, to czy wzrost jednego parametru prowadzi do wzrostu (korelacja dodatnia), czy też do spadku (ujemna) drugiego. Analiza korelacji pomaga analitykowi określić, czy wartość jednego wskaźnika może przewidzieć możliwą wartość innego.

Współczynnik korelacji jest oznaczony jako r. Waha się od +1 do -1. Klasyfikacja korelacji dla różnych obszarów będzie różna. Gdy wartość współczynnika wynosi 0, nie ma liniowej zależności między próbkami.

Zastanów się, jak użyć programu Excel do znalezienia współczynnika korelacji.

Funkcja CORREL służy do znajdowania sparowanych współczynników.

Zadanie: Ustalić, czy istnieje zależność między czasem pracy tokarki a kosztami jej utrzymania.

Umieść kursor w dowolnej komórce i naciśnij przycisk fx.

  1. W kategorii „Statystyka” wybierz funkcję CORREL.
  2. Argument "Tablica 1" - pierwszy zakres wartości - czas maszyny: A2: A14.
  3. Argument "Tablica 2" - drugi zakres wartości - koszt naprawy: B2:B14. Kliknij OK.

Aby określić rodzaj połączenia, należy spojrzeć na bezwzględną liczbę współczynnika (każde pole działania ma swoją własną skalę).

Do analizy korelacji kilku parametrów (więcej niż 2) wygodniej jest użyć „Analizy danych” (dodatek „Analysis Package”). Na liście musisz wybrać korelację i wyznaczyć tablicę. Wszystko.

Otrzymane współczynniki zostaną wyświetlone w macierzy korelacji. Jak ten:

Analiza korelacyjno-regresyjna

W praktyce te dwie techniki są często stosowane razem.

Przykład:


Teraz dane analizy regresji są widoczne.

Celem analizy regresji jest zmierzenie związku między zmienną zależną a jedną (analiza regresji parami) lub większą liczbą (wielu) zmiennych niezależnych. Zmienne niezależne nazywane są również czynnikowymi, objaśniającymi, determinantami, regresorami i predyktorami.

Zmienna zależna jest czasami określana jako zmienna zdefiniowana, wyjaśniona lub zmienna „odpowiedzi”. Niezwykle szerokie zastosowanie analizy regresji w badaniach empirycznych wynika nie tylko z tego, że jest ona wygodnym narzędziem do testowania hipotez. Regresja, zwłaszcza regresja wielokrotna, jest skuteczną techniką modelowania i prognozowania.

Wyjaśnienie zasad pracy z analizą regresji zacznijmy od prostszej - metody par.

Analiza regresji parami

Pierwsze kroki podczas korzystania z analizy regresji będą niemal identyczne z tymi, które podejmujemy w ramach obliczania współczynnika korelacji. Trzy główne warunki skuteczności analizy korelacji metodą Pearsona – rozkład normalny zmiennych, pomiar przedziałowy zmiennych, liniowa zależność między zmiennymi – mają również znaczenie dla regresji wielokrotnej. W związku z tym w pierwszym etapie konstruowane są wykresy rozrzutu, przeprowadzana jest analiza statystyczna i opisowa zmiennych oraz obliczana jest linia regresji. Podobnie jak w ramach analizy korelacji linie regresji budowane są metodą najmniejszych kwadratów.

Aby lepiej zilustrować różnice między tymi dwiema metodami analizy danych, przejdźmy do rozważanego już przykładu ze zmiennymi „wsparcie SPJ” i „udział ludności wiejskiej”. Oryginalne dane są identyczne. Różnica w wykresach rozrzutu będzie taka, że ​​w analizie regresji poprawne jest wykreślenie zmiennej zależnej – w naszym przypadku „wsparcia SPS” wzdłuż osi Y, podczas gdy w analizie korelacji nie ma to znaczenia. Po oczyszczeniu wartości odstających wykres rozrzutu wygląda następująco:

Podstawową ideą analizy regresji jest to, że mając ogólny trend dla zmiennych – w postaci linii regresji – można przewidzieć wartość zmiennej zależnej, mając wartości zmiennej niezależnej.

Wyobraźmy sobie zwykłą matematyczną funkcję liniową. Dowolną linię w przestrzeni euklidesowej można opisać wzorem:

gdzie a jest stałą określającą przesunięcie wzdłuż osi y; b - współczynnik określający kąt linii.

Znając nachylenie i stałą, możesz obliczyć (przewidywać) wartość y dla dowolnego x.

Ta najprostsza funkcja stała się podstawą modelu analizy regresji z zastrzeżeniem, że wartość y będziemy przewidywać nie dokładnie, ale w pewnym przedziale ufności, tj. około.

Stała jest punktem przecięcia linii regresji i osi y (punkt przecięcia z F, zwykle określany jako „interceptor” w pakietach statystycznych). W naszym przykładzie głosowania na SPS jego zaokrąglona wartość wyniesie 10,55. Współczynnik nachylenia b będzie równy w przybliżeniu -0,1 (podobnie jak w analizie korelacji znak wskazuje na rodzaj zależności - bezpośrednią lub odwrotną). Zatem wynikowy model będzie wyglądał następująco: SP C = -0,1 x Sel. nas. + 10,55.

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Różnica między wartościami pierwotnymi a przewidywanymi nazywana jest rezydualną (z tym terminem – fundamentalnym dla statystyki – spotkaliśmy się już przy analizie tablic kontyngencji). Tak więc w przypadku Republiki Adygei reszta wyniesie 3,92 - 5,63 = -1,71. Im większa wartość modulo reszty, tym gorzej przewidziana wartość.

Obliczamy przewidywane wartości i reszty dla wszystkich przypadków:
Wydarzenie sob. nas. dzięki

(oryginalny)

dzięki

(przewidywany)

Pozostaje
Republika Adygei 47 3,92 5,63 -1,71 -
Republika Ałtaju 76 5,4 2,59 2,81
Republika Baszkirii 36 6,04 6,78 -0,74
Republika Buriacji 41 8,36 6,25 2,11
Republika Dagestanu 59 1,22 4,37 -3,15
Republika Inguszetii 59 0,38 4,37 3,99
Itp.

Analiza stosunku wartości początkowych i przewidywanych służy ocenie jakości otrzymanego modelu, jego zdolności predykcyjnej. Jednym z głównych wskaźników statystyki regresji jest współczynnik korelacji wielokrotnej R – współczynnik korelacji między wartościami pierwotnymi a przewidywanymi zmiennej zależnej. W analizie regresji parami jest równy zwykłemu współczynnikowi korelacji Pearsona między zmienną zależną i niezależną, w naszym przypadku - 0,63. Aby sensownie zinterpretować wielokrotność R, należy ją przekształcić we współczynnik determinacji. Odbywa się to w taki sam sposób, jak w analizie korelacji - podnoszenie do kwadratu. Współczynnik determinacji R-kwadrat (R 2) pokazuje proporcję zmienności zmiennej zależnej wyjaśnionej przez zmienne niezależne (niezależne).

W naszym przypadku R2 = 0,39 (0,63 2); oznacza to, że zmienna „odsetek ludności wiejskiej” wyjaśnia około 40% zmienności zmiennej „poparcie dla KPS”. Im większa wartość współczynnika determinacji, tym wyższa jakość modelu.

Inną miarą jakości modelu jest błąd standardowy oszacowania. Jest to miara tego, jak bardzo punkty są „rozrzucone” wokół linii regresji. Miarą rozproszenia dla zmiennych przedziałowych jest odchylenie standardowe. W związku z tym błąd standardowy oszacowania jest odchyleniem standardowym rozkładu reszt. Im wyższa jego wartość, tym większy rozrzut i gorszy model. W naszym przypadku błąd standardowy wynosi 2,18. To właśnie o tę kwotę nasz model będzie „mylił się średnio” przy przewidywaniu wartości zmiennej „wsparcie SPS”.

Statystyka regresji obejmuje również analizę wariancji. Za jego pomocą dowiadujemy się: 1) jaka część zmienności (rozrzutu) zmiennej zależnej jest wyjaśniana przez zmienną niezależną; 2) jaką część wariancji zmiennej zależnej stanowią reszty (część niewyjaśniona); 3) jaki jest stosunek tych dwóch wartości (/ "-współczynnik). Statystyka dyspersji jest szczególnie ważna dla badań reprezentacyjnych - pokazuje, jak prawdopodobne jest występowanie związku między zmiennymi niezależnymi i zależnymi w populacji ogólnej. Jednak , dla badań ciągłych (jak w naszym przykładzie), badanie W tym przypadku sprawdza się, czy ujawniony wzorzec statystyczny jest spowodowany zbiegiem okoliczności losowych, na ile jest charakterystyczny dla zespołu warunków, w jakich znajduje się badana populacja , tj. ustalono, że uzyskany wynik nie jest prawdziwy dla jakiegoś szerszego ogólnego agregatu, ale stopień jego regularności, brak wpływów losowych.

W naszym przypadku analiza statystyki wariancji wygląda następująco:

SS df SM F oznaczający
Regres. 258,77 1,00 258,77 54,29 0.000000001
Pozostały 395,59 83,00 L,11
Całkowity 654,36

Współczynnik F wynoszący 54,29 jest istotny na poziomie 0,0000000001. W związku z tym możemy bezpiecznie odrzucić hipotezę zerową (że znaleziona zależność jest przypadkowa).

Podobną funkcję pełni kryterium t, ale ze względu na współczynniki regresji (przecięcia kątowe i F). Za pomocą kryterium / testujemy hipotezę, że współczynniki regresji w populacji ogólnej są równe zeru. W naszym przypadku ponownie możemy śmiało odrzucić hipotezę zerową.

Analiza regresji wielokrotnej

Model regresji wielokrotnej jest prawie identyczny z modelem regresji parami; jedyna różnica polega na tym, że funkcja liniowa zawiera kolejno kilka zmiennych niezależnych:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jeśli jest więcej niż dwie zmienne niezależne, nie jesteśmy w stanie uzyskać wizualnej reprezentacji ich związku; pod tym względem regresja wielokrotna jest mniej „widoczna” niż regresja par. Gdy istnieją dwie zmienne niezależne, przydatne może być wyświetlenie danych na wykresie rozrzutu 3D. W profesjonalnych pakietach programów statystycznych (np. Statistica) istnieje możliwość obracania trójwymiarowego wykresu, co pozwala na dobre wizualne przedstawienie struktury danych.

Podczas pracy z regresją wielokrotną, w przeciwieństwie do regresji par, konieczne jest określenie algorytmu analizy. Algorytm standardowy uwzględnia wszystkie dostępne predyktory w ostatecznym modelu regresji. Algorytm krok po kroku zakłada sekwencyjne włączanie (wyłączanie) zmiennych niezależnych na podstawie ich „wagi” objaśniającej. Metoda krokowa jest dobra, gdy istnieje wiele zmiennych niezależnych; „oczyszcza” model z szczerze mówiąc słabych predyktorów, czyniąc go bardziej zwartym i zwięzłym.

Dodatkowym warunkiem poprawności regresji wielokrotnej (wraz z przedziałem, normalnością i liniowością) jest brak współliniowości – obecność silnych korelacji między zmiennymi niezależnymi.

Interpretacja statystyki regresji wielokrotnej obejmuje wszystkie elementy, które uwzględniliśmy w przypadku regresji parami. Ponadto w statystyce analizy regresji wielokrotnej występują inne ważne składniki.

Zilustrujemy pracę regresją wieloraką na przykładzie testowania hipotez wyjaśniających różnice w poziomie aktywności wyborczej w regionach Rosji. Konkretne badania empiryczne sugerują, że na frekwencję wyborczą wpływają:

Czynnik narodowy (zmienna „ludność rosyjska”; zoperacjonalizowana jako udział ludności rosyjskiej w podmiotach wchodzących w skład Federacji Rosyjskiej). Przyjmuje się, że wzrost udziału ludności rosyjskiej prowadzi do spadku frekwencji wyborczej;

Współczynnik urbanizacji (zmienna „ludność miejska”; zoperacjonalizowana jako udział ludności miejskiej w podmiotach wchodzących w skład Federacji Rosyjskiej, pracowaliśmy już z tym czynnikiem w ramach analizy korelacji). Przyjmuje się, że wzrost udziału ludności miejskiej prowadzi również do spadku frekwencji wyborczej.

Zmienna zależna – „intensywność aktywności wyborczej” („aktywna”) jest operacjonalizowana poprzez dane o średniej frekwencji dla regionów w wyborach federalnych w latach 1995-2003. Wyjściowa tabela danych dla dwóch zmiennych niezależnych i jednej zależnej będzie miała następującą postać :

Wydarzenie Zmienne
Aktywa. Gor. nas. rosyjski nas.
Republika Adygei 64,92 53 68
Republika Ałtaju 68,60 24 60
Republika Buriacji 60,75 59 70
Republika Dagestanu 79,92 41 9
Republika Inguszetii 75,05 41 23
Republika Kałmucji 68,52 39 37
Republika Karaczajo-Czerkieska 66,68 44 42
Republika Karelii 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

Itp. (po oczyszczeniu emisji pozostają 83 przypadki z 88)

Statystyki opisujące jakość modelu:

1. Wielokrotne R = 0,62; L-kwadrat = 0,38. Zatem czynnik narodowy i czynnik urbanizacji łącznie wyjaśniają około 38% zmienności zmiennej „aktywność wyborcza”.

2. Średni błąd wynosi 3,38. Tak „średnio” skonstruowany model myli się przy przewidywaniu poziomu frekwencji.

3. /l-stosunek zmienności wyjaśnionej do niewyjaśnionej wynosi 25,2 na poziomie 0,000000003. Hipoteza zerowa o przypadkowości ujawnionych zależności zostaje odrzucona.

4. Kryterium / dla stałej i współczynników regresji zmiennych „ludność miejska” i „ludność rosyjska” jest istotne na poziomie 0,0000001; odpowiednio 0,00005 i 0,007. Hipoteza zerowa o losowości współczynników zostaje odrzucona.

Dodatkowymi przydatnymi statystykami w analizie stosunku wartości początkowej i przewidywanej zmiennej zależnej są odległość Mahalanobisa i odległość Cooka. Pierwsza jest miarą niepowtarzalności przypadku (pokazuje, jak bardzo kombinacja wartości wszystkich zmiennych niezależnych dla danego przypadku odbiega od wartości średniej dla wszystkich zmiennych niezależnych jednocześnie). Drugi jest miarą wpływu sprawy. Różne obserwacje wpływają na nachylenie linii regresji w różny sposób, a korzystając z odległości Cooka, można je porównać według tego wskaźnika. Jest to przydatne przy czyszczeniu wartości odstających (odstępstwo można uważać za zbyt wpływowy przypadek).

W naszym przykładzie Dagestan jest jednym z wyjątkowych i wpływowych przypadków.

Wydarzenie Wstępny

wartości

Predska

wartości

Pozostaje Dystans

Mahalanobis

Dystans
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Ałtaju 68,60 69.91 -1,31 6,80 0,01
Republika Buriacji 60,75 65,56 -4,81 0,23 0,01
Republika Dagestanu 79,92 71,01 8,91 10,57 0,44
Republika Inguszetii 75,05 70,21 4,84 6,73 0,08
Republika Kałmucji 68,52 69,59 -1,07 4,20 0,00

Rzeczywisty model regresji ma następujące parametry: punkt przecięcia z osią Y (stała) = 75,99; b (Hor. sat.) \u003d -0,1; b (ros. nas.) = -0,06. Ostateczna formuła.

Analiza regresji jest jedną z najpopularniejszych metod badań statystycznych. Można go wykorzystać do określenia stopnia wpływu zmiennych niezależnych na zmienną zależną. Funkcjonalność Microsoft Excel posiada narzędzia przeznaczone do przeprowadzania tego typu analiz. Przyjrzyjmy się, czym one są i jak z nich korzystać.

Aby jednak skorzystać z funkcji umożliwiającej przeprowadzenie analizy regresji, należy przede wszystkim aktywować Pakiet Analiz. Dopiero wtedy narzędzia niezbędne do tej procedury pojawią się na wstążce Excela.


Teraz, kiedy przechodzimy do zakładki "Dane", na wstążce w przyborniku "Analiza" zobaczymy nowy przycisk - "Analiza danych".

Rodzaje analizy regresji

Istnieje kilka rodzajów regresji:

  • paraboliczny;
  • moc;
  • logarytmiczny;
  • wykładniczy;
  • demonstracja;
  • hiperboliczny;
  • regresja liniowa.

Bardziej szczegółowo omówimy implementację ostatniego typu analizy regresji w Excelu później.

Regresja liniowa w Excelu

Poniżej, jako przykład, znajduje się tabela przedstawiająca średnią dzienną temperaturę powietrza na ulicy oraz liczbę klientów sklepu w odpowiednim dniu roboczym. Dowiedzmy się za pomocą analizy regresji dokładnie, jak warunki pogodowe w postaci temperatury powietrza mogą wpływać na frekwencję w placówce handlowej.

Ogólne równanie regresji liniowej wygląda następująco: Y = a0 + a1x1 + ... + axk. W tej formule Y oznacza zmienną, której wpływ próbujemy badać. W naszym przypadku jest to liczba kupujących. Oznaczający X to różne czynniki, które wpływają na zmienną. Opcje A są współczynnikami regresji. Oznacza to, że określają znaczenie określonego czynnika. Indeks k oznacza całkowitą liczbę tych samych czynników.


Analiza wyników analizy

Wyniki analizy regresji są wyświetlane w formie tabeli w miejscu określonym w ustawieniach.

Jednym z głównych wskaźników jest Plac R. Wskazuje jakość modelu. W naszym przypadku współczynnik ten wynosi 0,705, czyli około 70,5%. Jest to akceptowalny poziom jakości. Relacja mniejsza niż 0,5 jest zła.

Kolejny ważny wskaźnik znajduje się w komórce na przecięciu linii „Przecięcie Y” i kolumna „Współczynniki”. Tutaj wskazano, jaką wartość będzie miał Y, aw naszym przypadku jest to liczba kupujących, przy wszystkich innych czynnikach równych zeru. W tej tabeli ta wartość wynosi 58,04.

Wartość na przecięciu wykresu „Zmienna X1” I „Współczynniki” pokazuje stopień zależności Y od X. W naszym przypadku jest to stopień zależności liczby klientów sklepu od temperatury. Współczynnik 1,31 jest uważany za dość wysoki wskaźnik wpływu.

Jak widać, dość łatwo jest utworzyć tabelę analizy regresji za pomocą programu Microsoft Excel. Ale tylko przeszkolona osoba może pracować z danymi uzyskanymi na wyjściu i zrozumieć ich istotę.

KATEGORIE

POPULARNE ARTYKUŁY

2023 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich