Podano macierz sparowanych współczynników korelacji. Budowa macierzy współczynników korelacji par

Z 1 (T)

Z 2 (T)

T

y(t)

Z 1 (T)

Z 2 (T)

T

y(t)

Głównym zadaniem przy wyborze czynników wchodzących w skład modelu korelacyjnego jest uwzględnienie w analizie wszystkich głównych czynników wpływających na poziom badanego zjawiska. Jednak nie jest wskazane wprowadzanie do modelu dużej liczby czynników, bardziej poprawne jest wybranie tylko stosunkowo niewielkiej liczby głównych czynników, które przypuszczalnie są skorelowane z wybranym wskaźnikiem funkcjonalnym.

Można to zrobić za pomocą tzw. selekcji dwuetapowej. Zgodnie z nią w modelu uwzględniane są wszystkie wcześniej wybrane czynniki. Następnie wśród nich, na podstawie specjalnej oceny ilościowej i dodatkowej analizy jakościowej, identyfikowane są czynniki o nieznacznym wpływie, które są stopniowo odrzucane, aż pozostaną takie, co do których można stwierdzić, że dostępny materiał statystyczny jest zgodny z hipotezą ich łączny istotny wpływ na zmienną zależną z wybraną formą związku.

Dwuetapowa selekcja znalazła swój najpełniejszy wyraz w metodzie tzw. wieloetapowej analizy regresji, w której selekcja czynników nieistotnych następuje na podstawie ich wskaźników istotności, w szczególności na podstawie wartości t f - obliczona wartość kryterium Studenta.

Oblicz t f na podstawie znalezionych współczynników korelacji par i porównaj je z t krytycznym dla 5% poziomu istotności (dwustronnego) i 18 stopni swobody (ν = n-2).

gdzie r jest wartością współczynnika korelacji pary;

n – liczba obserwacji (n=20)

Porównując t f dla każdego współczynnika z T kr = 2,101 otrzymujemy, że znalezione współczynniki uznajemy za istotne, gdyż t f > t kr.

t f dla r yx 1 = 2, 5599 ;

t f dla r yx 2 = 7,064206 ;

t f dla r yx 3 = 2,40218 ;

t f dla r x1 x 2 = 4,338906 ;

t f dla r x1 x 3 = 15,35065;

t f dla r x2 x 3 = 4,749981

Przy wyborze czynników uwzględnianych w analizie podlegają one określonym wymogom. Przede wszystkim wskaźniki wyrażające te czynniki muszą być mierzalne.

Czynniki uwzględnione w modelu nie powinny pozostawać ze sobą w funkcjonalnym lub ścisłym związku. Obecność takich wiązań charakteryzuje się współliniowością.

Wieloliniowość wskazuje, że niektóre czynniki charakteryzują tę samą stronę badanego zjawiska. Dlatego ich jednoczesne włączenie do modelu jest niepraktyczne, ponieważ w pewnym stopniu się powielają. Jeżeli nie ma specjalnych założeń przemawiających na korzyść któregoś z tych czynników, to należy preferować jeden z nich, który charakteryzuje się dużym współczynnikiem korelacji par (lub częściowej).

Uważa się, że wartością graniczną jest wartość współczynnika korelacji między dwoma czynnikami, równa 0,8.

Wielowspółliniowość prowadzi zwykle do degeneracji macierzy zmiennych, aw konsekwencji do tego, że wyznacznik główny maleje iw granicy zbliża się do zera. Oszacowania współczynników równania regresji stają się silnie zależne od dokładności znalezienia danych początkowych i zmieniają się diametralnie, gdy zmienia się liczba obserwacji.

Macierz współczynników korelacji parami

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

Węzły macierzy zawierają sparowane współczynniki korelacji, które charakteryzują bliskość związku między cechami czynników. Analizując te współczynniki, zauważamy, że im większa ich wartość bezwzględna, tym większy wpływ odpowiedniego znaku czynnika na wynikowy. Analiza otrzymanej macierzy odbywa się w dwóch etapach:

1. Jeżeli pierwsza kolumna macierzy zawiera współczynniki korelacji, dla których /r/< 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Данный фактор оказывает меньшее влияние на результативный признак, нежели оставшиеся четыре признака.

2. Analizując pary współczynników korelacji cech czynników ze sobą, (r XiXj), charakteryzujących ścisłość ich związku, należy ocenić ich niezależność od siebie, gdyż jest to warunek konieczny do dalszej analizy regresji. Ze względu na fakt, że w gospodarce nie ma absolutnie niezależnych znaków, konieczne jest wyróżnienie, jeśli to możliwe, najbardziej niezależnych. Znaki czynników, które są ze sobą w ścisłej korelacji, nazywane są wieloliniowymi. Uwzględnienie w modelu cech wielowspółliniowych uniemożliwia ekonomiczną interpretację modelu regresji, gdyż zmiana jednego czynnika pociąga za sobą zmianę czynników z nim powiązanych, co może doprowadzić do „załamania” modelu jako całości.

Kryterium wielokoleniowości czynników jest następujące:

/r XiXj / > 0,8

W otrzymanej macierzy sparowanych współczynników korelacji kryterium to spełniają dwa wskaźniki znajdujące się na przecięciu rzędów I . Z każdej pary tych cech należy pozostawić w modelu jedną, która powinna mieć większy wpływ na wynikową cechę. W rezultacie czynniki i są wyłączone z modelu; tempo wzrostu kosztu własnego sprzedaży oraz tempo wzrostu wolumenu jego realizacji.

Wprowadzamy więc czynniki X1 i X2 do modelu regresji.

Następnie przeprowadzana jest analiza regresji (usługa, analiza danych, regresja). Ponownie kompiluje tabelę danych początkowych ze współczynnikami X1 i X2. Regresja jako całość służy do analizy wpływu na odrębną zmienną zależną wartości zmiennych niezależnych (czynników) i pozwala na przedstawienie korelacji między cechami w postaci pewnej zależności funkcjonalnej zwanej równaniem regresji lub korelacji- Model regresji.

W wyniku analizy regresji otrzymujemy wyniki obliczeń regresji wielowymiarowej. Przeanalizujmy otrzymane wyniki.

Wszystkie współczynniki regresji są istotne zgodnie z testem t-Studenta. Współczynnik korelacji wielokrotnej R wyniósł 0,925, kwadrat tej wartości (współczynnik determinacji) oznacza, że ​​zmienność otrzymanej cechy wynosi średnio 85,5% ze względu na zmienność cech czynnikowych uwzględnionych w modelu. Współczynnik determinizmu charakteryzuje ścisłość związku między zbiorem cech czynników a wskaźnikiem wydajności. Im wartość R-kwadrat jest bliższa 1, tym silniejszy związek. W naszym przypadku wskaźnik równy 0,855 świadczy o prawidłowym doborze czynników i obecności związku między czynnikami a wskaźnikiem wykonania.

Rozważany model jest adekwatny, gdyż obliczona wartość kryterium F Fishera znacznie przekracza jego wartość tabelaryczną (F obl = 52,401; F tabl = 1,53).

Ogólnym wynikiem przeprowadzonej analizy korelacyjno-regresyjnej jest równanie regresji wielokrotnej, które ma postać:

Otrzymane równanie regresji spełnia cel analizy korelacji i regresji i jest liniowym modelem zależności zysku bilansowego przedsiębiorstwa od dwóch czynników: tempa wzrostu wydajności pracy oraz współczynnika własności przemysłowej.

Na podstawie otrzymanego modelu można stwierdzić, że przy wzroście poziomu wydajności pracy o 1% w stosunku do poprzedniego okresu zysk bilansowy wzrośnie o 0,95 pkt proc.; wzrost współczynnika własności przemysłowej o 1% doprowadzi do wzrostu wskaźnika efektywnego o 27,9 pkt proc. W konsekwencji dominujący wpływ na wzrost zysku bilansowego ma wzrost wartości mienia przemysłowego (remonty i przyrost majątku trwałego przedsiębiorstwa).

Zgodnie z modelem regresji wieloczynnikowej przeprowadzana jest wieloczynnikowa prognoza efektywnej cechy. Niech wiadomo, że X1 = 3,0 i X3 = 0,7. Podstawmy wartości znaków czynnika do modelu, otrzymamy Puchar = 0,95 * 3,0 + 27,9 * 0,7 - 19,4 = 2,98. Tym samym, przy wzroście wydajności pracy i modernizacji majątku trwałego w przedsiębiorstwie, zysk bilansowy w I kwartale 2005 roku w stosunku do okresu poprzedniego (IV kwartał 2004) wzrośnie o 2,98%.

Dane ekonomiczne to ilościowe charakterystyki dowolnych obiektów lub procesów gospodarczych. Powstają pod wpływem wielu czynników, z których nie wszystkie są dostępne dla kontroli zewnętrznej. Niekontrolowane czynniki mogą przyjmować losowe wartości ze zbioru wartości i tym samym powodować losowość danych, które określają. Jednym z głównych zadań badań ekonomicznych jest analiza zależności między zmiennymi.

Rozważając zależności między cechami należy wyróżnić przede wszystkim dwa rodzaje relacji:

  • funkcjonalny - charakteryzują się pełną zgodnością między zmianą atrybutu czynnika a zmianą wartości wynikowej: każda wartość atrybutu-czynnika odpowiada dobrze zdefiniowanym wartościom efektywnego atrybutu. Ten typ relacji jest wyrażony jako relacja formalna. Zależność funkcjonalna może łączyć wynikową cechę z jedną lub kilkoma cechami czynnikowymi. Zatem wysokość wynagrodzenia za czas pracy zależy od liczby przepracowanych godzin;
  • korelacja- nie ma pełnej zgodności między zmianą dwóch znaków, wpływ poszczególnych czynników przejawia się tylko średnio, przy masowych obserwacjach rzeczywistych danych. Jednoczesny wpływ na badaną cechę dużej liczby różnych czynników prowadzi do tego, że ta sama wartość atrybutu-czynnika odpowiada całemu rozkładowi wartości wynikowego atrybutu, ponieważ w każdym konkretnym przypadku inne znaki czynników mogą zmienić siłę i kierunek ich oddziaływania.

Należy mieć na uwadze, że jeżeli pomiędzy znakami istnieje związek funkcjonalny, to znając wartość znaku czynnika można dokładnie określić wartość wyniku. Tylko w obecności zależności korelacyjnej tendencja zmian efektywnego atrybutu przy zmianie wartości znaku czynnika.

Badając związek między znakami, są one klasyfikowane według kierunku, formy, liczby czynników:

  • w kierunku połączenia dzielą się na prosty I odwracać. W przypadku połączenia bezpośredniego kierunek zmiany atrybutu wypadkowego pokrywa się z kierunkiem zmiany czynnika znaku. W przypadku sprzężenia zwrotnego kierunek zmiany efektywnej cechy jest przeciwny do kierunku zmiany współczynnika cechy. Na przykład im wyższe kwalifikacje pracownika, tym wyższy poziom wydajności jego pracy (bezpośredni związek). Im wyższa produktywność pracy, tym niższy jednostkowy koszt produkcji (sprzężenie zwrotne);
  • formalnie(rodzaj funkcji) dzielimy na połączenia liniowy(prostoliniowy) i nieliniowy(krzywolinijny). Zależność liniowa jest wyświetlana jako linia prosta, zależność nieliniowa - jako krzywa (parabola, hiperbola itp.). Przy liniowej zależności ze wzrostem wartości atrybutu czynnika następuje równomierny wzrost (spadek) wartości atrybutu wypadkowego;
  • przez liczbę czynników działających na skuteczny znak, komunikaty dzielą się na jednoczynnikowy(sparowane) i wieloczynnikowy.

Badanie zależności zmienności znaku od warunków otoczenia jest treścią teorii korelacji.

Podczas przeprowadzania analizy korelacji cały zestaw danych jest traktowany jako zbiór zmiennych (czynników), z których każdy zawiera P obserwacje.

Podczas badania związku między dwoma czynnikami zwykle są one oznaczane X=(x s x2,..., xp) I Y= (y ( , y 2 ,..., yi).

Kowariancja - to jest statystyczne miara interakcji dwie zmienne. Na przykład dodatnia wartość kowariancji zwrotów z dwóch papierów wartościowych wskazuje, że zwroty z tych papierów mają tendencję do poruszania się w tym samym kierunku.

Kowariancja między dwiema zmiennymi X I Y oblicza się w następujący sposób:

gdzie są rzeczywiste wartości zmiennych

X I G;

Jeśli zmienne losowe Hej Y są niezależne, teoretyczna kowariancja wynosi zero.

Kowariancja zależy od jednostek, w jakich mierzone są zmienne Hej Y, jest to wielkość nieznormalizowana. Dlatego mierzyć siły komunikacyjne między dwiema zmiennymi używana jest inna statystyka, zwana współczynnikiem korelacji.

Dla dwóch zmiennych X I Współczynnik korelacji pary Y

jest zdefiniowany w następujący sposób:

Gdzie SSy- oszacowania wariancji Hej Y. Szacunki te charakteryzują stopień dyspersji wartości x ( , x 2 , ..., x n (y 1 , y 2 , y n) wokół twojej średniej x (y odpowiednio) lub zmienność(zmienność) tych zmiennych w zbiorze obserwacji.

Dyspersja(oszacowanie wariancji) określa wzór

W ogólnym przypadku, aby otrzymać nieobciążone oszacowanie wariancji, sumę kwadratów należy podzielić przez liczbę stopni swobody oszacowania (itp), Gdzie P - wielkość próbki, R - liczba powiązań nałożonych na próbkę. Ponieważ próbka została już raz użyta do określenia średniej X, wtedy liczba nałożonych wiązań w tym przypadku jest równa jeden (p = 1), a liczba stopni swobody oszacowania (tj. liczba niezależnych elementów próby) jest równa (P - 1).

Bardziej naturalne jest mierzenie stopnia rozrzutu wartości zmiennych w tych samych jednostkach, w których mierzona jest sama zmienna. Ten problem rozwiązuje wskaźnik o nazwie odchylenie standardowe (odchylenie standardowe) Lub Standardowy błąd zmienny X(zmienny tak) i określony przez stosunek

Wyrazy w liczniku wzoru (3.2.1) wyrażają interakcję dwóch zmiennych i określają znak korelacji (dodatni lub ujemny). Jeśli na przykład istnieje silna dodatnia zależność między zmiennymi (wzrost jednej zmiennej przy wzroście drugiej), każdy składnik będzie liczbą dodatnią. Podobnie, jeśli istnieje silna ujemna zależność między zmiennymi, wszystkie wyrażenia w liczniku będą liczbami ujemnymi, co spowoduje ujemną wartość korelacji.

Mianownik wyrażenia na współczynnik korelacji par [patrz. formuła (3.2.2)] po prostu normalizuje licznik w taki sposób, że współczynnik korelacji okazuje się być łatwą do interpretacji liczbą, która nie ma wymiaru i przyjmuje wartości od -1 do +1.

Licznik wyrażenia na współczynnik korelacji, który jest trudny do interpretacji ze względu na nietypowe jednostki, to Kowariancja XY. Pomimo tego, że jest on czasem stosowany jako cecha niezależna (np. w teorii finansów do opisu łącznej zmiany cen akcji na dwóch giełdach), wygodniej jest posługiwać się współczynnikiem korelacji. Korelacja i kowariancja reprezentują zasadniczo te same informacje, ale korelacja przedstawia te informacje w wygodniejszej formie.

Do jakościowej oceny współczynnika korelacji stosuje się różne skale, najczęściej skalę Chaddocka. W zależności od wartości współczynnika korelacji związek może mieć jedną z następujących estymatorów:

  • 0,1-0,3 - słaby;
  • 0,3-0,5 - zauważalne;
  • 0,5-0,7 - umiarkowany;
  • 0,7-0,9 - wysoki;
  • 0,9-1,0 - bardzo wysoka.

Ocenę stopnia bliskości związku za pomocą współczynnika korelacji przeprowadza się z reguły na podstawie mniej lub bardziej ograniczonych informacji o badanym zjawisku. W tym zakresie istnieje potrzeba oceny istotności współczynnika korelacji liniowej, który umożliwia rozciągnięcie wniosków na podstawie wyników próby na populację generalną.

Ocenę istotności współczynnika korelacji dla małych liczebności prób przeprowadza się za pomocą testu 7-Studenta. W tym przypadku rzeczywistą (obserwowaną) wartość tego kryterium określa wzór

Wartość /ob obliczona za pomocą tego wzoru jest porównywana z wartością krytyczną kryterium θ, która jest pobierana z tabeli wartości testu /-Studenta (patrz Załącznik 2), uwzględniając zadany poziom istotności σ i liczbę stopni swobody (P - 2).

Jeżeli 7 obs > 7 tab., to uzyskaną wartość współczynnika korelacji uznaje się za istotną (tj. odrzuca się hipotezę zerową, że współczynnik korelacji jest równy zeru). I tak stwierdza się, że istnieje ścisła zależność statystyczna między badanymi zmiennymi.

Jeśli wartość y x bliski zeru związek między zmiennymi jest słaby. Jeżeli korelacja między zmiennymi losowymi:

  • jest dodatnia, to wraz ze wzrostem jednej zmiennej losowej druga ma tendencję do wzrostu średnio;
  • jest ujemna, to wraz ze wzrostem jednej zmiennej losowej druga ma tendencję do zmniejszania się. Wygodnym narzędziem graficznym do analizy sparowanych danych jest wykres punktowy, która reprezentuje każdą obserwację w przestrzeni dwóch wymiarów odpowiadających dwóm czynnikom. Nazywa się również wykres rozrzutu, który przedstawia zestaw wartości dwóch cech pole korelacji. Każdy punkt tego diagramu ma współrzędne x (. i y g Wraz ze wzrostem siły zależności liniowej punkty na wykresie będą leżeć bliżej linii prostej i wielkości G będzie bliżej jedności.

Współczynniki korelacji par służą do pomiaru siły zależności liniowych między różnymi parami cech z ich zbioru. Aby uzyskać zestaw funkcji, pobierz macierz współczynników korelacji par.

Niech cały zbiór danych składa się ze zmiennej Y==(przy r y 2 , ..., y p) I T zmienne (czynniki) X, z których każdy zawiera P obserwacje. Zmienne wartości Y I X, zawartych w obserwowanej populacji odnotowuje się w tabeli (tab. 3.2.1).

Tabela 3.2.1

Zmienny

Numer

obserwacje

X t3

Х tp

Na podstawie danych zawartych w tej tabeli oblicz macierz współczynników korelacji par R, jest symetryczny względem głównej przekątnej:


Analiza macierzy współczynników korelacji par jest wykorzystywana do budowy modeli regresji wielokrotnej.

Jedna macierz korelacji nie może w pełni opisać zależności między wielkościami. W związku z tym w analizie korelacji wielowymiarowych rozważa się dwa problemy:

  • 1. Określenie ścisłości związku jednej zmiennej losowej z ogółem innych zmiennych objętych analizą.
  • 2. Wyznaczanie ścisłości związku między dwiema wielkościami przy ustalaniu lub wykluczaniu wpływu innych wielkości.

Problemy te rozwiązuje się odpowiednio za pomocą współczynników korelacji wielokrotnej i częściowej.

Rozwiązanie pierwszego problemu (określenie szczelności związku jednej zmiennej losowej ze zbiorem innych zmiennych objętych analizą) realizowane jest za pomocą przykładowy współczynnik korelacji wielokrotnej zgodnie z formułą

Gdzie R- R[cm. wzór (3.2.6)]; Rjj- uzupełnienie algebraiczne elementu tej samej macierzy R.

Kwadrat współczynnika korelacji wielokrotnej SCHj2 J _J J+lm zwany selektywny wielokrotny współczynnik determinacji; pokazuje, jaka część zmienności (rozrzut losowy) badanej wielkości Xj wyjaśnia zmienność innych zmiennych losowych X ( , X 2 ,..., X t.

Współczynniki korelacji wielokrotnej i determinacji są wartościami dodatnimi, przyjmując wartości z przedziału od 0 do 1. Gdy współczynnik zbliża się R 2 do jedności możemy stwierdzić, że związek zmiennych losowych jest bliski, ale nie o jego kierunku. Współczynnik korelacji wielokrotnej może wzrosnąć tylko wtedy, gdy w modelu zostaną uwzględnione dodatkowe zmienne, i nie wzrośnie, jeśli którakolwiek z dostępnych cech zostanie wykluczona.

Sprawdzenie istotności współczynnika determinacji odbywa się poprzez porównanie obliczonej wartości kryterium /'-Fisher'a

z tabelarycznym F rabl. Wartość tabelaryczna kryterium (patrz Załącznik 1) jest określona przez dany poziom istotności a oraz stopnie swobody v l \u003d mnv 2 \u003d n-m-l. Współczynnik R2 jest istotnie różna od zera, jeśli nierówność

Jeśli rozważane zmienne losowe korelować ze sobą wówczas na wartość współczynnika korelacji pary częściowo wpływa wpływ innych wielkości. W związku z tym istnieje potrzeba zbadania cząstkowej korelacji między zmiennymi z wyłączeniem wpływu innych zmiennych losowych (jednej lub więcej).

Przykładowy współczynnik korelacji cząstkowej jest określony przez formułę

Gdzie RJk , Rjj, Rkk - algebraiczne dodatki do odpowiednich elementów macierzy R[cm. wzór (3.2.6)].

Współczynnik korelacji cząstkowej, jak również współczynnik korelacji parami, waha się od -1 do +1.

Wyrażenie (3.2.9) pod warunkiem t = 3 będzie wyglądać

Nazywa się współczynnik r 12(3). współczynnik korelacji między x ( I x 2 dla stałego x y Jest symetryczny względem wskaźników pierwotnych 1, 2. Jego indeks wtórny 3 odnosi się do zmiennej stałej.

Przykład 3.2.1. Obliczanie współczynników par,

korelacja wielokrotna i częściowa.

w tabeli. 3.2.2 zawiera informacje o wielkości sprzedaży i kosztach reklamy jednej firmy oraz wskaźniku wydatków konsumpcyjnych za kilka bieżących lat.

  • 1. Skonstruuj wykres rozrzutu (pole korelacji) dla zmiennych „wielkość sprzedaży” i „wskaźnik wydatków konsumpcyjnych”.
  • 2. Określ stopień wpływu wskaźnika wydatków konsumpcyjnych na wielkość sprzedaży (oblicz współczynnik korelacji par).
  • 3. Oceń istotność obliczonego współczynnika korelacji par.
  • 4. Zbuduj macierz współczynników korelacji par dla trzech zmiennych.
  • 5. Znajdź oszacowanie współczynnika korelacji wielokrotnej.
  • 6. Znajdź oszacowania współczynników korelacji cząstkowej.

1. W naszym przykładzie diagram rozproszenia ma postać pokazaną na ryc. 3.2.1. Wydłużenie chmury punktów na wykresie rozrzutu wzdłuż nachylonej linii prostej pozwala przyjąć założenie, że istnieje pewna obiektywna tendencja do bezpośredniej liniowej zależności między wartościami zmiennych X 2 Y(wielkość sprzedaży).

Ryż. 3.2.1.

2. Obliczenia pośrednie przy obliczaniu współczynnika korelacji między zmiennymi X 2(wskaźnik wydatków konsumpcyjnych) i Y(wielkość sprzedaży) podano w tabeli. 3.2.3.

Średnie zmienne losowe X 2 I Y, które są najprostszymi wskaźnikami charakteryzującymi ciągi jCj, x2,..., x 16 i y v y 2 ,..., y 16 , obliczamy za pomocą następujących wzorów:


Wielkość sprzedaży Y, tysiące rubli

Indeks

konsumować

Telski

wydatki

Wielkość sprzedaży Y, tysiące rubli

Indeks

konsumować

Telski

wydatki

Tabela 3.2.3

ja:, - X

(I - Y)(x, - x)

(x, - x) 2

(y, - - y) 2

Dyspersja charakteryzuje stopień rozpowszechnienia wartości x v x 2 , x :

Rozważ teraz rozwiązanie przykładu 3.2.1 w programie Excel.

Aby obliczyć korelację za pomocą programu Excel, możesz użyć funkcji =correl(), podając adresy dwóch kolumn liczb, jak pokazano na rys. 3.2.2. Odpowiedź znajduje się w D8 i wynosi 0,816.

Ryż. 3.2.2.

(Uwaga: Argumenty funkcji correls muszą być liczbami lub nazwami, tablicami lub referencjami zawierającymi liczby. Jeśli argument, który jest tablicą lub łączem, zawiera tekst, wartości logiczne lub puste komórki, to wartości te są ignorowane; jednak zliczane są komórki zawierające wartości null.

Jeśli tablica! i tablica2 mają inną liczbę punktów danych niż funkcja correl zwraca wartość błędu #n/a.

Jeśli tablica1 lub tablica2 jest pusta lub jeśli o (odchylenie standardowe) ich wartości wynosi zero, to funkcja correl zwraca wartość błędu #div/0 !.)

Krytyczną wartość statystyki /-Student można również uzyskać za pomocą funkcji steudrasprobr 1 pakiet Excel. Jako argumenty funkcji należy podać liczbę stopni swobody, równą P- 2 (w naszym przykładzie 16 - 2= 14) i poziom istotności a (w naszym przykładzie a = 0,1) (Rys. 3.2.3). Jeśli aktualna wartość/-statistics, wzięte modulo, więcej krytyczny, wtedy z prawdopodobieństwem (1 - a) współczynnik korelacji jest istotnie różny od zera.


Ryż. 3.2.3. Krytyczna wartość statystyki / wynosi 1,7613

Excel zawiera zestaw narzędzi do analizy danych (tzw. pakiet analityczny) przeznaczony do rozwiązywania różnych problemów statystycznych. Aby obliczyć macierz współczynników korelacji par R użyj narzędzia Korelacja (Rys. 3.2.4) i ustaw parametry analizy w odpowiednim oknie dialogowym. Odpowiedź zostanie umieszczona na nowym arkuszu (rys. 3.2.5).

1 W programie Excel 2010 nazwa funkcji steudrasprobr zmieniono na steu-

DENT.ORD.2X.

Ryż. 3.2.4.


Ryż. 3.2.5.

  • Za twórców teorii korelacji uważa się statystyków angielskich F. Galtona (1822-1911) i K. Pearsona (1857-1936). Termin „korelacja” został zapożyczony z nauk przyrodniczych i oznacza „korelację, korespondencję”. Koncepcja korelacji jako współzależności między zmiennymi losowymi leży u podstaw matematyczno-statystycznej teorii korelacji.

Dla terytoriów Południowego Okręgu Federalnego Federacji Rosyjskiej dane dotyczą 2011 r

Terytoria okręgu federalnego

Produkt regionalny brutto, miliard rubli, Y

Inwestycje w kapitał trwały, miliard rubli, X1

1. Przedstawiciel Adygea

2. Przedstawiciel Dagestan

3. Przedstawiciel Inguszetia

4. Republika Kabardyno-Bałkarska

5. Przedstawiciel Kałmucja

6. Republika Karaczajo-Czerkieska

7. Przedstawiciel Osetia Północna Alania

8. obwód krasnodarski)

9. Terytorium Stawropola

10. Obwód Astrachański

11. Obwód wołgogradzki

12. Obwód rostowski

  • 1. Oblicz macierz sparowanych współczynników korelacji; ocenić istotność statystyczną współczynników korelacji.
  • 2. Zbuduj pole korelacji wynikowej cechy i najbardziej powiązanego czynnika.
  • 3. Oblicz parametry regresji par liniowych dla każdego czynnika X..
  • 4. Oceń jakość każdego modelu za pomocą współczynnika determinacji, średniego błędu aproksymacji i testu F Fishera. Wybierz najlepszy model.

wyniesie 80% swojej maksymalnej wartości. Przedstaw graficznie: wartości rzeczywiste i modelowe, punkty prognozy.

  • 6. Wykorzystując krokową regresję wielokrotną (metodą wyłączeń lub metodą włączeń), zbuduj model kształtowania się cen mieszkań ze względu na istotne czynniki. Podaj ekonomiczną interpretację współczynników modelu regresji.
  • 7. Oceń jakość zbudowanego modelu. Czy jakość modelu poprawiła się w porównaniu z modelem jednoczynnikowym? Podaj ocenę wpływu istotnych czynników na wynik za pomocą współczynników elastyczności, w - i -? współczynniki.

Rozwiązując ten problem, przeprowadzimy obliczenia i wykreślimy wykresy i wykresy za pomocą ustawień programu Excel Analiza danych.

1. Oblicz macierz sparowanych współczynników korelacji i oceń istotność statystyczną współczynników korelacji

W oknie dialogowym Korelacja, w polu Przedział czasu wprowadź zakres komórek zawierających dane źródłowe. Ponieważ wybraliśmy również nagłówki kolumn, zaznaczamy pole wyboru Etykiety w pierwszym wierszu.

Otrzymaliśmy następujące wyniki:

Tabela 1.1 Macierz współczynników korelacji parami

Analiza macierzy współczynników korelacji par pokazuje, że zmienna zależna Y, czyli produkt regionalny brutto, ma bliższy związek z X1 (inwestycje w środki trwałe). Współczynnik korelacji wynosi 0,936. Oznacza to, że zmienna zależna Y (produkt regionalny brutto) jest w 93,6% zależna od X1 (inwestycje w środki trwałe).

Istotność statystyczna współczynników korelacji zostanie określona za pomocą testu t-Studenta. Wartość z tabeli jest porównywana z wartościami obliczonymi.

Obliczmy wartość tabeli za pomocą funkcji ROZKŁAD.STANDARDOWY.

t tablica = 0,129 z poziomem ufności równym 0,9 i stopniem swobody (n-2).

Czynnik X1 jest statystycznie istotny.

2. Skonstruujmy pole korelacji cechy efektywnej (produkt regionalny brutto) i czynnika najbardziej z nim związanego (inwestycje w środki trwałe)

W tym celu użyjemy narzędzia do konstruowania wykresu punktowego w Excelu.

W rezultacie otrzymujemy pole korelacji ceny produktu regionalnego brutto w miliardach rubli. oraz inwestycje w kapitał trwały, miliard rubli. (Rysunek 1.1.).

Rysunek 1.1

3. Oblicz parametry regresji par liniowych dla każdego czynnika X

Aby obliczyć parametry liniowej regresji parami, użyjemy narzędzia Regresja zawartego w ustawieniu Analiza danych.

W oknie dialogowym Regresja, w polu Przedział wejściowy Y wprowadź adres zakresu komórek reprezentujących zmienną zależną. W polu

Wprowadzając interwał X wpisujemy adres zakresu, który zawiera wartości zmiennych niezależnych. Obliczmy parametry regresji parami dla czynnika X.

Dla X1 uzyskano następujące dane, które przedstawiono w tabeli 1.2:

Tabela 1.2

Równanie regresji zależności ceny produktu regionalnego brutto od inwestycji w środki trwałe ma postać:

4. Oceńmy jakość każdego modelu za pomocą współczynnika determinacji, średniego błędu aproksymacji i kryterium F Fishera. Sprawdźmy, który model jest najlepszy.

Współczynnik determinacji, średni błąd aproksymacji, uzyskaliśmy w wyniku obliczeń przeprowadzonych w paragrafie 3. Uzyskane dane przedstawiono w poniższych tabelach:

Dane dla X1:

Tabela 1.3a

Tabela 1.4b

A) Współczynnik determinacji określa, jaka część zmienności atrybutu Y jest uwzględniana w modelu i wynika z wpływu na nią czynnika X. Im większa wartość współczynnika determinacji, tym bliższa zależność między atrybutami w konstruowanym modelu matematycznym.

W Excelu R-kwadrat jest oznaczony.

W oparciu o to kryterium najbardziej adekwatnym modelem jest równanie regresji zależności ceny produktu regionalnego brutto od inwestycji w środki trwałe (X1).

B) Oblicz średni błąd aproksymacji korzystając ze wzoru:

gdzie licznik jest sumą kwadratów odchyleń obliczonych wartości od rzeczywistych. W tabelach znajduje się w kolumnie SS, wiersz Reszty.

Średnią wartość ceny mieszkania obliczamy w Excelu za pomocą funkcji ŚREDNIA. = 24,18182 miliardów rubli

Przy przeprowadzaniu obliczeń ekonomicznych model uważa się za wystarczająco dokładny, jeśli średni błąd aproksymacji jest mniejszy niż 5%, model uważa się za akceptowalny, jeśli średni błąd aproksymacji jest mniejszy niż 15%.

Według tego kryterium najbardziej adekwatny jest model matematyczny równania regresji zależności ceny produktu regionalnego brutto od inwestycji w środki trwałe (X1).

C) Test F służy do testowania istotności modelu regresji. W tym celu dokonuje się również porównania krytycznych (tabelarycznych) wartości testu F Fishera.

Obliczone wartości podano w tabelach 1.4b (oznaczonych literą F).

Wartość tabeli testu F Fishera jest obliczana w programie Excel przy użyciu funkcji FDISP. Przyjmujemy prawdopodobieństwo równe 0,05. Otrzymano: = 4,75

Obliczone wartości testu F Fishera dla każdego czynnika są porównywalne z wartościami z tabeli:

71,02 > = 4,75 model jest adekwatny według tego kryterium.

Po przeanalizowaniu danych dla wszystkich trzech kryteriów możemy stwierdzić, że najlepszy jest model matematyczny zbudowany dla czynnika produktu regionalnego brutto, który jest opisany równaniem liniowym

5. Dla wybranego modelu zależności ceny produktu regionalnego brutto

będziemy przewidywać średnią wartość wskaźnika na poziomie istotności, jeżeli przewidywana wartość czynnika będzie równa 80% jego wartości maksymalnej. Przedstawmy graficznie: wartości rzeczywiste i modelowe, punkty prognozy.

Oblicz przewidywaną wartość X, zgodnie z warunkiem, będzie to 80% wartości maksymalnej.

Oblicz X max w Excelu za pomocą funkcji MAX.

0,8 *52,8 = 42,24

Aby otrzymać szacunki predykcyjne zmiennej zależnej, podstawiamy otrzymaną wartość zmiennej niezależnej do równania liniowego:

5,07 + 2,14 * 42,24 \u003d 304,55 miliardów rubli.

Wyznaczmy przedział ufności prognozy, który będzie miał następujące granice:

Aby obliczyć przedział ufności dla przewidywanej wartości, obliczamy odchylenie od linii regresji.

Dla modelu regresji sparowanej wartość odchylenia jest obliczana:

te. wartość błędu standardowego z tabeli 1.5a.

(Ponieważ liczba stopni swobody wynosi jeden, mianownik będzie równy n-2). przewidywanie regresji parami korelacji

Aby obliczyć współczynnik, użyjemy funkcji Excela STUDRASP, prawdopodobieństwo zostanie przyjęte jako równe 0,1, liczba stopni swobody wynosi 38.

Obliczamy wartość za pomocą programu Excel, otrzymujemy 12294.


Zdefiniujmy górną i dolną granicę przedziału.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Zatem prognozowana wartość = 304,55 tys. dolarów będzie się mieścić między dolną granicą równą 277,078 tys. dolarów. oraz górny limit równy 332,022 mld rubli. Pocierać.

Wartości rzeczywiste i modelowe, punkty prognozy przedstawiono graficznie na rysunku 1.2.


Rysunek 1.2

6. Wykorzystując krokową regresję wielokrotną (metodę wykluczeń) zbudujemy model kształtowania się ceny produktu regionalnego brutto ze względu na istotne czynniki

Aby zbudować regresję wielokrotną, użyjemy funkcji Excel Regression, uwzględniającej wszystkie czynniki w niej zawarte. W rezultacie otrzymujemy tabele wyników, z których potrzebujemy testu t-Studenta.

Tabela 1.8a

Tabela 1.8b

Tabela 1.8c.

Otrzymujemy model widoku:

Ponieważ< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Wybierzmy najmniejszą wartość modulo testu t-Studenta, jest ona równa 8,427, porównajmy ją z wartością tabelaryczną, którą obliczamy w Excelu, przyjmijmy poziom istotności równy 0,10, liczbę stopni swobody n-m-1=12- 4=8: =1,8595

Ponieważ 8,427>1,8595 model należy uznać za adekwatny.

7. Aby ocenić istotny czynnik otrzymanego modelu matematycznego, obliczamy współczynniki sprężystości, oraz - współczynniki

Współczynnik elastyczności pokazuje, o ile procent zmieni się wynikowy znak, gdy znak czynnika zmieni się o 1%:

E X4 \u003d 2,137 * (10,69 / 24,182) \u003d 0,94%

Oznacza to, że przy wzroście inwestycji w środki trwałe o 1% koszt wzrasta średnio o 0,94%.

Współczynnik pokazuje, o jaką część wartości odchylenia standardowego zmienia się średnia wartość zmiennej zależnej wraz ze zmianą zmiennej niezależnej o jedno odchylenie standardowe.

2,137* (14.736/33,632) = 0,936.

Dane odchylenia standardowego pochodzą z tabel uzyskanych za pomocą narzędzia Statystyka opisowa.

Tabela 1.11 Statystyki opisowe (Y)

Tabela 1.12 Statystyka opisowa (X4)

Współczynnik określa udział wpływu czynnika w całkowitym wpływie wszystkich czynników:

Aby obliczyć współczynniki korelacji par, obliczamy macierz współczynników korelacji par w programie Excel za pomocą narzędzia Korelacja w ustawieniach analizy danych.

Tabela 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Wniosek: Na podstawie uzyskanych obliczeń można stwierdzić, że efektywny atrybut Y (produkt regionalny brutto) jest silnie zależny od czynnika X1 (inwestycje w środki trwałe) (o 100%).

Bibliografia

  • 1. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Kurs początkowy. Instruktaż. wyd. 2 - M.: Delo, 1998. - s. 69 - 74.
  • 2. Warsztat z ekonometrii: Podręcznik / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i inni 2002. - s. 49 - 105.
  • 3. Dougerty K. Wprowadzenie do ekonometrii: Per. z angielskiego. - M.: INFRA-M, 1999. - XIV, s. 262 - 285.
  • 4. Aivyzyan SA, Mikhtiryan V.S. Matematyka stosowana i podstawy ekonometrii. -1998., s. 115-147.
  • 5. Kremer N.Sz., Putko B.A. Ekonometria. -2007. od 175-251.
y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analiza macierzy sparowanych współczynników korelacji pokazuje, że wskaźnik efektywności jest najbardziej powiązany ze wskaźnikiem X(4) - ilość użytych nawozów na 1 ha ().

Jednocześnie związek między cechami-argumentami jest dość bliski. Istnieje więc praktycznie funkcjonalna zależność między liczbą ciągników kołowych ( X(1)) oraz liczbę narzędzi do uprawy powierzchniowej .

O obecności współliniowości świadczą również współczynniki korelacji i . Ze względu na ścisły związek wskaźników X (1) , X(2) i X(3) tylko jeden z nich może wejść do modelu regresji plonów.

Aby zademonstrować negatywny wpływ współliniowości, rozważ model regresji rentowności obejmujący wszystkie dane wejściowe:

Breloki = 121.

W nawiasach podano wartości skorygowanych szacunków odchyleń standardowych oszacowań współczynników równania .

Pod równaniem regresji prezentowane są następujące parametry adekwatności: wielokrotny współczynnik determinacji; skorygowane oszacowanie wariancji resztowej , średni względny błąd aproksymacji i obliczona wartość -kryterium Fobs = 121.

Równanie regresji jest istotne, ponieważ F obl = 121 > F kp = 2,85 znalezione w tabeli F- rozkłady przy a=0,05; n 1 = 6 i n 2 = 14.

Wynika z tego, że Q¹0, tj. i co najmniej jeden ze współczynników równania q J (J= 0, 1, 2, ..., 5) nie jest równe zeru.

Aby przetestować hipotezę o istotności poszczególnych współczynników regresji H0: q j =0, gdzie J=1,2,3,4,5, porównaj wartość krytyczną T kp = 2,14, znalezione z tabeli T-rozkłady na poziomie istotności a=2 Q=0,05 i liczbę stopni swobody n=14, z obliczoną wartością . Z równania wynika, że ​​współczynnik regresji jest statystycznie istotny tylko wtedy, gdy X(4) od ½ T 4½=2,90 > T kp=2,14.



Ujemne znaki współczynników regresji przy X(1) i X(5). Z ujemnych wartości współczynników wynika, że ​​wzrost nasycenia rolnictwa ciągnikami kołowymi ( X(1)) i produkty ochrony roślin ( X(5)) negatywnie wpływa na plon. Zatem otrzymane równanie regresji jest nie do zaakceptowania.

Aby uzyskać równanie regresji ze znaczącymi współczynnikami, używamy algorytmu analizy regresji krok po kroku. Początkowo stosujemy algorytm krok po kroku z eliminacją zmiennych.

Wyklucz zmienną z modelu X(1) , co odpowiada minimalnej wartości bezwzględnej ½ T 1½=0,01. Dla pozostałych zmiennych ponownie skonstruujemy równanie regresji:

Otrzymane równanie jest znaczące, ponieważ F obs = 155 > F kp = 2,90, stwierdzone na poziomie istotności a=0,05 i liczbach stopni swobody n 1 = 5 i n 2 = 15 wg tabeli F-dystrybucje, tj. wektor q¹0. Jednak tylko współczynnik regresji ma znaczenie w równaniu at X(4) . Obliczone wartości ½ T j ½ dla innych współczynników mniejszych niż T kr = 2,131 znalezione w tabeli T-rozkłady dla a=2 Q=0,05 i n=15.

Wykluczenie zmiennej z modelu X(3) , co odpowiada wartości minimalnej T 3 = 0,35 i uzyskaj równanie regresji:

(2.9)

W otrzymanym równaniu nie jest to istotne statystycznie i nie możemy ekonomicznie interpretować współczynnika w X(5). Nie licząc X(5) otrzymujemy równanie regresji:

(2.10)

Otrzymaliśmy znaczące równanie regresji ze znaczącymi i możliwymi do interpretacji współczynnikami.

Jednak otrzymane równanie nie jest jedynym „dobrym” lub „najlepszym” modelem rentowności w naszym przykładzie.

Pokażmy to w warunkach współliniowości algorytm krok po kroku z włączeniem zmiennych jest bardziej wydajny. Pierwszy krok w modelu wydajności y zawiera zmienną X(4) , który ma najwyższy współczynnik korelacji z y, wyjaśnione przez zmienną - R(y,X(4))=0,58. W drugim kroku, w tym równanie wraz z X(4) zmienne X(1) lub X(3) , otrzymamy modele lepsze od (2.10) ze względów ekonomicznych i cech statystycznych:

(2.11)

(2.12)

Włączenie do równania którejkolwiek z trzech pozostałych zmiennych pogarsza jego właściwości. Patrz np. równanie (2.9).

Mamy więc trzy „dobre” modele plonowania, z których jeden należy wybrać ze względów ekonomicznych i statystycznych.

Według kryteriów statystycznych model (2.11) jest najbardziej adekwatny. Odpowiada to minimalnym wartościom wariancji resztowej = 2,26 i średniemu względnemu błądowi aproksymacji oraz największym wartościom i Fobs = 273.

Nieco gorsze wskaźniki adekwatności ma model (2.12), a następnie model (2.10).

Wybierzemy teraz najlepszy z modeli (2.11) i (2.12). Modele te różnią się od siebie zmiennymi X(1) i X(3) . Jednak w modelach dochodowości zmienna X(1) (liczba ciągników kołowych na 100 ha) jest preferowana niż zmienna X(3) (liczba narzędzi do uprawy powierzchniowej na 100 ha), która jest nieco drugorzędna (lub wywodzi się z X (1)).

W związku z tym, ze względów ekonomicznych, preferowany powinien być model (2.12). Zatem po zaimplementowaniu algorytmu analizy regresji krokowej z uwzględnieniem zmiennych i uwzględnieniu faktu, że tylko jedna z trzech powiązanych zmiennych powinna wejść do równania ( X (1) , X(2) lub X(3)) wybierz końcowe równanie regresji:

Równanie jest istotne przy a=0,05, ponieważ F obl = 266 > F kp = 3,20 znalezione w tabeli F-rozkłady dla a= Q=0,05; n 1 = 3 i n 2 = 17. Wszystkie współczynniki regresji są również istotne w równaniu ½ T j½> T kp (a=2 Q=0,05; n=17)=2,11. Współczynnik regresji q 1 należy uznać za istotny (q 1 ¹0) ze względów ekonomicznych, natomiast T 1 = 2,09 tylko nieznacznie mniej T kp = 2,11.

Z równania regresji wynika, że ​​jednostkowy przyrost liczby ciągników na 100 ha użytków rolnych (o stałej wartości X(4)) prowadzi do wzrostu plonów ziarna średnio o 0,345 c/ha.

Przybliżone obliczenie współczynników elastyczności e 1 „0,068 i e 2” 0,161 pokazuje, że wraz ze wzrostem wskaźników X(1) i X(4) o 1% plon ziarna wzrasta średnio odpowiednio o 0,068% i 0,161%.

Wielokrotny współczynnik determinacji wskazuje, że tylko 46,9% zmienności plonów jest wyjaśnione wskaźnikami zawartymi w modelu ( X(1) i X(4)), czyli nasycenia produkcji roślinnej ciągnikami i nawozami. Reszta zmienności wynika z działania nieuwzględnionych czynników ( X (2) , X (3) , X(5) , warunki pogodowe itp.). Średni względny błąd aproksymacji charakteryzuje adekwatność modelu, jak również wartość wariancji resztkowej. Podczas interpretacji równania regresji interesujące są wartości względnych błędów aproksymacji . Przypomnijmy, że - modelowa wartość efektywnego wskaźnika charakteryzuje średnią wartość produktywności dla ogółu rozpatrywanych obszarów, przy założeniu, że wartości zmiennych objaśniających X(1) i X(4) ustalone na tym samym poziomie, a mianowicie X (1) = x ja(1) i X (4) = x ja(4) . Następnie dla wartości d I plony można porównać. Obszary odpowiadające wartościom d I> 0, mają ponadprzeciętną wydajność, oraz d I<0 - ниже среднего.

W naszym przykładzie produkcja roślinna jest najbardziej wydajna na obszarze odpowiadającym d 7 \u003d 28%, gdzie wydajność jest o 28% wyższa niż średnia dla regionu, a najmniej wydajna - na obszarze o d 20 =-27,3%.


Zadania i ćwiczenia

2.1. Z populacji ogólnej ( y, X (1) , ..., X(p)), gdzie y ma prawo rozkładu normalnego z warunkową matematyczną wartością oczekiwaną i wariancją s 2 , losową próbkę objętości N, Odpuść sobie ( y ja, x ja (1) , ..., x ja(p)) - wynik I obserwacja ( I=1, 2, ..., N). Wyznacz: a) matematyczne oczekiwanie oszacowania wektora metodą najmniejszych kwadratów Q; b) macierz kowariancji estymaty wektora metodą najmniejszych kwadratów Q; c) matematyczne oczekiwanie oszacowania.

2.2. Zgodnie z warunkiem zadania 2.1 znajdź matematyczne oczekiwanie sumy kwadratów odchyleń spowodowanych regresją, tj. EQ R, Gdzie

.

2.3. Zgodnie z warunkiem zadania 2.1 wyznacz matematyczne oczekiwanie sumy kwadratów odchyleń wynikających ze zmienności resztowej względem linii regresji, tj. Ekwipunek ost gdzie

2.4. Udowodnij, że przy hipotezie Н 0: q=0 statystyka

ma rozkład F o stopniach swobody n 1 = p + 1 i n 2 = n-p-1.

2.5. Wykazać, że gdy spełniona jest hipoteza H 0: q j =0, statystyka ma rozkład t o liczbie stopni swobody n=n-p-1.

2.6. Na podstawie danych (tab. 2.3) dotyczących zależności skurczu pieczywa paszowego ( y) na czas przechowywania ( X) znaleźć estymator punktowy warunkowych oczekiwań matematycznych przy założeniu, że równanie regresji ogólnej jest liniowe.

Tabela 2.3.

Wymagane jest: a) znalezienie oszacowań i wariancji resztkowej s 2 przy założeniu, że równanie regresji ogólnej ma postać ; b) sprawdzić dla a=0,05 istotność równania regresji, tj. hipoteza H 0: q=0; c) z niezawodnością g=0,9 wyznaczyć przedziały ocen parametrów q 0 , q 1 ; d) z rzetelnością g=0,95 wyznaczyć przedział estymaty warunkowej matematycznej wartości oczekiwanej dla X 0=6; e) wyznaczyć przy g=0,95 przedział ufności predykcji w punkcie X=12.

2.7. Na podstawie danych o dynamice tempa wzrostu kursu akcji za 5 miesięcy podanych w tabeli. 2.4.

Tabela 2.4.

miesiące ( X)
y (%)

oraz przy założeniu, że równanie regresji ogólnej ma postać , wymagane jest: a) wyznaczenie oszacowań i parametrów równania regresji oraz wariancji resztkowej s 2 ; b) sprawdzić przy a=0,01 istotność współczynnika regresji, tj. hipotezy H 0: q 1 = 0;

c) z rzetelnością g=0,95 znaleźć oszacowania przedziałowe parametrów q 0 i q 1 ; d) z rzetelnością g = 0,9, ustal przedziałowe oszacowanie warunkowej matematycznej wartości oczekiwanej dla X 0=4; e) wyznaczyć przy g=0,9 przedział ufności predykcji w punkcie X=5.

2.8. Wyniki badań dynamiki przyrostów masy ciała młodych zwierząt przedstawiono w tabeli 2.5.

Tabela 2.5.

Zakładając, że ogólne równanie regresji jest liniowe, wymagane jest: a) wyznaczenie estymat i parametrów równania regresji oraz wariancji resztkowej s 2 ; b) sprawdzić dla a=0,05 istotność równania regresji, tj. hipotezy H 0: q=0;

c) z rzetelnością g=0,8 znaleźć oszacowania przedziałowe parametrów q 0 i q 1 ; d) z rzetelnością g=0,98 wyznaczyć i porównać przedziały oszacowań warunkowej matematycznej wartości oczekiwanej dla X 0 = 3 i X 1 =6;

e) wyznaczyć przy g=0,98 przedział ufności predykcji w punkcie X=8.

2.9. Cena fabryczna ( y) jeden egzemplarz książki w zależności od nakładu ( X) (tys. egz.) charakteryzują dane zebrane przez wydawnictwo (tab. 2.6). Wyznacz estymaty i parametry metodą najmniejszych kwadratów równania regresji hiperbolicznej o rzetelności g=0,9 zbuduj przedziały ufności dla parametrów q 0 i q 1 oraz warunkową wartość oczekiwaną matematyczną w X=10.

Tabela 2.6.

Wyznacz oszacowania i parametry równania regresji tego typu X=20.

2.11. w tabeli. 2,8 odnotowano stopy wzrostu (%) następujących wskaźników makroekonomicznych N\u003d 10 rozwiniętych krajów świata na rok 1992: PNB - X(1) , produkcja przemysłowa - X(2) , indeks cen - X (3) .

Tabela 2.8.

Kraje x i parametry równania regresji, oszacowanie wariancji resztkowej; b) sprawdzić przy a=0,05 istotność współczynnika regresji, tj. H 0: q 1 = 0; c) z rzetelnością g=0,9 znaleźć oszacowania przedziałów q 0 i q 1; d) znaleźć przy g=0,95 przedział ufności dla punktu X 0 =x ja, Gdzie I=5; e) porównaj charakterystyki statystyczne równań regresji: 1, 2 i 3.

2.12. Rozwiąż zadanie 2.11, biorąc za wartość do wyjaśnienia ( Na) indeks X(1) i dla wyjaśnienia ( X) zmienny X (3) .

1. Ayvazyan SA, Mkhitaryan V.S. Statystyka stosowana i podstawy ekonometrii: podręcznik. M., UNITI, 1998 (wydanie drugie 2001);

2. Ayvazyan SA, Mkhitaryan V.S. Statystyka stosowana w problemach i ćwiczeniach: podręcznik . M. JEDNOŚĆ - DANA, 2001;

3. Aivazyan SA, Enyukov I.S., Meshalkin L.D. Statystyki stosowane. Badania zależności. M., Finanse i statystyka, 1985, 487 s.;

4. Aivazyan SA, Buchstaber VM, Enyukov I.S., Meshalkin LD. Statystyki stosowane. Klasyfikacja i redukcja wymiarowości. M., Finanse i statystyka, 1989, 607 s.;

5. Johnston J. Econometric Methods, Moskwa: Statistics, 1980, 446 s.;

6. Dubrov AV, Mkhitaryan VS, Troshin LI Wielowymiarowe metody statystyczne. M., Finanse i statystyka, 2000;

7. Mkhitaryan V.S., Troshin LI. Badanie zależności metodami korelacji i regresji. M., MESI, 1995, 120 s.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin LI. Wielowymiarowe metody statystyczne w ekonomii. M., MESI, 1995, 149 s.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin LI. Statystyka matematyczna dla biznesmenów i menedżerów. M., MESI, 2000, 140s.;

10. Łukaszyn Yu.I. Regresja i adaptacyjne metody prognozowania: Podręcznik, M., MESI, 1997.

11. Łukaszyn Yu.I. Adaptacyjne metody prognozowania krótkookresowego. - M., Statystyka, 1979.


APLIKACJE


Aneks 1. Opcje zadań dla niezależnych badań komputerowych.

KATEGORIE

POPULARNE ARTYKUŁY

2023 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich