Szeregi dystrybucji. Szeregi dystrybucji atrybutów i zmienności

Pierwszym krokiem w statystycznym badaniu zmienności jest konstrukcja seria odmian - uporządkowany rozkład jednostek populacji według rosnących (częściej) lub malejących (rzadziej) wartości atrybutu i zliczanie liczby jednostek z taką lub inną wartością atrybutu.

Istnieją trzy formy szeregu wariacyjnego: szereg szeregowy, szereg dyskretny, szereg interwałowy. Seria wariacji jest często nazywana blisko dystrybucji. Termin ten jest używany w badaniu zmienności cech zarówno ilościowych, jak i nieilościowych. Seria dystrybucji jest grupowanie strukturalne(patrz rozdz. 6).

Rząd rankingowy - jest to lista poszczególnych jednostek populacji w porządku rosnącym (malejąco) badanej cechy.

Tabela 1 może służyć jako przykład szeregu rankingowego. 5.5.

Tabela 5.5

Duże banki Sankt Petersburga uszeregowane według wielkościkapitał własny na 01.07.96

Jeśli liczba jednostek populacji jest wystarczająco duża, szereg rankingowy staje się uciążliwy, a jego budowa, nawet przy pomocy komputera, zajmuje dużo czasu. W takich przypadkach szereg zmienności konstruuje się poprzez grupowanie jednostek populacji według wartości badanej cechy.

Jeśli atrybut przyjmuje niewielką liczbę wartości, budowana jest dyskretna seria wariacyjna. Przykładem takiej serii jest rozkład meczów piłki nożnej według liczby zdobytych bramek (tabela 5.1). Seria odmian dyskretnych - jest to tabela składająca się z dwóch wierszy lub wykresu: konkretne wartości atrybutu zmiennej Xi oraz liczba jednostek populacji o podanej wartości cechy fi częstotliwości (f jest początkową literą angielskiego słowa frequency).

Ustalenie liczby grup

Liczba grup w dyskretnej serii zmian jest określona przez liczbę faktycznie istniejących wartości atrybutu zmiennej. Jeśli cecha może przyjmować wartości dyskretne, ale ich liczba jest bardzo duża (na przykład liczba zwierząt gospodarskich w dniu 1 stycznia roku w różnych przedsiębiorstwach rolnych może wynosić od zera do dziesiątek tysięcy głów), wówczas szereg zmienności przedziałowej jest wybudowany. Przedziałowy szereg wariacyjny jest również konstruowany do badania cech, które mogą przyjmować dowolne, zarówno całkowite, jak i ułamkowe wartości w obszarze ich istnienia. Na przykład rentowność sprzedawanych produktów, koszt jednostki produkcji, dochód na 1 mieszkańca miasta, odsetek osób z wyższym wykształceniem wśród ludności różnych terytoriów i ogólnie wszystkie cechy drugorzędne, których wartości są obliczane poprzez podzielenie wartości jednej cechy pierwotnej przez wartość drugiej (patrz Rozdz. 3).

Seria zmienności interwału jest tabelą (składającą się z dwóch kolumn (lub wierszy) - przedziałów cechy, której zmienność jest badana, oraz liczby jednostek populacji mieszczących się w tym przedziale (częstotliwości) lub proporcji tej liczby od całkowita populacja (częstotliwości).

Przy konstruowaniu serii zmienności interwałowej konieczne jest wybranie optymalnej liczby grup (interwałów znakowych) oraz ustalenie długości interwału. Ponieważ przy analizie szeregu wariacyjnego częstości porównywane są w różnych przedziałach, konieczne jest, aby wartość przedziału była stała. Optymalną liczbę grup dobiera się w taki sposób, aby zróżnicowanie wartości cech w agregacie było wystarczająco odzwierciedlone, a jednocześnie regularność rozkładu, jego kształt nie był zaburzony przez losowe wahania częstotliwości. Jeśli jest zbyt mało grup, nie będzie wzorca zmienności; jeśli jest zbyt wiele grup, losowe skoki częstotliwości zniekształcą kształt rozkładu.

Najczęściej liczbę grup w szeregu wariacyjnym określa się stosując wzór zalecany przez amerykańskiego statystyka Sturgess (Jesiotr):

gdzie k- liczba grup; n- wielkość populacji.

Ten wzór pokazuje, że liczba grup jest funkcją ilości danych.

Załóżmy, że konieczne jest zbudowanie wariacyjnej serii rozmieszczenia przedsiębiorstw w regionie według plonów zbóż na dany rok. Liczba przedsiębiorstw rolnych z uprawami zbóż wynosiła 143; Najniższy plon wynosi 10,7 szt./ha, najwyższy 53,1 szt./ha. Mamy:

Ponieważ liczba grup jest liczbą całkowitą, dlatego zaleca się zbudowanie 8 lub 9 grup.

Określanie wielkości przedziału

Znając liczbę grup, oblicz wartość przedziału:

W naszym przykładzie wartość interwału to:

a) z 8 grupami

b) z 9 grupami

Aby zbudować szereg i przeanalizować zmienność, znacznie lepiej, jeśli to możliwe, mieć zaokrąglone wartości przedziału i jego granic. Dlatego najlepszym rozwiązaniem byłoby zbudowanie serii wariacyjnej z 9 grupami w przedziale równym 5 q/ha. Ta seria odmian jest podana w tabeli. 5.6, a jego przedstawienie graficzne przedstawiono na ryc. 5.1.

Granice przedziałów można określić na różne sposoby: górna granica poprzedniego przedziału powtarza dolną granicę następnego, jak pokazano w tabeli. 5.6 lub się nie powtarza.

W tym drugim przypadku drugi przedział będzie oznaczony jako 15,1-20, trzeci jako 20,1-25 itd., tj. zakłada się, że wszystkie wartości wydajności są koniecznie zaokrąglane do jednej dziesiątej. Ponadto pojawia się niepożądana komplikacja ze środkiem przedziału 15,1-20, który, ściśle mówiąc, będzie już równy nie 17,5, ale 17,55; odpowiednio, zastępując zaokrąglony przedział 40-60 przez 40,1-6,0, zamiast zaokrąglonej wartości jego środkowego 50 otrzymujemy 50,5. Dlatego lepiej jest pozostawić przedziały z powtarzającą się zaokrągloną krawędzią i uzgodnić, że jednostki populacji, które mają wartość cechy równą granicy przedziału, są zawarte w przedziale, w którym ta dokładna wartość jest zgłaszana po raz pierwszy. Tak więc do pierwszej grupy zalicza się gospodarstwo z plonem 15 centów z hektara, do drugiej 20 centów z hektara i tak dalej.

Ryż. 5.1. Rozkład gospodarstw według plonów

Tabela 5.6

Rozmieszczenie gospodarstw w regionie według plonów zbóż

Grupy gospodarstw według plonów,

c/ha Xj

Liczba gospodarstw

Środek przedziału

c/ha Xj"

Skumulowana częstotliwość f'j

Graficzna reprezentacja serii wariacji

Istotną pomoc w analizie szeregu wariacyjnego i jego właściwości zapewnia przedstawienie graficzne. Szereg interwałowy reprezentuje wykres słupkowy, w którym podstawą słupków znajdujących się na osi odciętej są przedziały wartości zmiennego atrybutu, a wysokości słupków są częstotliwościami odpowiadającymi skali wzdłuż oś y. Graficzne przedstawienie rozmieszczenia gospodarstw w regionie pod względem plonów zbóż przedstawiono na ryc. 5.1. Ten rodzaj diagramu jest często nazywany histogram(od greckiego słowa „histo” - tkanka, struktura).

Dane tabeli. 5.5 i ryc. 5.1 pokazują formę rozkładu charakterystyczną dla wielu znaków: wartości średnich przedziałów znaku są częstsze, rzadziej - ekstremalne; małe i duże wartości cechy. Postać tego rozkładu jest zbliżona do prawa rozkładu normalnego rozważanego w statystyce matematycznej. Wielki rosyjski matematyk A. M. Lyapunov (1857 - 1918) udowodnił, że rozkład normalny powstaje, gdy na zmienną wpływa duża liczba czynników, z których żaden nie ma dominującego wpływu. Losowa kombinacja wielu mniej więcej równych czynników wpływających na zmienność plonów zbóż, zarówno naturalnych, jak i agrotechnicznych, ekonomicznych, tworzy rozkład gospodarstw regionu według plonów zbliżonych do normalnego prawa dystrybucji.

Jeśli istnieje dyskretny szereg wariacyjny lub używane są punkty środkowe przedziałów, wówczas graficzną reprezentację takiego szeregu wariacyjnego nazywa się wielokąt(od greckich słów - wielokąt). Każdy z was może łatwo zbudować ten wykres, łącząc punkty ze współrzędnymi liniami prostymi X, oraz /.

Zalecany stosunek wysokości wielokąta lub wykresu do jego podstawy wynosi około 5:8.

Pojęcie częstotliwości

Jeśli w tabeli 5.6 Wyraź liczbę gospodarstw o ​​takim lub innym poziomie produktywności jako procent całości, przyjmując całą liczbę gospodarstw (143) jako 100%, a następnie średni plon można obliczyć w następujący sposób:

gdzie w- częstotliwość 7. kategorii serii wariacyjnej;

Komulatywna dystrybucja

Przekształcona forma serii wariacyjnej to szereg nagromadzonych częstotliwości, podane w tabeli. 5.6, kolumna 5. Jest to seria wartości dla liczby jednostek w populacji z mniejszą i równą dolnej granicy odpowiednich wartości przedziału atrybutu. Taka seria nazywa się łączny. Możesz zbudować skumulowaną dystrybucję „nie mniej niż” lub „większą niż”. W pierwszym przypadku wykres skumulowanego rozkładu nazywa się kumulować, w sekundę - ostrołuk(Rys. 5.2).

Gęstość, rozkłady

Jeśli masz do czynienia z szeregiem wariacyjnym o nierównych interwałach, to dla porównywalności musisz sprowadzić częstotliwość lub częstotliwość do jednostki interwału. Wynikowy stosunek nazywa się gęstość dystrybucji:

Gęstość rozkładu jest wykorzystywana zarówno do obliczania wskaźników uogólniających, jak i do graficznej reprezentacji szeregów zmienności o nierównych przedziałach.

Ryż. 5.2. Ogiva i rozkład plonu skumulowanego

5.7. Cechy strukturalne wariacji wiersz

Mediana dystrybucji

Przy badaniu zmienności wykorzystuje się takie charakterystyki szeregu wariacyjnego, które ilościowo opisują jego strukturę, strukturę. Takim jest na przykład mediana- wartość zmiennej cechy dzielącej populację na dwie równe części ~ o wartościach cech mniejszych niż mediana ORAZ o wartościach cech większych niż mediana (trzeci bank pięciu w tabeli 5.5, tj. 196 mld rubli).

Na przykładzie tabeli. 5.5 pokazuje zasadniczą różnicę między medianą a średnią. Mediana nie zależy od wartości cech na krawędziach szeregu rankingowego. Nawet gdyby kapitał największego banku w Petersburgu był dziesięciokrotnie większy, to mediana nie uległaby zmianie. Dlatego mediana jest często używana jako bardziej wiarygodny wskaźnik typowej wartości cechy niż średnia arytmetyczna, jeśli szereg wartości jest niejednorodny, zawiera ostre odchylenia od średniej. W tej serii średnia wartość kapitału własnego, równa 269 mld rubli, ukształtowała się pod silnym wpływem największej opcji. 80% banków ma mniej niż przeciętny kapitał, a tylko 20% więcej. Jest mało prawdopodobne, aby taką średnią można było uznać za wartość typową. Przy parzystej liczbie jednostek populacji, medianę przyjmuje się jako średnią arytmetyczną dwóch opcji centralnych, na przykład przy dziesięciu wartościach atrybutu, średniej wartości piątej i szóstej w szeregu rankingowym.

W przedziałowym szeregu wariacyjnym do znalezienia mediany stosuje się wzór (5.14).

gdzie Ja jest medianą;

x 0 - dolna granica przedziału, w którym znajduje się mediana;

f M e-1 - skumulowana częstotliwość w przedziale poprzedzającym medianę;

f ja- częstotliwość w przedziale mediany;

i- wartość interwału;

k - liczba grup.

W tabeli. 5,6 mediana to średnia ze 143 wartości, tj. siedemdziesiąta sekunda od początku szeregu wartości produktywności. Jak widać z liczby skumulowanych częstotliwości, znajduje się on w czwartym przedziale. Następnie

Przy nieparzystej liczbie jednostek populacji mediana, jak widzimy, jest równa nie , jak we wzorze (5.14), a , ale to rozróżnienie nie jest znaczące i zwykle jest ignorowane w praktyce.

W dyskretnym szeregu wariacyjnym za medianę należy uznać wartość cechy w grupie, w której skumulowana częstotliwość;

ponad połowa populacji. Na przykład dla danych w tabeli. 5.1 Średnia liczba bramek zdobytych na mecz wyniesie 2.

Kwartyle dystrybucji

Podobnie jak mediana, obliczane są wartości atrybutu, dzieląc populację na cztery części równe co do liczby jednostek. Te ilości są nazywane kwartyle i są oznaczone wielką łacińską „literą” Q z podpisaną odznaką z numerem kwartyla. Jest oczywiste, że Q 2 pasuje do mnie. Dla pierwszego i trzeciego kwartyla przedstawiamy wzory i obliczenia według tabeli. 5.6.

Dlatego Q 2 = Me = 29,5 c/ha widać, że różnica między pierwszym kwartylem a medianą jest mniejsza niż między medianą a trzecim kwartylem. Fakt ten wskazuje na obecność pewnej asymetrii w środkowym obszarze rozkładu, co jest również widoczne na ryc. 5.1.

Nazywa się charakterystyczne wartości, które dzielą serię na pięć równych części kwintyle na dziesięć części decyle, sto części percentyle. Ponieważ te cechy są używane tylko wtedy, gdy konieczne jest szczegółowe zbadanie struktury szeregu wariacyjnego, nie podamy ich wzorów i obliczeń.

Tryb dystrybucji

Niewątpliwie taka wartość cechy, która występuje w badanych seriach, w agregacie najczęściej, ma ogromne znaczenie. Ta ilość nazywa się moda i oznaczają pon. W szeregu dyskretnym tryb jest określany bez obliczeń jako wartość cechy o największej częstotliwości. Na przykład według tabeli. 5.1 najczęściej padały 2 gole w meczu piłki nożnej - 71 razy. Trybem jest numer 2. Zwykle istnieją wiersze z jedną wartością modalną obiektu. Jeśli w serii wariacji występują dwie lub więcej równych (a nawet kilka różnych, ale większych niż sąsiednie) wartości cechy, uznaje się ją odpowiednio za bimodalną („w kształcie wielbłąda”) lub multimodalną. Wskazuje to na niejednorodność zbioru, prawdopodobnie reprezentującego agregat kilku zbiorów o różnych trybach.

Tak więc w tłumie turystów, którzy przybyli z różnych krajów, zamiast jednego modnego ubioru panującego wśród lokalnych mieszkańców, można znaleźć mieszankę różnych „mody” przyjętych przez różne narody świata.

W szeregu zmienności przedziałowej, zwłaszcza przy ciągłej zmienności cechy, ściśle mówiąc, każda wartość cechy występuje tylko raz. Interwał modalny to przedział o największej częstotliwości, w ramach którego znajduje się wartość warunkowa atrybutu, przy której występuje gęstość rozkładu, czyli liczba jednostek populacji na jednostkę miary atrybutu zmiennej osiąga maksimum. Jest to wartość warunkowa i jest brana pod uwagę kropka moda. Logiczne jest założenie, że taki tryb punktowy znajduje się bliżej granicy przedziału, poza którą częstotliwość w sąsiednim przedziale jest większa niż częstotliwość w przedziale poza drugą granicą przedziału modalnego. Stąd mamy powszechnie stosowaną formułę (5.15):

gdzie x 0 - dolna granica interwału modalnego;

fMo - częstotliwość w przedziale modalnym;

fMo -1 - częstotliwość w poprzednim przedziale;

fMo +1 - częstotliwość w następnym przedziale po modalnym;

i - wartość interwału.

Zgodnie z tabelą. 5.6 oblicz modę:

Obliczenie modu w szeregu interwałowym jest raczej warunkowe. W przybliżeniu Mo można określić graficznie (patrz rys. 5.1).

Wartość średnia arytmetyczna jest również istotna w badaniu struktury szeregu wariacyjnego, chociaż główna wartość tego wskaźnika generalizującego jest inna. W szeregach dystrybucyjnych gospodarstw według plonów (tab. 5.6) średni plon oblicza się jako ważoną częstością środek przedziałów X(według wzoru (5.2)):

Związek między średnią, medianą i modą

Różnica między średnią arytmetyczną, medianą i modą w tym rozkładzie jest niewielka. Jeżeli rozkład kształtu jest bliski prawu normalnemu, to mediana znajduje się między modą a wartością średnią i jest bliższa średniej niż modu.

Z prawostronną asymetrią X̅ > Ja > Pn;

z asymetrią lewostronną X̅ < Ja< Mo.

Dla rozkładów umiarkowanie skośnych równość jest prawdziwa:

5.8. Miary wielkości i intensywności wariacje

Bezwzględne średnie wielkości zmienności

Kolejnym etapem badania zmienności cechy w agregacie jest pomiar cech siły, wielkości zmienności. Najprostszym z nich może być zakres lub amplituda zmian - bezwzględna różnica między maksymalnymi i minimalnymi wartościami cechy od wartości dostępnych w badanym zestawie wartości. Zatem zakres zmienności jest obliczany według wzoru

Ponieważ wielkość zakresu charakteryzuje tylko maksymalną różnicę wartości atrybutu, nie może zmierzyć regularnej siły jego zmienności w całej populacji. Wskaźnik przeznaczony do tego celu powinien uwzględniać i uogólniać wszystkie bez wyjątku różnice w wartościach atrybutu w agregacie. Liczba takich różnic jest równa liczbie kombinacji dwóch ze wszystkich jednostek populacji; zgodnie z tabelą. 5.6 będzie to: C^= 10 153. Nie ma jednak potrzeby uwzględniania, obliczania i uśredniania wszystkich odchyleń. Łatwiej jest wykorzystać średnią odchyleń wartości poszczególnych atrybutów od średniej arytmetycznej wartości atrybutu, a jest ich tylko 143. Ale średnie odchylenie wartości atrybutu od wartości średniej arytmetycznej, zgodnie do znanej właściwości tego ostatniego wynosi zero. Dlatego wskaźnikiem siły zmienności nie jest średnia algebraiczna odchyleń, ale średni moduł odchyleń:

Zgodnie z tabelą. 5.6 środkowy moduł lub średnie odchylenie liniowe, w wartości bezwzględnej oblicza się jako odchylenie ważone częstotliwością modulo punkty środkowe przedziałów od średniej arytmetycznej, tj. według wzoru

Oznacza to, że przeciętnie plon w badanym zbiorze gospodarstw odbiegał od przeciętnego plonu w regionie o 6,85 c/ha. Prostota obliczeń i interpretacji to pozytywne aspekty tego wskaźnika, jednak właściwości matematyczne modułów są „złe”: ich nie da się pogodzić z żadnym prawem probabilistycznym, w tym z rozkładem normalnym, którego parametrem nie jest moduł odchylenia średniego, ale odchylenie standardowe(w angielskich programach komputerowych nazywanych „odchyleniem standardowym”, w skrócie „s.d.” lub po prostu « s», w rosyjskojęzycznym - NKO). W literaturze statystycznej odchylenie standardowe od wartości średniej jest zwykle oznaczane małą (małą) grecką literą sigma (st) lub s(patrz rozdz. 7):

dla serii rankingowych

dla serii interwałowych

Zgodnie z tabelą. 5.6 odchylenie standardowe plonu ziarna wynosiło:

Należy zaznaczyć, że pewne zaokrąglenie wartości średniej i środków przedziałów, np. do liczb całkowitych, ma niewielki wpływ na wartość σ, która wyniosłaby wówczas 8,55 c/ha.

Odchylenie standardowe wielkości w populacjach rzeczywistych jest zawsze większe niż moduł odchylenia średniego. Stosunek (przy: a zależy od obecności ostrych, wyraźnych odchyleń w kruszywach i może służyć jako wskaźnik „zanieczyszczenia” kruszywa pierwiastkami niejednorodnymi o masie głównej: im większy ten stosunek, tym silniejsze takie „zanieczyszczenie”. Dla prawa rozkładu normalnego σ: a = 1,2.

Pojęcie dyspersji

Kwadrat odchylenia standardowego daje wartość dyspersja σ 2 . Formuła dyspersji:

proste (dla danych niezgrupowanych):

ważone (dla danych zgrupowanych):

Prawie wszystkie metody statystyki matematycznej opierają się na rozproszeniu. Duże znaczenie praktyczne ma zasada dodawania wariancji (patrz Rozdz. 6).

Inne miary zmienności

Innym wskaźnikiem siły zmienności, który ją charakteryzuje nie w całej populacji, a jedynie w jej centralnej części, jest: średnia odległość ćwiartkowa, tych. średnia wartość różnicy między kwartylami, oznaczona poniżej jako q:

Do podziału przedsiębiorstw rolnych według plonów w tabeli. 5.2

q\u003d (36,25 - 25,09): 2 \u003d 5,58 kg / ha. Siła zmienności w centralnej części populacji jest z reguły mniejsza niż w całej populacji. Stosunek średniego modułu odchyleń do średniego kwartalnego odchylenia służy również badaniu struktury zmienności: duża wartość tego stosunku wskazuje na obecność słabo zmieniającego się „rdzenia” i silnie rozproszonego wokół tego rdzenia środowiska, czyli „halo”. w badanej populacji. Dla danych w tabeli. stosunek 5,6 a: q= 1,23, co wskazuje na niewielką różnicę w sile zmienności w centralnej części populacji i na jej obrzeżach.

Aby ocenić intensywność zmienności i porównać ją w różnych populacjach, a tym bardziej dla różnych cech, konieczne jest względne wskaźniki zmienności. Oblicza się je jako stosunek omówionych wcześniej bezwzględnych wskaźników siły zmienności do średniej arytmetycznej cechy. Otrzymujemy następujące wskaźniki:

1) względny zakres zmienności p:

2) odchylenie względne modulo t:

3) współczynnik zmienności jako względne odchylenie kwadratowe v:

4) względna odległość ćwiartkowa d:

gdzie q - średnia odległość kwartylowa.

Zróżnicować wydajność zgodnie z tabelą. 5.6 tymi wskaźnikami są:

ρ = 42,4: 30,3 = 1,4 lub 140%;

t= 6,85: 30,3 = 0,226 lub 22,6%;

v = 8,44: 30,3 = 0,279 lub 27,9%;

d= 5,58: 30,3 = 0,184 lub 18,4%.

Ocena stopnia nasilenia zmienności jest możliwa tylko dla każdej indywidualnej cechy populacji o określonym składzie. Tak więc dla zbioru przedsiębiorstw rolnych zmienność plonów w tym samym regionie naturalnym można ocenić jako słabą, jeśli v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.

Wręcz przeciwnie, zróżnicowanie wzrostu w populacji dorosłych mężczyzn lub kobiet już przy współczynniku równym 7% powinno być oceniane i postrzegane przez ludzi jako silne. Zatem ocena intensywności zmienności polega na porównaniu obserwowanej zmienności z pewnym jej zwykłym nasileniem, przyjętym jako standard. Przyzwyczailiśmy się do tego, że produktywność, zarobki czy dochód per capita, liczba pomieszczeń mieszkalnych w budynku może różnić się od kilku do kilkudziesięciu razy, ale różnica w wzroście osób co najmniej półtora raza jest już postrzegana jako bardzo silny.

Różna siła, zmiany intensywności wynikają z obiektywnych przyczyn. Na przykład cena sprzedaży dolara amerykańskiego w bankach komercyjnych w Petersburgu 24 stycznia 1997 r. wahała się od 5675 do 5640 rubli. za średnią cenę 5664 rubli. Względny zakres zmienności ρ = 35:5664 = 0,6%. Tak niewielka zmienność wynika z faktu, że przy znacznej różnicy kursu dolara natychmiast nastąpiłby odpływ kupujących z „drogiego” banku do „tańszych”. Wręcz przeciwnie, cena kilograma ziemniaków lub wołowiny w różnych regionach Rosji jest bardzo zróżnicowana - o kilkadziesiąt procent lub więcej. Wynika to z różnych kosztów dostawy towarów z regionu producenta do regionu konsumenta, tj. przysłowie „jałówka za granicą to połowa, ale transportowany jest rubel”.

5.9. Momenty dystrybucji i wskaźniki jego formy

Momenty centralne dystrybucji

Do dalszego badania charakteru zmienności wykorzystuje się średnie wartości różnych stopni odchyleń poszczególnych wartości cechy od jej średniej arytmetycznej. Te wskaźniki nazywają się centralne momenty rozkłady rzędu odpowiadającego sile, do której podnoszone są odchylenia (tab. 5.7) lub po prostu momenty (momenty niecentralne są rzadko używane i nie będą tutaj brane pod uwagę). Wartość trzeciego momentu ts- zależy, podobnie jak jego znak, od przewagi dodatnich sześcianów odchyleń nad ujemnymi sześcianami lub odwrotnie. W normalnym i każdym innym ściśle symetrycznym rozkładzie suma sześcianów dodatnich jest ściśle równa sumie sześcianów ujemnych.

Wskaźniki asymetrii

Na podstawie momentu trzeciego rzędu można skonstruować wskaźnik charakteryzujący stopień asymetrii rozkładu:

Jak nazywa współczynnik asymetrii. Można go obliczyć zarówno na podstawie zgrupowanych, jak i niezgrupowanych danych. Zgodnie z tabelą. 5.6 wskaźnik asymetrii wynosił:

tych. asymetria jest niewielka. Statystyk angielski K. Pearson, opierając się na różnicy między wartością średnią a modą, zaproponował kolejny wskaźnik asymetrii

Tabela 5.7

Centralne momenty

Zgodnie z tabelą. 5.6 Indeks Pearsona był:

Wskaźnik Pearsona zależy od stopnia asymetrii w środkowej części szeregu rozkładów, a wskaźnik asymetrii, oparty na momencie trzeciego rzędu, od skrajnych wartości cechy. Zatem w naszym przykładzie w środkowej części rozkładu asymetria jest bardziej znacząca, co również widać na wykresie (rys. 5.1). Na ryc. 5.3.

Charakterystyka kurtozy rozkładu

Z pomocą momentu czwartego rzędu, jeszcze bardziej złożona niż asymetria właściwość szeregów rozdzielczych, zwana kurtoza.


Ryż. 5.3. Asymetria, rozkłady

Wskaźnik kurtozy jest obliczany według wzoru

(5.30)

Często kurtoza jest interpretowana jako „stromizna” rozkładu, ale jest to nieprecyzyjne i niepełne. Wykres rozkładu może wyglądać dowolnie stromy w zależności od siły zmienności cechy: im słabsza zmienność, tym bardziej stroma krzywa rozkładu w danej skali. Nie wspominając już o tym, że zmieniając podziałki wzdłuż odciętej i wzdłuż rzędnej, każdy rozkład może być sztucznie „stromy” i „pochylony”. Aby pokazać, jaka jest kurtoza rozkładu i poprawnie go zinterpretować, należy porównać szeregi o tej samej sile zmienności (tej samej wartości σ) i różnych wskaźnikach kurtozy. Aby nie pomylić kurtozy z skośnością, wszystkie porównywane wiersze muszą być symetryczne. Takie porównanie pokazano na ryc. 5.4.

Rys.5.4. Kurtoza dystrybucji

Dla szeregu wariacyjnego o rozkładzie normalnym wartości i wskaźnik kurtozy, obliczony ze wzoru (5.30), j wynosi trzy.

Jednak takiego wskaźnika nie należy nazywać terminem „kurtoza”, co w tłumaczeniu oznacza „nadmiar”. Termin „kurtoza” należy odnosić nie do samego wskaźnika według wzoru (5,30), ale do porównania takiego wskaźnika dla badanego rozkładu z wartością danego wskaźnika rozkładu normalnego, tj. o wartości 3. Stąd ostateczne wzory na wskaźnik kurtozy, tj. nadwyżki w porównaniu z rozkładem normalnym o tej samej sile zmienności mają postać:

dla serii rankingowych

dla szeregów zmienności interwałowej i dyskretnej

Obecność dodatniej kurtozy, a także wcześniej zauważona istotna różnica między małą odległością kwartalną a dużym odchyleniem standardowym powoduje, że w badanej masie zjawisk występuje „rdzeń” nieznacznie zmienny w tej cesze, otoczony przez rozproszone „halo”. Przy znacznej ujemnej kurtozie takiego „rdzenia” w ogóle nie ma.

Na podstawie wartości wskaźników skośności i kurtozy rozkładu można ocenić bliskość rozkładu do normalnego, co jest niezbędne do oceny wyników analizy korelacji i regresji, możliwości probabilistycznej oceny prognoz ( patrz rozdziały 7,8,9). Rozkład można uznać za normalny, a dokładniej hipotezy podobieństwa rozkładu rzeczywistego z rozkładem normalnym nie można odrzucić, jeżeli wskaźniki skośności i kurtozy nie przekraczają ich dwukrotnych odchyleń standardowych Cm. Te odchylenia standardowe są obliczane według wzorów:

5.10. Maksymalne możliwe wartości wskaźniki zmienności i ich zastosowanie

Stosując wszelkiego rodzaju wskaźniki statystyczne, warto wiedzieć, jakie są maksymalne możliwe wartości danego wskaźnika dla badanego systemu i jaki jest stosunek faktycznie zaobserwowanych wartości do maksymalnych możliwych. Problem ten jest szczególnie istotny przy badaniu zmienności wskaźników wielkości, takich jak wielkość produkcji określonego rodzaju produktu, dostępność pewnych zasobów, dystrybucja inwestycji kapitałowych, dochody i zyski. Rozważmy teoretycznie i praktycznie to zagadnienie na przykładzie podziału produkcji warzywnej między przedsiębiorstwa rolne w regionie.

Jest oczywiste, że minimalną możliwą wartość wskaźników zmienności osiąga się przy ściśle równomiernym rozkładzie cechy wielkości pomiędzy wszystkie jednostki populacji, czyli przy jednakowej wielkości produkcji w każdym przedsiębiorstwie rolniczym. W takim granicznym (oczywiście bardzo mało prawdopodobnym w praktyce) rozkładzie nie ma zmienności i wszystkie wskaźniki zmienności są równe zeru.

Maksymalną możliwą wartość wskaźników zmienności osiąga się przy takim rozkładzie cechy objętości w populacji, w której cała jej objętość jest skoncentrowana w jednej jednostce populacji; na przykład cała wielkość produkcji warzywnej - w jednym przedsiębiorstwie rolnym powiatu w przypadku braku ich produkcji w innych gospodarstwach. Prawdopodobieństwo tak skrajnie możliwej koncentracji objętości cechy w jednej jednostce populacji nie jest tak małe; w każdym razie jest znacznie większe niż prawdopodobieństwo ściśle równomiernego rozkładu.

Rozważ wykładniki zmienności dla wskazanego granicznego przypadku jego maksimum. Oznaczmy liczbę jednostek populacji P,średnia wartość cechy X̅ , wtedy całkowita objętość cechy w agregacie będzie wyrażona jako X̅ P. Cała ta objętość jest skoncentrowana w jednej jednostce populacji, tak że Xmaks= x̅ s. xmin = 0, stąd wynika, że ​​maksymalna wartość amplitudy (zakresu zmienności) jest równa:

Aby obliczyć maksymalne wartości średniego odchylenia modulo i kwadratowego, zbudujemy tabelę odchyleń (tabela 5.8).

Tabela 5.8

Moduły i kwadraty odchyleń od maksymalnej średniejmożliwa odmiana

Liczby jednostek populacji

Wartości funkcji

Odchylenia od średniej

x ja - x̅

Moduły odchyleń

|x ja - x̅|

kwadraty odchylenia

(Xi- X̅ ) 2

X̅ P

X̅ (P - 1)

-x̅

-x̅

-x̅

X̅ (P - 1)

X̅

X̅

X̅

X̅ 2 (P - 1) 2

X̅ 2

X̅ 2

X̅ 2

X̅ P

2X̅ (P - 1)

X̅ 2 [(P - 1) 2 +(n-1)]

Na podstawie wyrażeń w ostatnim wierszu tabeli. 5.8 uzyskujemy następujące maksymalne możliwe wartości wskaźników zmienności.

Średni moduł odchyleń lub średnie odchylenie liniowe:

Odchylenie standardowe:

Względne odchylenie modularne (liniowe):

Współczynnik zmienności:

Jeśli chodzi o odległość kwartalną, system o maksymalnej możliwej zmienności ma zdegenerowaną strukturę rozkładu cech, w której nie ma („nie działa”) cech struktury: mediany, kwartyli itp.

Na podstawie uzyskanych wzorów na maksymalne możliwe wartości głównych wskaźników zmienności, przede wszystkim nasuwa się wniosek o zależności tych wartości od wielkości populacji P. Zależność tę podsumowano w tabeli. 5.9.

Najwęższe granice zmian i słaba zależność od wielkości populacji ujawniają średni moduł i względne odchylenie liniowe. Wręcz przeciwnie, odchylenie standardowe i współczynnik zmienności silnie zależą od liczby jednostek populacji. Zależność tę należy wziąć pod uwagę przy porównywaniu intensywności zmienności populacji o różnej liczebności. Jeżeli w sumie sześciu przedsiębiorstw współczynnik zmienności wielkości produkcji wynosił 0,58, a w sumie 20 przedsiębiorstw 0,72, to czy można słusznie wnioskować, że wielkość produkcji w drugiej populacji jest bardziej nierównomierna? Rzeczywiście, w pierwszym, mniejszym, wyniósł 0,58: 2,24 = 25,9% maksimum możliwego, czyli granicy, poziom koncentracji produkcji w jednym przedsiębiorstwie z sześciu, aw drugim, większym zbiorze, obserwowany współczynnik zmienności wyniósł tylko 0,72: 4,36 = 16,5% maksymalnego możliwego.

Tabela 5.9

Wartości graniczne wskaźników zmienności cechy wolumetrycznej dla różnej wielkości populacji

Wielkość populacji

Maksymalne wartości wskaźników

X̅

X̅

1,5X̅

1,73X̅

1,67X̅

2,24X̅

1,80X̅

3X̅

1,90X̅

4,36X̅

1,96X̅

7X̅

1,98X̅

9,95X̅

2X̅

Praktycznie ważny jest taki wskaźnik, jak stosunek rzeczywistego modułu odchylenia średniego do maksymalnego możliwego. Tak więc dla agregatu sześciu przedsiębiorstw wskaźnik ten wyniósł: 0,47:1,67 = 0,281, czyli 28,1%. Interpretacja otrzymanego wskaźnika jest następująca: aby przejść od obserwowanego rozkładu produkcji między przedsiębiorstwami do rozkładu jednolitego, konieczna byłaby redystrybucja

, czyli 23,4% całkowitej produkcji zagregowanej. Jeżeli stopień faktycznej koncentracji produkcji (rzeczywista wartość σ lub v) to pewien ułamek wartości krańcowej w przypadku monopolizacji produkcji w jednym przedsiębiorstwie, to stosunek wskaźnika rzeczywistego do krańcowego może charakteryzować stopień koncentracji (lub monopolizacji) produkcji.

W analizie przesunięć strukturalnych stosuje się również stosunki rzeczywistych wartości wskaźników zmienności lub zmiany struktury do maksimum możliwego (patrz rozdział 11).

1. Jeanie K. Wartości średnie. - M.: Statystyka, 1970.

2. Krivenkova L.N., Yuzbashev M.M. Obszar występowania wskaźników zmienności i ich zastosowanie // Biuletyn statystyczny. - 1991. - nr 6. - S. 66-70.

3. Paskhaver I. S.Średnie wartości w statystykach. - M.: Statystyka. 1979.

4. Shurakov V. V., Dayitbegov D. M. i inni. Zautomatyzowana stacja robocza do statystycznego przetwarzania danych (Rozdział 4. Wstępne przetwarzanie danych statystycznych). - M.: Finanse i statystyka, 1990.

Nośny- procedurę porządkowania dowolnych przedmiotów w porządku rosnącym lub malejącym według niektórych ich właściwości, pod warunkiem, że posiadają tę właściwość.

Możesz uszeregować:

Stan według poziomu życia, wskaźnika urodzeń, bezrobocia;

Zawody według prestiżu;

Towary według preferencji konsumenta;

Respondenci według działalności politycznej, sytuacji finansowej;

Obiekty rankingowe to te obiekty, które są uporządkowane bezpośrednio. Ranking podstawowy(atrybut rankingu) - właściwość, według której uporządkowane są obiekty. W wyniku rankingu otrzymujemy szereg rankingowy, w którym każdemu obiektowi przypisuje się swoją indywidualność ranga- miejsce obiektu w rankingu. Liczba miejsc i odpowiednio liczba stopni w serii rankingowej jest równa liczbie obiektów.

Rodzaje serii rankingowych:

1) każdy obiekt ma wartość cechy różną od wartości cechy innych obiektów, wówczas każdemu obiektowi serii rankingowej przypisuje się własną rangę, różną od innego obiektu;

2) kilka obiektów ma tę samą wartość atrybutu, to tym obiektom w serii rankingowej przypisuje się te same rangi, obliczane według określonego wzoru. W takim przypadku seria rankingowa nazywana jest serią rankingową z powiązanymi rangami. Przy rozwiązywaniu problemów pierwszą rangę przypiszemy najwyższej wartości cechy. Powiązana ranga jest obliczana jako średnia miejsc zajmowanych przez obiekty o tej samej wartości cechy. Ustalenie zależności statystycznej dla 2 lub więcej szeregów rankingowych przeprowadza się za pomocą współczynniki rangi połączenia- takie współczynniki, które pozwalają obliczyć stopień spójności w rankingu tych samych obiektów na dwóch różnych podstawach (cechach). Najpopularniejszym współczynnikiem związku rang (korelacja rang) jest współczynnik ρ-Spearmana.

Załóżmy, że n obiektów jest uporządkowanych zgodnie z atrybutem x i zgodnie z atrybutem y. Wynajmować

Miara niedopasowania rang i-tego obiektu: d i = R x i - R y i

Nieruchomości:

Zmiany w zakresie od -1 do 1;

Po = 1, jeśli istnieje pełna zgodność szeregu rankingowego; szeregi jednego i tego samego obiektu są takie same z dwóch powodów.

Po = -1 w przypadku całkowitej niezgodności szeregu rankingowego; taka sytuacja ma miejsce, gdy szeregi rankingowe mają przeciwny kierunek: R x i – 1 2 3 4 5; R y i – 5 4 3 2 1.

Uwaga: można obliczyć dla dwóch rodzajów równości (jeśli każdy obiekt ma swoją własną rangę i jeśli istnieją powiązane rangi).

Testowanie hipotezy o istotności statystycznej współczynnika ρ-Spearmana.

H 0: ρ gs = 0

H 1: ρ gs ≠ 0

Hipoteza zerowa zawsze mówi, że ρ jest równe 0. Hipoteza alternatywna mówi, że wartość ρ jest różna od 0.

Poziom istotności jak w tabelach awaryjnych.

Państwo ALE B W G D mi ORAZ W I
Jakość życia 6,8 7,0 6,5 5,9 4,6 5,7 4,5 5,8 4,0
Bezrobocie 20,3 18,0 19,8 23,4 21,6 20,8
ranga x
ranga y
|d ja |
d 2 i
d 2 i

τ - Kendall jest różnicą między prawdopodobieństwami poprawnej i nieprawidłowej kolejności dla dwóch obserwacji wylosowanych z populacji, pod warunkiem, że nie ma powiązanych rang. Nieruchomości:

Zmiany od -1 do 1;

Jeżeli cechy x i y są statystycznie niezależne, to współczynnik τ wynosi 0; jeśli τ jest równe 0, nie oznacza to, że cechy są statystycznie niezależne;

Jeżeli τ jest równe 1, oznacza to, że istnieje całkowicie bezpośrednia zależność statystyczna między cechami lub szeregi rankingowe są całkowicie zgodne; jeśli τ wynosi -1, oznacza to, że istnieje pełna statystyczna zależność odwrotna lub szeregi rankingowe są niespójne.

S to całkowita liczba par obiektów o spójnej prawidłowej kolejności dla obu obiektów. D to całkowita liczba par obiektów z niespójną niewłaściwą kolejnością dla obu obiektów.

Testowanie hipotezy o istotności statystycznej współczynnika τ:

H 0: τ gs = 0

H 1: τ gs ≠ 0

Współczynnik τ jest statystycznie istotny, jeśli jego wartość dla HS jest różna od 0.

|Z H | > Z cr => H 1

Jeśli zbudujemy szereg rangowany dla małej liczby obiektów, to potwierdzenie hipotezy zerowej mówi nam, że musimy zbadać większą liczbę obiektów.

Jeżeli zbadano wystarczającą liczbę obiektów, to potwierdzenie hipotezy zerowej wskazuje na brak związku między cechami.

Współczynnik łącza wielu rang

Stosuje się go w przypadkach, gdy konieczne jest zmierzenie relacji między więcej niż 2 szeregami rankingowymi (na przykład, gdy chcemy ocenić spójność opinii ekspertów (więcej niż 2) przy ocenie 1 i tych samych obiektów.

S to suma odchyleń kwadratowych wartości rang dla wiersza od średniej rangi dla całej populacji. k 2 – liczba zmiennych (liczba ekspertów). n to liczba obiektów w rankingu.

Pojęcie podsumowania, grupowania, klasyfikacji

Streszczenie- systematyzacja i podsumowanie: prognoza pogody, zestawienie z pól. Podsumowanie nie pozwala na szczegółową analizę informacji. Każde podsumowanie powinno opierać się na grupowaniu danych, tj. najpierw grupowanie, a następnie podsumowanie danych.

grupowanie- podział populacji na kilka grup według najważniejszych cech.

Rozróżnij grupowanie jakościowe i ilościowe. jakość- atrybutywny ilościowy- wariacja. Z kolei wariacja dzieli się na strukturalną i analityczną . Strukturalny grupowanie polega na obliczeniu proporcji każdej grupy. Przykład: w przedsiębiorstwie 80% to pracownicy, 20% to pracownicy, z czego 5% to menedżerowie, 3% to pracownicy, 12% to specjaliści. Cel analityczny grupowanie - w celu zidentyfikowania związku między znakami: doświadczenie zawodowe i średnie zarobki, doświadczenie i wydajność oraz inne.

Podczas grupowania musisz:

Przeprowadzenie kompleksowej analizy charakteru badanego zjawiska;

Identyfikacja cechy grupującej (jednej lub więcej);

Ustal granice grup w taki sposób, aby grupy znacznie się od siebie różniły, a w każdej grupie łączyły się jednorodne elementy.

W zależności od stopnia złożoności grupowania mogą być proste i kombinacyjne (według cech).

Według wstępnych informacji rozróżnia się grupy pierwotne i wtórne, podstawowy przeprowadzone na podstawie wstępnych danych obserwacyjnych, wtórny używa danych grupowania podstawowego.

Liczba grup jest określona według formuły Sturgess:

gdzie n- ilość grup, N- ogólna populacja.

Jeśli używane są równe przedziały, to wartość interwału jest równe .

Interwały może, ale nie musi być równy. Te z kolei dzielą się na te, które zmieniają się zgodnie z prawem postępu arytmetycznego lub geometrycznego. Pierwszy i ostatni interwał mogą być otwarte lub zamknięte. Zamknięte przedziały zawierają lub nie zawierają granic przedziałów.

Jeżeli przedziały są zamknięte i nie mówi się nic o uwzględnieniu górnych granic, to zakładamy, że górne granice są uwzględnione.

Jeśli interwały są otwarte, to kierujemy się ostatnim interwałem.

Znak w tych odstępach można mierzyć dyskretnie i w sposób ciągły (tj. Podział). Przy ciągłym znaku granice są zamknięte 1-10, 10-20, 20-30; jeśli atrybut zmieni się dyskretnie, można użyć następującego wpisu: 1 - 10, 11 - 20, 21 - 30.

Jeśli przedziały są otwarte, to wartość ostatniego przedziału jest równa poprzedniej, a wartość pierwszego - do drugiego.

Klasyfikacja grupowanie według jakości. Jest stosunkowo stabilna, wystandaryzowana i zatwierdzona przez państwowe organy statystyczne.


3.2. Rangi dystrybucji: rodzaje i główne cechy

Pod w pobliżu dystrybucji odnosi się do serii danych, które na jednej podstawie charakteryzują każde zjawisko społeczno-gospodarcze. Jest to najprostszy rodzaj grupowania z dwóch powodów.

Szeregi rozkładów dzielą się na jakościowe i ilościowe, uszeregowane i nieuszeregowane, pogrupowane i niegrupowane, z dyskretnym i ciągłym rozkładem cech.

Przykładem niezgrupowanej, nierankingowej serii wynagrodzeń jest lista płac. Jednocześnie listę pracowników można uszeregować alfabetycznie lub według numerów personalnych. Przykładem serii rankingowej jest lista drużyn, ranking tenisistów.

rząd rankingowy rozkłady — seria danych ułożonych w porządku malejącym lub rosnącym cechy.

Dla zgrupowanych szeregów uszeregowanych wyróżnia się następujące cechy: wariant, częstość lub częstość, gęstość kumulacji i rozkładu.

Wariant() to średnia wartość interwału obiektu. Dlatego przy tworzeniu grupowania należy przestrzegać zasady równomiernego rozkładu cechy w każdym przedziale, wówczas wariant można obliczyć jako połowę sumy granic przedziałów.

Częstotliwość() pokazuje, ile razy występuje dana wartość cechy. Względne wyrażenie częstotliwości to częstotliwość(.) , tj. udział, ciężar właściwy z sumy częstotliwości.

Kumulować() – częstotliwość skumulowana lub częstotliwość skumulowana, obliczenie skumulowane. Wielkość, koszty, dochody obliczane są narastająco, tj. wyniki działalności.

Tabela 1

Grupowanie działających instytucji kredytowych
o kwotę zarejestrowanego kapitału docelowego

w 2008 roku w Rosji

Pierwszym krokiem w statystycznym badaniu zmienności jest skonstruowanie szeregu zmienności – uporządkowanego rozkładu jednostek populacji według rosnących (częściej) lub malejących (rzadziej) wartości cechy i zliczanie liczby jednostek jedną lub inna wartość cechy.

Istnieją trzy formy szeregów wariacyjnych: szeregowe, dyskretne, interwałowe. Szeregi wariacyjne są często nazywane szeregami dystrybucyjnymi. Termin ten jest używany podczas badania zmienności cech zarówno ilościowych, jak i nieilościowych. Szereg dystrybucji jest grupowaniem strukturalnym (rozdział 6).

Szereg rankingowy to lista poszczególnych jednostek populacji w porządku rosnącym (malejąco) badanej cechy.

Poniżej znajdują się informacje o dużych bankach St. Petersburga, uszeregowanych według kapitału własnego na dzień 01.10.1999.

Nazwa banku Kapitał własny, mln rubli

Bank Baltonexim 169

Bank Sankt Petersburg 237

Pietrowski 268

Bałtyk 290

Promstroybank 1007

Jeśli liczba jednostek populacji jest wystarczająco duża, szereg rankingowy staje się uciążliwy, a jego budowa, nawet przy pomocy komputera, zajmuje dużo czasu. W takich przypadkach szereg zmienności konstruuje się poprzez grupowanie jednostek populacji według wartości badanej cechy.

Ustalenie liczby grup

Liczba grup w dyskretnej serii zmian jest określona przez liczbę faktycznie istniejących wartości atrybutu zmiennej. Jeśli cecha przyjmuje wartości dyskretne, ale ich liczba jest bardzo duża (na przykład liczba zwierząt gospodarskich w dniu 1 stycznia roku w różnych przedsiębiorstwach rolnych może wynosić od zera do dziesiątek tysięcy głów), wówczas budowana jest seria zmienności przedziałowej . Przedziałowy szereg wariacyjny jest również konstruowany do badania cech, które mogą przyjmować dowolne, zarówno całkowite, jak i ułamkowe wartości w obszarze ich istnienia. Takimi są na przykład rentowność sprzedawanych produktów, koszt jednostki produkcji, dochód na mieszkańca miasta, odsetek osób z wyższym wykształceniem wśród ludności różnych terytoriów i ogólnie wszystkie cechy drugorzędne, wartości z czego oblicza się dzieląc wartość jednej cechy podstawowej przez wartość drugiej (patrz Rozdz. 3).

Seria zmienności przedziałowej to tabela składająca się z dwóch kolumn (lub wierszy) - przedziałów cechy, której zmienność jest badana oraz liczby jednostek populacji mieszczących się w tym przedziale (częstotliwości) lub proporcji ta liczba z całej populacji (częstotliwości).

Najczęściej stosuje się dwa typy szeregów zmienności przedziałów: o równych odstępach i o równej częstotliwości. Szereg równych przedziałów stosuje się, jeśli zmienność cechy nie jest bardzo silna, tj. dla populacji jednorodnej, której rozkład według danego atrybutu jest zbliżony do normalnego prawa. (Taki szereg jest przedstawiony w Tabeli 5.6.) Szereg o równej częstotliwości jest używany, jeśli zmienność cechy jest bardzo silna, ale rozkład nie jest normalny, ale na przykład hiperboliczny (Tabela 5.5).

Przy konstruowaniu szeregu równoprzedziałowego dobiera się liczbę grup tak, aby zróżnicowanie wartości cech w agregacie było wystarczająco odzwierciedlone, a jednocześnie regularność rozkładu, jego kształt nie został przypadkowo zniekształcony wahania częstotliwości. Jeśli jest zbyt mało grup, nie będzie wzorca zmienności; jeśli jest zbyt wiele grup, losowe skoki częstotliwości zniekształcą kształt rozkładu.


Granice przedziałów można określić na różne sposoby: górna granica poprzedniego przedziału powtarza dolną granicę następnego, jak pokazano w tabeli. 5.5, lub się nie powtarza.

W tym drugim przypadku drugi przedział zostanie oznaczony jako 15,1-20, trzeci - jako 20,1-25 itd., tj. zakłada się, że wszystkie wartości wydajności są koniecznie zaokrąglane do jednej dziesiątej. Ponadto pojawia się niepożądana komplikacja ze środkiem przedziału 15,1-20, który, ściśle mówiąc, będzie już równy nie 17,5, ale 17,55; odpowiednio, zastępując zaokrąglony przedział 40-60 na 40,1-60, zamiast zaokrąglonej wartości jego środkowych 50 otrzymujemy 50,5. Dlatego lepiej jest pozostawić przedziały z powtarzającą się zaokrągloną granicą i uzgodnić, że jednostki populacji, które mają charakterystyczną wartość równą granicy przedziału, są uwzględniane w przedziale, w którym ta dokładna wartość jest zgłaszana po raz pierwszy. Tak więc do pierwszej grupy zalicza się gospodarstwo z plonem 15 centów z hektara, do drugiej 20 centów z hektara i tak dalej.

Szereg wariacyjny o jednakowej częstotliwości jest konieczny przy bardzo silnej zmienności cechy, ponieważ przy rozkładzie równym odstępie większość jednostek populacji jest

Tabela 5.5

Podział 100 rosyjskich banków według wyceny bilansowej aktywów na dzień 01.01.2000

Granice przedziałów dla równego rozkładu to rzeczywiste wartości aktywów pierwszego, dziesiątego, jedenastego, dwudziestego i tak dalej banków.

Graficzna reprezentacja serii wariacji

Istotną pomoc w analizie szeregu wariacyjnego i jego właściwości zapewnia przedstawienie graficzne. Szereg interwałowy jest reprezentowany przez wykres słupkowy, w którym podstawą słupków znajdujących się na osi odciętej są przedziały wartości zmiennego atrybutu, a wysokości słupków są częstotliwościami odpowiadającymi skali wzdłuż oś y. Graficzne przedstawienie rozmieszczenia gospodarstw w regionie pod względem plonów zbóż przedstawiono na ryc. 5.1. Taki diagram często nazywany jest histogramem (gr. histos – tkanka).

Dane tabeli. 5.6 i rys. 5.1 pokazują postać rozkładu charakterystycznego dla wielu cech: częściej występują wartości średnich przedziałów cechy, rzadziej skrajne, małe i duże wartości cechy. Postać tego rozkładu jest zbliżona do prawa rozkładu normalnego rozważanego w statystyce matematycznej. Wielki rosyjski matematyk A. M. Lapunow (1857-1918) udowodnił, że to normalne

Tabela 5.6 Rozkład gospodarstw w regionie według plonów zbóż

Mały rozkład powstaje, gdy na zmienną wpływa duża liczba czynników, z których żaden nie ma dominującego wpływu. Losowa kombinacja wielu mniej więcej równych czynników wpływających na zróżnicowanie plonów zbóż, zarówno naturalnych, jak i agrotechnicznych, ekonomicznych, tworzy rozkład gospodarstw regionu według plonów zbliżony do normalnego prawa dystrybucji.

Ryż. 5.2. Dystrybucja kumulacji i ostrołuku gospodarstw według plonów

Taki szereg nazywa się skumulowanym. Możesz zbudować skumulowaną dystrybucję „nie mniej niż” lub „większą niż”. W pierwszym przypadku wykres rozkładu skumulowanego nazywamy skumulowanym, w drugim - ostrołukowym (ryc. 5.2).

Gęstość dystrybucji

Jeśli masz do czynienia z szeregiem wariacyjnym o nierównych przedziałach, to dla porównywalności musisz sprowadzić częstotliwość lub częstotliwość do jednostki przedziału. Wynikowy stosunek nazywa się gęstością rozkładu:

Gęstość rozkładu jest wykorzystywana zarówno do obliczania wskaźników uogólniających, jak i do graficznej reprezentacji szeregów zmienności o nierównych przedziałach.

produkcja ziemniaków w rankingu statystycznym

Na podstawie wskaźników w tabeli 2 zestawiamy uszeregowane wiersze dla produkcji ziemniaków na 100 ha użytków rolnych; na plon ziemniaków; na koszt. Związek między tymi wskaźnikami jest przedstawiony graficznie.

Pierwszym krokiem w statystycznym badaniu zmienności jest skonstruowanie serii zmienności – uporządkowanego rozkładu jednostek populacji według rosnących (częściej) lub malejących (rzadziej) wartości cechy.

Istnieją trzy formy szeregu wariacyjnego: szereg szeregowy, szereg dyskretny, szereg interwałowy. Szeregi wariacyjne są często nazywane szeregami dystrybucyjnymi.

Szereg rankingowy to lista poszczególnych jednostek populacji w porządku rosnącym (malejąco) badanej cechy

Ranking to procedura porządkowania przedmiotów studiów, która odbywa się na podstawie preferencji. Zakres zmienności pokazuje, jak duża jest różnica między jednostkami populacji.

Ranga to liczba porządkowa wartości atrybutów ułożonych w porządku rosnącym lub malejącym ich wartości. Jeśli wartość atrybutu ma taką samą ocenę ilościową, wówczas ranga wszystkich tych wartości jest równa średniej arytmetycznej z odpowiednich liczb miejsc, które są określane. Te szeregi nazywane są połączonymi.

Wykresy w statystyce to sposób wizualizacji wskaźników statystycznych w postaci geometrycznych kształtów i znaków, rysunków czy schematycznych map. Wizualny obraz ułatwia percepcję informacji, pozwala objąć zestaw wskaźników powiązanych ze sobą, zidentyfikować trendy rozwojowe i typowe wskaźniki wskaźników.

Do wyświetlania wskaźników dynamiki wskazane jest wykorzystanie wykresów liniowych lub słupkowych. Harmonogram powinien być jasny, zrozumiały, łatwy do odczytania i, jeśli to możliwe, artystycznie zaprojektowany, co przyciągnie na niego uwagę.

Podczas konstruowania wykresów punktowych jako próbki graficzne używa się zestawu punktów; przy konstruowaniu liniowych - linii. Wykresy to zawsze proces twórczy. Potrzebne jest tutaj trochę poszukiwań. Dopiero po skompilowaniu i porównaniu kilku wersji roboczych można ustalić poprawną kompozycję wykresu, ustawić skalę i położenie znaków na polu wykresu.

Z szeregów rankingowych dotyczących produkcji ziemniaków na 100 hektarów gruntów ornych możemy wywnioskować, że najniższą produkcję obserwuje się w obwodzie bałagańskim, a obwód angarski wyróżnia się najwyższą produktywnością ziemniaków ze 100 hektarów gruntów ornych.

Najniższy plon był w rejonie Kachug - 10 centów z hektara, a najwyższy w Usolsky - 195,5 centa z hektara.

W rejonie czuńskim, przy wysokiej produkcji ziemniaków na 100 ha użytków rolnych, najniższy koszt 1 tys. Maksymalny koszt obserwuje się w regionie Niżne-Ilimsk. Zakres zmienności kosztu centa ziemniaków jest bardzo duży i wynosi 1161,01 rubli.

Inne publikacje

Analiza działalności gospodarczej przedsiębiorstwa
Przejście do gospodarki rynkowej wymaga od przedsiębiorstwa zwiększenia efektywności produkcji, konkurencyjności produktów i usług poprzez wprowadzenie efektywnych form zarządzania gospodarczego i zarządzania produkcją, osiągnięć postępu naukowo-technicznego oraz aktywizacji ...

Analiza działalności finansowej i gospodarczej JSC TransContainer
Analiza finansowa to proces oparty na badaniu danych dotyczących kondycji finansowej przedsiębiorstwa i wyników jego działalności w przeszłości w celu oceny przyszłych warunków i wyników. Dlatego głównym zadaniem analizy finansowej jest ...

KATEGORIE

POPULARNE ARTYKUŁY

2022 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich