Distribučné série. Distribučné rady atribútov a variácií

Prvou fázou štatistického skúmania variácie je konštrukcia variačná séria - usporiadaná distribúcia jednotiek populácie podľa rastúcich (častejšie) alebo klesajúcich (menej často) hodnôt charakteristiky a počítaním počtu jednotiek s konkrétnou hodnotou charakteristiky.

Existujú tri formy variačných radov: zoradené série, diskrétne série, intervalové série. Séria variácií sa často nazýva blízko distribúcie. Tento termín sa používa pri štúdiu variácií v kvantitatívnych aj nekvantitatívnych znakoch. Distribučná séria je štruktúrne zoskupenie(pozri kapitolu 6).

Zoradený riadok - Ide o zoznam jednotlivých jednotiek populácie vo vzostupnom (zostupnom) poradí podľa skúmanej charakteristiky.

Príkladom zoradeného radu je tabuľka. 5.5.

Tabuľka 5.5

Veľké banky Petrohradu zoradené podľa veľkostivlastný kapitál k 07.01.96

Ak je počet populačných jednotiek dostatočne veľký, hodnotená séria sa stáva ťažkopádnou a jej konštrukcia aj s pomocou počítača trvá dlho. V takýchto prípadoch sa variačná séria zostaví zoskupením populačných jednotiek podľa hodnôt študovanej charakteristiky.

Ak charakteristika nadobudne malý počet hodnôt, vytvorí sa séria diskrétnych variácií. Príkladom takejto série je rozdelenie futbalových zápasov podľa počtu strelených gólov (tabuľka 5.1). Séria diskrétnych variácií - toto je tabuľka pozostávajúca z dvoch riadkov alebo stĺpcov: špecifické hodnoty rôznej charakteristiky Xi a počet jednotiek obyvateľstva s danou charakteristickou hodnotou f i frekvencie (f je začiatočné písmeno anglického slova frequency).

Určenie počtu skupín

Počet skupín v sérii diskrétnych variácií je určený počtom skutočne existujúcich hodnôt meniacej sa charakteristiky. Ak atribút môže nadobudnúť diskrétne hodnoty, ale ich počet je veľmi veľký (napríklad počet hospodárskych zvierat k 1. januáru roka v rôznych poľnohospodárskych podnikoch sa môže pohybovať od nuly do desiatok tisíc kusov), potom intervalový variačný rad je skonštruovaný. Séria intervalových variácií je tiež konštruovaná na štúdium charakteristík, ktoré môžu nadobudnúť akékoľvek celočíselné aj zlomkové hodnoty v oblasti ich existencie. Sú to napríklad ziskovosť predaných výrobkov, náklady na jednotku produkcie, príjem na 1 obyvateľa mesta, podiel ľudí s vyšším vzdelaním medzi obyvateľstvom rôznych území a vo všeobecnosti všetky sekundárne charakteristiky, hodnoty ​​ktoré sa vypočítajú vydelením hodnoty jednej primárnej charakteristiky hodnotou inej (pozri kapitolu 3).

Intervalové variačné série je tabuľka (pozostávajúca z dvoch stĺpcov (alebo riadkov) - intervaly charakteristiky, ktorých variácia sa skúma, a počet jednotiek populácie spadajúcich do tohto intervalu (frekvencie), alebo podiel tohto čísla na celkový počet obyvateľov (frekvencie).

Pri konštrukcii intervalového variačného radu je potrebné zvoliť optimálny počet skupín (atribútových intervalov) a nastaviť dĺžku intervalu. Keďže pri analýze variačného radu sa porovnávajú frekvencie v rôznych intervaloch, je potrebné, aby hodnota intervalu bola konštantná. Optimálny počet skupín sa volí tak, aby sa dostatočne odrážala diverzita hodnôt atribútov v súhrne a zároveň nedošlo k skresleniu distribučného vzoru náhodnými výkyvmi frekvencie. Ak je skupín príliš málo, vzor variácie sa nezobrazí; ak je skupín príliš veľa, náhodné frekvenčné skoky skreslia tvar rozloženia.

Najčastejšie sa počet skupín v sérii variácií stanovuje dodržaním vzorca odporúčaného americkým štatistikom Sturgessom. (Sturgess):

Kde k- počet skupín; n- veľkosť populácie.

Tento vzorec ukazuje, že počet skupín je funkciou objemu údajov.

Predpokladajme, že je potrebné zostaviť variačný rad rozmiestnenia podnikov v regióne podľa úrody obilnín za určitý rok. Počet poľnohospodárskych podnikov s obilninami bol 143; najnižšia hodnota úrody je 10,7 c/ha, najvyššia je 53,1 c/ha. Máme:

Keďže počet skupín je celé číslo, odporúča sa vytvoriť 8 alebo 9 skupín.

Určenie veľkosti intervalu

Keď poznáte počet skupín, vypočítajte veľkosť intervalu:

V našom príklade je hodnota intervalu:

a) s 8 skupinami

b) s 9 skupinami

Na zostavenie série a analýzu variácií je oveľa lepšie mať, ak je to možné, zaokrúhlené hodnoty pre hodnotu intervalu a jeho hranice. Preto by bolo najlepším riešením zostaviť sériu variácií s 9 skupinami s intervalom 5 c/ha. Tento rad variácií je uvedený v tabuľke. 5.6 a jeho grafické znázornenie je na obr. 5.1.

Hranice intervalov môžu byť špecifikované rôznymi spôsobmi: horná hranica predchádzajúceho intervalu opakuje spodnú hranicu nasledujúceho, ako je uvedené v tabuľke. 5.6, alebo sa neopakuje.

V druhom prípade bude druhý interval označený ako 15.1-20, tretí ako 20.1-25 atď., t.j. Predpokladá sa, že všetky hodnoty výnosov musia byť zaokrúhlené na jednu desatinu. Okrem toho vzniká nežiaduca komplikácia so stredom intervalu 15,1-20, ktorý sa už striktne povedané nebude rovnať 17,5, ale 17,55; podľa toho, keď nahradíme zaokrúhlený interval 40-60 40,1-6,0 namiesto zaokrúhlenej hodnoty jeho strednej 50, dostaneme 50,5. Preto je lepšie ponechať intervaly s opakujúcou sa zaoblenou hranicou a súhlasiť s tým, že populačné jednotky, ktoré majú charakteristickú hodnota rovnajúca sa hranici intervalu, sú zahrnuté v intervale, kde je táto presná hodnota prvýkrát uvedená. Farma s výnosom 15 c/ha je teda zaradená do prvej skupiny, hodnota 20 c/ha do druhej atď.

Ryža. 5.1. Rozdelenie fariem podľa výnosu

Tabuľka 5.6

Rozdelenie regionálnych fariem podľa úrody obilia

skupiny fariem podľa výnosu,

c/ha Xj

Počet fariem

Stred intervalu

c/ha Xj"

Kumulatívna frekvencia f'j

Grafické znázornenie série variácií

Grafické znázornenie poskytuje významnú pomoc pri analýze variačného radu a jeho vlastností. Intervalový rad je znázornený stĺpcovým grafom, v ktorom základne stĺpcov umiestnené na osi x sú intervaly hodnôt meniacej sa charakteristiky a výšky stĺpcov sú frekvencie zodpovedajúce mierke pozdĺž ordináty. os. Grafické znázornenie rozloženia fariem v regióne podľa úrody obilia je na obr. 5.1. Tento typ diagramu sa často nazýva histogram(z gréckeho slova „histos“ - tkanina, štruktúra).

Tabuľkové údaje 5.5 a obr. 5.1 ukazujú distribučný tvar charakteristický pre mnohé charakteristiky: hodnoty priemerných intervalov charakteristiky sú bežnejšie a extrémne hodnoty sú menej bežné; malé a veľké hodnoty charakteristiky. Tvar tohto rozdelenia je blízky zákonu normálneho rozdelenia, o ktorom sme hovorili v kurze matematickej štatistiky. Veľký ruský matematik A. M. Ljapunov (1857 - 1918) dokázal, že normálne rozdelenie vzniká, ak je premenná premenná ovplyvnená veľkým počtom faktorov, z ktorých žiadny nemá prevažujúci vplyv. Náhodná kombinácia mnohých približne rovnakých faktorov ovplyvňujúcich kolísanie úrody obilnín, prírodných aj agrotechnických, ekonomických, vytvára rozloženie fariem v regióne podľa výnosov, ktoré sa približuje zákonu normálneho rozdelenia.

Ak existuje diskrétny variačný rad alebo sa používajú stredné body intervalov, potom sa grafické znázornenie takéhoto radu variácií nazýva mnohouholník(z gréckeho slova - mnohouholník). Každý z vás si tento graf ľahko zostaví spojením bodov so súradnicami rovnými čiarami X, A /.

Odporúčaný pomer výšky mnohouholníka alebo diagramu k jeho základni je približne 5:8.

Pojem frekvencie

Ak je v tabuľke 5.6 vyjadrite počet fariem s danou úrovňou výnosu ako percento z celkového počtu, pričom celý počet fariem (143) beriete ako 100 %, potom sa priemerný výnos môže vypočítať takto:

Kde w- frekvencia 7. kategórie variačného radu;

Kumulatívne rozdelenie

Transformovaná forma variačného radu je množstvo akumulovaných frekvencií, uvedené v tabuľke. 5.6, stĺpec 5. Toto je séria hodnôt pre počet jednotiek populácie s hodnotami charakteristiky, ktoré sú menšie a rovnajú sa spodnej hranici zodpovedajúceho intervalu. Takáto séria je tzv kumulatívne. Môžete vytvoriť kumulatívnu distribúciu „nie menej ako“ alebo môžete vytvoriť distribúciu „viac ako“. V prvom prípade sa nazýva graf kumulatívneho rozdelenia kumulovať, v druhom - ogiva(obr. 5.2).

Hustota, rozloženie

Ak sa musíte vysporiadať s variačným radom s nerovnakými intervalmi, potom kvôli porovnateľnosti musíte znížiť frekvenciu alebo frekvencie na jednotku intervalu. Výsledný vzťah sa nazýva hustota distribúcie:

Hustota distribúcie sa používa na výpočet všeobecných ukazovateľov a na grafické zobrazenie radov variácií s nerovnakými intervalmi.

Ryža. 5.2. Ogiva a kumuluje rozdelenie podľa výnosu

5.7. Štrukturálne charakteristiky variácie riadok

Medián distribúcie

Pri štúdiu variácií sa používajú také charakteristiky variačného radu, ktoré kvantitatívne opisujú jeho štruktúru a štruktúru. Toto je napr. medián- hodnota premenlivého atribútu, ktorý rozdeľuje populáciu na dve rovnaké časti ~ s hodnotami atribútov nižšími ako je medián A s hodnotami atribútov vyššími ako je medián (tretia banka z piatich v tabuľke 5.5, t. j. 196 miliárd rubľov).

Pomocou príkladu tabuľky. Obrázok 5.5 ukazuje zásadný rozdiel medzi mediánom a priemernou hodnotou. Medián nezávisí od hodnôt atribútov na okrajoch zoradeného radu. Aj keby bol kapitál najväčšej banky v Petrohrade desaťkrát väčší, stredná hodnota by sa nezmenila. Medián sa preto často používa ako spoľahlivejší ukazovateľ typickej hodnoty charakteristiky ako aritmetický priemer, ak je rad hodnôt heterogénny a obsahuje ostré odchýlky od priemeru. V tejto sérii sa pod veľkým vplyvom najväčších opcií vytvorila priemerná hodnota vlastného kapitálu rovnajúca sa 269 miliardám rubľov. 80 % bánk má nižší ako priemerný kapitál a iba 20 % viac. Je nepravdepodobné, že takýto priemer možno považovať za typickú hodnotu. Ak je v populácii párny počet jednotiek, aritmetický priemer dvoch centrálnych možností sa berie ako stredná hodnota, napríklad s desiatimi hodnotami atribútu - priemerom piatej a šiestej hodnoty v hodnotená séria.

V sérii intervalových variácií sa na nájdenie mediánu používa vzorec (5.14).

kde Ja je medián;

x 0 - dolná hranica intervalu, v ktorom sa nachádza medián;

f M e-1 - akumulovaná frekvencia v intervale predchádzajúcom mediánu;

f Ja- frekvencia v strednom intervale;

i- veľkosť intervalu;

k - počet skupín.

V tabuľke 5,6 medián je priemer 143 hodnôt, t.j. sedemdesiatsekundová hodnota výnosu od začiatku série. Ako vidno zo série naakumulovaných frekvencií, nachádza sa vo štvrtom intervale. Potom

Pri nepárnom počte populačných jednotiek sa stredný počet, ako vidíme, rovná , ako vo vzorci (5.14), a , ale tento rozdiel je nepodstatný a v praxi sa zvyčajne ignoruje.

V sérii diskrétnych variácií by sa mal medián považovať za hodnotu charakteristiky v skupine, v ktorej je akumulovaná frekvencia;

presahuje polovicu veľkosti populácie. Napríklad pre údaje v tabuľke. 5.1 Medián počtu strelených gólov na zápas je 2.

Distribučné kvartily

Podobne ako pri mediáne sa vypočítajú hodnoty charakteristiky, pričom sa populácia rozdelí na štyri časti s rovnakým počtom jednotiek. Tieto množstvá sa nazývajú kvartily a sú označené veľkým latinským písmenom Q s ikonou čísla podpisového kvartilu. To je jasné Q 2 zhoduje sa so mnou. Pre prvý a tretí kvartil poskytujeme vzorce a výpočty založené na údajoch v tabuľke. 5.6.

Pretože Q 2 = Me = 29,5 c/ha, je zrejmé, že rozdiel medzi prvým kvartilom a mediánom je menší ako medzi mediánom a tretím kvartilom. Táto skutočnosť naznačuje prítomnosť určitej asymetrie v strednej oblasti distribúcie, čo je tiež viditeľné na obr. 5.1.

Charakteristické hodnoty, ktoré rozdeľujú sériu na päť rovnakých častí, sa nazývajú kvintily, na desať častí - decily, za sto dielov - percentily. Keďže tieto charakteristiky sa používajú iba vtedy, keď je potrebné podrobne študovať štruktúru variačných radov, nebudeme uvádzať ich vzorce a výpočty.

Distribučný režim

Dôležitá je nepochybne hodnota charakteristiky, ktorá sa v skúmanom rade vyskytuje v súhrne najčastejšie. Toto množstvo sa zvyčajne nazýva móda a označujú Mo. V diskrétnej sérii sa režim určí bez výpočtu ako hodnota funkcie s najvyššou frekvenciou. Napríklad podľa tabuľky. 5,1 najčastejšie padli 2 góly vo futbalovom zápase - 71 krát. Režim je číslo 2. Zvyčajne existujú série s jednou modálnou hodnotou atribútu. Ak sú v sérii variácií prítomné dve alebo viac rovnakých (a dokonca niekoľko rôznych, ale väčších ako susedných) hodnôt charakteristiky, považuje sa za bimodálnu („ťavovitý“) alebo multimodálnu. To naznačuje heterogenitu populácie, ktorá môže predstavovať súhrn niekoľkých populácií s rôznymi režimami.

Podobne v dave turistov, ktorí pochádzajú z rôznych krajín, namiesto jedného módneho oblečenia, ktoré prevláda medzi miestnymi obyvateľmi, môžete nájsť zmes rôznych „mód“, ktoré si osvojili rôzne národy sveta.

V intervalovom variačnom rade, najmä pri kontinuálnej variácii charakteristiky, prísne vzaté, sa každá hodnota charakteristiky vyskytuje iba raz. Modálny interval je interval s najvyššou frekvenciou.V rámci tohto intervalu sa nachádza podmienená hodnota atribútu, v blízkosti ktorej je hustota distribúcie, t.j. počet populačných jednotiek na jednotku merania rôznej charakteristiky dosahuje maximum. Toto je podmienená hodnota a berie sa do úvahy bodový režim. Je logické predpokladať, že takýto bodový režim sa nachádza bližšie k hraniciam intervalov, za ktorými je frekvencia v susednom intervale väčšia ako frekvencia v intervale za druhou hranicou modálneho intervalu. Odtiaľ máme bežne používaný vzorec (5.15):

Kde X 0 - spodná hranica modálneho intervalu;

f Po - frekvencia v modálnom intervale;

f Po -1 - frekvencia v predchádzajúcom intervale;

f Po +1 - frekvencia v nasledujúcom intervale po modáli;

i - veľkosť intervalu.

Podľa tabuľky. 5.6 vypočítajme režim:

Výpočet režimu v intervalovej sérii je veľmi podmienený. Mo je možné približne určiť graficky (pozri obr. 5.1).

Aritmetický priemer je tiež relevantný pre štúdium štruktúry variačného radu, hoci hlavný význam tohto zovšeobecňujúceho ukazovateľa je odlišný. Pri rozdelení fariem podľa úrody (tabuľka 5.6) sa priemerná úroda vypočítava ako frekvenčne vážený stred intervalov X(podľa vzorca (5.2)):

Vzťah medzi priemerom, mediánom a režimom

Rozdiel medzi aritmetickým priemerom, mediánom a režimom v tomto rozdelení je malý. Ak je rozdelenie v tvare blízke normálnemu zákonu, potom je medián medzi módom a priemernou hodnotou a je bližšie k priemeru ako k módu.

Pre pravostrannú asymetriu X̅ > Ja > Mo;

s ľavostrannou asymetriou X̅ < ja< Mo.

Pre stredne asymetrické rozdelenia platí rovnosť:

5.8. Indikátory veľkosti a intenzity variácie

Absolútne priemerné veľkosti variácií

Ďalšou fázou štúdia variácie vlastnosti v jej celistvosti je meranie charakteristík sily a veľkosti variácie. Najjednoduchšie z nich môžu byť rozsah alebo amplitúda variácie - absolútny rozdiel medzi maximálnymi a minimálnymi hodnotami charakteristiky od hodnôt dostupných v skúmanej populácii. Rozsah variácie sa teda vypočíta podľa vzorca

Keďže veľkosť rozsahu charakterizuje iba maximálny rozdiel v hodnotách charakteristiky, nemôže merať prirodzenú silu jej variácií v celej populácii. Ukazovateľ určený na tento účel musí bez výnimky zohľadňovať a sumarizovať všetky rozdiely v hodnotách charakteristiky v súhrne. Počet takýchto rozdielov sa rovná počtu kombinácií dvoch zo všetkých jednotiek populácie; podľa tabuľky. 5.6 to bude: C^= 10 153. Nie je však potrebné zvažovať, počítať a spriemerovať všetky odchýlky. Jednoduchšie je použiť priemer odchýlok jednotlivých hodnôt atribútu od aritmetickej strednej hodnoty atribútu a je ich len 143. Ale priemerná odchýlka hodnôt atribútu od aritmetickej strednej hodnoty , podľa známej vlastnosti toho druhého je nula. Preto ukazovateľom sily variácie nie je algebraický priemer odchýlok, ale modul priemernej odchýlky:

Podľa tabuľky. 5.6 stredný modul, príp priemerná lineárna odchýlka, v absolútnej hodnote sa vypočíta ako frekvenčne vážená odchýlka modulo stredy intervalov z aritmetického priemeru, t.j. podľa vzorca

To znamená, že v priemere sa úroda v skúmanom súbore fariem odchýlila od priemernej úrody v kraji o 6,85 c/ha. Jednoduchosť výpočtu a interpretácie sú pozitívnymi aspektmi tohto ukazovateľa, ale matematické vlastnosti modulov sú „slabé“: ich nemožno dať do súladu so žiadnym pravdepodobnostným zákonom, vrátane normálneho rozdelenia, ktorého parametrom nie je priemerný modul odchýlok, ale smerodajná odchýlka(v anglických počítačových programoch nazývaných „štandardná odchýlka“, skrátene „s.d.“ alebo jednoducho « s», v rusky hovoriacich jazykoch - SKO). V štatistickej literatúre sa štandardná odchýlka od priemernej hodnoty zvyčajne označuje malým (malým) gréckym písmenom sigma (st) resp. s(pozri kapitolu 7):

pre hodnotené série

pre intervalové série

Podľa tabuľky. 5.6 smerodajná odchýlka úrody zrna bola:

Treba upozorniť, že určité zaokrúhlenie priemernej hodnoty a stredu intervalov, napríklad na celé, má malý vplyv na hodnotu σ, ktorá by bola 8,55 c/ha.

Štandardná odchýlka veľkosti v reálnych populáciách je vždy väčšia ako modul priemernej odchýlky. Pomer (y: A závisí od prítomnosti ostrých, výrazných odchýlok v agregátoch a môže slúžiť ako indikátor „kontaminácie“ agregátu prvkami heterogénnymi s objemom: čím väčší je tento pomer, tým silnejšie je takéto „upchatie“. Pre zákon normálneho rozdelenia σ: a = 1,2.

Koncept rozptylu

Druhá mocnina štandardnej odchýlky udáva hodnotu disperzia σ 2. Disperzný vzorec:

jednoduché (pre nezoskupené údaje):

vážené (pre zoskupené údaje):

Takmer všetky metódy matematickej štatistiky sú založené na disperzii. Pravidlo pre sčítanie odchýlok má veľký praktický význam (pozri kapitolu 6).

Iné miery variácie

Ďalším ukazovateľom sily variácie, ktorý ju charakterizuje nie ako celok, ale iba v jej centrálnej časti, je priemerná štvrťročná vzdialenosť, tie. priemerný rozdiel medzi kvartilmi, nižšie označený ako q:

Rozdeliť poľnohospodárske podniky podľa výnosov v tabuľke. 5.2

q= (36,25 - 25,09): 2 = 5,58 c/ha. Sila variácie v centrálnej časti populácie je zvyčajne menšia ako v celej populácii. Vzťah medzi priemerným modulom odchýlok a priemernou štvrťročnou odchýlkou ​​tiež slúži na štúdium štruktúry variácie: veľká hodnota takéhoto pomeru naznačuje prítomnosť slabo sa meniaceho „jadra“ a vysoko rozptýleného prostredia alebo „halo“. okolo tohto jadra v skúmanej populácii. Pre údaje v tabuľke. pomer 5,6 a: q= 1,23, čo naznačuje mierny rozdiel v sile variácie v centrálnej časti populácie a na jej periférii.

Je potrebné posúdiť intenzitu variácií a porovnať ju v rôznych populáciách a najmä pre rôzne charakteristiky relatívne miery variácie. Vypočítajú sa ako pomer absolútnych ukazovateľov sily variácie, o ktorých sa hovorilo vyššie, k aritmetickej strednej hodnote charakteristiky. Získame nasledujúce ukazovatele:

1) relatívny rozsah variácie p:

2) relatívna odchýlka v module T:

3) variačný koeficient ako relatívna štvorcová odchýlka v:

4) relatívna štvrťročná vzdialenosť d:

Kde q - stredná kvartilová vzdialenosť.

Pre variáciu výťažku podľa údajov v tabuľke. 5.6 tieto ukazovatele sú:

ρ = 42,4: 30,3 = 1,4 alebo 140 %;

T= 6,85: 30,3 = 0,226 alebo 22,6 %;

v = 8,44: 30,3 = 0,279 alebo 27,9 %;

d= 5,58: 30,3 = 0,184 alebo 18,4 %.

Hodnotenie miery intenzity variácie je možné len pre každú jednotlivú charakteristiku populácie určitého zloženia. Pre súbor poľnohospodárskych podnikov možno teda odchýlky vo výnosoch v rovnakom prirodzenom regióne hodnotiť ako slabé v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.

Naopak, rozdiely vo výške v populácii dospelých mužov alebo žien, dokonca aj v miere 7 %, by ľudia mali hodnotiť a vnímať ako silné. Hodnotenie intenzity variácií teda pozostáva z porovnania pozorovanej variácie s nejakou jej obvyklou intenzitou, ktorá sa berie ako štandard. Zvykli sme si, že produktivita, zárobok či príjem na obyvateľa, počet obytných miestností v budove sa môže líšiť niekoľko až desaťnásobne, no rozdiel vo výške ľudí minimálne jedenapolnásobok už vnímame. ako veľmi silný.

Rozdielna sila a intenzita variácií sú spôsobené objektívnymi príčinami. Napríklad predajná cena amerického dolára v komerčných bankách v Petrohrade sa 24. januára 1997 pohybovala od 5675 do 5640 rubľov. s priemernou cenou 5664 rubľov. Relatívny rozsah variácií ρ = 35:5664 = 0,6 %. Takáto malá odchýlka je spôsobená tým, že ak by došlo k výraznému rozdielu v kurze dolára, okamžite by došlo k odlivu kupujúcich z „drahej“ banky do „lacnejších“. Naopak, cena kilogramu zemiakov či hovädzieho mäsa sa v rôznych regiónoch Ruska veľmi líši – o desiatky percent aj viac. Vysvetľuje sa to rôznymi nákladmi na dodanie tovaru z výrobného regiónu do spotrebiteľského regiónu, t.j. príslovie „jalovice cez more stojí pol rubľa, ale rubeľ sa prepravuje“.

5.9. Distribučné momenty a ukazovatele jeho tvar

Centrálne momenty distribúcie

Na ďalšie štúdium povahy variácií sa používajú priemerné hodnoty rôznych stupňov odchýlky jednotlivých hodnôt vlastnosti od jej aritmetického priemeru. Tieto ukazovatele sa nazývajú centrálne body rozdelenia poradia zodpovedajúce stupňu, v akom sú odchýlky zvýšené (tabuľka 5.7), alebo jednoducho momenty (necentrálne momenty sa používajú zriedka a nebudeme ich tu brať do úvahy). Veľkosť tretieho momentu μ- závisí, podobne ako jeho znamienko, od prevahy kladných kociek odchýlok nad zápornými kockami alebo naopak. Pri normálnom a akomkoľvek inom prísne symetrickom rozdelení sa súčet kladných kociek presne rovná súčtu záporných kociek.

Indikátory asymetrie

Na základe momentu tretieho rádu je možné zostrojiť indikátor charakterizujúci stupeň asymetrie rozdelenia:

Ako volal koeficient asymetrie. Dá sa vypočítať zo zoskupených aj nezoskupených údajov. Podľa tabuľky. 5.6 indikátor asymetrie bol:

tie. asymetria je zanedbateľná. Anglický štatistik K. Pearson na základe rozdielu medzi priemernou hodnotou a modusom navrhol ďalší ukazovateľ asymetrie

Tabuľka 5.7

Ústredné momenty

Podľa tabuľky. 5.6 Pearsonov indikátor bol:

Pearsonov index závisí od stupňa asymetrie v strednej časti distribučnej série a index asymetrie, založený na momente tretieho rádu, závisí od extrémnych hodnôt charakteristiky. V našom príklade je teda v strednej časti rozdelenia výraznejšia asymetria, ako vidno z grafu (obr. 5.1). Distribúcie so silnými pravostrannými a ľavostrannými (pozitívnymi a negatívnymi) asymetriami sú znázornené na obr. 5.3.

Charakteristika distribučnej špičatosti

Pomocou momentu štvrtého rádu, ešte zložitejšej vlastnosti distribučného radu ako asymetria, tzv prebytok.


Ryža. 5.3. Asymetria, rozdelenie

Indikátor špičatosti sa vypočíta pomocou vzorca

(5.30)

Kurtóza sa často interpretuje ako „strmosť“ distribúcie, ale je to nepresné a neúplné. Graf distribúcie môže vyzerať ľubovoľne strmo v závislosti od sily variácie vlastnosti: čím je variácia slabšia, tým je krivka distribúcie v danej mierke strmšia. Nehovoriac o tom, že zmenou mierok pozdĺž osi x a ordináty môže byť akékoľvek rozdelenie umelo „strmé“ a „ploché“. Aby sme ukázali, z čoho pozostáva špičatosť rozdelenia a aby sme ju správne interpretovali, je potrebné porovnať série s rovnakou silou variácie (rovnakou hodnotou σ) a rôznymi indikátormi špičatosti. Aby nedošlo k zámene špičatosti s asymetriou, všetky porovnávané série musia byť symetrické. Toto porovnanie je znázornené na obr. 5.4.

Obr.5.4. Kurtóza distribúcií

Pre variačný rad s normálnym rozložením hodnôt i Index špičatosti, vypočítaný pomocou vzorca (5.30), j sa rovná trom.

Takýto ukazovateľ by sa však nemal nazývať výrazom „prebytok“, čo znamená „prebytok“. Pojem „kurtosis“ by sa nemal vzťahovať na samotný pomer podľa vzorca (5.30), ale na porovnanie takéhoto pomeru pre skúmané rozdelenie s hodnotou daného pomeru normálneho rozdelenia, t.j. s hodnotou 3. Odtiaľ sú výsledné vzorce pre ukazovateľ špičatosti, t.j. prekročenia v porovnaní s normálnym rozdelením s rovnakou silou variácie majú tvar:

pre hodnotené série

pre intervalové a diskrétne variačné série

Prítomnosť pozitívnej špičatosti, ako aj predtým zaznamenaný významný rozdiel medzi malou štvrťročnou vzdialenosťou a veľkou štandardnou odchýlkou ​​znamená, že v množstve skúmaných javov existuje „jadro“, ktoré sa mierne líši podľa tejto charakteristiky, obklopené rozptýleným „svätožiarom“. Pri výraznej negatívnej špičatosti takéto „jadro“ vôbec neexistuje.

Na základe hodnôt ukazovateľov asymetrie a špičatosti rozdelenia možno posúdiť blízkosť rozdelenia k normálu, čo môže byť podstatné pre posúdenie výsledkov korelačnej a regresnej analýzy a možnosti pravdepodobnostného hodnotenia prognóz ( pozri kapitoly 7, 8, 9). Rozdelenie možno považovať za normálne, presnejšie, hypotézu o podobnosti skutočného rozdelenia s normálnym nemožno zamietnuť, ak ukazovatele asymetrie a špičatosti neprekračujú svoje dvojité smerodajné odchýlky Stz. Tieto štandardné odchýlky sa vypočítajú pomocou vzorcov:

5.10. Maximálne možné hodnoty Variačné ukazovatele a ich aplikácia

Pri použití akéhokoľvek typu štatistických ukazovateľov je užitočné vedieť, aké sú maximálne možné hodnoty daného ukazovateľa pre skúmaný systém a aký je pomer skutočne pozorovaných hodnôt k maximálnym možným hodnotám. Tento problém je obzvlášť dôležitý pri štúdiu variácií objemových ukazovateľov, ako je objem výroby určitého typu produktu, dostupnosť určitých zdrojov, rozdelenie kapitálových investícií, príjem a zisk. Uvažujme o tejto problematike teoreticky a prakticky na príklade rozloženia produkcie zeleniny medzi poľnohospodárske podniky v regióne.

Je zrejmé, že minimálna možná hodnota variačných ukazovateľov sa dosahuje pri striktne rovnomernom rozdelení objemovej charakteristiky medzi všetky jednotky obyvateľstva, t. j. pri rovnakom objeme produkcie v každom z poľnohospodárskych podnikov. V takomto obmedzujúcom (samozrejme v praxi veľmi nepravdepodobnom) rozdelení neexistuje žiadna odchýlka a všetky ukazovatele a odchýlky sú rovné nule.

Maximálna možná hodnota variačných ukazovateľov sa dosiahne pri takom rozložení objemovej charakteristiky v populácii, v ktorej je celý jej objem sústredený v jednej jednotke populácie; napríklad celý objem produkcie zeleniny je v jednom poľnohospodárskom podniku v kraji, kým v iných farmách nie je produkcia. Pravdepodobnosť takejto extrémne možnej koncentrácie objemu charakteristiky v jednej jednotke populácie nie je taká malá; v každom prípade je oveľa väčšia ako pravdepodobnosť striktne rovnomerného rozdelenia.

Uvažujme variačné ukazovatele pre uvedený hraničný prípad jeho maxima. Označme počet jednotiek obyvateľstva P, priemerná hodnota vlastnosti X̅ , potom bude celkový objem prvku v súhrne vyjadrený ako X̅ P. Celý tento objem je sústredený v jednej jednotke agregátu, tzv Xmax= x̅ p.xmin = 0, z čoho vyplýva, že maximálna hodnota amplitúdy (rozsah variácie) sa rovná:

Na výpočet maximálnych hodnôt priemerných odchýlok modulo a kvadratických zostrojíme tabuľku odchýlok (tabuľka 5.8).

Tabuľka5.8

Maximálne moduly a štvorce odchýlok od priemerumožná variácia

Počty jednotiek populácie

Charakteristické hodnoty

Odchýlky od priemeru

x i - X̅

Deviačné moduly

|x i - x̅|

Štvorcové odchýlky

(Xi- X̅ ) 2

X̅ P

X̅ (P - 1)

-X̅

-X̅

-X̅

X̅ (P - 1)

X̅

X̅

X̅

X̅ 2 (P - 1) 2

X̅ 2

X̅ 2

X̅ 2

X̅ P

2X̅ (P - 1)

X̅ 2 [(P - 1) 2 +(n-1)]

Na základe výrazov v poslednom riadku tabuľky. 5.8 získame nasledovné maximálne možné hodnoty variačných ukazovateľov.

Modul priemernej odchýlky alebo priemerná lineárna odchýlka:

Štandardná odchýlka:

Relatívna modulárna (lineárna) odchýlka:

Variačný koeficient:

Pokiaľ ide o štvrťročnú vzdialenosť, systém s maximálnou možnou variáciou má degenerovanú distribučnú štruktúru atribútu, v ktorej neexistujú („nefungujú“) charakteristiky štruktúry: medián, kvartily a pod.

Na základe získaných vzorcov pre maximálne možné hodnoty hlavných ukazovateľov variácie vyplýva predovšetkým záver o závislosti týchto hodnôt od objemu populácie. P. Táto závislosť je zhrnutá v tabuľke. 5.9.

Najužšie hranice zmeny a slabá závislosť od veľkosti populácie sa nachádzajú v priemernom module a relatívnej lineárnej odchýlke. Naopak, štandardná odchýlka a variačný koeficient silne závisia od počtu populačných jednotiek. Táto závislosť by sa mala brať do úvahy pri porovnávaní intenzity variácií v populáciách rôznych veľkostí. Ak v súbore šiestich podnikov bol variačný koeficient objemu výroby 0,58 a v súbore 20 podnikov bol 0,72, potom je spravodlivé dospieť k záveru, že objem výroby je v druhom súbore nerovnomernejší? Naozaj, v prvom, menšom, to bolo 0,58 : 2,24 = 25,9 % maximálneho možného, ​​t.j. maximálna úroveň koncentrácie výroby v jednom podniku zo šiestich a v druhej, väčšej populácii, bol zistený variačný koeficient len ​​0,72: 4,36 = 16,5 % maximálneho možného.

Tabuľka 5.9

Limitné hodnoty ukazovateľov variácie objemového znaku pri rôznych veľkostiach populácie

Počet agregátov

Maximálne hodnoty ukazovateľov

X̅

X̅

1,5X̅

1,73X̅

1,67X̅

2,24X̅

1,80X̅

3X̅

1,90X̅

4,36X̅

1,96X̅

7X̅

1,98X̅

9,95X̅

2X̅

Takýto ukazovateľ, ako je pomer skutočného priemerného modulu odchýlok k maximálnemu možnému, má tiež praktický význam. Pre súbor šiestich podnikov bol teda tento pomer: 0,47: 1,67 = 0,281 alebo 28,1 %. Interpretácia získaného ukazovateľa je nasledovná: na prechod od sledovaného rozdelenia objemu výroby medzi podniky k rovnomernému rozdeleniu by bolo potrebné prerozdeliť

, alebo 23,4 % z celkovej produkcie v súhrne. Ak stupeň skutočnej koncentrácie výroby (skutočná hodnota σ resp v) tvorí určitý podiel limitnej hodnoty pri monopolizácii výroby v jednom podniku, potom pomer skutočného ukazovateľa k limitnej hodnote môže charakterizovať stupeň koncentrácie (alebo monopolizácie) výroby.

Pri analýze štrukturálnych zmien sa využíva aj pomer skutočných hodnôt ukazovateľov variácie alebo zmeny štruktúry k maximálnym možným hodnotám (pozri kapitolu 11).

1. Jeanie K. Priemerné hodnoty. - M.: Štatistika, 1970.

2. Krivenkova L. N., Yuzbashev M. M. Oblasť existencie variačných ukazovateľov a ich aplikácia // Bulletin of Statistics. - 1991. - č.6. - S. 66-70.

3. Paskhaver I.S. Priemerné hodnoty v štatistikách. - M.: Štatistika. 1979.

4. Shurakov V.V., Dayitbegov D.M. a kol. Automatizované pracovisko pre štatistické spracovanie údajov (kapitola 4. Predbežné štatistické spracovanie údajov). - M.: Financie a štatistika, 1990.

Rozsah– postup na zoradenie akýchkoľvek predmetov vo vzostupnom alebo zostupnom poradí podľa niektorých ich vlastností za predpokladu, že túto vlastnosť majú.

Môžete hodnotiť:

Štát podľa životnej úrovne, pôrodnosti, nezamestnanosti;

Profesie podľa prestíže;

Produkty podľa preferencií spotrebiteľa;

Respondenti podľa politickej činnosti, finančnej situácie;

Hodnotiace objekty sú tie objekty, ktoré sú priamo zoradené. Základné poradie(hodnotiaca vlastnosť) – vlastnosť, podľa ktorej sú objekty zoradené. Ako výsledok zoradenia získame zoradenú sériu, v ktorej je každému objektu priradená vlastná osoba hodnosť– miesto objektu v hodnotenej sérii. Počet miest a podľa toho aj počet hodností v hodnotenej sérii sa rovná počtu objektov.

Typy zoradených sérií:

1) každý objekt má charakteristickú hodnotu, ktorá sa líši od charakteristických hodnôt iných objektov, potom je každému objektu v hodnotenej sérii pridelená vlastná hodnosť odlišná od iného objektu;

2) niekoľko objektov má rovnakú hodnotu atribútu, potom sa týmto objektom v hodnotenej sérii priradia rovnaké hodnotenia vypočítané pomocou určitého vzorca. V tomto prípade sa hodnotená séria nazýva hodnotená séria so súvisiacimi hodnosťami. Pri riešení úloh priradíme prvé miesto najvyššej hodnote atribútu. Príslušné poradie sa vypočíta ako priemer miest obsadených objektmi, ktoré majú rovnakú hodnotu atribútu. Vytvorenie štatistického spojenia pre 2 alebo viac zoradených sérií sa vykonáva pomocou poradové koeficienty komunikácie– také koeficienty, ktoré umožňujú vypočítať stupeň konzistentnosti v klasifikácii rovnakých objektov na dvoch rôznych základoch (atribútoch). Najbežnejší koeficient poradovej korelácie je Spearmanov koeficient ρ.

Predpokladajme, že n objektov je usporiadaných podľa x a podľa y. Nechaj

Miera nezrovnalostí medzi radmi i-tého objektu: d i = R x i - R y i

Vlastnosti:

Zmeny v rozsahu od -1 do 1;

Po = 1, ak existuje úplná konzistentnosť zoradeného radu; hodnosti toho istého objektu podľa dvoch charakteristík sa zhodujú.

Po = -1, ak existuje úplná nekonzistentnosť zoradeného radu; táto situácia nastane, ak poradie poradia má opačný smer: R x i – 1 2 3 4 5; R y i – 5 4 3 2 1.

Poznámka: Dá sa vypočítať pre dva typy rovných (ak má každý objekt svoju vlastnú hodnosť a ak existujú súvisiace hodnosti).

Testovanie hypotézy o štatistickej významnosti ρ-Spearmanovho koeficientu.

H0: pgc = 0

H1: ρ gc ≠ 0

Nulová hypotéza vždy tvrdí, že ρ sa rovná 0. Alternatívna hypotéza vždy tvrdí, že hodnota ρ je iná ako 0.

Úroveň významnosti ako v kontingenčných tabuľkách.

Štát A B IN G D E A Z A
Kvalita života 6,8 7,0 6,5 5,9 4,6 5,7 4,5 5,8 4,0
Nezamestnanosť 20,3 18,0 19,8 23,4 21,6 20,8
Poradie x
Hodnosť y
|d i |
d 2 i
Σ d2 i

τ -Kendall– rozdiel medzi pravdepodobnosťou správneho a nesprávneho poradia dvoch náhodne vybraných pozorovaní zo skupiny za predpokladu, že neexistujú žiadne súvisiace poradia. Vlastnosti:

Zmeny z -1 na 1;

Ak sú charakteristiky x a y štatisticky nezávislé, potom koeficient τ bude 0; ak sa τ rovná 0, neznamená to, že charakteristiky sú štatisticky nezávislé;

Ak sa τ rovná 1, znamená to, že medzi charakteristikami existuje úplná priama štatistická súvislosť alebo sú zoradené série úplne konzistentné; ak sa τ rovná -1, znamená to, že existuje úplný inverzný štatistický vzťah alebo sú zoradené série nekonzistentné.

S je celkový počet dvojíc objektov s dohodnutým správnym poradím pre oba objekty. D je celkový počet dvojíc objektov s nekonzistentným nesprávnym poradím pre oba objekty.

Testovanie hypotézy o štatistickej významnosti koeficientu τ:

H°: τgc = 0

H1: τ gc ≠ 0

Koeficient τ je štatisticky významný, ak je jeho hodnota pre GS iná ako 0.

|Z H | > Zcr => H1

Ak zostrojíme zoradený rad pre malý počet objektov, potom potvrdenie nulovej hypotézy nám hovorí, že musíme študovať väčší počet objektov.

Ak sa študoval dostatočný počet objektov, potom potvrdenie nulovej hypotézy naznačuje, že medzi charakteristikami neexistuje žiadny vzťah.

Koeficient prepojenia viacerých hodnotení

Používa sa v prípadoch, keď je potrebné merať vzťah medzi viac ako 2 zoradenými sériami (napr. keď chceme posúdiť súlad znaleckých posudkov (viac ako 2) pri posudzovaní 1 rovnakých objektov).

S – súčet štvorcových odchýlok hodnôt poradia za riadok od priemerného poradia za celú populáciu. k 2 – počet premenných (počet expertov). n – počet hodnotených objektov.

Pojem zhrnutie, zoskupenie, klasifikácia

Zhrnutie– systematizácia a sumarizácia: správy o počasí, správy z polí. Súhrn vám neumožňuje podrobne analyzovať informácie. Akékoľvek zhrnutie musí byť založené na zoskupení údajov, t.j. najprv zoskupenie a potom zhrnutie údajov.

Zoskupovanie– rozdelenie populácií do viacerých skupín podľa najvýznamnejších charakteristík.

Existujú kvalitatívne a kvantitatívne zoskupenia. Vysoká kvalita- prívlastkový, kvantitatívne– variačný. Variácie sa zase delia na štrukturálne a analytické . Štrukturálne zoskupovanie zahŕňa výpočet špecifickej hmotnosti každej skupiny. Príklad: v podniku je 80 % robotníkov, 20 % administratívnych pracovníkov, z toho 5 % manažérov, 3 % administratívnych pracovníkov, 12 % špecialistov. Cieľ analytické zoskupenia – identifikovať vzťah medzi charakteristikami: dĺžka služby a priemerný zárobok, dĺžka služby a výkon a iné.

Pri vykonávaní zoskupovania je potrebné:

Vykonávanie komplexnej analýzy povahy skúmaného javu;

Identifikácia charakteristiky zoskupenia (jedna alebo niekoľko);

Hranice skupín nastavte tak, aby sa skupiny od seba výrazne líšili a v každej skupine boli kombinované homogénne prvky.

Podľa stupňa zložitosti môžu byť zoskupenia jednoduché a kombinované (na základe charakteristík).

Na základe prvotných informácií sa rozlišujú primárne a sekundárne skupiny, primárny vykonané na základe údajov z počiatočného pozorovania, sekundárne používa údaje z primárneho zoskupenia.

Počet skupín je určený podľa Sturgessovho vzorca:

Kde n- počet skupín, N– všeobecná populácia.

Ak sa použijú rovnaké intervaly, potom intervalová hodnota rovná .

Intervaly môžu byť rovnaké alebo nerovnaké. Tie sa zase delia na tie, ktoré sa menia podľa zákona aritmetickej alebo geometrickej progresie. Prvý a posledný interval môže byť otvorený alebo zatvorený. Uzavreté intervaly zahŕňajú alebo nezahŕňajú hranice intervalov.

Ak sú intervaly uzavreté a nehovorí sa nič o zahrnutí horných hraníc, potom predpokladáme, že sú zahrnuté aj horné hranice.

Ak sú intervaly otvorené, zameriame sa na posledný interval.

Charakteristiku v týchto intervaloch možno merať diskrétne a kontinuálne (t. j. rozdeliť). Pri spojitom znamienku sa hranice zatvoria 1-10, 10-20, 20-30; ak sa charakteristika mení diskrétne, potom je možné použiť nasledujúci zápis: 1 – 10, 11 – 20, 21 – 30.

Ak sú intervaly otvorené, potom sa hodnota posledného intervalu rovná predchádzajúcemu a hodnota prvého sa rovná druhému.

Klasifikácia– zoskupovanie podľa kvalitatívnych kritérií. Je pomerne stabilný, štandardizovaný a schválený štátnymi štatistickými orgánmi.


3.2. Distribučné série: typy a hlavné charakteristiky

Pod blízko distribúcie sa vzťahuje na sériu údajov charakterizujúcich sociálno-ekonomický jav na základe jednej charakteristiky. Ide o najjednoduchší typ zoskupovania na základe dvoch charakteristík.

Distribučné rady sa delia na kvalitatívne a kvantitatívne, zoradené a nezoradené, zoskupené a nezoskupené, s diskrétnym a súvislým rozložením charakteristiky.

Príkladom nezoskupeného, ​​nezaradeného radu platov je mzdový list. Zároveň je možné zoznam zamestnancov zoradiť abecedne alebo podľa personálnych čísel. Príkladom ranked série je zoznam tímov, rebríček tenistov.

Hodnotené série rozdelenie - séria údajov usporiadaných v zostupnom alebo vzostupnom poradí charakteristiky.

Pre zoskupené zoradené série sa rozlišujú tieto charakteristiky: variant, frekvencia alebo frekvencia, kumulovaná a distribučná hustota.

možnosť()– priemerná intervalová hodnota charakteristiky. Pretože Pri vytváraní zoskupenia musí byť splnená zásada rovnomerného rozloženia charakteristiky v každom intervale, potom možno variant vypočítať ako polovicu súčtu hraníc intervalov.

Frekvencia() ukazuje, koľkokrát sa daná hodnota atribútu vyskytuje. Relatívne vyjadrenie frekvencie je frekvencia(.) , t.j. podiel, merná váha súčtu frekvencií.

Kumuluje sa() – akumulovaná frekvencia alebo frekvencia, výpočet na akruálnom základe. Objem, náklady, výnosy sa počítajú kumulatívne, t.j. výkonnostné výsledky.

stôl 1

Zoskupenie prevádzkujúcich úverových inštitúcií
podľa veľkosti základného imania

v roku 2008 v Ruskej federácii

Prvou fázou štatistickej štúdie variácií je konštrukcia variačného radu - usporiadané rozdelenie jednotiek populácie podľa rastúcich (častejšie) alebo klesajúcich (menej často) hodnôt charakteristiky a počítanie počtu jednotiek s konkrétnu hodnotu charakteristiky.

Existujú tri formy variačných radov: zoradené, diskrétne, intervalové. Séria variácií sa často nazýva distribučná séria. Tento termín sa používa pri štúdiu variácií v kvantitatívnych aj nekvantitatívnych znakoch. Distribučný rad je štruktúrnym zoskupením (kapitola 6).

Zoradený rad je zoznam jednotlivých jednotiek populácie vo vzostupnom (zostupnom) poradí podľa sledovanej charakteristiky.

Nižšie sú uvedené informácie o veľkých bankách v Petrohrade, zoradené podľa vlastného kapitálu k 1. októbru 1999.

Názov banky Vlastný kapitál, milióny rubľov.

Banka Baltonexim 169

Banka "Petrohrad" 237

Petrovský 268

Baltské more 290

Promstroybank 1007

Ak je počet populačných jednotiek dostatočne veľký, hodnotená séria sa stáva ťažkopádnou a jej konštrukcia aj s pomocou počítača trvá dlho. V takýchto prípadoch sa variačná séria zostaví zoskupením populačných jednotiek podľa hodnôt študovanej charakteristiky.

Určenie počtu skupín

Počet skupín v sérii diskrétnych variácií je určený počtom skutočne existujúcich hodnôt meniacej sa charakteristiky. Ak charakteristika nadobúda diskrétne hodnoty, ale ich počet je veľmi veľký (napríklad počet hospodárskych zvierat k 1. januáru roka v rôznych poľnohospodárskych podnikoch sa môže pohybovať od nuly do desiatok tisíc kusov), potom sa vytvorí intervalová variačná séria. . Séria intervalových variácií je tiež konštruovaná na štúdium charakteristík, ktoré môžu nadobudnúť akékoľvek celočíselné aj zlomkové hodnoty v oblasti ich existencie. Ide napríklad o ziskovosť predaných výrobkov, náklady na jednotku výroby, príjem na obyvateľa mesta, podiel ľudí s vyšším vzdelaním medzi obyvateľstvom rôznych území a vo všeobecnosti všetky sekundárne charakteristiky, hodnoty ktoré sa vypočítajú vydelením hodnoty jednej primárnej charakteristiky hodnotou inej (pozri kap. 3).

Séria intervalových variácií je tabuľka pozostávajúca z dvoch stĺpcov (alebo riadkov) - intervalov charakteristiky, ktorej variácia sa skúma, a počtu jednotiek populácie spadajúcich do daného intervalu (frekvencií) alebo podielu tohto počtu z celkového počtu. populácie (frekvencie).

Najbežnejšie používané sú dva typy intervalových variačných sérií: rovnako-intervalové a rovnako-frekvenčné. Rovnaký intervalový rad sa používa, ak variácia charakteristiky nie je veľmi silná, t.j. pre homogénnu populáciu, ktorej rozdelenie podľa tejto charakteristiky je blízke normálnemu zákonu. (Takýto rad je uvedený v tabuľke 5.6.) Rovnofrekvenčný rad sa používa, ak je zmena charakteristiky veľmi silná, ale rozdelenie nie je normálne, ale napríklad hyperbolické (tabuľka 5.5).

Pri konštrukcii rovnointervalového radu sa počet skupín volí tak, aby sa dostatočne odrážala diverzita hodnôt atribútov v súhrne a zároveň nedošlo k skresleniu distribučného vzoru náhodnými frekvenčnými výkyvmi. Ak je skupín príliš málo, vzor variácie sa nezobrazí; ak je skupín príliš veľa, náhodné frekvenčné skoky skreslia tvar rozloženia.


Hranice intervalov môžu byť špecifikované rôznymi spôsobmi: horná hranica predchádzajúceho intervalu opakuje spodnú hranicu nasledujúceho, ako je uvedené v tabuľke. 5.5, alebo sa neopakuje.

V druhom prípade bude druhý interval označený ako 15,1-20, tretí - ako 20,1-25 atď., t.j. Predpokladá sa, že všetky hodnoty výnosov musia byť zaokrúhlené na jednu desatinu. Okrem toho vzniká nežiaduca komplikácia so stredom intervalu 15,1-20, ktorý sa už striktne povedané nebude rovnať 17,5, ale 17,55; podľa toho, keď nahradíme zaokrúhlený interval 40-60 40,1-60 namiesto zaokrúhlenej hodnoty jeho strednej 50, dostaneme 50,5. Preto je výhodné ponechať intervaly s opakujúcou sa zaoblenou hranicou a súhlasiť s tým, že jednotky populácie s charakteristickou hodnotou rovnajúcou sa hranici intervalu sú zahrnuté v intervale, kde je táto presná hodnota prvýkrát uvedená. Farma s výnosom rovnajúcim sa 15 c/ha je teda zaradená do prvej skupiny, hodnota 20 c/ha - do druhej atď.

Rovnofrekvenčný variačný rad je potrebný, ak existuje veľmi silná variácia charakteristiky, pretože pri rovnomernom intervalovom rozložení sa väčšina jednotiek v populácii objavuje

Tabuľka 5.5

Rozdelenie 100 ruských bánk podľa súvahového ocenenia aktív k 1. 1. 2000.

Hranice intervalov pre rovnomerné rozdelenie frekvencie sú skutočné hodnoty aktív prvej, desiatej, jedenástej, dvadsiatej atď.

Grafické znázornenie série variácií

Grafické znázornenie poskytuje významnú pomoc pri analýze variačného radu a jeho vlastností. Intervalový rad je znázornený stĺpcovým grafom, v ktorom základne stĺpcov umiestnené na osi x sú intervaly hodnôt meniacej sa charakteristiky a výšky stĺpcov sú frekvencie zodpovedajúce mierke pozdĺž ordináty. os. Grafické znázornenie rozloženia fariem v regióne podľa úrody obilia je na obr. 5.1. Diagram tohto druhu sa často nazýva histogram (gr. histos - tkanivo).

Tabuľkové údaje 5.6 a obr. 5.1 ukazujú distribučný tvar charakteristický pre mnohé charakteristiky: hodnoty priemerných intervalov charakteristiky sú bežnejšie a extrémne, malé a veľké hodnoty charakteristiky sú menej bežné. Tvar tohto rozdelenia je blízky zákonu normálneho rozdelenia, o ktorom sme hovorili v kurze matematickej štatistiky. Veľký ruský matematik A. M. Ljapunov (1857-1918) dokázal, že normálne

Tabuľka 5.6 Rozdelenie regionálnych fariem podľa úrody obilia

Malé rozdelenie vzniká, ak je premenná ovplyvnená veľkým počtom faktorov, z ktorých žiadny nemá prevažujúci vplyv. Náhodná kombinácia mnohých približne rovnakých faktorov ovplyvňujúcich odchýlky vo úrode obilnín, prírodných aj agrotechnických, ekonomických, vytvára rozdelenie fariem v regióne podľa výnosov, ktoré sa približuje zákonu normálneho rozdelenia.

Ryža. 5.2. Kumuluje a určuje rozdelenie fariem podľa výnosu

Takáto séria sa nazýva kumulatívna. Môžete vytvoriť kumulatívnu distribúciu „nie menej ako“ alebo môžete vytvoriť distribúciu „viac ako“. V prvom prípade sa graf kumulatívneho rozdelenia nazýva kumulovaný, v druhom - ogive (obr. 5.2).

Hustota distribúcie

Ak sa musíte vysporiadať s variačným radom s nerovnakými intervalmi, potom kvôli porovnateľnosti musíte znížiť frekvenciu alebo frekvenciu na jednotku intervalu. Výsledný pomer sa nazýva distribučná hustota:

Hustota distribúcie sa používa na výpočet všeobecných ukazovateľov a na grafické zobrazenie radov variácií s nerovnakými intervalmi.

produkcia zemiakov sa umiestnila štatisticky

Na základe ukazovateľov v tabuľke 2 zostavujeme zoradené riadky produkcie zemiakov na 100 hektárov ornej pôdy; podľa výnosu zemiakov; za cenu. Vzťah medzi týmito ukazovateľmi znázorňujeme graficky.

Prvou fázou štatistickej štúdie variácie je konštrukcia variačného radu - usporiadané rozdelenie jednotiek populácie podľa rastúcich (častejšie) alebo klesajúcich (menej často) hodnôt atribútu.

Existujú tri formy variačných radov: zoradené série, diskrétne série, intervalové série. Séria variácií sa často nazýva distribučná séria.

Zoradený rad je zoznam jednotlivých jednotiek populácie vo vzostupnom (zostupnom) poradí podľa študovanej charakteristiky.

Ranking je postup na usporiadanie predmetov štúdia, ktorý sa vykonáva na základe preferencie. Rozsah variácií ukazuje, aký veľký je rozdiel medzi jednotkami v populácii.

Poradie je poradové číslo hodnôt atribútov usporiadaných vzostupne alebo zostupne podľa ich hodnôt. Ak má hodnota charakteristiky rovnaké kvantitatívne hodnotenie, potom sa poradie všetkých týchto hodnôt považuje za rovné aritmetickému priemeru zodpovedajúceho počtu miest, ktoré sú určené. Tieto rady sa nazývajú spojené.

Grafy v štatistike predstavujú spôsob vizuálneho zobrazenia štatistických ukazovateľov vo forme geometrických tvarov a znakov, nákresov alebo schematických máp. Vizuálny obraz uľahčuje vnímanie informácií, umožňuje zachytiť súbor ukazovateľov vo vzájomnom vzťahu, identifikovať vývojové trendy a typické pomery ukazovateľov.

Na zobrazenie indikátorov dynamiky je vhodné použiť čiarové grafy alebo stĺpcové grafy. Harmonogram by mal byť vizuálny, zrozumiteľný, ľahko čitateľný a podľa možnosti výtvarne spracovaný, čím upúta pozornosť.

Pri konštrukcii rozptylových diagramov sa ako grafické vzorky používa množina bodov; pri konštrukcii lineárnych - línií. Mapovanie je vždy tvorivý proces. Tu je potrebné nejaké vyhľadávanie. Až po zostavení a porovnaní niekoľkých verzií konceptov môžete určiť správne zloženie grafu, nastaviť mierku a umiestnenie znakov na poli grafu.

Z poradového radu produkcie zemiakov na 100 hektárov ornej pôdy môžeme vyvodiť nasledujúci záver, že najnižšiu produkciu má okres Balagansky a najvyššiu produktivitu zemiakov na 100 hektárov ornej pôdy má okres Angarsky.

Najnižšia úroda bola v okrese Kachugsky - 10 c/ha a najvyššia v Usolskom - 195,5 c/ha.

V regióne Chunsky s vysokou produkciou zemiakov na 100 hektárov ornej pôdy zodpovedali najnižšie náklady 1 c. Maximálne náklady sa pozorujú v regióne Nizhne-Ilimsky. Rozsah variácií nákladovej ceny sto hmotnosti zemiakov je veľmi veľký a rovná sa 1161,01 rubľov.

Iné publikácie

Analýza ekonomickej činnosti podniku
Prechod na trhovú ekonomiku vyžaduje od podniku zvýšenie efektívnosti výroby, konkurencieschopnosti výrobkov a služieb na základe zavádzania efektívnych foriem riadenia podniku a riadenia výroby, úspechov vedecko-technického pokroku, zintenzívnenia...

Analýza finančnej a ekonomickej činnosti spoločnosti JSC TransContainer
Finančná analýza je proces založený na štúdiu údajov o finančnej situácii podniku a jeho minulej výkonnosti s cieľom posúdiť budúce podmienky a výkonnosť. Hlavnou úlohou finančnej analýzy je teda...

KATEGÓRIE

POPULÁRNE ČLÁNKY

2023 „kingad.ru“ - ultrazvukové vyšetrenie ľudských orgánov