Vytvorte sériu distribúcie intervalových variácií. Štatistické zhrnutie a zoskupenie

Ak je skúmaná náhodná premenná spojitá, potom klasifikácia a zoskupovanie pozorovaných hodnôt často neumožňuje identifikovať charakteristické črty variácie jej hodnôt. Vysvetľuje to skutočnosť, že jednotlivé hodnoty náhodnej premennej sa môžu od seba líšiť tak málo, ako je to žiaduce, a preto sa v súhrne pozorovaných údajov zriedkavo môžu vyskytnúť rovnaké hodnoty množstva a frekvencie varianty sa od seba málo líšia.

Je tiež nepraktické zostaviť diskrétnu sériu pre diskrétnu náhodnú premennú, ktorej počet možných hodnôt je veľký. V takýchto prípadoch by ste mali stavať intervalové variačné série distribúcie.

Na vytvorenie takejto série je celý interval variácií pozorovaných hodnôt náhodnej premennej rozdelený do série čiastkové intervaly a počítanie frekvencie výskytu hodnôt hodnôt v každom čiastočnom intervale.

Intervalové variačné série volajte usporiadanú množinu intervalov rôznych hodnôt náhodnej premennej so zodpovedajúcimi frekvenciami alebo relatívnymi frekvenciami hodnôt premennej, ktoré spadajú do každej z nich.

Na zostavenie intervalovej série potrebujete:

  1. definovať veľkosť čiastočné intervaly;
  2. definovať šírka intervaly;
  3. nastavte ho pre každý interval top A nižší limit ;
  4. zoskupte výsledky pozorovania.

1 . O otázke výberu počtu a šírky intervalov zoskupovania je potrebné rozhodnúť v každom konkrétnom prípade na základe Ciele výskum, objem vzorky a stupeň variácie charakteristika vo vzorke.

Približný počet intervalov k možno odhadnúť len na základe veľkosti vzorky n jedným z nasledujúcich spôsobov:

  • podľa vzorca Sturges : k = 1 + 3,32 log n ;
  • pomocou tabuľky 1.

stôl 1

2 . Vo všeobecnosti sú preferované priestory rovnakej šírky. Na určenie šírky intervalov h vypočítať:

  • rozsah variácií R - vzorové hodnoty: R = x max - x min ,

Kde xmax A xmin - možnosti maximálneho a minimálneho odberu vzoriek;

  • šírka každého intervalu h určuje sa podľa nasledujúceho vzorca: h = R/k .

3 . Spodná čiara prvý interval x h1 je vybratá tak, že možnosť minimálnej vzorky xmin klesol približne v strede tohto intervalu: x h1 = x min - 0,5 h .

Stredné intervaly získaná pripočítaním dĺžky čiastkového intervalu ku koncu predchádzajúceho intervalu h :

x hi = x hi-1 + h.

Konštrukcia intervalovej stupnice na základe výpočtu hraníc intervalov pokračuje až do hodnoty x ahoj vyhovuje vzťahu:

x ahoj< x max + 0,5·h .

4 . V súlade s intervalovou stupnicou sú charakteristické hodnoty zoskupené - pre každý čiastkový interval sa vypočíta súčet frekvencií n i možnosť zahrnutá v i interval. V tomto prípade interval zahŕňa hodnoty náhodnej premennej, ktoré sú väčšie alebo rovné dolnej hranici a menšie ako horná hranica intervalu.

Polygón a histogram

Pre prehľadnosť sú zostavené rôzne štatistické grafy rozdelenia.

Na základe údajov zo série diskrétnych variácií sa konštruujú mnohouholník frekvencie alebo relatívnej frekvencie.

Frekvenčný polygón x 1 ; n 1 ), (x 2 ; n 2 ), ..., (x k ; n k ). Na vytvorenie frekvenčného mnohouholníka sú možnosti vynesené na osi x. x i a na zvislej osi - zodpovedajúce frekvencie n i . Body ( x i ; n i ) sú spojené priamymi segmentmi a získa sa frekvenčný mnohouholník (obr. 1).

Mnohouholník relatívnych frekvencií nazývaná prerušovaná čiara, ktorej segmenty spájajú body ( x 1 ; W 1 ), (x 2 ; W 2 ), ..., (x k ; Wk ). Na vytvorenie mnohouholníka relatívnych frekvencií sú možnosti vynesené na osi x x i a na zvislej osi - zodpovedajúce relatívne frekvencie W i . Body ( x i ; W i ) sú spojené priamymi segmentmi a získa sa mnohouholník relatívnych frekvencií.

Kedy súvislý znak je vhodné postaviť histogram .

Histogram frekvencie nazývaný stupňovitý útvar pozostávajúci z obdĺžnikov, ktorých základňami sú čiastkové intervaly dĺžky h a výšky sa rovnajú pomeru NIH (hustota frekvencie).

Na zostavenie frekvenčného histogramu sa na os x rozložia čiastkové intervaly a nad nimi sa v určitej vzdialenosti nakreslia segmenty rovnobežné s osou x. NIH .

Počet skupín (intervaly) je približne určená Sturgessovým vzorcom:

m = 1 + 3,322 × log(n)

kde n je celkový počet jednotiek pozorovania (celkový počet prvkov v populácii atď.), log(n) je dekadický logaritmus n.

Prijaté podľa Sturgessovho vzorca sa hodnota zvyčajne zaokrúhľuje na najbližšie celé čísločísla, pretože počet skupín nemôže byť zlomkové číslo.

Ak intervalový rad s toľkými skupinami nie je pre niektoré kritériá vyhovujúci, môžete vytvoriť ďalší intervalový rad zaokrúhlením m na menšie celé číslo a z dvoch riadkov vyberte ten vhodnejší.

Počet skupín by nemal byť vyšší ako 15.

Nasledujúcu tabuľku môžete použiť aj vtedy, ak nie je možné vypočítať desatinný logaritmus vôbec.

    Určenie šírky intervalu

Šírka intervalu pre intervalový variačný rad s rovnakými intervalmi je určený vzorcom:

kde X max je maximum z hodnôt x i, X min je minimum z hodnôt x i; m - počet skupín (intervalov).

Veľkosť intervalu (i ) sa zvyčajne zaokrúhľuje na najbližšie celé číslo, jedinou výnimkou sú prípady, keď sa študujú najmenšie výkyvy charakteristiky (napríklad pri zoskupovaní častí podľa veľkosti odchýlok od menovitej hodnoty, meranej v zlomkoch milimetra).

Často sa používa nasledujúce pravidlo:

Počet desatinných miest

Niekoľko symbolov za čiarkou

Príklad šírky intervalu pomocou vzorca

Na aké znamenie zaokrúhľujeme?

Príklad zaoblenej šírky rozstupu

    Určenie hraníc intervalov

Nižší limit prvý interval sa berie rovná minimálnej hodnote atribútu (najčastejšie sa najskôr zaokrúhľuje na menšie celé číslo s rovnakým poradím ako je šírka intervalu). Napríklad x min = 15, i = 130, x n prvého intervalu = 10.

x n1 ≈ x min

Horná hranica prvý interval zodpovedá hodnote (Xmin + i).

Dolná hranica druhého intervalu sa vždy rovná hornej hranici prvého intervalu. Pre nasledujúce skupiny sa hranice určujú podobne, to znamená, že hodnota intervalu sa postupne pridáva.

X V i = x n i +i

X n i = x V i-1

    Určte frekvencie intervalov.

Spočítame, koľko hodnôt spadá do každého intervalu. Zároveň si pamätáme, že ak má jednotka charakteristickú hodnotu rovnajúcu sa hodnote hornej hranice intervalu, potom by mala byť priradená k ďalšiemu intervalu.

    Zostavíme intervalový rad vo forme tabuľky.

    Určite stredy intervalov.

Pre ďalšiu analýzu série intervalov budete musieť vybrať charakteristickú hodnotu pre každý interval. Táto hodnota atribútu bude spoločná pre všetky jednotky pozorovania spadajúce do tohto intervalu. Tie. jednotlivé prvky „stratia“ svoje individuálne hodnoty atribútov a je im priradená jedna spoločná hodnota atribútu. Tento všeobecný význam je stred intervalu, ktorý je označený X" i .

Na príklade rastu detí sa pozrime na to, ako zostrojiť intervalový rad s rovnakými intervalmi.

K dispozícii sú počiatočné údaje.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

V mnohých prípadoch, keď štatistická populácia zahŕňa veľké alebo ešte viac nekonečné množstvo variantov, čo sa najčastejšie vyskytuje s kontinuálnou variáciou, je prakticky nemožné a nepraktické vytvoriť skupinu jednotiek pre každý variant. V takýchto prípadoch je spájanie štatistických jednotiek do skupín možné len na základe intervalu, t.j. taká skupina, ktorá má určité limity pre hodnoty rôznej charakteristiky. Tieto limity sú označené dvomi číslami označujúcimi horný a dolný limit každej skupiny. Použitie intervalov vedie k vytvoreniu intervalového distribučného radu.

Interval rad je variačný rad, ktorého varianty sú prezentované vo forme intervalov.

Intervalový rad možno tvoriť s rovnakými a nerovnakými intervalmi, pričom výber princípu konštrukcie tohto radu závisí najmä od stupňa reprezentatívnosti a vhodnosti štatistickej populácie. Ak je populácia dostatočne veľká (reprezentatívna) čo do počtu jednotiek a je svojím zložením úplne homogénna, potom je vhodné založiť tvorbu intervalového radu na rovnosti intervalov. Zvyčajne sa pomocou tohto princípu vytvorí intervalový rad pre tie populácie, kde je rozsah variácie relatívne malý, t.j. maximálna a minimálna možnosť sa od seba zvyčajne niekoľkokrát líšia. V tomto prípade sa hodnota rovnakých intervalov vypočíta ako pomer rozsahu variácie charakteristiky k danému počtu vytvorených intervalov. Na určenie rovného A interval, možno použiť Sturgessov vzorec (zvyčajne s malou variáciou intervalových charakteristík a veľkým počtom jednotiek v štatistickej populácii):

kde x i - hodnota rovnakého intervalu; X max, X min - maximálne a minimálne možnosti v štatistickom agregáte; n . - počet jednotiek v súhrne.

Príklad. Odporúča sa vypočítať veľkosť rovnakého intervalu podľa hustoty rádioaktívnej kontaminácie céziom - 137 v 100 osadách Krasnopolského okresu v regióne Mogilev, ak je známe, že počiatočná (minimálna) možnosť sa rovná 1 km / km 2, konečná ( maximum) - 65 ki/km 2. Použitie vzorca 5.1. dostaneme:

V dôsledku toho, aby sa vytvoril intervalový rad s rovnakými intervalmi z hľadiska hustoty kontaminácie céziou - 137 sídiel v Krasnopolskom kraji, veľkosť rovnakého intervalu môže byť 8 ki/km 2 .

Za podmienok nerovnomerného rozdelenia, t.j. keď sú maximálne a minimálne možnosti stonásobné, pri vytváraní intervalových radov môžete použiť princíp nerovný intervaloch. Nerovnaké intervaly sa zvyčajne zväčšujú, keď prechádzame k väčším hodnotám charakteristiky.

Tvar intervalov môže byť uzavretý alebo otvorený. ZATVORENÉ Je zvykom volať intervaly, ktoré majú spodnú aj hornú hranicu. OTVORENÉ intervaly majú len jednu hranicu: v prvom intervale je horná hranica, v poslednom je dolná hranica.

Je vhodné hodnotiť intervalové série, najmä pri nerovnakých intervaloch, s prihliadnutím hustota distribúcie, najjednoduchší spôsob, ako vypočítať, aký je pomer lokálnej frekvencie (alebo frekvencie) k veľkosti intervalu.

Na praktické vytvorenie intervalovej série môžete použiť rozloženie tabuľky. 5.3.

Tabuľka 5.3. Postup pri vytváraní intervalových radov sídiel v Krasnopolskom kraji podľa hustoty rádioaktívnej kontaminácie céziom –137

Hlavnou výhodou intervalového radu je jeho maximum kompaktnosť. zároveň sú v intervalových distribučných radoch jednotlivé varianty charakteristiky skryté v zodpovedajúcich intervaloch

Pri grafickom znázornení intervalového radu v systéme pravouhlých súradníc sa horné hranice intervalov vynesú na vodorovnú os a lokálne frekvencie radu sa vynesú na zvislú os. Grafická konštrukcia intervalového radu sa líši od konštrukcie distribučného mnohouholníka v tom, že každý interval má dolnú a hornú hranicu a dve osi x zodpovedajú jednej ordinátnej hodnote. Preto na grafe intervalového radu nie je vyznačený bod ako v mnohouholníku, ale priamka spájajúca dva body. Tieto vodorovné čiary sú navzájom spojené zvislými čiarami a získa sa obrazec stupňovitého mnohouholníka, ktorý sa bežne nazýva histogram rozdelenie (obr. 5.3).

Pri grafickom zostrojení intervalového radu pre dostatočne veľkú štatistickú populáciu sa približuje histogram symetrické forma distribúcie. V prípadoch, keď je štatistický súbor spravidla malý, asymetrické stĺpcový graf.

V niektorých prípadoch je vhodné vytvoriť sériu akumulovaných frekvencií, t.j. kumulatívne riadok. Kumulatívna séria môže byť vytvorená na základe diskrétnej alebo intervalovej distribučnej série. Pri grafickom znázornení kumulatívneho radu v systéme pravouhlých súradníc sa varianty vynesú na vodorovnú os a akumulované frekvencie (frekvencie) sa vynesú na zvislú os. Výsledná zakrivená čiara sa zvyčajne nazýva kumulatívne rozdelenie (obr. 5.4).

Tvorba a grafické znázornenie rôznych typov variačných radov prispieva k zjednodušenému výpočtu hlavných štatistických charakteristík, ktoré sú podrobne rozobraté v téme 6, a pomáha lepšie pochopiť podstatu distribučných zákonov štatistickej populácie. Analýza radu variácií nadobúda osobitný význam v prípadoch, keď je potrebné identifikovať a sledovať vzťah medzi možnosťami a frekvenciami (frekvenciami). Táto závislosť sa prejavuje v tom, že počet prípadov na opciu určitým spôsobom súvisí s veľkosťou tejto opcie, t.j. s rastúcimi hodnotami meniacej sa charakteristiky, frekvencie (frekvencie) týchto hodnôt zažívajú určité, systematické zmeny. To znamená, že čísla v stĺpci frekvencia (frekvencia) nekolísajú chaoticky, ale menia sa v určitom smere, v určitom poradí a postupnosti.

Ak frekvencie vykazujú určitú systematickosť vo svojich zmenách, potom to znamená, že sme na ceste k identifikácii vzoru. Systém, poriadok, postupnosť zmien vo frekvenciách je odrazom všeobecných príčin, všeobecných podmienok charakteristických pre celú populáciu.

Nemalo by sa predpokladať, že distribučný vzor je vždy uvedený v hotovej forme. Existuje pomerne veľa variačných sérií, v ktorých frekvencie bizarne skáču, niekedy sa zvyšujú, inokedy klesajú. V takýchto prípadoch je vhodné zistiť, s akým druhom distribúcie sa výskumník zaoberá: buď táto distribúcia nemá vôbec žiadne inherentné vzorce, alebo jej povaha ešte nebola odhalená: Prvý prípad je zriedkavý, ale druhý prípad je pomerne častým a veľmi rozšíreným javom.

Takže pri vytváraní intervalového radu môže byť celkový počet štatistických jednotiek malý a každý interval obsahuje malý počet variantov (napríklad 1-3 jednotky). V takýchto prípadoch nemožno počítať s prejavom akéhokoľvek vzoru. Aby sa na základe náhodných pozorovaní dosiahol prirodzený výsledok, musí vstúpiť do platnosti zákon veľkých čísel, t.j. aby pre každý interval nebolo niekoľko, ale desiatky a stovky štatistických jednotiek. Na tento účel sa musíme snažiť čo najviac zvýšiť počet pozorovaní. Toto je najistejší spôsob, ako odhaliť vzory v hromadných procesoch. Ak neexistuje reálna príležitosť na zvýšenie počtu pozorovaní, identifikáciu vzoru možno dosiahnuť znížením počtu intervalov v distribučnom rade. Znížením počtu intervalov v sérii variácií sa tým zvýši počet frekvencií v každom intervale. To znamená, že náhodné fluktuácie každej štatistickej jednotky sa navzájom prekrývajú, „vyhladzujú“ a menia sa na vzor.

Tvorba a konštrukcia variačných radov nám umožňuje získať len všeobecný, približný obraz o rozložení štatistickej populácie. Napríklad histogram len v hrubej forme vyjadruje vzťah medzi hodnotami charakteristiky a jej frekvenciami (frekvenciami). Variačné rady sú preto v podstate len základom pre ďalšie, hĺbkové štúdium vnútornej zákonitosti statického distribúcia.

TESTOVACIE OTÁZKY K TÉME 5

1. Čo je variácia? Čo spôsobuje variáciu vlastnosti v štatistickej populácii?

2. Aké typy rôznych charakteristík sa môžu vyskytnúť v štatistike?

3. Čo je to variačná séria? Aké typy variačných sérií môžu existovať?

4. Čo je to hodnotená séria? Aké sú jeho výhody a nevýhody?

5. Čo je to diskrétny rad a aké sú jeho výhody a nevýhody?

6. Aký je postup pri tvorbe intervalového radu, aké sú jeho výhody a nevýhody?

7. Čo je to grafické znázornenie zoradených, diskrétnych, intervalových distribučných radov?

8. Čo je to kumulácia distribúcie a čo charakterizuje?

Matematické štatistiky- odbor matematiky venovaný matematickým metódam spracovania, systematizácie a využívania štatistických údajov na vedecké a praktické závery.

3.1. ZÁKLADNÉ POJMY MATEMATICKEJ ŠTATISTIKY

V medicínskych a biologických problémoch je často potrebné študovať distribúciu určitej charakteristiky pre veľmi veľký počet jedincov. Táto vlastnosť má pre rôznych jedincov rôzne významy, takže ide o náhodnú premennú. Napríklad každé terapeutické liečivo má rôznu účinnosť, keď sa aplikuje na rôznych pacientov. Aby sme však získali predstavu o účinnosti tohto lieku, nie je potrebné ho aplikovať každý chorý. Je možné vysledovať výsledky užívania lieku na relatívne malej skupine pacientov a na základe získaných údajov identifikovať podstatné znaky (účinnosť, kontraindikácie) liečebného procesu.

Populácia- súbor homogénnych prvkov charakterizovaných nejakým skúmaným atribútom. Toto znamenie je nepretržitý náhodná veličina s hustotou distribúcie f(x).

Ak nás napríklad zaujíma prevalencia ochorenia v určitom regióne, potom všeobecná populácia je celá populácia regiónu. Ak chceme zistiť náchylnosť mužov a žien na túto chorobu oddelene, mali by sme zvážiť dve všeobecné populácie.

Na štúdium vlastností bežnej populácie sa vyberie určitá časť jej prvkov.

Ukážka- časť bežnej populácie vybraná na vyšetrenie (liečbu).

Ak to nespôsobí zmätok, potom sa vzorka nazýva ako súbor predmetov, vybraných do prieskumu a totality

hodnotyštudovaná charakteristika získaná počas vyšetrenia. Tieto hodnoty môžu byť reprezentované niekoľkými spôsobmi.

Jednoduchý štatistický rad - hodnoty sledovanej charakteristiky zaznamenané v poradí, v akom boli získané.

Príklad jednoduchej štatistickej série získanej meraním rýchlosti povrchovej vlny (m/s) v koži čela u 20 pacientov je uvedený v tabuľke. 3.1.

Tabuľka 3.1.Jednoduchý štatistický rad

Jednoduchý štatistický rad je hlavným a najúplnejším spôsobom zaznamenávania výsledkov prieskumu. Môže obsahovať stovky prvkov. Je veľmi ťažké pozrieť sa na takú totalitu jedným pohľadom. Preto sú veľké vzorky zvyčajne rozdelené do skupín. Na tento účel je oblasť zmeny charakteristiky rozdelená na niekoľko (N) intervaloch rovnakú šírku a vypočítajte relatívne početnosti (n/n) atribútu spadajúceho do týchto intervalov. Šírka každého intervalu je:

Hranice intervalov majú nasledujúci význam:

Ak je ľubovoľný prvok vzorky hranicou medzi dvoma susednými intervalmi, potom je klasifikovaný ako vľavo interval. Takto zoskupené dáta sa nazývajú intervalový štatistický rad.

je tabuľka, ktorá zobrazuje intervaly hodnôt atribútov a relatívnu frekvenciu výskytu atribútu v rámci týchto intervalov.

V našom prípade môžeme zostaviť napríklad nasledujúci intervalový štatistický rad (N = 5, d= 4), tabuľka. 3.2.

Tabuľka 3.2.Intervalové štatistické rady

Tu interval 28-32 obsahuje dve hodnoty rovné 28 (tabuľka 3.1) a interval 32-36 obsahuje hodnoty 32, 33, 34 a 35.

Intervalový štatistický rad možno znázorniť graficky. Na tento účel sa intervaly hodnôt atribútov vykreslia pozdĺž osi x a na každej z nich, ako na základni, sa vytvorí obdĺžnik s výškou rovnajúcou sa relatívnej frekvencii. Výsledný stĺpcový graf sa nazýva histogram.

Ryža. 3.1. stĺpcový graf

V histograme sú štatistické vzorce distribúcie charakteristiky celkom jasne viditeľné.

Pri veľkej veľkosti vzorky (niekoľko tisíc) a malých šírkach stĺpcov sa tvar histogramu približuje tvaru grafu hustota distribúcie znamenie.

Počet stĺpcov histogramu je možné zvoliť pomocou nasledujúceho vzorca:

Manuálne vytvorenie histogramu je dlhý proces. Preto boli vyvinuté počítačové programy na ich automatické zostavovanie.

3.2. ČÍSELNÉ CHARAKTERISTIKY ŠTATISTICKÝCH RADOV

Mnohé štatistické postupy používajú vzorové odhady pre očakávanú populáciu a rozptyl (alebo MSE).

Ukážkový priemer(X) je aritmetický priemer všetkých prvkov jednoduchého štatistického radu:

Pre náš príklad X= 37,05 (m/s).

Vzorový priemer jenajlepšívšeobecný priemerný odhadM.

Vzorový rozptyl s 2 rovná súčtu štvorcových odchýlok prvkov od priemeru vzorky, delené o n- 1:

V našom príklade s2 = 25,2 (m/s)2.

Upozorňujeme, že pri výpočte rozptylu vzorky nie je menovateľom vzorca veľkosť vzorky n, ale n-1. Je to spôsobené tým, že pri výpočte odchýlok vo vzorci (3.3) sa namiesto neznámeho matematického očakávania používa jeho odhad - vzorový priemer.

Vzorový rozptyl je najlepší odhad všeobecného rozptylu (σ 2).

Štandardná odchýlka vzorky(s) je druhá odmocnina rozptylu vzorky:

Pre náš príklad s= 5,02 (m/s).

Selektívne odmocnina stredná štvorec odchýlka je najlepší odhad všeobecnej štandardnej odchýlky (σ).

S neobmedzeným nárastom veľkosti vzorky majú všetky charakteristiky vzorky tendenciu k zodpovedajúcim charakteristikám všeobecnej populácie.

Na výpočet charakteristík vzorky sa používajú počítačové vzorce. V Exceli tieto výpočty vykonávajú štatistické funkcie AVERAGE, VARIANCE. ŠTANDARDNÁ ODCHÝLKA

3.3. INTERVALOVÉ HODNOTENIE

Všetky charakteristiky vzorky sú náhodné premenné. To znamená, že pre inú vzorku rovnakej veľkosti budú hodnoty charakteristík vzorky odlišné. Teda selektívne

vlastnosti sú len odhady relevantné charakteristiky populácie.

Nevýhody selektívneho hodnotenia sú kompenzované o intervalový odhad, zastupujúci číselný interval vnútri ktorej s danou pravdepodobnosťou R d nájde sa skutočná hodnota odhadovaného parametra.

Nechaj U r - nejaký parameter všeobecnej populácie (všeobecný priemer, všeobecný rozptyl atď.).

Intervalový odhad parameter U r sa nazýva interval (U 1, U 2), splnenie podmienky:

P(U < Ur < U2) = Рд. (3.5)

Pravdepodobnosť R d volal pravdepodobnosť dôvery.

Pravdepodobnosť spoľahlivosti Pd - pravdepodobnosť, že skutočná hodnota odhadovanej veličiny je vnútri určený interval.

V tomto prípade interval (U 1, U 2) volal interval spoľahlivosti pre odhadovaný parameter.

Často sa namiesto pravdepodobnosti spoľahlivosti používa pridružená hodnota α = 1 - Р d, ktorá je tzv. úroveň významnosti.

Úroveň významnosti je pravdepodobnosť, že skutočná hodnota odhadovaného parametra je vonku interval spoľahlivosti.

Niekedy sú α a Pd vyjadrené v percentách, napríklad 5 % namiesto 0,05 a 95 % namiesto 0,95.

Pri odhade intervalov najprv vyberte vhodné pravdepodobnosť dôvery(zvyčajne 0,95 alebo 0,99) a potom nájdite vhodný rozsah hodnôt pre odhadovaný parameter.

Všimnime si niektoré všeobecné vlastnosti intervalových odhadov.

1. Čím nižšia je hladina významnosti (tým viac R d),čím širší je odhad intervalu. Ak je teda na hladine významnosti 0,05 intervalový odhad všeobecného priemeru 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Čím väčšia je veľkosť vzorky n, tým užší je intervalový odhad so zvolenou hladinou významnosti. Nech je napríklad 5 percentuálny odhad všeobecného priemeru (β = 0,05) získaný zo vzorky 20 prvkov, potom 34,7< M< 39,4.

Zväčšením veľkosti vzorky na 80 dostaneme presnejší odhad na rovnakej hladine významnosti: 35,5< M< 38,6.

Vo všeobecnosti si konštrukcia spoľahlivých odhadov spoľahlivosti vyžaduje znalosť zákona, podľa ktorého je odhadovaný náhodný atribút rozdelený v populácii. Pozrime sa, ako sa zostavuje intervalový odhad všeobecný priemer charakteristika, ktorá je v populácii rozložená podľa normálne zákona.

3.4. INTERVALOVÝ ODHAD VŠEOBECNÉHO PRIEMERU PRE ZÁKON O NORMÁLNEJ DISTRIBÚCII

Konštrukcia intervalového odhadu všeobecného priemeru M pre populáciu so zákonom normálneho rozdelenia je založená na nasledujúcej vlastnosti. Pre odberový objem n postoj

sa riadi Studentovým rozdelením s počtom stupňov voľnosti ν = n- 1.

Tu X- vzorový priemer a s- selektívna smerodajná odchýlka.

Pomocou študentských distribučných tabuliek alebo ich počítačových ekvivalentov môžete nájsť hraničnú hodnotu takú, že s danou pravdepodobnosťou spoľahlivosti platí nasledujúca nerovnosť:

Táto nerovnosť zodpovedá nerovnosti pre M:

Kde ε - polovičná šírka intervalu spoľahlivosti.

Konštrukcia intervalu spoľahlivosti pre M sa teda uskutočňuje v nasledujúcom poradí.

1. Vyberte pravdepodobnosť spoľahlivosti Р d (zvyčajne 0,95 alebo 0,99) a pomocou študentskej tabuľky rozdelenia nájdite parameter t

2. Vypočítajte polovičnú šírku intervalu spoľahlivosti ε:

3. Získajte intervalový odhad všeobecného priemeru so zvolenou pravdepodobnosťou spoľahlivosti:

V skratke sa to píše takto:

Na nájdenie intervalových odhadov boli vyvinuté počítačové postupy.

Dovoľte nám vysvetliť, ako používať tabuľku rozdelenia študentov. Táto tabuľka má dva „vstupy“: ľavý stĺpec, ktorý sa nazýva počet stupňov voľnosti ν = n- 1 a horný riadok je hladina významnosti α. Na priesečníku príslušného riadku a stĺpca nájdite Studentov koeficient t.

Aplikujme túto metódu na našu vzorku. Fragment tabuľky rozdelenia študentov je uvedený nižšie.

Tabuľka 3.3. Fragment študentskej distribučnej tabuľky

Jednoduchá štatistická séria pre vzorku 20 ľudí (n= 20, ν =19) je uvedený v tabuľke. 3.1. Pre túto sériu výpočty pomocou vzorcov (3.1-3.3) dávajú: X= 37,05; s= 5,02.

Poďme si vybrať a = 0,05 (Р d = 0,95). Na priesečníku riadku „19“ a stĺpca „0,05“ nájdeme t= 2,09.

Vypočítajme presnosť odhadu pomocou vzorca (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Zostrojme intervalový odhad: s pravdepodobnosťou 95% neznámy všeobecný priemer spĺňa nerovnosť:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. METÓDY TESTOVANIA ŠTATISTICKÝCH HYPOTÉZ

Štatistické hypotézy

Pred formulovaním toho, čo je štatistická hypotéza, zvážte nasledujúci príklad.

Na porovnanie dvoch metód liečby určitého ochorenia boli vybrané dve skupiny pacientov po 20 ľuďoch, ktoré boli liečené týmito metódami. Pre každého pacienta bol zaznamenaný počet procedúr, po ktorých sa dosiahol pozitívny účinok. Na základe týchto údajov boli pre každú skupinu zistené výberové priemery (X), výberové rozptyly (s 2) a vzorové štandardné odchýlky (s).

Výsledky sú uvedené v tabuľke. 3.4.

Tabuľka 3.4

Počet procedúr potrebných na získanie pozitívneho efektu je náhodná veličina, o ktorej sú všetky informácie aktuálne obsiahnuté v danej vzorke.

Od stola 3.4 ukazuje, že priemer vzorky v prvej skupine je menší ako v druhej. Znamená to, že rovnaký vzťah platí pre všeobecné priemery: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает štatistické testovanie hypotéz.

Štatistická hypotéza- je to predpoklad o vlastnostiach populácií.

Budeme zvažovať hypotézy o vlastnostiach dva všeobecné populácie.

Ak majú populácie slávny, rovnaký rozloženie odhadovanej hodnoty a predpoklady sa týkajú hodnôt nejaký parameter tohto rozdelenia, potom sa hypotézy nazývajú parametrické. Napríklad vzorky sa odoberajú z populácií s normálny zákon rozdelenie a rovnaký rozptyl. Treba to zistiť či sú rovnaké všeobecných priemerov týchto populácií.

Ak nie je nič známe o zákonoch distribúcie všeobecných populácií, potom sa nazývajú hypotézy o ich vlastnostiach neparametrické. Napríklad, či sú rovnaké zákony distribúcie všeobecných populácií, z ktorých sa vzorky odoberajú.

Nulové a alternatívne hypotézy.

Úlohou testovania hypotéz. Úroveň významnosti

Zoznámime sa s terminológiou používanou pri testovaní hypotéz.

H 0 - nulová hypotéza (hypotéza skeptika) je hypotéza o absencii rozdielov medzi porovnávanými vzorkami. Skeptik sa domnieva, že rozdiely medzi odhadmi vzorky získanými z výsledkov výskumu sú náhodné;

H 1- alternatívna hypotéza (optimistická hypotéza) je hypotéza o prítomnosti rozdielov medzi porovnávanými vzorkami. Optimista verí, že rozdiely medzi odhadmi vzorky sú spôsobené objektívnymi príčinami a zodpovedajú rozdielom vo všeobecných populáciách.

Testovanie štatistických hypotéz je možné len vtedy, keď je možné nejaké skonštruovať veľkosť(kritérium), ktorého distribučný zákon v prípade spravodlivosti H 0 slávny. Potom pre toto množstvo môžeme špecifikovať interval spoľahlivosti, do ktorých s danou pravdepodobnosťou R d jeho hodnota klesá. Tento interval sa nazýva kritická oblasť. Ak hodnota kritéria spadá do kritickej oblasti, potom je hypotéza prijatá N 0. V opačnom prípade je hypotéza H 1 prijatá.

V lekárskom výskume sa používa P d = 0,95 alebo P d = 0,99. Tieto hodnoty zodpovedajú úrovne významnosti a = 0,05 alebo a = 0,01.

Pri testovaní štatistických hypotézúroveň významnosti(α) je pravdepodobnosť zamietnutia nulovej hypotézy, keď je pravdivá.

Upozorňujeme, že vo svojej podstate je zameraný postup testovania hypotéz zisťovanie rozdielov a nie potvrdiť ich neprítomnosť. Keď hodnota kritéria presahuje kritickú oblasť, môžeme „skeptikovi“ s čistým srdcom povedať – no, čo ešte chcete?! Ak by neexistovali žiadne rozdiely, potom by s pravdepodobnosťou 95 % (alebo 99 %) bola vypočítaná hodnota v rámci stanovených limitov. Ale nie!..

No, ak hodnota kritéria spadá do kritickej oblasti, potom nie je dôvod domnievať sa, že hypotéza H 0 je správna. To s najväčšou pravdepodobnosťou poukazuje na jeden z dvoch možných dôvodov.

1. Veľkosť vzoriek nie je dostatočne veľká na zistenie rozdielov. Je pravdepodobné, že pokračujúce experimentovanie prinesie úspech.

2. Existujú rozdiely. Ale sú také malé, že nemajú žiadny praktický význam. V tomto prípade pokračovanie experimentov nemá zmysel.

Prejdime k niektorým štatistickým hypotézam používaným v lekárskom výskume.

3.6. TESTOVANIE HYPOTÉZ O ROVNOCNOSTI VARIANTOV, FISCHEROVO F-KRITÉRIUM

V niektorých klinických štúdiách sa pozitívny účinok nepreukázal až tak veľa rozsah skúmaného parametra, koľko z toho stabilizácia, zníženie jeho výkyvov. V tomto prípade vyvstáva otázka porovnania dvoch všeobecných rozptylov na základe výsledkov výberového prieskumu. Tento problém je možné vyriešiť pomocou Fisherov test.

Formulácia problému

normálny zákon distribúcie. Vzorové veľkosti -

n 1 A n2, A vzorové odchýlky rovný s 1 a s 2 2 všeobecné odchýlky.

Testovateľné hypotézy:

H 0- všeobecné odchýlky sú rovnaké;

H 1- všeobecné odchýlky sú rôzne.

Zobrazuje sa, ak sa vzorky odoberajú z populácií s normálny zákon rozdelenie, potom ak je hypotéza pravdivá H 0 pomer výberových rozptylov sleduje Fisherovo rozdelenie. Preto ako kritérium pre kontrolu spravodlivosti H 0 berie sa hodnota F, vypočítané podľa vzorca:

Kde s 1 a s 2 sú výberové rozptyly.

Tento pomer sa riadi Fisherovým rozdelením s počtom stupňov voľnosti čitateľa ν 1 = n 1- 1 a počet stupňov voľnosti menovateľa ν 2 = n 2 - 1. Hranice kritickej oblasti sa zistia pomocou Fisherových distribučných tabuliek alebo pomocou počítačovej funkcie BRASPOBR.

Pre príklad uvedený v tabuľke. 3.4, dostaneme: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Pri α = 0,05 sú hranice kritickej oblasti v tomto poradí: = 0,40, = 2,53.

Hodnota kritéria spadá do kritickej oblasti, takže hypotéza je prijatá H 0: všeobecné odchýlky vzorky sú rovnaké.

3.7. TESTOVANIE HYPOTÉZ TÝKAJÚCE SA ROVNOSTI PROSTRIEDKOV, KRITÉRIUM ŠTUDENTA

Porovnávacia úloha priemer dve všeobecné populácie vznikajú vtedy, keď je praktický význam presný rozsah skúmaná charakteristika. Napríklad pri porovnaní dĺžky liečby dvoma rôznymi metódami alebo počtu komplikácií vznikajúcich pri ich užívaní. V tomto prípade môžete použiť Studentov t-test.

Formulácia problému

Boli získané dve vzorky (X 1) a (X 2) extrahované zo všeobecných populácií pomocou normálny zákon distribúcia a identické odchýlky. Veľkosti vzoriek - n 1 a n 2, vzorové prostriedky sú rovné X1 a X2 a vzorové odchýlky- s 1 2 a s 2 2 resp. Treba porovnávať všeobecné priemery.

Testovateľné hypotézy:

H 0- všeobecné priemery sú rovnaké;

H 1- všeobecné priemery sú rôzne.

Ukazuje sa, že ak je hypotéza pravdivá H 0 Hodnota t vypočítaná podľa vzorca:

rozdelené podľa Studentovho zákona s počtom stupňov voľnosti ν = ν 1 + + ν2 - 2.

Tu kde ν 1 = n 1 - 1 - počet stupňov voľnosti pre prvú vzorku; v 2 = n 2 - 1 - počet stupňov voľnosti pre druhú vzorku.

Hranice kritickej oblasti sa nachádzajú pomocou tabuliek t-rozdelenia alebo pomocou počítačovej funkcie STUDRIST. Študentova distribúcia je symetrická okolo nuly, takže ľavá a pravá hranica kritickej oblasti majú rovnakú veľkosť a opačné znamienko: -a

Pre príklad uvedený v tabuľke. 3.4, dostaneme:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Pri α = 0,05 = 2,02.

Hodnota kritéria presahuje ľavú hranicu kritického regiónu, takže hypotézu prijímame H 1: všeobecné priemery sú rôzne. Zároveň populačný priemer prvá vzorka MENEJ.

Použiteľnosť Studentovho t-testu

Študentov t test je použiteľný len pre vzorky z normálne agregáty s identické všeobecné odchýlky. Ak je porušená aspoň jedna z podmienok, potom je uplatniteľnosť kritéria otázna. Požiadavka normality bežnej populácie je zvyčajne ignorovaná, cit centrálna limitná veta. Rozdiel medzi priemermi vzorky v čitateli (3.10) možno považovať za normálne rozdelené pre ν > 30. Ale otázku rovnosti rozptylov nemožno overiť a odkazy na skutočnosť, že Fisherov test nezistil rozdiely, nemožno vziať do úvahy. do úvahy. Avšak t-test sa široko používa na zistenie rozdielov v priemeroch populácie, aj keď bez dostatočných dôkazov.

Nižšie sa diskutuje neparametrické kritérium, ktorý sa úspešne používa na rovnaké účely a ktorý nevyžaduje žiadne normálnosť, ani jedno rovnosť rozptylov.

3.8. NEPARAMETRICKÉ POROVNANIE DVOCH VZORIEK: KRITÉRIUM MANN-WHITNEY

Neparametrické testy sú navrhnuté tak, aby odhalili rozdiely v distribučných zákonoch dvoch populácií. Kritériá, ktoré sú vo všeobecnosti citlivé na rozdiely priemer, nazývané kritériá posun Kritériá, ktoré sú vo všeobecnosti citlivé na rozdiely disperzie, nazývané kritériá stupnica. Mann-Whitney test odkazuje na kritériá posun a používa sa na zistenie rozdielov v priemeroch dvoch populácií, z ktorých sú vzorky prezentované v hodnotiacej stupnici. Namerané charakteristiky sú umiestnené na tejto stupnici vo vzostupnom poradí a následne očíslované celými číslami 1, 2... Tieto čísla sú tzv. hodnosti. Rovnakým množstvám sú priradené rovnaké poradia. Nie je dôležitá hodnota samotného atribútu, ale iba radové miesto ktoré radí medzi ostatné veličiny.

V tabuľke 3.5. prvá skupina z tabuľky 3.4 je uvedená v rozšírenej forme (riadok 1), zoradená (riadok 2) a potom sú poradia identických hodnôt nahradené aritmetickými priemermi. Napríklad položky 4 a 4 v prvom riadku dostali poradie 2 a 3, ktoré boli potom nahradené rovnakými hodnotami 2,5.

Tabuľka 3.5

Formulácia problému

Nezávislé vzorky (X 1) A (X 2) extrahované zo všeobecných populácií s neznámymi distribučnými zákonmi. Veľkosti vzoriek n 1 A n 2 resp. Hodnoty prvkov vzorky sú uvedené v hodnotiacej stupnici. Je potrebné skontrolovať, či sa tieto všeobecné populácie navzájom líšia?

Testovateľné hypotézy:

H 0- vzorky patria do rovnakej všeobecnej populácie; H 1- vzorky patria k rôznym všeobecným populáciám.

Na testovanie takýchto hypotéz sa používa (/-Mann-Whitney test.

Najprv sa z dvoch vzoriek zostaví kombinovaná vzorka (X), ktorej prvky sú zoradené. Potom sa nájde súčet poradí zodpovedajúcich prvkom prvej vzorky. Táto suma je kritériom na testovanie hypotéz.

U= Súčet poradí prvej vzorky. (3.11)

Pre nezávislé vzorky, ktorých objemy sú väčšie ako 20, hodnota U dodržiava normálne rozdelenie, ktorého matematické očakávanie a štandardná odchýlka sa rovnajú:

Preto sa hranice kritickej oblasti nachádzajú podľa tabuliek normálneho rozdelenia.

Pre príklad uvedený v tabuľke. 3.4, dostaneme: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Pre α = 0,05 dostaneme: vľavo = 338 a vpravo = 482.

Hodnota kritéria presahuje ľavú hranicu kritického regiónu, preto je akceptovaná hypotéza H 1: všeobecné populácie majú rôzne distribučné zákony. Zároveň populačný priemer prvá vzorka MENEJ.

Pri konštrukcii intervalového distribučného radu sú vyriešené tri otázky:

  • 1. Koľko intervalov by som mal užívať?
  • 2. Aká je dĺžka intervalov?
  • 3. Aký je postup pri zaraďovaní jednotiek obyvateľstva do hraníc intervalov?
  • 1. Počet intervalov možno určiť podľa Sturgessov vzorec:

2. Dĺžka intervalu alebo krok intervalu, zvyčajne určený vzorcom

Kde R- rozsah variácií.

3. Poradie zaradenia jednotiek populácie v rámci hraníc intervalu

môžu byť rôzne, ale pri konštrukcii intervalového radu musí byť rozdelenie striktne definované.

Napríklad toto: [), v ktorom sú populačné jednotky zahrnuté v dolných hraniciach, ale nie sú zahrnuté v horných hraniciach, ale sú prenesené do ďalšieho intervalu. Výnimkou z tohto pravidla je posledný interval, ktorého horná hranica zahŕňa posledné číslo hodnotenej série.

Hranice intervalov sú:

  • uzavreté - s dvoma extrémnymi hodnotami atribútu;
  • open - s jednou extrémnou hodnotou atribútu (predtým taký a taký počet resp cez také a také číslo).

Za účelom asimilácie teoretického materiálu uvádzame informácie o pozadí pre riešenia end-to-end úloha.

Existujú podmienené údaje o priemernom počte manažérov predaja, množstve nimi predávaného podobného tovaru, individuálnej trhovej cene tohto produktu, ako aj objeme predaja 30 spoločností v jednom z regiónov Ruskej federácie v prvom štvrťroku vykazovaného roka (tabuľka 2.1).

Tabuľka 2.1

Počiatočné informácie pre prierezovú úlohu

číslo

manažéri,

Cena, tisíc rubľov

Objem predaja, milióny rubľov.

číslo

manažéri,

Množstvo predaného tovaru, ks.

Cena, tisíc rubľov

Objem predaja, milióny rubľov.

Na základe prvotných informácií, ale aj doplňujúcich informácií nastavíme jednotlivé úlohy. Následne predstavíme metodiku ich riešenia a samotné riešenia.

Prierezová úloha. Úloha 2.1

Použitie počiatočných údajov z tabuľky. 2.1 zostrojiť diskrétnu sériu rozdelenia firiem podľa množstva predaného tovaru (tabuľka 2.2).

Riešenie:

Tabuľka 2.2

Samostatné série distribúcie firiem podľa množstva predaného tovaru v jednom z regiónov Ruskej federácie v prvom štvrťroku vykazovaného roka

Prierezová úloha. Úloha 2.2

požadovaný zostaviť zoradený rad 30 firiem podľa priemerného počtu manažérov.

Riešenie:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Prierezová úloha. Úloha 2.3

Použitie počiatočných údajov z tabuľky. 2.1, požadovaný:

  • 1. Zostrojte intervalový rad rozmiestnenia firiem podľa počtu manažérov.
  • 2. Vypočítajte frekvencie distribučných radov firiem.
  • 3. Vyvodiť závery.

Riešenie:

Vypočítajme pomocou Sturgessovho vzorca (2.5) počet intervalov:

Zoberieme teda 6 intervalov (skupín).

Dĺžka intervalu, alebo intervalový krok, vypočítajte pomocou vzorca

Poznámka. Poradie zaraďovania populačných jednotiek do hraníc intervalu je nasledovné: I), v ktorom populačné jednotky sú zahrnuté v dolných hraniciach, ale nie sú zahrnuté v horných hraniciach, ale sú prenesené do ďalšieho intervalu. Výnimkou z tohto pravidla je posledný interval I ], ktorého horná hranica zahŕňa posledné číslo zoradeného radu.

Zostavíme intervalový rad (tabuľka 2.3).

Intervalová séria distribúcie firiem a priemerný počet manažérov v jednom z regiónov Ruskej federácie v prvom štvrťroku vykazovaného roka

Záver. Najväčšiu skupinu firiem tvorí skupina s priemerným počtom manažérov 25 – 30 osôb, do ktorej patrí 8 firiem (27 %); Do najmenšej skupiny s priemerným počtom manažérov 40 – 45 osôb patrí len jedna firma (3 %).

Použitie počiatočných údajov z tabuľky. 2.1, ako aj intervalový rad rozdelenia firiem podľa počtu manažérov (tabuľka 2.3), požadovaný vybudovať analytické zoskupenie vzťahu medzi počtom manažérov a objemom predaja firiem a na základe toho vyvodiť záver o prítomnosti (alebo absencii) vzťahu medzi týmito charakteristikami.

Riešenie:

Analytické zoskupovanie je založené na faktorových charakteristikách. V našom probléme je faktorová charakteristika (x) počet manažérov a výsledná charakteristika (y) je objem predaja (tabuľka 2.4).

Poďme teraz stavať analytické zoskupenie(Tabuľka 2.5).

Záver. Na základe údajov vybudovaného analytického zoskupenia môžeme povedať, že s nárastom počtu obchodných manažérov sa zvyšuje aj priemerný objem predaja spoločnosti v skupine, čo naznačuje prítomnosť priameho spojenia medzi týmito charakteristikami.

Tabuľka 2.4

Pomocná tabuľka na zostavenie analytického zoskupenia

Počet manažérov, ľudí,

Číslo firmy

Objem predaja, milióny rubľov, y

" = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U 4 = 7 = 10,61

pri = ’ =10,31 30

Tabuľka 2.5

Závislosť objemu predaja od počtu manažérov spoločnosti v jednom z regiónov Ruskej federácie v prvom štvrťroku vykazovaného roka

KONTROLNÉ OTÁZKY
  • 1. Čo je podstatou štatistického pozorovania?
  • 2. Vymenujte etapy štatistického pozorovania.
  • 3. Aké sú organizačné formy štatistického pozorovania?
  • 4. Vymenujte druhy štatistického pozorovania.
  • 5. Čo je to štatistický súhrn?
  • 6. Vymenujte typy štatistických výkazov.
  • 7. Čo je štatistické zoskupovanie?
  • 8. Vymenujte typy štatistických zoskupení.
  • 9. Čo je distribučná séria?
  • 10. Vymenujte konštrukčné prvky rozvodného radu.
  • 11. Aký je postup pri zostavovaní distribučnej série?
KATEGÓRIE

POPULÁRNE ČLÁNKY

2024 „kingad.ru“ - ultrazvukové vyšetrenie ľudských orgánov