Creați o serie de distribuție a variațiilor de interval. Rezumat statistic și grupare

Dacă variabila aleatoare studiată este continuă, atunci clasarea și gruparea valorilor observate nu permite adesea identificarea trăsăturilor caracteristice ale variației valorilor sale. Acest lucru se explică prin faptul că valorile individuale ale unei variabile aleatorii pot diferi unele de altele cât se dorește și, prin urmare, în totalitatea datelor observate, pot apărea rareori valori identice ale unei cantități, iar frecvențele de variantele diferă puţin unele de altele.

De asemenea, nu este practic să construiești o serie discretă pentru o variabilă aleatorie discretă, al cărei număr de valori posibile este mare. În astfel de cazuri, ar trebui să construiți serie de variații de interval distribuţiile.

Pentru a construi o astfel de serie, întregul interval de variație a valorilor observate ale unei variabile aleatoare este împărțit într-o serie intervale parțiale și numărarea frecvenței de apariție a valorilor în fiecare interval parțial.

Seria de variație de interval numiți un set ordonat de intervale de valori variabile ale unei variabile aleatorii cu frecvențe corespunzătoare sau frecvențe relative ale valorilor variabilei care se încadrează în fiecare dintre ele.

Pentru a construi o serie de intervale aveți nevoie de:

  1. defini mărimea intervale parțiale;
  2. defini lăţime intervale;
  3. setați-l pentru fiecare interval top Și limita inferioara ;
  4. grupează rezultatele observației.

1 . Problema alegerii numărului și lățimii intervalelor de grupare trebuie să fie decisă în fiecare caz specific pe baza obiective cercetare, volum mostre și gradul de variație caracteristică în probă.

Aproximativ numărul de intervale k poate fi estimată numai pe baza mărimii eșantionului n într-unul din următoarele moduri:

  • conform formulei Sturges : k = 1 + 3,32 log n ;
  • folosind tabelul 1.

tabelul 1

2 . În general, sunt preferate spațiile de lățime egală. Pentru a determina lățimea intervalelor h calculati:

  • intervalul de variație R - valorile eșantionului: R = x max - x min ,

Unde xmax Și xmin - optiuni de esantionare maxima si minima;

  • lăţimea fiecărui interval h determinată de următoarea formulă: h = R/k .

3 . Concluzie primul interval x h1 este selectată astfel încât opțiunea de eșantion minimă xmin a scăzut aproximativ la mijlocul acestui interval: x h1 = x min - 0,5 h .

Intervalele intermediare obţinută prin adăugarea lungimii intervalului parţial la sfârşitul intervalului anterior h :

x hi = x hi-1 +h.

Construcția unei scale de interval pe baza calculului limitelor intervalului continuă până la valoarea x salut satisface relatia:

x salut< x max + 0,5·h .

4 . În conformitate cu scara intervalului, valorile caracteristice sunt grupate - pentru fiecare interval parțial se calculează suma frecvențelor n i opțiune inclusă în i intervalul. În acest caz, intervalul include valori ale variabilei aleatoare care sunt mai mari sau egale cu limita inferioară și mai mici decât limita superioară a intervalului.

Poligon și histogramă

Pentru claritate, sunt construite diferite grafice de distribuție statistică.

Pe baza datelor unei serii de variații discrete, ei construiesc poligon frecvențe sau frecvențe relative.

Poligon de frecvență x 1 ; n 1 ), (x 2 ; n 2 ), ..., (x k ; n k ). Pentru a construi un poligon de frecvență, opțiunile sunt reprezentate pe axa absciselor. x i , iar pe ordonată - frecvențele corespunzătoare n i . Puncte ( x i ; n i ) sunt legate prin segmente drepte și se obține un poligon de frecvență (Fig. 1).

Poligon de frecvențe relative numită linie întreruptă ale cărei segmente leagă puncte ( x 1 ; W 1 ), (x 2 ; W 2 ), ..., (x k ; Sapt ). Pentru a construi un poligon de frecvențe relative, opțiunile sunt reprezentate pe axa absciselor x i , iar pe ordonată - frecvențele relative corespunzătoare W i . Puncte ( x i ; W i ) sunt legate prin segmente drepte și se obține un poligon de frecvențe relative.

Când semn continuu se recomanda construirea histogramă .

Histograma de frecventa numită figură în trepte constând din dreptunghiuri, ale căror baze sunt intervale parțiale de lungime h , iar înălțimile sunt egale cu raportul NIH (densitatea de frecvență).

Pentru a construi o histogramă de frecvență, intervale parțiale sunt așezate pe axa absciselor și segmente paralele cu axa absciselor sunt desenate deasupra lor la distanță. NIH .

Număr de grupuri (intervale) este determinată aproximativ de formula Sturgess:

m = 1 + 3,322 × log(n)

unde n este numărul total de unități de observație (numărul total de elemente din populație etc.), log(n) este logaritmul zecimal al lui n.

Primit conform formulei Sturgess, valoarea este de obicei rotunjită la cel mai apropiat număr întreg numere, deoarece numărul de grupuri nu poate fi un număr fracționar.

Dacă o serie de intervale cu atât de multe grupuri nu este satisfăcătoare pentru anumite criterii, atunci puteți construi o altă serie de intervale prin rotunjire m la un întreg mai mic și alegeți-l pe cel mai potrivit din cele două rânduri.

Numărul de grupuri nu trebuie să fie mai mare de 15.

De asemenea, puteți utiliza următorul tabel dacă nu este posibil să calculați deloc logaritmul zecimal.

    Determinarea lățimii intervalului

Lățimea intervalului pentru o serie de variații de interval cu intervale egale este determinată de formula:

unde X max este maximul valorilor lui x i, X min este minimul valorilor lui x i; m - numărul de grupuri (intervale).

Dimensiunea intervalului (i ) este de obicei rotunjită la cel mai apropiat număr întreg, singurele excepții sunt cazurile în care sunt studiate cele mai mici fluctuații ale unei caracteristici (de exemplu, la gruparea pieselor în funcție de dimensiunea abaterilor de la valoarea nominală, măsurată în fracțiuni de milimetru).

Următoarea regulă este adesea folosită:

Numărul de zecimale

Un număr de simboluri după virgulă

Exemplu de lățime a intervalului folosind formula

La ce semn ne rotunjim?

Exemplu de lățime de spațiere rotunjită

    Determinarea limitelor intervalelor

Limita inferioara primul interval este luată egală cu valoarea minimă a atributului (cel mai adesea este mai întâi rotunjit la un număr întreg mai mic cu același rang ca lățimea intervalului). De exemplu, x min = 15, i=130, x n din primul interval = 10.

x n1 ≈ x min

Limita superioară primul interval corespunde valorii (Xmin + i).

Limita inferioară a celui de-al doilea interval este întotdeauna egală cu limita superioară a primului interval. Pentru grupurile ulterioare, limitele sunt determinate în mod similar, adică valoarea intervalului este adăugată succesiv.

X V i = x n i +i

X n i = x V i-1

    Determinați frecvențele intervalelor.

Numărăm câte valori cad în fiecare interval. În același timp, ne amintim că, dacă o unitate are o valoare caracteristică egală cu valoarea limitei superioare a intervalului, atunci ar trebui să fie atribuită următorului interval.

    Construim o serie de intervale sub forma unui tabel.

    Determinați punctele de mijloc ale intervalelor.

Pentru o analiză ulterioară a seriei de intervale, va trebui să selectați o valoare caracteristică pentru fiecare interval. Această valoare a atributului va fi comună tuturor unităților de observare care se încadrează în acest interval. Acestea. elementele individuale „își pierd” valorile atributelor individuale și li se atribuie o valoare de atribut comună. Acest sens general este mijlocul intervalului, care este notat X" i .

Folosind exemplul creșterii copiilor, să vedem cum să construim o serie de intervale cu intervale egale.

Datele inițiale disponibile.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

În multe cazuri, când o populație statistică include un număr mare sau, cu atât mai mult, infinit de variante, ceea ce apare cel mai adesea cu variație continuă, este practic imposibil și impractic să se formeze un grup de unități pentru fiecare variantă. În astfel de cazuri, combinarea unităților statistice în grupuri este posibilă numai pe baza unui interval, adică un astfel de grup care are anumite limite pentru valorile unei caracteristici diferite. Aceste limite sunt indicate prin două numere care indică limitele superioare și inferioare ale fiecărui grup. Utilizarea intervalelor conduce la formarea unei serii de distribuție a intervalelor.

Interval rad este o serie de variații ale cărei variante sunt prezentate sub formă de intervale.

O serie de intervale poate fi formată cu intervale egale și inegale, în timp ce alegerea principiului de construire a acestei serii depinde în principal de gradul de reprezentativitate și comoditate a populației statistice. Dacă populația este suficient de mare (reprezentativă) din punct de vedere al numărului de unități și este complet omogenă în compoziția sa, atunci este recomandabil să se bazeze formarea unei serii de intervale pe egalitatea intervalelor. De obicei, folosind acest principiu, se formează o serie de intervale pentru acele populații în care intervalul de variație este relativ mic, adică. opțiunile maxime și minime diferă de obicei una de alta de mai multe ori. În acest caz, valoarea intervalelor egale este calculată prin raportul dintre intervalul de variație al unei caracteristici la un număr dat de intervale formate. Pentru a determina egal Și interval, poate fi utilizată formula Sturgess (de obicei cu o mică variație a caracteristicilor intervalului și un număr mare de unități în populația statistică):

unde x i - valoare de interval egal; X max, X min - opțiuni maxime și minime într-un agregat statistic; n . - numărul de unități în agregat.

Exemplu. Este recomandabil să se calculeze dimensiunea unui interval egal în funcție de densitatea contaminării radioactive cu cesiu - 137 în 100 de așezări din districtul Krasnopolsky din regiunea Mogilev, dacă se știe că opțiunea inițială (minimă) este egală cu I km. / km 2, finala ( maxim) - 65 ki/km 2. Folosind formula 5.1. primim:

În consecință, pentru a forma o serie de intervale cu intervale egale în ceea ce privește densitatea contaminării cu cesiu - 137 de așezări din regiunea Krasnopolsky, dimensiunea intervalului egal poate fi de 8 ki/km 2 .

În condiții de distribuție neuniformă, de ex. când opțiunile maxime și minime sunt de sute de ori, când se formează o serie de intervale, puteți aplica principiul inegal intervale. Intervalele inegale cresc de obicei pe măsură ce trecem la valori mai mari ale caracteristicii.

Forma intervalelor poate fi închisă sau deschisă. Închis Se obișnuiește să se numească intervale care au atât limite inferioare, cât și superioare. Deschis intervalele au o singură limită: în primul interval există o limită superioară, în ultimul există o limită inferioară.

Este recomandabil să se evalueze serii de intervale, în special cu intervale inegale, ținând cont densitatea de distribuție, cel mai simplu mod de a calcula care este raportul dintre frecvența (sau frecvența) locală și dimensiunea intervalului.

Pentru a forma practic o serie de intervale, puteți utiliza aspectul tabelului. 5.3.

Tabelul 5.3. Procedura de formare a unei serii interval de așezări în regiunea Krasnopolsky în funcție de densitatea contaminării radioactive cu cesiu -137

Principalul avantaj al seriei de intervale este maximul său compactitatea.în același timp, în seria de distribuție a intervalelor, variantele individuale ale caracteristicii sunt ascunse în intervalele corespunzătoare

Când se descrie grafic o serie de intervale într-un sistem de coordonate dreptunghiulare, limitele superioare ale intervalelor sunt reprezentate grafic pe axa absciselor, iar frecvențele locale ale seriei sunt reprezentate pe axa ordonatelor. Construcția grafică a unei serii de intervale diferă de construcția unui poligon de distribuție prin aceea că fiecare interval are limite inferioare și superioare, iar două abscise corespund unei valori ordonate. Prin urmare, pe graficul unei serii de intervale nu este marcat un punct, ca într-un poligon, ci o linie care leagă două puncte. Aceste linii orizontale sunt conectate între ele prin linii verticale și se obține figura unui poligon în trepte, care se numește în mod obișnuit histogramă distribuția (Fig. 5.3).

Când se construiește grafic o serie de intervale pentru o populație statistică suficient de mare, histograma se apropie simetric forma de distributie. În acele cazuri în care populația statistică este mică, de regulă, asimetric diagramă cu bare.

În unele cazuri, este recomandabil să se formeze un număr de frecvențe acumulate, de ex. cumulativ rând. O serie cumulativă poate fi formată pe baza unei serii de distribuție discretă sau pe intervale. Când se înfățișează grafic o serie cumulativă într-un sistem de coordonate dreptunghiulare, variantele sunt trasate pe axa absciselor, iar frecvențele (frecvențele) acumulate sunt reprezentate pe axa ordonatelor. Linia curbă rezultată este de obicei numită cumulativ distribuția (Fig. 5.4).

Formarea și reprezentarea grafică a diferitelor tipuri de serii de variații contribuie la un calcul simplificat al principalelor caracteristici statistice, care sunt discutate în detaliu în subiectul 6, și ajută la înțelegerea mai bună a esenței legilor de distribuție a populației statistice. Analiza unei serii de variații capătă o importanță deosebită în cazurile în care este necesară identificarea și urmărirea relației dintre opțiuni și frecvențe (frecvențe). Această dependență se manifestă prin faptul că numărul de cazuri pe opțiune este într-un anumit fel legat de mărimea acestei opțiuni, i.e. cu valori crescânde ale caracteristicii variabile, frecvențele (frecvențele) acestor valori experimentează anumite schimbări sistematice. Aceasta înseamnă că numerele din coloana frecvență (frecvență) nu fluctuează haotic, ci se schimbă într-o anumită direcție, într-o anumită ordine și secvență.

Dacă frecvențele arată o anumită sistematicitate în modificările lor, atunci aceasta înseamnă că suntem pe cale de a identifica un model. Sistemul, ordinea, succesiunea modificărilor de frecvențe este o reflectare a cauzelor generale, a condițiilor generale caracteristice întregii populații.

Nu trebuie să presupunem că modelul de distribuție este întotdeauna dat într-o formă gata făcută. Există destul de multe serii de variații în care frecvențele sar în mod bizar, uneori crescând, alteori descrezând. În astfel de cazuri, este recomandabil să aflați cu ce fel de distribuție are de-a face cercetătorul: fie această distribuție nu are deloc modele inerente, fie natura ei nu a fost încă dezvăluită: primul caz este rar, dar al doilea. cazul este un fenomen destul de comun și foarte răspândit.

Astfel, atunci când se formează o serie de intervale, numărul total de unități statistice poate fi mic, iar fiecare interval conține un număr mic de variante (de exemplu, 1-3 unități). În astfel de cazuri, nu se poate conta pe manifestarea oricărui tipar. Pentru a se obține un rezultat natural pe baza observațiilor aleatorii, trebuie să intre în vigoare legea numerelor mari, adică. astfel încât pentru fiecare interval ar fi nu mai multe, ci zeci și sute de unități statistice. În acest scop, trebuie să încercăm să creștem cât mai mult numărul de observații. Acesta este cel mai sigur mod de a detecta tipare în procesele de masă. Dacă nu există o oportunitate reală de a crește numărul de observații, atunci identificarea unui model poate fi realizată prin reducerea numărului de intervale din seria de distribuție. Prin reducerea numărului de intervale dintr-o serie de variații, numărul de frecvențe din fiecare interval crește astfel. Aceasta înseamnă că fluctuațiile aleatoare ale fiecărei unități statistice sunt suprapuse una peste alta, „netezite”, transformându-se într-un model.

Formarea și construcția seriilor de variații ne permite să obținem doar o imagine generală, aproximativă, a distribuției populației statistice. De exemplu, o histogramă doar într-o formă grosieră exprimă relația dintre valorile unei caracteristici și frecvențele acesteia (frecvențele). Prin urmare, seriile de variații sunt, în esență, doar baza pentru un studiu suplimentar și aprofundat al regularității interne a statiei. distributie.

ÎNTREBĂRI DE TEST PENTRU TEMA 5

1. Ce este variația? Ce cauzează variația unei trăsături într-o populație statistică?

2. Ce tipuri de caracteristici diferite pot apărea în statistici?

3. Ce este o serie de variații? Ce tipuri de serii de variații pot exista?

4. Ce este o serie clasificată? Care sunt avantajele și dezavantajele sale?

5. Ce este o serie discretă și care sunt avantajele și dezavantajele ei?

6. Care este procedura de formare a unei serii de intervale, care sunt avantajele și dezavantajele acesteia?

7. Ce este o reprezentare grafică a serii de distribuție pe intervale, clasificate, discrete?

8. Ce este cumulul de distribuție și ce caracterizează acesta?

Statistici matematice- o ramură a matematicii dedicată metodelor matematice de prelucrare, sistematizare și utilizare a datelor statistice pentru concluzii științifice și practice.

3.1. CONCEPTE DE BAZĂ ALE STATISTICII MATEMATICE

În problemele medicale și biologice, este adesea necesar să se studieze distribuția unei anumite caracteristici pentru un număr foarte mare de indivizi. Această trăsătură are semnificații diferite pentru diferiți indivizi, deci este o variabilă aleatorie. De exemplu, orice medicament terapeutic are o eficacitate diferită atunci când este aplicat la diferiți pacienți. Cu toate acestea, pentru a vă face o idee despre eficacitatea acestui medicament, nu este nevoie să îl aplicați toata lumea bolnav. Este posibil să urmăriți rezultatele utilizării medicamentului la un grup relativ mic de pacienți și, pe baza datelor obținute, să identificați caracteristicile esențiale (eficacitate, contraindicații) procesului de tratament.

Populația- un ansamblu de elemente omogene caracterizate de un anumit atribut de studiat. Acest semn este continuu variabilă aleatoare cu densitatea distribuţiei f(x).

De exemplu, dacă suntem interesați de prevalența unei boli într-o anumită regiune, atunci populația generală este întreaga populație a regiunii. Dacă dorim să aflăm separat susceptibilitatea bărbaților și femeilor la această boală, atunci ar trebui să luăm în considerare două populații generale.

Pentru a studia proprietățile unei populații generale, este selectată o anumită parte a elementelor acesteia.

Probă- o parte din populația generală selectată pentru examinare (tratament).

Dacă acest lucru nu provoacă confuzie, atunci o probă se numește ca un set de obiecte, selectat pentru sondaj și totalitate

valorile caracteristica studiată obţinută în timpul examinării. Aceste valori pot fi reprezentate în mai multe moduri.

Serii statistice simple - valorile caracteristicii studiate, înregistrate în ordinea în care au fost obținute.

Un exemplu de serie statistică simplă obținută prin măsurarea vitezei undelor de suprafață (m/s) în pielea frunții la 20 de pacienți este prezentat în tabel. 3.1.

Tabelul 3.1.Serii statistice simple

O serie statistică simplă este modalitatea principală și cea mai completă de înregistrare a rezultatelor sondajului. Poate conține sute de elemente. Este foarte greu să arunci o privire asupra unei astfel de totalități dintr-o privire. Prin urmare, eșantioanele mari sunt de obicei împărțite în grupuri. Pentru a face acest lucru, zona de schimbare a caracteristicii este împărțită în mai multe (N) intervale lățime egală și calculați frecvențele relative (n/n) ale atributului care se încadrează în aceste intervale. Lățimea fiecărui interval este:

Limitele intervalului au următoarele semnificații:

Dacă orice element eșantion este limita dintre două intervale adiacente, atunci este clasificat ca stânga interval. Datele grupate în acest fel se numesc serii statistice de interval.

este un tabel care arată intervalele de valori ale atributelor și frecvențele relative de apariție a atributului în aceste intervale.

În cazul nostru, putem forma, de exemplu, următoarea serie statistică de intervale (N = 5, d= 4), tabel. 3.2.

Tabelul 3.2.Serii statistice de intervale

Aici, intervalul 28-32 include două valori egale cu 28 (Tabelul 3.1), iar intervalul 32-36 include valorile 32, 33, 34 și 35.

O serie statistică de interval poate fi reprezentată grafic. Pentru a face acest lucru, intervalele de valori ale atributelor sunt trasate de-a lungul axei absciselor și pe fiecare dintre ele, ca pe o bază, este construit un dreptunghi cu o înălțime egală cu frecvența relativă. Diagrama cu bare rezultată este numită histogramă.

Orez. 3.1. diagramă cu bare

În histogramă, modelele statistice ale distribuției caracteristicii sunt vizibile destul de clar.

Cu o dimensiune mare a eșantionului (câteva mii) și lățimi mici ale coloanei, forma histogramei este apropiată de forma graficului densitatea de distribuție semn.

Numărul de coloane de histogramă poate fi selectat folosind următoarea formulă:

Construirea manuală a histogramei este un proces lung. Prin urmare, au fost dezvoltate programe de calculator pentru a le construi automat.

3.2. CARACTERISTICI NUMERICE ALE SERIELOR STATISTICE

Multe proceduri statistice folosesc estimări ale eșantionului pentru așteptarea și varianța populației (sau MSE).

Eșantion mediu(X) este media aritmetică a tuturor elementelor unei serii statistice simple:

Pentru exemplul nostru X= 37,05 (m/s).

Media eșantionului estecel mai bunestimarea medie generalăM.

Varianta eșantionului s 2 egală cu suma abaterilor pătrate ale elementelor de la media eșantionului, împărțită la n- 1:

În exemplul nostru, s 2 = 25,2 (m/s) 2.

Vă rugăm să rețineți că atunci când se calculează varianța eșantionului, numitorul formulei nu este dimensiunea eșantionului n, ci n-1. Acest lucru se datorează faptului că atunci când se calculează abaterile în formula (3.3), în loc de așteptarea matematică necunoscută, se utilizează estimarea acesteia - eșantion mediu.

Varianta eșantionului este cel mai bun estimarea varianței generale (σ 2).

Deviația standard a eșantionului(s) este rădăcina pătrată a varianței eșantionului:

Pentru exemplul nostru s= 5,02 (m/s).

Selectiv rădăcină medie pătrată abaterea este cea mai bună estimare a abaterii standard generale (σ).

Cu o creștere nelimitată a dimensiunii eșantionului, toate caracteristicile eșantionului tind spre caracteristicile corespunzătoare ale populației generale.

Formulele computerizate sunt utilizate pentru a calcula caracteristicile eșantionului. În Excel, aceste calcule realizează funcțiile statistice MEDIE, VARIAnță. DEVIAȚIE STANDARD

3.3. EVALUAREA INTERVALULUI

Toate caracteristicile eșantionului sunt variabile aleatoare. Aceasta înseamnă că pentru un alt eșantion de aceeași dimensiune, valorile caracteristicilor eșantionului vor fi diferite. Astfel, selectiv

caracteristicile sunt numai estimări caracteristicile relevante ale populației.

Dezavantajele evaluării selective sunt compensate de estimarea intervalului, reprezentând interval numericîn interiorul căruia cu o probabilitate dată R d se găseşte valoarea adevărată a parametrului estimat.

Lăsa U r - un parametru al populației generale (media generală, varianța generală etc.).

Estimarea intervalului parametrul U r se numește interval (U 1, U 2), satisfacerea conditiei:

P(U < Ur < U2) = Рд. (3.5)

Probabilitate R d numit probabilitatea de încredere.

Probabilitatea de încredere Pd - probabilitatea ca adevărata valoare a cantității estimate să fie interior intervalul specificat.

În acest caz, intervalul (U 1, U 2) numit interval de încredere pentru parametrul estimat.

Adesea, în locul probabilității de încredere, se folosește valoarea asociată α = 1 - Р d, care se numește nivelul de semnificație.

Nivel de semnificație este probabilitatea ca valoarea reală a parametrului estimat să fie in afara interval de încredere.

Uneori α și P d sunt exprimate ca procente, de exemplu, 5% în loc de 0,05 și 95% în loc de 0,95.

În estimarea intervalului, mai întâi selectați cel potrivit probabilitatea de încredere(de obicei 0,95 sau 0,99), apoi găsiți intervalul corespunzător de valori ale parametrului estimat.

Să notăm câteva proprietăți generale ale estimărilor de interval.

1. Cu cât nivelul de semnificație este mai scăzut (cu atât mai mult R d), cu cât estimarea intervalului este mai largă. Deci, dacă la un nivel de semnificație de 0,05, intervalul estimat al mediei generale este 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Cu cât dimensiunea eșantionului este mai mare n, cu atât este mai restrânsă estimarea intervalului cu nivelul de semnificație selectat. Fie, de exemplu, 5 estimarea procentuală a mediei generale (β = 0,05) obținută dintr-un eșantion de 20 de elemente, apoi 34,7< M< 39,4.

Prin creșterea dimensiunii eșantionului la 80, obținem o estimare mai precisă la același nivel de semnificație: 35,5< M< 38,6.

În general, construirea unor estimări de încredere de încredere necesită cunoașterea legii conform căreia atributul aleator estimat este distribuit în populație. Să ne uităm la modul în care este construită o estimare de interval media generală caracteristică care se repartizează în populaţie în funcţie de normal lege.

3.4. ESTIMARE INTERVALĂ A MEDIEI GENERALE PENTRU LEGEA DE DISTRIBUȚIE NORMALĂ

Construirea unei estimări de interval a mediei generale M pentru o populație cu o lege de distribuție normală se bazează pe următoarea proprietate. Pentru volumul de eșantionare n atitudine

respectă distribuția Student cu numărul de grade de libertate ν = n- 1.

Aici X- medie eșantionului și s- abaterea standard selectivă.

Folosind tabele de distribuție Student sau analogul lor de computer, puteți găsi o valoare limită astfel încât, cu o probabilitate de încredere dată, să fie valabilă următoarea inegalitate:

Această inegalitate corespunde inegalității pentru M:

Unde ε - jumătate de lățime a intervalului de încredere.

Astfel, construirea unui interval de încredere pentru M se realizează în următoarea secvență.

1. Selectați o probabilitate de încredere Р d (de obicei 0,95 sau 0,99) și pentru aceasta, folosind tabelul de distribuție Student, găsiți parametrul t

2. Calculați jumătatea lățimii intervalului de încredere ε:

3. Obțineți o estimare de interval a mediei generale cu probabilitatea de încredere selectată:

Pe scurt este scris astfel:

Au fost dezvoltate proceduri computerizate pentru a găsi estimări de interval.

Să explicăm cum să folosim tabelul de distribuție Student. Acest tabel are două „intrări”: coloana din stânga, numită numărul de grade de libertate ν = n- 1, iar linia de sus este nivelul de semnificație α. La intersecția rândului și coloanei corespunzătoare, găsiți coeficientul Student t.

Să aplicăm această metodă eșantionului nostru. Un fragment din tabelul de distribuție Student este prezentat mai jos.

Tabelul 3.3. Fragment din tabelul de distribuție Student

O serie statistică simplă pentru un eșantion de 20 de persoane (n= 20, ν =19) este prezentată în tabel. 3.1. Pentru această serie, calculele folosind formulele (3.1-3.3) dau: X= 37,05; s= 5,02.

Să alegem α = 0,05 (Р d = 0,95). La intersecția rândului „19” și coloanei „0.05” găsim t= 2,09.

Să calculăm acuratețea estimării folosind formula (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Să construim o estimare de interval: cu o probabilitate de 95%, media generală necunoscută satisface inegalitatea:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), R d = 0,95.

3.5. METODE DE TESTARE A IPOTEZELOR STATISTICE

Ipoteze statistice

Înainte de a formula ce este o ipoteză statistică, luați în considerare următorul exemplu.

Pentru a compara două metode de tratare a unei anumite boli, două grupuri de pacienți a câte 20 de persoane fiecare au fost selectate și tratate folosind aceste metode. Pentru fiecare pacient a fost înregistrat numărul de proceduri, după care s-a obţinut un efect pozitiv. Pe baza acestor date, mediile eșantionului (X), variațiile eșantionului au fost găsite pentru fiecare grup (s 2)și abaterile standard ale eșantionului (s).

Rezultatele sunt prezentate în tabel. 3.4.

Tabelul 3.4

Numărul de proceduri necesare pentru a obține un efect pozitiv este o variabilă aleatorie, toate informațiile despre care sunt conținute în prezent în eșantionul dat.

De la masă 3.4 arată că media eșantionului în primul grup este mai mică decât în ​​al doilea. Înseamnă aceasta că aceeași relație este valabilă pentru mediile generale: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает testarea statistică a ipotezelor.

Ipoteza statistica- este o presupunere despre proprietăţile populaţiilor.

Vom lua în considerare ipoteze despre proprietăți Două populatiile generale.

Dacă populaţiile au celebru, identic distribuția valorii care se estimează, iar ipotezele se referă la valori vreun parametru a acestei distribuții, atunci se numesc ipotezele parametrice. De exemplu, probele sunt extrase din populații cu legea normală distribuție și varianță egală. Trebuie să aflu sunt la fel mediile generale ale acestor populaţii.

Dacă nu se știe nimic despre legile de distribuție a populațiilor generale, atunci se numesc ipoteze despre proprietățile lor neparametric. De exemplu, sunt la fel legile de distribuţie a populaţiilor din care se prelevează probe.

Ipoteze nule și alternative.

Sarcina de a testa ipoteze. Nivel de semnificație

Să ne familiarizăm cu terminologia folosită la testarea ipotezelor.

H 0 - ipoteza nulă (ipoteza scepticului) este o ipoteză despre absența diferențelorîntre probele comparate. Scepticul consideră că diferențele dintre estimările eșantionului obținute din rezultatele cercetării sunt aleatorii;

H 1- ipoteza alternativă (ipoteza optimistă) este o ipoteză despre prezența diferențelor între eșantioanele comparate. Un optimist consideră că diferențele dintre estimările eșantionului sunt cauzate de motive obiective și corespund unor diferențe între populațiile generale.

Testarea ipotezelor statistice este fezabilă numai atunci când este posibil să se construiască unele mărimea(criteriu), a cărui lege de repartizare în caz de echitate H 0 celebru. Atunci pentru această cantitate putem specifica interval de încredere,în care cu o probabilitate dată R d valoarea sa scade. Acest interval se numește zona critica. Dacă valoarea criteriului se încadrează în regiunea critică, atunci ipoteza este acceptată N 0.În caz contrar, ipoteza H 1 este acceptată.

În cercetarea medicală se utilizează P d = 0,95 sau P d = 0,99. Aceste valori corespund niveluri de semnificațieα = 0,05 sau α = 0,01.

La testarea ipotezelor statisticenivelul de semnificație(α) este probabilitatea de a respinge ipoteza nulă atunci când aceasta este adevărată.

Vă rugăm să rețineți că, în esență, este vizată procedura de testare a ipotezelor detectarea diferențelorși să nu confirme absența acestora. Când valoarea criteriului depășește regiunea critică, putem spune cu inimă curată „scepticului” - ei bine, ce mai doriți?! Dacă nu ar exista diferențe, atunci cu o probabilitate de 95% (sau 99%) valoarea calculată ar fi în limitele specificate. Dar nu!..

Ei bine, dacă valoarea criteriului se încadrează în regiunea critică, atunci nu există niciun motiv să credem că ipoteza H 0 este corectă. Acest lucru indică cel mai probabil unul dintre cele două motive posibile.

1. Dimensiunile eșantioanelor nu sunt suficient de mari pentru a detecta diferențele. Este probabil ca experimentarea continuă să aducă succes.

2. Există diferențe. Dar sunt atât de mici încât nu au nicio semnificație practică. În acest caz, continuarea experimentelor nu are sens.

Să trecem la considerarea unor ipoteze statistice folosite în cercetarea medicală.

3.6. TESTAREA IPOTEZELOR DESPRE EGALITATEA VARIANȚEI, CRITERIU F FISCHER

În unele studii clinice, efectul pozitiv este evidențiat nu atât de mult magnitudinea a parametrului studiat, cât de mult din acesta stabilizare, reducându-şi fluctuaţiile. În acest caz, se pune întrebarea despre compararea a două variații generale pe baza rezultatelor unui sondaj prin sondaj. Această problemă poate fi rezolvată folosind Testul lui Fisher.

Formularea problemei

legea normală distribuţiile. Dimensiuni mostre -

n 1Și n2, A variațiile de eșantion egal s 1 și s 2 2 variaţii generale.

Ipoteze testabile:

H 0- variatii generale sunt la fel;

H 1- variatii generale sunt diferite.

Se arată dacă probele sunt prelevate din populații cu legea normală distribuție, atunci dacă ipoteza este adevărată H 0 raportul dintre variațiile eșantionului urmează distribuția Fisher. Prin urmare, ca criteriu de verificare a corectitudinii H 0 se ia valoarea F, calculat prin formula:

Unde s 1 și s 2 sunt variații ale eșantionului.

Acest raport se supune distribuției Fisher cu numărul de grade de libertate al numărătorului ν 1 = n 1- 1 și numărul de grade de libertate ale numitorului ν 2 = n 2 - 1. Limitele regiunii critice se găsesc folosind tabelele de distribuție Fisher sau folosind funcția de calculator BRASPOBR.

Pentru exemplul prezentat în tabel. 3.4, obținem: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. La α = 0,05, limitele regiunii critice sunt respectiv: = 0,40, = 2,53.

Valoarea criteriului se încadrează în regiunea critică, deci ipoteza este acceptată H 0: variațiile generale ale eșantionului sunt la fel.

3.7. TESTAREA IPOTEZELOR PRIVIND EGALITATEA MIJLOACELOR, CRITERIU t STUDENT

Sarcina de comparare in medie două populaţii generale apar atunci când semnificaţia practică este tocmai magnitudinea caracteristica studiată. De exemplu, când se compară durata tratamentului cu două metode diferite sau numărul de complicații care decurg din utilizarea lor. În acest caz, puteți utiliza testul t al Studentului.

Formularea problemei

S-au obţinut două probe (X 1) şi (X 2), extrase din populaţiile generale cu legea normală distribuţie şi varianțe identice. Dimensiunile eșantionului - n 1 și n 2, eșantion înseamnă sunt egale cu X 1 și X 2 și variațiile de eșantion- s 1 2 și s 2 2 respectiv. Trebuie comparat medii generale.

Ipoteze testabile:

H 0- medii generale sunt la fel;

H 1- medii generale sunt diferite.

Se arată că dacă ipoteza este adevărată H 0 valoarea t calculată prin formula:

distribuite conform legii lui Student cu numărul de grade de libertate ν = ν 1 + + ν2 - 2.

Aici unde ν 1 = n 1 - 1 - numărul de grade de libertate pentru prima probă; ν 2 = n 2 - 1 - număr de grade de libertate pentru a doua probă.

Limitele regiunii critice sunt găsite folosind tabele de distribuție t sau folosind funcția de calculator STUDRIST. Distribuția Student este simetrică față de zero, astfel încât limitele stânga și dreapta ale regiunii critice sunt identice ca mărime și opuse ca semn: -și

Pentru exemplul prezentat în tabel. 3.4, obținem:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. La α = 0,05 = 2,02.

Valoarea criteriului depășește granița din stânga a regiunii critice, așa că acceptăm ipoteza H 1: medii generale sunt diferite.În același timp, media populației prima mostră MAI PUȚIN.

Aplicabilitatea testului t Student

Testul t Student este aplicabil numai probelor din normal se agrega cu variații generale identice. Dacă cel puțin una dintre condiții este încălcată, atunci aplicabilitatea criteriului este îndoielnică. Cerința de normalitate a populației generale este de obicei ignorată, citând teorema limitei centrale.Într-adevăr, diferența dintre mediile eșantionului din numărătorul (3.10) poate fi considerată distribuită normal pentru ν > 30. Dar problema egalității varianțelor nu poate fi verificată și nu pot fi luate referiri la faptul că testul Fisher nu a detectat diferențe. în considerare. Cu toate acestea, testul t este utilizat pe scară largă pentru a detecta diferențele în mediile populației, deși fără dovezi suficiente.

Mai jos este discutat criteriu neparametric, care este folosit cu succes în aceleași scopuri și care nu necesită niciunul normalitate, nici egalitatea varianţelor.

3.8. COMPARAȚIA NEPARAMETRICĂ A DOUĂ EȘANTIE: CRITERIU MANN-WHITNEY

Testele neparametrice sunt concepute pentru a detecta diferențele în legile de distribuție a două populații. Criterii care sunt sensibile la diferențe în general in medie, numite criterii schimb Criterii care sunt sensibile la diferențe în general dispersii, numite criterii scară. Testul Mann-Whitney se referă la criterii schimbși este utilizat pentru a detecta diferențe în mediile a două populații, eșantioane din care sunt prezentate în scala de clasare. Caracteristicile măsurate sunt situate pe această scară în ordine crescătoare, iar apoi numerotate cu numere întregi 1, 2... Aceste numere se numesc ranguri. Cantităților egale li se atribuie ranguri egale. Nu valoarea atributului în sine contează, ci numai loc ordinal pe care o plasează printre alte cantități.

În tabel 3.5. primul grup din tabelul 3.4 este prezentat în formă extinsă (linia 1), clasat (linia 2), iar apoi rândurile valorilor identice sunt înlocuite cu medii aritmetice. De exemplu, elementele 4 și 4 din primul rând au primit rangurile 2 și 3, care au fost apoi înlocuite cu aceleași valori de 2,5.

Tabelul 3.5

Formularea problemei

Mostre independente (X 1)Și (X 2) extrase din populații generale cu legi de distribuție necunoscute. Dimensiunile mostrelor n 1Și n 2 respectiv. Valorile elementelor eșantionului sunt prezentate în scala de clasare. Este necesar să se verifice dacă aceste populații generale diferă unele de altele?

Ipoteze testabile:

H 0- eșantioanele aparțin aceleiași populații generale; H 1- eșantioanele aparțin unor populații generale diferite.

Pentru a testa astfel de ipoteze, se folosește testul (/-Mann-Whitney.

În primul rând, un eșantion combinat (X) este compilat din cele două eșantioane, ale căror elemente sunt clasificate. Apoi se găsește suma rangurilor corespunzătoare elementelor primului eșantion. Această sumă este criteriul de testare a ipotezelor.

U= Suma rangurilor primului eșantion. (3,11)

Pentru mostre independente ale căror volume sunt mai mari de 20, valoarea U respectă distribuția normală, a cărei așteptare matematică și abatere standard sunt egale cu:

Prin urmare, limitele regiunii critice sunt găsite conform tabelelor de distribuție normale.

Pentru exemplul prezentat în tabel. 3.4, obținem: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Pentru α = 0,05 obținem: stânga = 338 și dreapta = 482.

Valoarea criteriului depășește granița din stânga a regiunii critice, de aceea este acceptată ipoteza H 1: populațiile generale au legi de distribuție diferite. În același timp, media populației prima mostră MAI PUȚIN.

La construirea unei serii de distribuție pe intervale, sunt rezolvate trei întrebări:

  • 1. Câte intervale ar trebui să iau?
  • 2. Care este lungimea intervalelor?
  • 3. Care este procedura de includere a unităților de populație în limitele intervalelor?
  • 1. Numărul de intervale poate fi determinat de Formula Sturgess:

2. Lungimea intervalului sau pas de interval, determinată de obicei de formulă

Unde R- gama de variatie.

3. Ordinea de includere a unităților de populație în limitele intervalului

poate fi diferit, dar atunci când se construiește o serie de intervale, distribuția trebuie să fie strict definită.

De exemplu, acesta: [), în care unitățile de populație sunt incluse în limitele inferioare, dar nu sunt incluse în limitele superioare, ci sunt transferate la intervalul următor. Excepția de la această regulă este ultimul interval, a cărui limită superioară include ultimul număr al seriei clasate.

Limitele intervalului sunt:

  • închis - cu două valori extreme ale atributului;
  • deschis - cu o valoare extremă a atributului (inainte de cutare sau cutare număr sau peste cutare și cutare număr).

Pentru a asimila materialul teoretic, introducem informații generale pentru solutii sarcină de la capăt la capăt.

Există date condiționate privind numărul mediu de manageri de vânzări, cantitatea de bunuri similare vândute de aceștia, prețul individual de piață pentru acest produs, precum și volumul vânzărilor a 30 de companii într-una dintre regiunile Federației Ruse în prima trimestrul anului de raportare (Tabelul 2.1).

Tabelul 2.1

Informații inițiale pentru o sarcină transversală

Număr

manageri,

Preț, mii de ruble

Volumul vânzărilor, milioane de ruble.

Număr

manageri,

Cantitatea mărfurilor vândute, buc.

Preț, mii de ruble

Volumul vânzărilor, milioane de ruble.

Pe baza informațiilor inițiale, precum și a informațiilor suplimentare, vom stabili sarcini individuale. Apoi vom prezenta metodologia de rezolvare a acestora și soluțiile în sine.

Sarcină transversală. Sarcina 2.1

Utilizarea datelor sursă din tabel. 2.1 necesar construiți o serie discretă de distribuție a firmelor după cantitatea de mărfuri vândute (Tabelul 2.2).

Soluţie:

Tabelul 2.2

Serii discrete de distribuție a firmelor în funcție de cantitatea de mărfuri vândute într-una dintre regiunile Federației Ruse în primul trimestru al anului de raportare

Sarcină transversală. Sarcina 2.2

necesar construiți o serie clasificată de 30 de firme în funcție de numărul mediu de manageri.

Soluţie:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Sarcină transversală. Sarcina 2.3

Utilizarea datelor sursă din tabel. 2.1, necesar:

  • 1. Construiți o serie de intervale de distribuție a firmelor după numărul de manageri.
  • 2. Calculați frecvențele seriei de distribuție a firmelor.
  • 3. Trageți concluzii.

Soluţie:

Să calculăm folosind formula Sturgess (2.5) numărul de intervale:

Astfel, luăm 6 intervale (grupe).

Lungimea intervalului, sau pas de interval, calculați folosind formula

Notă. Ordinea de includere a unităților de populație în limitele intervalului este următoarea: I), în care unitățile de populație sunt incluse în limitele inferioare, dar nu sunt incluse în limitele superioare, ci sunt transferate în intervalul următor. Excepție de la această regulă este ultimul interval I ], a cărui limită superioară include ultimul număr al seriei clasate.

Construim o serie de intervale (Tabelul 2.3).

Seria de intervale de distribuție a firmelor și numărul mediu de manageri într-una dintre regiunile Federației Ruse în primul trimestru al anului de raportare

Concluzie. Cel mai mare grup de firme este grupul cu un număr mediu de manageri de 25-30 de persoane, care include 8 firme (27%); Cel mai mic grup cu un număr mediu de manageri de 40-45 de persoane include o singură companie (3%).

Utilizarea datelor sursă din tabel. 2.1, precum și o serie de intervale de distribuție a firmelor după numărul de manageri (Tabelul 2.3), necesar construiți o grupare analitică a relației dintre numărul de manageri și volumul vânzărilor firmelor și, pe baza acesteia, trageți o concluzie despre prezența (sau absența) unei relații între aceste caracteristici.

Soluţie:

Gruparea analitică se bazează pe caracteristicile factorilor. În problema noastră, caracteristica factorului (x) este numărul de manageri, iar caracteristica rezultată (y) este volumul vânzărilor (Tabelul 2.4).

Să construim acum grupare analitică(Tabelul 2.5).

Concluzie. Pe baza datelor grupării analitice construite, putem spune că odată cu creșterea numărului de directori de vânzări crește și volumul mediu de vânzări al companiei din grup, ceea ce indică prezența unei legături directe între aceste caracteristici.

Tabelul 2.4

Tabel auxiliar pentru construirea unei grupări analitice

Numărul de manageri, oameni,

Numarul companiei

Volumul vânzărilor, milioane de ruble, y

" = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

la = ’ =10,31 30

Tabelul 2.5

Dependența volumelor vânzărilor de numărul de manageri de companie într-una dintre regiunile Federației Ruse în primul trimestru al anului de raportare

ÎNTREBĂRI DE CONTROL
  • 1. Care este esența observației statistice?
  • 2. Numiți etapele observației statistice.
  • 3. Care sunt formele organizatorice ale observaţiei statistice?
  • 4. Numiți tipurile de observație statistică.
  • 5. Ce este un rezumat statistic?
  • 6. Numiți tipurile de rapoarte statistice.
  • 7. Ce este gruparea statistică?
  • 8. Numiți tipurile de grupări statistice.
  • 9. Ce este o serie de distribuție?
  • 10. Numiți elementele structurale ale rândului de distribuție.
  • 11. Care este procedura de construire a unei serii de distribuție?
CATEGORII

ARTICOLE POPULARE

2024 „kingad.ru” - examinarea cu ultrasunete a organelor umane