95 konfidencia intervallum különbség az sd-től. Megbízhatósági intervallum
Az értékbecslőnek gyakran elemeznie kell annak a szegmensnek az ingatlanpiacát, amelyben az értékelő tárgy található. Ha a piac fejlett, nehéz lehet a bemutatott objektumok teljes halmazának elemzése, ezért az elemzéshez objektummintát használnak. Ez a minta nem mindig homogén, néha meg kell tisztítani a szélsőségektől - túl magas vagy túl alacsony piaci ajánlatoktól. Erre a célra alkalmazzák megbízhatósági intervallum. Ennek a tanulmánynak az a célja, hogy összehasonlító elemzést végezzen a konfidencia-intervallum kiszámítására szolgáló két módszer között, és válassza ki a legjobb számítási lehetőséget, amikor az estimatica.pro rendszerben különböző mintákkal dolgozik.
Konfidencia intervallum - a minta alapján számítva, a jellemző értékeinek intervalluma, amely ismert valószínűséggel tartalmazza az általános sokaság becsült paraméterét.
A konfidenciaintervallum számításának az az értelme, hogy a mintaadatok alapján olyan intervallumot építsünk fel, hogy adott valószínűséggel lehessen állítani, hogy a becsült paraméter értéke ebben az intervallumban van. Más szóval, a konfidencia intervallum bizonyos valószínűséggel tartalmazza a becsült mennyiség ismeretlen értékét. Minél szélesebb az intervallum, annál nagyobb a pontatlanság.
Különféle módszerek léteznek a konfidenciaintervallum meghatározására. Ebben a cikkben 2 módszert fogunk megvizsgálni:
- a mediánon és a szóráson keresztül;
- a t-statisztika kritikus értékén keresztül (Student-koefficiens).
A CI számítási módszereinek összehasonlító elemzésének szakaszai:
1. adatmintát képez;
2. statisztikai módszerekkel feldolgozzuk: kiszámítjuk az átlagértéket, mediánt, szórást stb.;
3. a konfidenciaintervallumot kétféleképpen számítjuk ki;
4. Elemezze a tisztított mintákat és a kapott konfidencia intervallumokat.
1. szakasz. Adatmintavétel
A mintát az estimatica.pro rendszerrel képeztük. A minta 91 ajánlatot tartalmazott 1 szobás lakások eladására a 3. árzónában „Hruscsov” típusú tervezéssel.
1. táblázat: Kezdeti minta
Az ára 1 nm, c.u. |
|
1. ábra. Kezdeti minta
2. szakasz. A kiindulási minta feldolgozása
A minta statisztikai módszerekkel történő feldolgozása a következő értékek kiszámítását igényli:
1. Számtani közép
2. Medián - a mintát jellemző szám: a mintaelemek pontosan fele nagyobb a mediánnál, a másik fele kisebb a mediánnál
(páratlan számú értékkel rendelkező mintához)
3. Tartomány - a minta maximális és minimális értéke közötti különbség
4. Variancia – az adatok változásának pontosabb becslésére szolgál
5. A minta szórása (a továbbiakban: RMS) a korrekciós értékek számtani átlag körüli szórásának leggyakoribb mutatója.
6. Variációs együttható – a korrekciós értékek szórásának mértékét tükrözi
7. oszcillációs együttható - a mintában szereplő árak szélsőértékeinek relatív ingadozását tükrözi az átlag körül
2. táblázat Az eredeti minta statisztikai mutatói
Az adatok homogenitását jellemző variációs együttható 12,29%, de az oszcillációs együttható túl nagy. Így kijelenthetjük, hogy az eredeti minta nem homogén, ezért térjünk át a konfidencia intervallum kiszámítására.
3. szakasz. A konfidencia intervallum kiszámítása
1. módszer. Számítás a medián és a szórással.
A konfidenciaintervallum meghatározása a következőképpen történik: a minimális érték - a szórást levonjuk a mediánból; a maximális érték - a szórást hozzáadjuk a mediánhoz.
Így a konfidencia intervallum (47179 CU; 60689 CU)
Rizs. 2. Az 1. konfidencia intervallumon belüli értékek.
2. módszer. Konfidenciaintervallum felépítése a t-statisztika kritikus értékén (Student-koefficiens) keresztül.
S.V. Gribovsky a "Matematikai módszerek az ingatlan értékének meghatározására" című könyvében leír egy módszert a konfidenciaintervallum kiszámítására a Student-féle együttható segítségével. Az ezzel a módszerrel történő számítás során a becslőnek magának kell beállítania a ∝ szignifikancia szintet, amely meghatározza, hogy a konfidenciaintervallum milyen valószínűséggel épül fel. Általában 0,1-es szignifikanciaszinteket használnak; 0,05 és 0,01. 0,9-es konfidenciavalószínűségnek felelnek meg; 0,95 és 0,99. Ezzel a módszerrel a matematikai elvárás és variancia valódi értékeit gyakorlatilag ismeretlennek tekintjük (ami gyakorlati értékelési feladatok megoldásánál szinte mindig igaz).
Konfidencia intervallum képlete:
n - mintanagyság;
∝ szignifikanciaszintű t-statisztika (Student eloszlások) kritikus értéke, n-1 szabadságfok száma, amelyet speciális statisztikai táblázatokkal vagy MS Excel segítségével határoznak meg (→"Statisztikai"→ STUDRASPOBR);
∝ - szignifikancia szint, ∝=0,01-et veszünk.
Rizs. 2. A konfidencia intervallumon belüli értékek 2.
4. lépés: A konfidenciaintervallum kiszámításának különböző módjainak elemzése
A konfidenciaintervallum kiszámításának két módszere - a medián és a Student-féle együttható segítségével - az intervallumok eltérő értékéhez vezetett. Ennek megfelelően két különböző tisztított mintát kaptunk.
3. táblázat Statisztikai mutatók három mintára.
Index |
Kezdeti minta |
1 lehetőség |
2. lehetőség |
Átlagos érték |
|||
Diszperzió |
|||
Coef. variációk |
|||
Coef. oszcillációk |
|||
Kivont objektumok száma, db. |
Az elvégzett számítások alapján elmondható, hogy a különböző módszerekkel kapott konfidenciaintervallumok értékei metszik egymást, így az értékelő belátása szerint bármelyik számítási módszert használhatja.
Azonban úgy gondoljuk, hogy az estimatica.pro rendszerben végzett munka során a piac fejlettségének mértékétől függően célszerű a konfidenciaintervallum kiszámításának módszerét választani:
- ha a piac nem fejlett, alkalmazza a mediánon és a szórással történő számítási módszert, mivel ebben az esetben a kivont objektumok száma kicsi;
- ha a piac fejlett, a számítást a t-statisztika kritikus értékén (Student-koefficiens) keresztül alkalmazzuk, mivel nagy kezdeti mintát lehet képezni.
A cikk elkészítésekor a következőket használták:
1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematikai módszerek ingatlan értékbecslésére. Moszkva, 2014
2. Adatok az estimatica.pro rendszerből
Konfidencia intervallumok ( angol Bizalmi intervallumok) a statisztikában használt intervallumbecslések egyik fajtája, amelyet adott szignifikanciaszintre számítanak ki. Lehetővé teszik azt az állítást, hogy az általános sokaság egy ismeretlen statisztikai paraméterének valódi értéke a kapott értéktartományban van, a választott statisztikai szignifikanciaszint által adott valószínűséggel.
Normális eloszlás
Ha az adatok sokaságának szórása (σ 2 ) ismert, akkor a z-score segítségével kiszámítható a konfidenciahatárok (a konfidenciaintervallum határpontjai). A t-eloszlás használatához képest a z-pontszám használata nemcsak szűkebb konfidenciaintervallumot ad, hanem megbízhatóbb becsléseket is ad az átlagról és a szórásra (σ), mivel a Z-pontszám normál eloszláson alapul.
Képlet
A konfidenciaintervallum határpontjainak meghatározásához, feltéve, hogy az adatok sokaságának szórása ismert, a következő képletet használjuk
L = X - Z α/2 | σ |
√n |
Példa
Tegyük fel, hogy a minta mérete 25 megfigyelésből áll, a minta átlaga 15, a sokaság szórása pedig 8. α=5%-os szignifikanciaszint esetén a Z-pontszám Z α/2 =1,96. Ebben az esetben a konfidencia intervallum alsó és felső határa lesz
L = 15-1,96 | 8 | = 11,864 |
√25 |
L = 15 + 1,96 | 8 | = 18,136 |
√25 |
Így kijelenthetjük, hogy 95%-os valószínűséggel a teljes sokaság matematikai elvárása a 11,864 és 18,136 közötti tartományba esik.
Módszerek a konfidencia intervallum szűkítésére
Tegyük fel, hogy a tartomány túl széles a vizsgálatunk céljaihoz. A konfidencia-intervallum tartományának csökkentése kétféleképpen lehetséges.
- Csökkentse az α statisztikai szignifikancia szintjét.
- Növelje a minta méretét.
A statisztikai szignifikancia szintjét α=10%-ra csökkentve Z α/2 =1,64 Z-pontszámot kapunk. Ebben az esetben az intervallum alsó és felső határa lesz
L = 15-1,64 | 8 | = 12,376 |
√25 |
L = 15 + 1,64 | 8 | = 17,624 |
√25 |
Maga a konfidenciaintervallum pedig így írható fel
Ebben az esetben feltételezhetjük, hogy 90%-os valószínűséggel a teljes sokaság matematikai elvárása a tartományba esik.
Ha meg akarjuk tartani az α statisztikai szignifikancia szintjét, akkor az egyetlen alternatíva a minta méretének növelése. 144 megfigyelésre növelve a következő megbízhatósági határértékeket kapjuk
L = 15-1,96 | 8 | = 13,693 |
√144 |
L = 15 + 1,96 | 8 | = 16,307 |
√144 |
Maga a konfidenciaintervallum így fog kinézni:
Így a konfidencia intervallum szűkítése a statisztikai szignifikancia szintjének csökkentése nélkül csak a minta méretének növelésével lehetséges. Ha a minta méretének növelése nem lehetséges, akkor a konfidencia intervallum szűkítése kizárólag a statisztikai szignifikancia szintjének csökkentésével érhető el.
Konfidenciaintervallum felépítése nem normál eloszláshoz
Ha a sokaság szórása nem ismert, vagy az eloszlás nem normális, a t-eloszlást használjuk a konfidenciaintervallum felépítéséhez. Ez a technika konzervatívabb, ami szélesebb konfidencia-intervallumokban fejeződik ki, mint a Z-pontszámon alapuló technika.
Képlet
A következő képleteket használjuk a konfidencia intervallum alsó és felső határának kiszámításához a t-eloszlás alapján
L = X - tα | σ |
√n |
A Student-eloszlás vagy t-eloszlás csak egy paramétertől függ - a szabadságfokok számától, amely megegyezik az egyedi jellemzőértékek számával (a megfigyelések száma a mintában). A Student-féle t-próba adott számú szabadsági fokra (n) és a statisztikai szignifikancia szintje α megtalálható a keresőtáblázatokban.
Példa
Tegyük fel, hogy a minta mérete 25 egyedi érték, a minta átlagértéke 50, a minta szórása pedig 28. Konfidenciaintervallumot kell alkotnia az α=5% statisztikai szignifikancia szintjéhez.
Esetünkben a szabadságfokok száma 24 (25-1), ezért a Student-féle t-próba megfelelő táblázatos értéke az α=5% statisztikai szignifikancia szintre 2,064. Ezért a konfidenciaintervallum alsó és felső határa lesz
L = 50-2,064 | 28 | = 38,442 |
√25 |
L = 50 + 2,064 | 28 | = 61,558 |
√25 |
Maga az intervallum pedig így írható fel
Így kijelenthetjük, hogy 95%-os valószínűséggel a teljes populáció matematikai elvárása a tartományba fog kerülni.
A t-eloszlás használata lehetővé teszi a konfidenciaintervallum szűkítését, akár a statisztikai szignifikancia csökkentésével, akár a minta méretének növelésével.
Példánk körülményei között a statisztikai szignifikanciát 95%-ról 90%-ra csökkentve a Student-féle t-próba 1,711 megfelelő táblázatos értékét kapjuk.
L = 50-1,711 | 28 | = 40,418 |
√25 |
L = 50 + 1,711 | 28 | = 59,582 |
√25 |
Ebben az esetben azt mondhatjuk, hogy 90%-os valószínűséggel a teljes sokaság matematikai elvárása a tartományba kerül.
Ha nem akarjuk csökkenteni a statisztikai szignifikanciát, akkor az egyetlen alternatíva a minta méretének növelése. Tegyük fel, hogy 64 egyedi megfigyelésről van szó, és nem 25-ről, mint a példa kezdeti feltételében. A Student-féle t-próba táblázatos értéke 63 szabadsági fokra (64-1) és az α=5% statisztikai szignifikancia szintre 1,998.
L = 50-1,998 | 28 | = 43,007 |
√64 |
L = 50 + 1,998 | 28 | = 56,993 |
√64 |
Ez lehetőséget ad arra, hogy kijelentsük, hogy 95%-os valószínűséggel az általános sokaság matematikai elvárása a tartományba esik.
Nagy minták
A nagy minták egy több mint 100 egyedi megfigyelést tartalmazó adatsokaságból vett minták A statisztikai vizsgálatok kimutatták, hogy a nagyobb minták általában normális eloszlásúak, még akkor is, ha a sokaság eloszlása nem normális. Ezenkívül az ilyen minták esetében a z-pontszám és a t-eloszlás alkalmazása megközelítőleg azonos eredményt ad a konfidenciaintervallumok felépítésénél. Így nagy minták esetén elfogadható a t-eloszlás helyett a z-pontszám használata normál eloszlásra.
Összegezve
Bizalmi intervallumok.
A konfidenciaintervallum kiszámítása a megfelelő paraméter átlagos hibáján alapul. Megbízhatósági intervallum megmutatja, hogy (1-a) valószínűséggel milyen határokon belül van a becsült paraméter valódi értéke. Itt a a szignifikanciaszint, az (1-a)-t konfidenciaszintnek is nevezik.
Az első fejezetben megmutattuk, hogy például a számtani átlag esetében a valódi sokaság átlaga az esetek 95%-ában az átlag 2 átlagos hibáján belül van. Így az átlag 95%-os konfidencia intervallumának határai a mintaátlagból lesznek az átlag átlagos hibájának kétszeresével, azaz. az átlag hibáját megszorozzuk valamilyen, a konfidenciaszinttől függő tényezővel. Az átlagra és az átlagok különbségére a Student-féle együtthatót (a Student-kritérium kritikus értéke), a részesedések arányára és különbségére a z-kritérium kritikus értékét vesszük. Az együttható és az átlagos hiba szorzatát e paraméter határhibájának nevezhetjük, azaz. a maximum, amit az értékeléskor kaphatunk.
Bizalmi intervallum ehhez számtani átlaga : .
Itt a minta átlaga;
A számtani átlag átlagos hibája;
s- minta szórása;
n
f = n-1 (Diák együtthatója).
Bizalmi intervallum ehhez a számtani átlagok különbsége :
Itt van a különbség a minta átlagai között;
- a számtani átlagok különbségének átlagos hibája;
s 1, s 2 - minta szórása;
n1, n2
A Hallgató kritériumának kritikus értéke egy adott a szignifikanciaszinthez és a szabadságfokok számához f=n1 +n2-2 (Diák együtthatója).
Bizalmi intervallum ehhez megoszt :
.
Itt d a minta aránya;
– átlagos részvényhiba;
n– mintanagyság (csoportlétszám);
Bizalmi intervallum ehhez megosztani a különbségeket :
Itt van a különbség a minta megosztásai között;
a számtani átlagok különbségének középhibája;
n1, n2– mintanagyság (csoportok száma);
A z kritérium kritikus értéke adott szignifikanciaszinten a ( , , ).
A mutatók különbségére vonatkozó konfidenciaintervallumok kiszámításával először is közvetlenül látjuk a hatás lehetséges értékeit, és nem csak a pontbecslését. Másodsorban következtetést vonhatunk le a nullhipotézis elfogadásáról vagy cáfolatáról, harmadszor pedig a kritérium erejéről.
A hipotézisek megbízhatósági intervallumokkal történő tesztelésekor a következő szabályt kell követni:
Ha az átlagkülönbség 100(1-a) százalékos konfidencia intervalluma nem tartalmaz nullát, akkor a különbségek statisztikailag szignifikánsak a szignifikancia szinten; ellenkezőleg, ha ez az intervallum nullát tartalmaz, akkor a különbségek statisztikailag nem szignifikánsak.
Valójában, ha ez az intervallum nullát tartalmaz, akkor az azt jelenti, hogy az összehasonlított mutató több vagy kevesebb lehet az egyik csoportban a másikhoz képest, azaz. a megfigyelt különbségek véletlenszerűek.
Az alapján, hogy a konfidencia-intervallumon belül hol helyezkedik el a nulla, meg lehet ítélni a kritérium erejét. Ha a nulla közel van az intervallum alsó vagy felső határához, akkor talán nagyobb számú összehasonlított csoport esetén a különbségek statisztikailag szignifikáns jelentőségűek lennének. Ha a nulla az intervallum közepe közelében van, akkor ez azt jelenti, hogy a mutató növekedése és csökkenése a kísérleti csoportban egyformán valószínű, és valószínűleg valóban nincs különbség.
Példák:
Összehasonlítva a műtéti mortalitást két különböző típusú érzéstelenítéssel: 61 embert operáltak az első típusú altatással, 8-an meghaltak, a másodikban 67-en, 10-en haltak meg.
d 1 = 8/61 \u003d 0,131; d 2 = 10/67 \u003d 0,149; d1-d2 = -0,018.
Az összehasonlított módszerek letalitásbeli különbsége (-0,018 - 0,122; -0,018 + 0,122) vagy (-0,14; 0,104) 100(1-a) = 95%-os valószínűséggel. Az intervallum nullát tartalmaz, azaz. az azonos letalitás hipotézise két különböző típusú érzéstelenítéssel nem utasítható el.
Így a mortalitás 14%-ra csökkenhet és fog is csökkenni, és 95%-os valószínűséggel 10,4%-ra nő, azaz. a nulla megközelítőleg az intervallum közepén van, tehát vitatható, hogy nagy valószínűséggel ez a két módszer valóban nem különbözik a letalitásban.
A korábban vizsgált példában az átlagos koppintási időt négy, vizsgapontszámukban eltérő tanulócsoportban hasonlították össze. Számítsuk ki az átlagos préselési idő konfidenciaintervallumát a 2-es és 5-ös vizsgát teljesítő tanulók esetében, valamint ezen átlagok közötti különbség konfidenciaintervallumát.
A Student-féle együtthatók a Student-féle eloszlás táblázataiból származnak (lásd a Függeléket): az első csoportnál: = t(0,05;48) = 2,011; a második csoportnál: = t(0,05;61) = 2,000. Így az első csoport konfidencia intervallumai: = (162,19-2,011 * 2,18; 162,19 + 2,011 * 2,18) = (157,8; 166,6) , a második csoportban (156,55-2,000 * 1,88,5 ; *1,88,5) 160,3). Tehát azoknál, akik 2-re vizsgáztak, az átlagos nyomási idő 157,8 ms és 166,6 ms között mozog 95%-os valószínűséggel, azoknál, akik 5-re vizsgáztak, 152,8 ms-tól 160,3 ms-ig 95%-os valószínűséggel .
A nullhipotézist az átlagok konfidenciaintervallumainak használatával is tesztelheti, nem csak az átlagok különbségére. Például, mint esetünkben, ha az átlagok konfidencia intervallumai átfedik egymást, akkor a nullhipotézist nem lehet elvetni. Egy hipotézis egy kiválasztott szignifikanciaszinten való elvetése érdekében a megfelelő konfidenciaintervallumoknak nem szabad átfedniük egymást.
Határozzuk meg az átlagos préselési idő különbségének konfidencia intervallumát a 2-es és 5-ös vizsgát tett csoportokban. Az átlagok különbsége: 162,19 - 156,55 = 5,64. Tanulói együttható: \u003d t (0,05; 49 + 62-2) \u003d t (0,05; 109) \u003d 1,982. A csoport szórása egyenlő lesz: ; . Kiszámítjuk az átlagok különbségének átlagos hibáját: . Konfidenciaintervallum: \u003d (5,64-1,982 * 2,87; 5,64 + 1,982 * 2,87) \u003d (-0,044; 11,33).
Tehát az átlagos préselési idő különbsége a 2-es és 5-ös vizsgán sikeres csoportokban -0,044 ms és 11,33 ms között lesz. Ez az intervallum magában foglalja a nullát, azaz. a kitűnő eredménnyel vizsgázók átlagos préselési ideje egyaránt nőhet és csökkenhet a nem kielégítően vizsgázókhoz képest, pl. a nullhipotézist nem lehet elvetni. De a nulla nagyon közel van az alsó határhoz, a préselés ideje sokkal inkább csökken a kiváló passzolóknál. Ebből arra következtethetünk, hogy a 2-vel és 5-tel továbbjutottak között továbbra is vannak eltérések az átlagos kattintási időben, csak az átlagos idő, az átlagos idő elterjedésének és a mintaméretek adott változásánál nem tudtuk kimutatni őket.
A teszt ereje egy hibás nullhipotézis elutasításának valószínűsége, azaz. megtalálni a különbségeket ott, ahol valójában vannak.
A teszt erejét a szignifikancia szintje, a csoportok közötti különbségek nagysága, az értékek csoportonkénti eloszlása és a minta mérete alapján határozzuk meg.
A Student-féle t-próbához és a varianciaanalízishez használhat érzékenységi diagramokat.
A kritérium hatványa felhasználható a szükséges csoportszám előzetes meghatározásában.
A konfidenciaintervallum megmutatja, hogy adott valószínűség mellett milyen határok között van a becsült paraméter valódi értéke.
A konfidenciaintervallumok segítségével statisztikai hipotéziseket tesztelhet, és következtetéseket vonhat le a kritériumok érzékenységére vonatkozóan.
IRODALOM.
Glantz S. - 6.7. fejezet.
Rebrova O.Yu. - 112-114., 171-173., 234-238.
Sidorenko E. V. - 32-33.
Kérdések a tanulók önvizsgálatához.
1. Mekkora a kritérium ereje?
2. Milyen esetekben szükséges a kritériumok erejét értékelni?
3. A teljesítmény számítási módszerei.
6. Hogyan tesztelhetünk statisztikai hipotézist konfidenciaintervallum segítségével?
7. Mi mondható el a kritérium erejéről a konfidenciaintervallum számításakor?
Feladatok.
Konfidenciaintervallum a matematikai elvárásokhoz - ez egy olyan adatból számolt intervallum, amely ismert valószínűséggel tartalmazza a teljes sokaság matematikai elvárását. A matematikai elvárás természetes becslése a megfigyelt értékeinek számtani átlaga. Ezért a továbbiakban az óra során az „átlag”, „átlagérték” kifejezéseket fogjuk használni. A konfidenciaintervallum kiszámításának problémáinál a leggyakrabban a következő válaszra van szükség: „Az átlagos szám [érték egy adott feladatban] konfidenciaintervalluma [alacsonyabb érték] és [magasabb érték] között van”. A konfidenciaintervallum segítségével nemcsak az átlagértékek, hanem az általános sokaság egyik vagy másik jellemzőjének aránya is értékelhető. A leckében elemezzük az átlagértékeket, a szórást, a szórást és a hibát, amelyek révén új definíciókhoz és képletekhez jutunk. Minta- és populációs jellemzők .
Az átlag pont- és intervallumbecslései
Ha az általános sokaság átlagértékét egy számmal (ponttal) becsüljük meg, akkor a megfigyelések mintájából számított fajlagos átlagot tekintjük az általános sokaság ismeretlen átlagának becsléseként. Ebben az esetben a mintaátlag értéke - egy valószínűségi változó - nem esik egybe az általános sokaság átlagértékével. Ezért a minta átlagértékének feltüntetésekor egyidejűleg a mintahibát is jelezni kell. A standard hibát a mintavételi hiba mértékeként használják, amelyet az átlaggal azonos egységekben fejeznek ki. Ezért gyakran használják a következő jelölést: .
Ha az átlag becslését egy bizonyos valószínűséghez kell kötni, akkor az általános érdeklődésre számot tartó sokaság paraméterét nem egyetlen számmal, hanem intervallummal kell becsülni. A konfidenciaintervallum egy olyan intervallum, amelyben bizonyos valószínűséggel P az általános sokaság becsült mutatójának értéke található. Bizalmi intervallum, amelyben valószínűséggel P = 1 - α egy valószínűségi változó, a következőképpen számítható ki:
,
α = 1 - P, amely szinte minden statisztikai témájú könyv mellékletében megtalálható.
A gyakorlatban a sokaság átlaga és variancia nem ismert, ezért a sokaság szórását a minta szórása, a sokaság átlagát pedig a minta átlaga helyettesíti. Így a legtöbb esetben a konfidencia intervallumot a következőképpen számítják ki:
.
A konfidenciaintervallum képlete használható a sokaság átlagának becslésére, ha
- ismert az általános sokaság szórása;
- vagy a sokaság szórása nem ismert, de a minta mérete nagyobb, mint 30.
A minta átlaga a sokaság átlagának elfogulatlan becslése. Viszont a minta szórása nem a populáció varianciájának elfogulatlan becslése. A minta varianciaképletében a sokaság szórásának elfogulatlan becsléséhez a minta mérete a következő n-re kell cserélni n-1.
1. példa Egy város 100 véletlenszerűen kiválasztott kávézójából azt az információt gyűjtik, hogy az átlagos alkalmazottak száma 10,5 fő, szórással 4,6. Határozza meg a kávézói alkalmazottak számának 95%-ának konfidencia intervallumát!
ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,05 .
Így a 95%-os konfidenciaintervallum a kávézói alkalmazottak átlagos létszámára vonatkozóan 9,6 és 11,4 között volt.
2. példa Egy 64 megfigyelésből álló általános sokaságból vett véletlenszerű minta esetén a következő összértékeket számítottuk ki:
értékek összege a megfigyelésekben,
az értékek átlagtól való eltérésének négyzetes összege .
Számítsa ki a várható érték 95%-os konfidencia intervallumát.
számítsuk ki a szórást:
,
számítsa ki az átlagértéket:
.
Cserélje be a kifejezésben szereplő értékeket a konfidencia intervallumra:
ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,05 .
Kapunk:
Így ennek a mintának a matematikai várakozásának 95%-os konfidencia intervalluma 7,484 és 11,266 között volt.
3. példa Egy 100 megfigyelésből álló általános sokaságból vett véletlenszerű minta esetén 15,2-es átlagértéket és 3,2-es szórást számítottunk. Számítsa ki a várható érték 95%-os, majd a 99%-os konfidencia intervallumát. Ha a minta teljesítménye és variációja változatlan marad, de a konfidenciafaktor nő, akkor a konfidenciaintervallum szűkül vagy szélesedik?
Ezeket az értékeket behelyettesítjük a konfidenciaintervallum kifejezésébe:
ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,05 .
Kapunk:
.
Így a minta átlagának 95%-os konfidencia intervalluma 14,57 és 15,82 között volt.
Ismét behelyettesítjük ezeket az értékeket a konfidenciaintervallum kifejezésébe:
ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,01 .
Kapunk:
.
Így a minta átlagának 99%-os konfidencia intervalluma 14,37 és 16,02 között volt.
Mint látható, a konfidenciafaktor növekedésével a standard normális eloszlás kritikus értéke is növekszik, ezért az intervallum kezdő- és végpontja távolabb helyezkedik el az átlagtól, így a matematikai elvárás konfidencia intervallumától. növeli.
A fajsúly pont- és intervallumbecslése
A minta valamely jellemzőjének részesedése a részesedés pontbecsléseként értelmezhető p ugyanaz a tulajdonság az általános populációban. Ha ezt az értéket valószínűséggel kell társítani, akkor a fajsúly konfidencia intervallumát kell kiszámítani p valószínûséggel P = 1 - α :
.
4. példa Egy bizonyos városban két jelölt van AÉs B indul a polgármesteri tisztségért. A város 200 lakosát választották ki véletlenszerűen, akiknek 46%-a azt válaszolta, hogy a jelöltre szavazna. A, 26% - a jelöltnek B 28%-uk pedig nem tudja, kire fog szavazni. Határozza meg a jelöltet támogató városlakók arányának 95%-os konfidencia intervallumát! A.
Bármely minta csak hozzávetőleges képet ad az általános sokaságról, és a minta összes statisztikai jellemzője (átlag, módusz, szórás...) az általános paraméterek valamilyen közelítése vagy mondjuk becslése, ami a legtöbb esetben nem számítható ki, mivel a lakosság elérhetetlensége (20. ábra) .
20. ábra Mintavételi hiba
De megadhatja azt az intervallumot, amelyben bizonyos valószínűséggel a statisztikai jellemző valódi (általános) értéke található. Ezt az intervallumot ún d konfidencia intervallum (CI).
Tehát az általános átlag 95%-os valószínűséggel belül van
tól ig, (20)
Ahol t - a Student-féle kritérium táblázatos értéke α =0,05 és f= n-1
Megtalálható és 99% CI, ebben az esetben t számára választották α =0,01.
Mi a gyakorlati jelentősége egy konfidenciaintervallumnak?
A széles konfidenciaintervallum azt jelzi, hogy a minta átlaga nem tükrözi pontosan a sokaság átlagát. Ennek oka általában az elégtelen mintanagyság, vagy annak heterogenitása, pl. nagy szórás. Mindkettő nagy hibát ad az átlagban, és ennek megfelelően szélesebb CI-t ad. És ez az oka annak, hogy visszatérjünk a kutatás tervezési szakaszához.
A felső és alsó CI határértékek azt értékelik, hogy az eredmények klinikailag jelentősek lesznek-e
Foglalkozzunk részletesebben a csoporttulajdonságok vizsgálata eredményeinek statisztikai és klinikai jelentőségének kérdésével. Emlékezzünk vissza, hogy a statisztika feladata legalább néhány eltérés kimutatása az általános sokaságban, mintaadatok alapján. A klinikus feladata, hogy olyan (nem bármilyen) különbséget találjon, amely segíti a diagnózist vagy a kezelést. És nem mindig a statisztikai következtetések képezik a klinikai következtetések alapját. Így a hemoglobin statisztikailag szignifikáns 3 g/l-es csökkenése nem ad okot aggodalomra. És fordítva, ha az emberi test valamely problémája nem tömegjellegű a teljes népesség szintjén, ez nem ok arra, hogy ne foglalkozzunk ezzel a problémával.
Ezt a pozíciót figyelembe vesszük példa. A kutatók arra voltak kíváncsiak, hogy azok a fiúk, akik valamilyen fertőző betegségben szenvedtek, lemaradnak-e társaikhoz képest növekedésben. Ebből a célból szelektív vizsgálatot végeztek, amelyben 10 ilyen betegségben szenvedő fiú vett részt. Az eredményeket a 23. táblázat tartalmazza. 23. táblázat Statisztikai eredmények
Ezekből a számításokból az következik, hogy a 10 éves, valamilyen fertőző betegségben szenvedő fiúk szelektív átlagmagassága megközelíti a normális értéket (132,5 cm). A konfidenciaintervallum alsó határa (126,6 cm) azonban azt jelzi, hogy 95%-os valószínűséggel ezeknek a gyerekeknek a valódi átlagmagassága megfelel az "alacsony termet" fogalmának, azaz. ezek a gyerekek csökevényesek. Ebben a példában a konfidenciaintervallum-számítások eredményei klinikailag szignifikánsak. |