Estymacja matematycznego oczekiwania zmiennej losowej. Szacunki punktowe matematycznego oczekiwania

Niech będzie zmienna losowa X z matematycznym oczekiwaniem m i dyspersja D, podczas gdy oba te parametry są nieznane. Ponad wielkość X wytworzony N niezależne eksperymenty, które zaowocowały zestawem N Wyniki liczbowe x 1 , x 2 , …, x N. Jako oszacowanie matematycznego oczekiwania naturalne jest zaproponowanie średniej arytmetycznej obserwowanych wartości

(1)

Tutaj jak x ja konkretne wartości (liczby) uzyskane w wyniku N eksperymenty. Jeśli weźmiemy innych (niezależnych od poprzednich) N eksperymenty, wtedy oczywiście otrzymamy inną wartość. Jeśli weźmiesz więcej N eksperymenty, otrzymamy jeszcze jedną nową wartość . Oznacz przez X i zmienna losowa wynikająca z i eksperyment, potem realizacje X i będą liczby uzyskane w wyniku tych eksperymentów. Jest oczywiste, że zmienna losowa X i będzie miał taką samą gęstość rozkładu prawdopodobieństwa jak oryginalna zmienna losowa X. Zakładamy również, że zmienne losowe X i oraz Xj są niezależne w i, nie równe j(różne niezależne od siebie eksperymenty). Dlatego przepisujemy formułę (1) w innej postaci (statystycznej):

(2)

Pokażmy, że szacunek jest bezstronny:

Zatem matematyczne oczekiwanie średniej z próby jest równe prawdziwemu matematycznemu oczekiwaniu zmiennej losowej m. To dość przewidywalny i zrozumiały fakt. Dlatego średnią z próby (2) można przyjąć jako oszacowanie matematycznego oczekiwania zmiennej losowej. Teraz pojawia się pytanie: co dzieje się z wariancją oszacowania oczekiwań wraz ze wzrostem liczby eksperymentów? Obliczenia analityczne pokazują, że

gdzie jest wariancja oszacowania matematycznego oczekiwania (2), a D- prawdziwa wariancja zmiennej losowej X.

Z powyższego wynika, że ​​wraz ze wzrostem N(liczba eksperymentów) zmniejsza się wariancja oszacowania, tj. im więcej podsumujemy niezależnych wdrożeń, tym bliższy oczekiwanej wartości otrzymamy szacunek.


Matematyczne szacunki wariancji

Na pierwszy rzut oka najbardziej naturalne oszacowanie wydaje się:

(3)

gdzie oblicza się według wzoru (2). Sprawdźmy, czy szacunek jest bezstronny. Wzór (3) można zapisać w następujący sposób:

Wyrażenie (2) podstawiamy do tego wzoru:

Znajdźmy matematyczne oczekiwanie oszacowania wariancji:

(4)

Ponieważ wariancja zmiennej losowej nie zależy od tego, jakie jest oczekiwanie matematyczne zmiennej losowej, przyjmiemy oczekiwanie matematyczne równe 0, tj. m = 0.

(5)
w .(6)

Niech będzie zmienna losowa X, a jej parametrami są oczekiwanie matematyczne a i wariancja są nieznane. Powyżej wartości X przeprowadzono niezależne eksperymenty, które dały wyniki x 1, x 2, x n.

Nie umniejszając ogólności rozumowania, te wartości zmiennej losowej uznamy za różne. Rozważymy wartości x 1, x 2, x n jako niezależne zmienne losowe o identycznym rozkładzie X 1, X 2, X n .

Najprostsza metoda estymacji statystycznej - metoda substytucji i analogii - polega na tym, że jako oszacowanie tej lub innej cechy liczbowej (średniej, wariancji itp.) populacji ogólnej pobiera się odpowiednią charakterystykę rozkładu próby - charakterystyka próbki.

Metodą substytucji jako oszacowanie oczekiwań matematycznych a należy wziąć matematyczne oczekiwanie rozkładu próbki - średnią próbki. W ten sposób otrzymujemy

Aby przetestować bezstronność i spójność średniej z próby jako oszacowań a, rozważ tę statystykę jako funkcję wybranego wektora (X 1, X 2, X n). Biorąc pod uwagę, że każda z wielkości X 1, X 2, X n ma takie samo prawo rozkładu jak wielkość X, wnioskujemy, że cechy liczbowe tych wielkości i wielkości X są takie same: M(X i) = M(X) = a, D(X i) = D(X) = , i = 1, 2, n , gdzie X i są zbiorowo niezależnymi zmiennymi losowymi.

W konsekwencji,

Stąd z definicji otrzymujemy, że jest to bezstronne oszacowanie a, a ponieważ D()®0 jako n®¥, to na mocy twierdzenia z poprzedniego paragrafu jest spójnym oszacowaniem oczekiwań a ogółu ludności.

Efektywność lub nieefektywność oszacowania zależy od postaci prawa rozkładu zmiennej losowej X. Można udowodnić, że jeśli rozkład wartości X jest zgodny z prawem normalnym, to oszacowanie jest efektywne. W przypadku innych przepisów dotyczących dystrybucji może tak nie być.

Nieobciążone oszacowanie ogólnej wariancji to skorygowana wariancja próbki

,

Dlatego , gdzie jest ogólna wariancja. Naprawdę,

Estymacja s -- 2 dla ogólnej wariancji jest również spójna, ale nieefektywna. Natomiast w przypadku rozkładu normalnego jest on „asymptotycznie sprawny”, czyli wraz ze wzrostem n stosunek jego wariancji do minimum możliwego zbliża się w nieskończoność.

Tak więc, biorąc pod uwagę próbkę z rozkładu F( x) zmienna losowa X o nieznanym oczekiwaniu matematycznym a i dyspersji, wówczas do obliczenia wartości tych parametrów mamy prawo posłużyć się następującymi przybliżonymi wzorami:

a ,

.

Tutaj x-i- - opcje próbkowania, n- i - - opcje częstotliwości x i , - - wielkość próbki.
Aby obliczyć skorygowaną wariancję próbki, wygodniejsza jest formuła


.

Aby uprościć obliczenia, warto przełączyć się na opcje warunkowe (korzystne jest przyjęcie wariantu wyjściowego znajdującego się w środku szeregu zmienności przedziałowej jako c). Następnie

, .

szacowanie interwału

Powyżej rozważaliśmy kwestię oszacowania nieznanego parametru a jeden numer. Takie szacunki nazwaliśmy szacunkami punktowymi. Mają tę wadę, że przy małej liczebności próby mogą znacznie odbiegać od szacowanych parametrów. Dlatego w celu uzyskania wyobrażenia o bliskości parametru i jego oszacowania w statystyce matematycznej wprowadza się tak zwane oszacowania przedziałowe.

Niech estymator punktowy q * zostanie znaleziony w próbce dla parametru q. Zazwyczaj badacze z góry przypisują pewne wystarczająco duże prawdopodobieństwo g (np. 0,95; 0,99 lub 0,999) takie, że zdarzenie o prawdopodobieństwie g można uznać za praktycznie pewne i stawiają pytanie o znalezienie takiej wartości e > 0, dla której

.

Modyfikując tę ​​równość, otrzymujemy:

iw tym przypadku powiemy, że przedział ]q * - e; q * + e[ obejmuje oszacowany parametr q z prawdopodobieństwem g.

Przedział ]q * -e; q * +e [ nazywa się przedział ufności .

Prawdopodobieństwo g nazywa się niezawodność (prawdopodobieństwo ufności) oszacowanie przedziału.

Końce przedziału ufności, tj. punkty q * -e i q * +e są nazywane granice zaufania .

Numer e nazywa się dokładność oceny .

Jako przykład problemu wyznaczania granic ufności rozważmy kwestię oszacowania matematycznego oczekiwania zmiennej losowej X, która ma prawo rozkładu normalnego z parametrami a i s, tj. X = N( a, s). Oczekiwanie matematyczne w tym przypadku jest równe a. Zgodnie z obserwacjami X 1 , X 2 , X n oblicz średnią i ocena dyspersja s 2 .

Okazuje się, że na podstawie danych z próby można skonstruować zmienną losową

który ma rozkład Studenta (lub rozkład t) z n = n -1 stopniami swobody.

Wykorzystajmy tabelę A.1.3 i znajdźmy dla danego prawdopodobieństwa g i liczby n liczbę t g taką, że prawdopodobieństwo

P(|t(n)|< t g) = g,

.

Po dokonaniu oczywistych przekształceń otrzymujemy

Procedura stosowania kryterium F jest następująca:

1. Przyjmuje się założenie o normalnym rozkładzie populacji. Przy danym poziomie istotności a formułuje się hipotezę zerową H 0: s x 2 = s y 2 o równości ogólnych wariancji normalnych populacji w ramach konkurencyjnej hipotezy H 1: s x 2 > s y 2 .

2. Dwie niezależne próbki uzyskuje się z populacji X i Y odpowiednio n x i n y.

3. Obliczyć wartości skorygowanych wariancji próbki s x 2 i s y 2 (metody obliczeniowe omówiono w §13.4). Większa z dyspersji (s x 2 lub s y 2) jest oznaczona jako s 1 2, mniejsza - s 2 2.

4. Wartość kryterium F oblicza się według wzoru F ob = s 1 2 / s 2 2 .

5. Zgodnie z tabelą punktów krytycznych rozkładu Fishera - Snedecora, dla danego poziomu istotności a i liczby stopni swobody n 1 \u003d n 1 - 1, n 2 \u003d n 2 - 1 (n 1 to liczbę stopni swobody większej skorygowanej wariancji), znajduje się punkt krytyczny F cr (a, n 1, n 2).

Należy zauważyć, że tabela A.1.7 pokazuje wartości krytyczne jednostronnego kryterium F. W związku z tym, jeśli stosuje się kryterium dwustronne (H 1: s x 2 ¹ s y 2), to prawego punktu krytycznego F cr (a / 2, n 1, n 2) poszukuje się według poziomu istotności a / 2 (połowa określonej) i liczba stopni swobody n 1 i n 2 (n 1 - liczba stopni swobody o większym rozproszeniu). Nie można znaleźć lewoskrętnego punktu krytycznego.

6. Stwierdza się, że jeżeli obliczona wartość kryterium F jest większa lub równa wartości krytycznej (F ob ³ F cr), to wariancje różnią się istotnie na danym poziomie istotności. W przeciwnym razie (F obs< F кр) нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

Zadanie 15.1. Zużycie surowców na jednostkę produkcji według starej technologii wynosiło:

Nowa technologia:

Zakładając, że odpowiednie populacje ogólne X i Y mają rozkłady normalne, sprawdź, czy zużycie surowców dla nowych i starych technologii nie różni się zmiennością, jeśli przyjmiemy poziom istotności a = 0,1.

Rozwiązanie. Działamy w kolejności wskazanej powyżej.

1. Ocenimy zmienność zużycia surowców dla nowych i starych technologii pod względem wartości dyspersji. Zatem hipoteza zerowa ma postać H 0: s x 2 = s y 2 . Jako hipotezę konkurencyjną przyjmujemy hipotezę H 1: s x 2 ¹ s y 2, ponieważ nie jesteśmy z góry pewni, czy którakolwiek z ogólnych wariancji jest większa od drugiej.

2-3. Znajdź przykładowe wariancje. Aby uprościć obliczenia, przejdźmy do opcji warunkowych:

u i = x i - 307, v i = y i - 304.

Wszystkie obliczenia ułożymy w postaci poniższych tabel:

ty ja ja ja ty ja ja ty ja 2 m ja (u ja +1) 2 v ja n ja n ja v ja n ja v ja 2 n ja (v i +1) 2
-3 -3 -1 -2
å -
å -

Kontrola: å m i u i 2 + 2å m i u i + m i = Kontrola: å n i v i 2 + 2å n i v i + n i = 13 + 2 + 9 = 24 = 34 + 20 + 13 = 67

Znajdź skorygowane wariancje próbki:

4. Porównaj wariancje. Znajdź stosunek większej skorygowanej wariancji do mniejszej:

.

5. Z warunku konkurująca hipoteza ma postać s x 2 ¹ s y 2 , zatem obszar krytyczny jest dwustronny i przy znajdowaniu punktu krytycznego należy przyjąć poziomy istotności o połowę mniejsze od podanego.

Zgodnie z tabelą A.1.7, przy poziomie istotności a/2 = 0,1/2 = 0,05 i liczbie stopni swobody n 1 = n 1 - 1 = 12, n 2 = n 2 - 1 = 8 otrzymujemy punkt krytyczny F cr ( 0,05; 12; 8) = 3,28.

6. Od obl.< F кр то гипотезу о равенстве дисперсий расхода сырья при старой и новой технологиях принимаем.

Powyżej przy testowaniu hipotez przyjęto, że rozkład badanych zmiennych losowych jest normalny. Jednak specjalne badania wykazały, że proponowane algorytmy są bardzo stabilne (zwłaszcza przy dużych liczebnościach próby) pod względem odchylenia od rozkładu normalnego.

Parametry dystrybucji i statystyki

Wszelkie parametry rozkładu zmiennej losowej, takie jak np. oczekiwanie matematyczne czy wariancja, są wartościami teoretycznymi, których nie da się bezpośrednio zmierzyć, chociaż można je oszacować. Są ilościowe populacja i mogą być określone same przez się tylko w toku modelowania teoretycznego jako wartości hipotetyczne, ponieważ opisują cechy rozkładu zmiennej losowej w samej populacji ogólnej. W celu ich praktycznego określenia badacz przeprowadzający eksperyment dokonuje ich wybiórczej oceny. Taka ocena obejmuje obliczenia statystyczne.

Statystyka reprezentuje charakterystykę ilościową badanych parametrów, charakteryzującą rozkład zmiennej losowej, uzyskaną na podstawie badania wartości próby. Statystyka służy albo do opisu samej próby, albo, co ma ogromne znaczenie w podstawowych badaniach eksperymentalnych, do oszacowania parametrów rozkładu zmiennej losowej w badanej populacji ogólnej.

Separacja pojęć "parametr" oraz "Statystyka" jest bardzo ważne, ponieważ pozwala uniknąć szeregu błędów związanych z nieprawidłową interpretacją danych uzyskanych w eksperymencie. Faktem jest, że estymując parametry rozkładu za pomocą danych statystycznych, otrzymujemy wartości tylko w pewnym stopniu zbliżone do szacowanych parametrów. Prawie zawsze jest jakaś różnica między parametrami a statystykami i zwykle nie możemy powiedzieć, jak duża jest ta różnica. Teoretycznie im większa próba, tym szacowane parametry są bliższe ich cechom próby. Nie oznacza to jednak, że zwiększając liczebność próby nieuchronnie zbliżymy się do szacowanego parametru, zmniejszymy różnicę między nim a obliczoną statystyką. W praktyce sprawy mogą się okazać znacznie bardziej skomplikowane.

Jeśli teoretycznie oczekiwana wartość statystyki pokrywa się z oszacowanym parametrem, to takie oszacowanie nazywa się bezinteresowny. Oszacowanie, w którym oczekiwana wartość szacowanego parametru różni się od samego parametru o pewną kwotę, nazywa się przesiedlonych.

Konieczne jest również rozróżnienie między punktowymi i przedziałowymi estymatami parametrów rozkładu. kropkowany nazwał oszacowanie przy użyciu jakiejś liczby. Przykładowo, jeśli stwierdzimy, że wartość przestrzennego progu wrażliwości dotykowej dla danego podmiotu w danych warunkach i na danym obszarze skóry wynosi 21,8 mm, to taka ocena będzie oceną punktową. Podobnie oszacowanie punktowe ma miejsce, gdy prognoza pogody mówi nam, że na zewnątrz jest 25°C. Szacowanie interwału polega na użyciu zestawu lub zakresu liczb w ocenie. Oceniając próg przestrzenny wrażliwości dotykowej można powiedzieć, że okazał się on mieścić się w przedziale od 20 do 25 mm. Podobnie prognostycy pogody mogą informować, że według ich prognoz temperatura powietrza w ciągu najbliższych 24 godzin osiągnie 22-24°C. Estymacja przedziałowa zmiennej losowej pozwala nam nie tylko określić pożądaną wartość tej zmiennej, ale także ustalić możliwą dokładność takiego oszacowania.

Oczekiwanie matematyczne i jego ocena

Wróćmy do naszego doświadczenia z rzucaniem monetami.

Spróbujmy odpowiedzieć na pytanie: ile razy „orzeł” wypadnie, jeśli rzucimy monetą dziesięć razy? Odpowiedź wydaje się oczywista. Jeśli prawdopodobieństwa każdego z dwóch wyników są równe, to same wyniki muszą być równomiernie rozłożone. Innymi słowy, gdy zwykłą monetą rzucimy dziesięć razy, mamy prawo oczekiwać, że jeden z jej boków, np. „orzeł”, wypadnie dokładnie pięć razy. Podobnie, gdy moneta jest rzucana 100 razy, orzeł wypada dokładnie 50 razy, a jeśli moneta jest rzucana 4236 razy, to interesująca nas strona powinna pojawić się 2118 razy, nie więcej i nie mniej.

Tak więc teoretyczna wartość zdarzenia losowego jest zwykle nazywana matematyczne oczekiwanie. Oczekiwanie matematyczne można znaleźć, mnożąc teoretyczne prawdopodobieństwo zmiennej losowej przez liczbę prób. Bardziej formalnie jednak określa się go jako centralny moment pierwszego rzędu. Oczekiwanie matematyczne jest więc wartością zmiennej losowej, do której teoretycznie dąży podczas powtarzanych testów, względem której się zmienia.

Oczywiste jest, że teoretyczna wartość matematycznego oczekiwania jako parametru rozkładu nie zawsze jest równa empirycznej wartości interesującej nas zmiennej losowej, wyrażonej w statystyce. Jeśli przeprowadzimy eksperyment z rzutem monetą, jest całkiem prawdopodobne, że na dziesięć wyników, orła wypadną tylko cztery lub trzy razy, a może wręcz przeciwnie, wypadnie osiem razy, a może nigdy . Oczywiste jest, że niektóre z tych wyników są bardziej prawdopodobne, inne mniej prawdopodobne. Jeśli posługujemy się prawem rozkładu normalnego, to możemy stwierdzić, że im bardziej wynik odbiega od teoretycznie oczekiwanego, określonego przez wartość matematycznego oczekiwania, tym mniej prawdopodobne jest to w praktyce.

Załóżmy dalej, że wykonaliśmy tę procedurę kilka razy i nigdy nie zaobserwowaliśmy teoretycznie oczekiwanej wartości. Wtedy możemy mieć wątpliwości co do autentyczności monety. Możemy założyć, że nasza moneta w rzeczywistości nie ma 50% szansy na wypadnięcie reszki. W takim przypadku może być konieczne oszacowanie prawdopodobieństwa tego zdarzenia i odpowiednio wartości matematycznego oczekiwania. Taka potrzeba pojawia się, gdy w eksperymencie badamy rozkład zmiennej losowej ciągłej, takiej jak czas reakcji, bez wcześniejszego posiadania teoretycznego modelu. Z reguły jest to pierwszy obowiązkowy krok w procesie ilościowego przetwarzania wyników eksperymentu.

Oczekiwanie matematyczne można oszacować na trzy sposoby, co w praktyce może dawać nieco inne wyniki, ale teoretycznie powinny z pewnością doprowadzić nas do wartości matematycznego oczekiwania.

Logikę takiej oceny ilustruje ryc. 1.2. Oczekiwanie matematyczne można uznać za centralną tendencję w rozkładzie zmiennej losowej X, jako najbardziej prawdopodobną, a więc najczęstszą jej wartość oraz jako punkt dzielący rozkład na dwie równe części.

Ryż. 1.2.

Kontynuujmy nasze wyimaginowane eksperymenty z monetą i przeprowadźmy trzy eksperymenty z dziesięciokrotnym rzucaniem monetą. Załóżmy, że w pierwszym eksperymencie "orzeł" wypadał czterokrotnie, to samo działo się w drugim eksperymencie, w trzecim eksperymencie "orzeł" wypadał ponad półtora raza częściej - siedem razy. Logiczne jest założenie, że matematyczne oczekiwanie interesującego nas zdarzenia leży gdzieś pomiędzy tymi wartościami.

Pierwszy, pierwotniak Metoda oceny matematyczne oczekiwanie będzie polegało na znalezieniu Średnia arytmetyczna. Wówczas oszacowanie wartości oczekiwanej na podstawie powyższych trzech pomiarów wyniesie (4 + 4 + 7) / 3 = 5. Podobnie w eksperymentach z czasem reakcji wartość oczekiwaną można oszacować obliczając średnią arytmetyczną wszystkich otrzymanych wartości X. Więc jeśli spędziliśmy P pomiary czasu reakcji X, wtedy możemy użyć następującego wzoru, który pokazuje nam, że do obliczenia średniej arytmetycznej X konieczne jest zsumowanie wszystkich uzyskanych empirycznie wartości i podzielenie ich przez liczbę obserwacji:

We wzorze (1.2) miara matematycznego oczekiwania jest zwykle oznaczana jako ̅ X (czytaj "x z linią"), chociaż czasami można to oznaczać jako M (z angielskiego. oznaczać - przeciętny).

Średnia arytmetyczna jest najczęściej używanym oszacowaniem matematycznego oczekiwania. W takich przypadkach przyjmuje się, że pomiar zmiennej losowej odbywa się w metryczny skala. Oczywiste jest, że uzyskany wynik może, ale nie musi pokrywać się z prawdziwą wartością matematycznego oczekiwania, którego nigdy nie znamy. Ważne jest jednak, aby ta metoda była bezinteresowny szacowanie oczekiwań matematycznych. Oznacza to, że oczekiwana wartość oszacowanej wartości jest równa jej matematycznemu oczekiwaniu: .

Druga metoda oceny Oczekiwaniem matematycznym jest przyjęcie jako wartości najczęściej występującej wartości interesującej nas zmiennej. Ta wartość nazywa się moda dystrybucji. Na przykład, w przypadku właśnie rozważanym z rzutem monetą, „cztery” można przyjąć jako wartość matematycznego oczekiwania, ponieważ w trzech przeprowadzonych próbach wartość ta pojawiła się dwukrotnie; dlatego tryb dystrybucji w tym przypadku okazał się równy cztery. Estymacja modów stosowana jest głównie wtedy, gdy eksperymentator ma do czynienia ze zmiennymi, które przyjmują wartości dyskretne podane w niemetryczny skala.

Na przykład, opisując rozkład ocen uczniów na egzaminie, można skonstruować rozkład częstości ocen uczniów. Ten rozkład częstotliwości nazywa się histogram. W tym przypadku najczęstsze oszacowanie można przyjąć jako wartość trendu centralnego (oczekiwanie matematyczne). W badaniu zmiennych charakteryzujących się wartościami ciągłymi miara ta jest praktycznie nieużywana lub wykorzystywana rzadko. Jeżeli mimo wszystko skonstruowany zostanie rozkład częstości uzyskanych wyników, to z reguły dotyczy to nie wartości badanej cechy uzyskanych w eksperymencie, ale pewnych przedziałów jej przejawiania się. Na przykład, badając wzrost ludzi, możesz zobaczyć, ile osób mieści się w przedziale do 150 cm wzrostu, ile osób mieści się w przedziale od 150 do 155 cm i tak dalej. W takim przypadku tryb będzie powiązany z wartościami interwałowymi badanej cechy, w tym przypadku wzrostu.

Oczywiste jest, że mod, podobnie jak średnia arytmetyczna, może, ale nie musi pokrywać się z rzeczywistą wartością matematycznego oczekiwania. Ale podobnie jak średnia arytmetyczna, tryb jest bezstronnym oszacowaniem matematycznych oczekiwań.

Dodajemy, że jeśli dwie wartości w próbie występują równie często, to taki rozkład nazywamy bimodalny. Jeśli trzy lub więcej wartości w próbce występuje równie często, mówi się, że taka próbka nie ma trybu. Takie przypadki z wystarczająco dużą liczbą obserwacji z reguły wskazują, że dane są pobierane z populacji ogólnej, której charakter rozkładu różni się od normalnego.

Wreszcie, trzecia metoda oceny Oczekiwanie matematyczne polega na podzieleniu próby osób według interesującego nas parametru dokładnie na pół. Wartość charakteryzująca tę granicę nazywa się mediana dystrybucja.

Załóżmy, że jesteśmy obecni na zawodach narciarskich i po ich zakończeniu chcemy ocenić, który z zawodników pokazał wynik powyżej średniej, a który poniżej. Jeśli skład uczestników jest mniej więcej równy, to przy ocenie średniego wyniku logiczne jest obliczenie średniej arytmetycznej. Załóżmy jednak, że wśród profesjonalnych uczestników jest kilku amatorów. Nie ma ich wielu, ale pokazują wyniki znacznie gorsze od pozostałych. W tym przypadku może się okazać, że na 100 uczestników konkursu wynik powyżej średniej pokazało np. 87. Jasne jest, że taka ocena średniego trendu nie zawsze nam odpowiada. W tym przypadku logiczne jest założenie, że średni wynik pokazali uczestnicy, którzy zajęli gdzieś 50 lub 51 miejsce. Będzie to mediana rozkładu. 49 uczestników ukończyło przed 50 finalistą, a 49 po 51. Oczywiście może się okazać, że skończyli w tym samym czasie. Wtedy nie ma problemu. Nie ma problemu nawet przy nieparzystej liczbie obserwacji. W innych przypadkach możesz jednak skorzystać z uśredniania wyników dwóch uczestników.

Mediana jest szczególnym przypadkiem kwantyla rozkładu. kwantyl jest częścią dystrybucji. Formalnie można ją zdefiniować jako całkowitą wartość rozkładu między dwiema wartościami zmiennej x. Tak więc wartość X będzie medianą rozkładu, jeśli całkowita wartość rozkładu (gęstość prawdopodobieństwa) wynosi od -∞ do X jest równa wartości całkowitej rozkładu z X do +∞. Podobnie dystrybucję można podzielić na cztery, dziesięć lub 100 części. Takie kwantyle są odpowiednio nazywane kwartyle, decyle oraz percentyle. Istnieją inne rodzaje kwantylów.

Podobnie jak dwie poprzednie metody szacowania oczekiwań matematycznych, mediana jest bezstronnym oszacowaniem oczekiwań matematycznych.

Teoretycznie zakłada się, że jeśli rzeczywiście mamy do czynienia z rozkładem normalnym zmiennej losowej, to wszystkie trzy oszacowania matematycznego oczekiwania powinny dać ten sam wynik, ponieważ wszystkie reprezentują wariant bezinteresowny oszacowania tego samego parametru rozkładu szacowanej zmiennej losowej (patrz rys. 1.2). W praktyce jednak rzadko się to zdarza. Może to wynikać w szczególności z tego, że analizowany rozkład różni się od normalnego. Ale główną przyczyną takich rozbieżności jest z reguły fakt, że szacując wartość matematycznego oczekiwania można uzyskać wartość, która znacznie różni się od jego prawdziwej wartości. Jednak, jak zauważono powyżej, w statystyce matematycznej udowodniono, że im więcej niezależnych testów rozważanej zmiennej jest przeprowadzanych, tym szacowana wartość powinna być bliższa rzeczywistej.

Tak więc w praktyce wybór metody szacowania oczekiwań matematycznych nie jest determinowany chęcią uzyskania dokładniejszego i bardziej wiarygodnego oszacowania tego parametru, ale jedynie względami wygody. Również pewną rolę w wyborze metody szacowania matematycznego oczekiwania odgrywa skala pomiarowa, która odzwierciedla obserwacje szacowanej zmiennej losowej.

Niech zmienna losowa o nieznanym oczekiwaniu matematycznym i wariancji zostanie poddana niezależnym eksperymentom, które dały wyniki - . Obliczmy spójne i bezstronne szacunki parametrów i .

Jako oszacowanie matematycznego oczekiwania przyjmujemy średnią arytmetyczną wartości eksperymentalnych

. (2.9.1)

Zgodnie z prawem wielkich liczb oszacowanie to jest bogaty , z wielkością prawdopodobieństwa. To samo oszacowanie jest bezinteresowny , ponieważ

. (2.9.2)

Wariancja tego oszacowania wynosi

. (2.9.3)

Można wykazać, że dla rozkładu normalnego oszacowanie to wynosi skuteczny . W przypadku innych przepisów może tak nie być.

Oszacujmy teraz wariancję. Wybierzmy najpierw wzór do oszacowania rozproszenie statystyczne

. (2.9.4)

Sprawdźmy spójność oszacowania wariancji. Otwórzmy nawiasy we wzorze (2.9.4)

.

Dla , pierwszy wyraz jest zbieżny w prawdopodobieństwie do ilości , w drugim - do . Zatem nasze oszacowanie jest zbieżne pod względem prawdopodobieństwa do wariancji

,

stąd ona jest bogaty .

Sprawdźmy bezstronność szacunki dotyczące ilości . W tym celu podstawiamy wyrażenie (2.9.1) do wzoru (2.9.4) i bierzemy pod uwagę, że zmienne losowe niezależny

,

. (2.9.5)

Przejdźmy we wzorze (2.9.5) do fluktuacji zmiennych losowych

Rozwijając nawiasy otrzymujemy

,

. (2.9.6)

Obliczmy matematyczne oczekiwanie wartości (2.9.6), biorąc pod uwagę, że

. (2.9.7)

Relacja (2.9.7) pokazuje, że wartość obliczona ze wzoru (2.9.4) nie jest bezstronnym estymatorem do dyspersji. Jej matematyczne oczekiwania nie są równe, ale nieco mniejsze. Takie oszacowanie prowadzi do systematycznego błędu w dół. Aby wyeliminować takie nastawienie, konieczne jest wprowadzenie korekty poprzez pomnożenie a nie wartości . Wtedy taka skorygowana wariancja statystyczna może służyć jako nieobciążone oszacowanie wariancji

. (2.9.8)

To oszacowanie jest tak samo spójne jak oszacowanie , ponieważ dla .

W praktyce zamiast oszacowania (2.9.8) czasami wygodniej jest zastosować równoważne oszacowanie związane z drugim początkowym momentem statystycznym

. (2.9.9)

Szacunki (2.9.8), (2.9.9) nie są efektywne. Można wykazać, że w przypadku rozkładu normalnego będą one sprawny asymptotycznie (kiedy będzie dążył do minimalnej możliwej wartości).

W ten sposób można sformułować następujące zasady przetwarzania ograniczonego materiału statystycznego. Jeżeli w niezależnych eksperymentach zmienna losowa przyjmuje wartości przy nieznanym oczekiwaniu matematycznym i wariancji, to do wyznaczenia tych parametrów należy użyć przybliżonych szacunków

(2.9.10)

Koniec pracy -

Ten temat należy do:

Notatki z wykładów z matematyki, teorii prawdopodobieństwa, statystyki matematycznej

Katedra Matematyki Wyższej i Informatyki.. notatki do wykładów.. z matematyki..

Jeśli potrzebujesz dodatkowych materiałów na ten temat lub nie znalazłeś tego, czego szukałeś, zalecamy skorzystanie z wyszukiwania w naszej bazie prac:

Co zrobimy z otrzymanym materiałem:

Jeśli ten materiał okazał się dla Ciebie przydatny, możesz zapisać go na swojej stronie w sieciach społecznościowych:

Wszystkie tematy w tej sekcji:

Teoria prawdopodobieństwa
Teoria prawdopodobieństwa to gałąź matematyki zajmująca się badaniem wzorców losowych zjawisk masowych. Losowość to zjawisko, które

Statystyczna definicja prawdopodobieństwa
Zdarzenie jest zjawiskiem losowym, które w wyniku doświadczenia może się pojawić lub nie (zjawisko dwuwartościowe). Oznacz wydarzenia wielkimi łacińskimi literami

Przestrzeń wydarzeń elementarnych
Niech zbiór wydarzeń będzie powiązany z pewnym doświadczeniem, a: 1) w wyniku doświadczenia, jeden i tylko jeden

Działania na wydarzeniach
Suma dwóch zdarzeń i

Permutacje
Oznaczono liczbę różnych permutacji elementów

Noclegi
Rozmieszczenie elementów wg

Kombinacje
Połączenie elementów

Wzór na dodawanie prawdopodobieństw zdarzeń niezgodnych
Twierdzenie. Prawdopodobieństwo sumy dwóch niezgodnych zdarzeń jest równe sumie prawdopodobieństw tych zdarzeń. (jeden

Wzór dodawania prawdopodobieństwa dla zdarzeń arbitralnych
Twierdzenie. Prawdopodobieństwo sumy dwóch zdarzeń jest równe sumie prawdopodobieństw tych zdarzeń bez prawdopodobieństwa ich iloczynu.

Wzór mnożenia prawdopodobieństwa
Niech zostaną podane dwa wydarzenia. Rozważ wydarzenie

Wzór na całkowite prawdopodobieństwo
Niech będzie kompletną grupą niekompatybilnych zdarzeń, nazywane są hipotezami. Rozważ jakieś wydarzenie

Formuła prawdopodobieństw hipotez (Bayesa)
Zastanów się ponownie - kompletna grupa niekompatybilnych hipotez i wydarzenie

Asymptotyczna formuła Poissona
W przypadkach, gdy liczba prób jest duża i prawdopodobieństwo wystąpienia zdarzenia

Losowe zmienne dyskretne
Wartość losowa to wielkość, która po powtórzeniu eksperymentu może przybrać nierówne wartości liczbowe. Zmienna losowa nazywana jest dyskretną,

Losowe zmienne ciągłe
Jeżeli w wyniku eksperymentu zmienna losowa może przyjąć dowolną wartość z pewnego odcinka lub z całej osi rzeczywistej, to nazywamy ją ciągłą. prawo

Funkcja gęstości prawdopodobieństwa losowej zmiennej ciągłej
Wynajmować. Rozważ punkt i nadaj mu przyrost

Charakterystyki liczbowe zmiennych losowych
Przyjmuje się, że losowe zmienne dyskretne lub ciągłe są całkowicie określone, jeśli znane są ich prawa rozkładu. Rzeczywiście, znając prawa rozkładu, zawsze można obliczyć prawdopodobieństwo trafienia

Kwantyle zmiennych losowych
Kwantyl rzędu losowej zmiennej ciągłej

Matematyczne oczekiwanie zmiennych losowych
Matematyczne oczekiwanie zmiennej losowej charakteryzuje jej średnią wartość. Wszystkie wartości zmiennej losowej są zgrupowane wokół tej wartości. Rozważ najpierw losową zmienną dyskretną

Odchylenie standardowe i wariancja zmiennych losowych
Rozważmy najpierw losową zmienną dyskretną. Charakterystyki liczbowe postaci, mediany, kwantyli i oczekiwań matematycznych

Momenty zmiennych losowych
Poza oczekiwaniem matematycznym i rozproszeniem teoria prawdopodobieństwa wykorzystuje cechy liczbowe wyższych rzędów, które nazywamy momentami zmiennych losowych.

Twierdzenia o numerycznych charakterystykach zmiennych losowych
Twierdzenie 1. Matematyczne oczekiwanie zmiennej nielosowej jest równe samej tej wartości. Dowód: Niech

Prawo podziału dwumianowego

Prawo dystrybucji Poissona
Niech losowa zmienna dyskretna przyjmuje wartości

Jednolite prawo dystrybucji
Jednolite prawo rozkładu losowej zmiennej ciągłej jest prawem funkcji gęstości prawdopodobieństwa, które:

Prawo rozkładu normalnego
Prawem normalnym rozkładu losowej zmiennej ciągłej jest prawo funkcji gęstości

Prawo dystrybucji wykładniczej
Wykładniczy lub wykładniczy rozkład zmiennej losowej jest wykorzystywany w takich zastosowaniach rachunku prawdopodobieństwa jak teoria kolejek, teoria niezawodności

Układy zmiennych losowych
W praktyce w zastosowaniach rachunku prawdopodobieństwa często spotyka się problemy, w których wyniki eksperymentu są opisane nie jedną zmienną losową, ale kilkoma zmiennymi losowymi jednocześnie.

Układ dwóch losowych zmiennych dyskretnych
Niech dwie losowe zmienne dyskretne tworzą układ. Wartość losowa

Układ dwóch losowych zmiennych ciągłych
Teraz niech system zostanie utworzony przez dwie losowe zmienne ciągłe. Prawo dystrybucji tego systemu nazywa się prawdopodobnie

Warunkowe prawa dystrybucji
Niech i zależne losowe zmienne ciągłe

Charakterystyki liczbowe układu dwóch zmiennych losowych
Moment początkowy rzędu układu zmiennych losowych

Układ kilku zmiennych losowych
Wyniki otrzymane dla układu dwóch zmiennych losowych można uogólnić na przypadek układów składających się z dowolnej liczby zmiennych losowych. Niech system zostanie utworzony przez zbiór

Rozkład normalny układu dwóch zmiennych losowych
Rozważmy układ dwóch losowych zmiennych ciągłych. Prawo dystrybucji tego systemu to normalne prawo dystrybucji

Twierdzenia graniczne teorii prawdopodobieństwa
Głównym celem dyscypliny teorii prawdopodobieństwa jest badanie wzorców losowych zjawisk masowych. Praktyka pokazuje, że obserwacja masy jednorodnych zjawisk losowych ujawniających się

Nierówność Czebyszewa
Rozważ zmienną losową z oczekiwaniem matematycznym

Twierdzenie Czebyszewa
Jeśli zmienne losowe są parami niezależne i mają skończone wariancje ograniczone w populacji

Twierdzenie Bernoulliego
Przy nieograniczonym wzroście liczby eksperymentów częstość występowania zdarzenia zbiega się prawdopodobieństwem z prawdopodobieństwem zdarzenia

Centralne twierdzenie graniczne
Przy dodawaniu zmiennych losowych z dowolnymi prawami rozkładu, ale z wariancjami ograniczonymi w agregacie, prawo rozkładu

Główne zadania statystyki matematycznej
Omówione powyżej prawa teorii prawdopodobieństwa są matematycznym wyrazem rzeczywistych wzorców, które faktycznie istnieją w różnych przypadkowych zjawiskach masowych. uczenie się

Prosta statystyka. Funkcja rozkładu statystycznego
Rozważ pewną zmienną losową, której prawo rozkładu jest nieznane. Wymagane na podstawie doświadczenia

Linia statystyczna. wykres słupkowy
Przy dużej liczbie obserwacji (rzędu setek) populacja ogólna staje się niewygodna i uciążliwa w ewidencjonowaniu materiału statystycznego. Dla jasności i zwartości materiał statystyczny

Charakterystyki liczbowe rozkładu statystycznego
W teorii prawdopodobieństwa uwzględniono różne numeryczne charakterystyki zmiennych losowych: oczekiwanie matematyczne, wariancję, moment początkowy i centralny różnych rzędów. Podobne numery

Wybór rozkładu teoretycznego metodą momentów
W każdym rozkładzie statystycznym nieuchronnie występują elementy losowości związane z ograniczoną liczbą obserwacji. Przy dużej liczbie obserwacji te elementy losowości zostają wygładzone,

Testowanie prawdopodobieństwa hipotezy o postaci prawa dystrybucji
Niech dany rozkład statystyczny będzie aproksymowany jakąś krzywą teoretyczną lub

Kryteria zgody
Rozważ jeden z najczęściej stosowanych testów dopasowania, tak zwany test Pearsona. Założyć

Estymacje punktowe dla nieznanych parametrów rozkładu
w p.p. 2.1. - 2.7 szczegółowo rozważyliśmy sposoby rozwiązania pierwszego i drugiego głównego problemu statystyki matematycznej. Są to zadania wyznaczania praw rozkładu zmiennych losowych na podstawie danych eksperymentalnych

Przedział ufności. Prawdopodobieństwo ufności
W praktyce, przy niewielkiej liczbie eksperymentów na zmiennej losowej, przybliżone zastąpienie nieznanego parametru

Niech losowa próba zostanie wygenerowana przez obserwowaną zmienną losową ξ, matematyczne oczekiwanie i wariancję które są nieznane. Jako oszacowanie tych cech zaproponowano wykorzystanie średniej z próby

i wariancji próbki

. (3.14)

Rozważmy niektóre własności oszacowań matematycznych oczekiwań i wariancji.

1. Oblicz matematyczne oczekiwanie średniej próbki:

Dlatego średnia próbki jest bezstronnym estymatorem dla .

2. Przypomnij sobie, że wyniki obserwacje są niezależnymi zmiennymi losowymi, z których każda ma takie samo prawo rozkładu jak wartość , co oznacza, że , ,. Założymy, że wariancja jest skończona. Następnie, zgodnie z twierdzeniem Czebyszewa o prawie wielkich liczb, dla dowolnego ε > 0 mamy równość ,

co można napisać tak: . (3.16) Porównując (3.16) z definicją własności konsystencji (3.11), widzimy, że oszacowanie jest zgodnym oszacowaniem oczekiwania .

3. Znajdź wariancję średniej próbki:

. (3.17)

Zatem wariancja oszacowania oczekiwań zmniejsza się odwrotnie proporcjonalnie do wielkości próby.

Można udowodnić, że jeśli zmienna losowa ξ ma rozkład normalny, to średnia z próby jest efektywnym oszacowaniem wartości oczekiwanej, tj. wariancja przyjmuje najmniejszą wartość w porównaniu z jakimkolwiek innym oszacowaniem wartości oczekiwanej. W przypadku innych praw dystrybucji może tak nie być.

Wariancja próbki jest obciążonym oszacowaniem wariancji, ponieważ . (3.18)

Rzeczywiście, korzystając z właściwości matematycznego oczekiwania i wzoru (3.17), znajdujemy

.

Aby uzyskać nieobciążone oszacowanie wariancji, oszacowanie (3.14) musi zostać skorygowane, to znaczy pomnożone przez . Następnie otrzymujemy nieobciążoną wariancję próbki

. (3.19)

Zauważamy, że wzory (3.14) i (3.19) różnią się tylko mianownikiem, a dla dużych wartości wariancja próba i nieobciążona niewiele się różnią. Jednak dla małej liczebności próby należy zastosować zależność (3.19).

Do oszacowania odchylenia standardowego zmiennej losowej stosuje się tzw. „skorygowane” odchylenie standardowe, które jest równe pierwiastkowi kwadratowemu wariancji nieobciążonej: .

Szacunki interwałowe

W statystyce istnieją dwa podejścia do szacowania nieznanych parametrów rozkładów: punktowe i interwałowe. Zgodnie z estymacją punktową, o której była mowa w poprzednim rozdziale, wskazany jest tylko punkt, w pobliżu którego znajduje się szacowany parametr. Pożądane jest jednak wiedzieć, jak daleko ten parametr może faktycznie odstawać od możliwej implementacji szacunków w różnych seriach obserwacji.

Odpowiedź na to pytanie - również przybliżona - daje inny sposób szacowania parametrów - interwał. Zgodnie z tą metodą estymacji znajduje się przedział, który z prawdopodobieństwem bliskim jedności obejmuje nieznaną wartość liczbową parametru.

Pojęcie estymacji przedziałowej

Oszacowanie punktowe jest zmienną losową i dla możliwych implementacji próbka przyjmuje wartości tylko w przybliżeniu równe prawdziwej wartości parametru. Im mniejsza różnica, tym dokładniejsze oszacowanie. Tak więc liczba dodatnia, dla której , charakteryzuje dokładność oszacowania i nazywa się błąd oszacowania (lub błąd krańcowy).

Prawdopodobieństwo zaufania(lub niezawodność) nazywa się prawdopodobieństwem β , z którym nierówność , tj.

. (3.20)

Zastępowanie nierówności jego równoważna podwójna nierówność , lub , dostajemy

Interwał pokrycie z prawdopodobieństwem β , , nieznany parametr , nazywa się przedział ufności (lub estymacja interwałowa), odpowiadający poziomowi ufności β .

Zmienna losowa to nie tylko szacunek, ale także błąd: jej wartość zależy od prawdopodobieństwa β iz reguły z próbki. Dlatego przedział ufności jest losowy, a wyrażenie (3.21) należy odczytywać w następujący sposób: „Przedział pokryje parametr z prawdopodobieństwem β ”, a nie tak: „Parametr z prawdopodobieństwem wpadnie do przedziału β ”.

Znaczenie przedziału ufności jest takie, że przy wielokrotnym powtarzaniu objętości próbki we względnej proporcji przypadków równej β , przedział ufności odpowiadający poziomowi ufności β , obejmuje rzeczywistą wartość szacowanego parametru. Więc poziom ufności β charakteryzuje niezawodność ocena zaufania: im więcej β , tym bardziej prawdopodobne, że implementacja przedziału ufności zawiera nieznany parametr.

KATEGORIE

POPULARNE ARTYKUŁY

2022 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich