Oszacowanie matematycznego oczekiwania zmiennej losowej. Oszacowania punktowe oczekiwań matematycznych

Niech będzie zmienna losowa X z oczekiwaniami matematycznymi M i wariancja D, podczas gdy oba te parametry są nieznane. Nad wartością X wytworzony N niezależne eksperymenty, w wyniku których zestaw N Wyniki liczbowe x 1 , x 2 , …, x N. Jako oszacowanie oczekiwań matematycznych naturalne jest zaproponowanie średniej arytmetycznej zaobserwowanych wartości

(1)

Tutaj jako x ja brane są pod uwagę określone wartości (liczby) uzyskane w rezultacie N eksperymenty. Jeśli weźmiemy inne (niezależnie od poprzednich) N eksperymentach, to oczywiście otrzymamy inną wartość. Jeśli weźmiesz więcej N eksperymentów, wówczas otrzymamy kolejną nową wartość. Oznaczmy przez X ja zmienna losowa wynikająca z I eksperyment, potem wdrożenia X ja będą liczbami uzyskanymi z tych eksperymentów. Oczywiście zmienna losowa X ja będzie miała tę samą funkcję gęstości prawdopodobieństwa, co pierwotna zmienna losowa X. Wierzymy również, że zmienne losowe X ja I X j są niezależne, kiedy I, nie równe J(różne eksperymenty niezależne od siebie). Dlatego przepisujemy wzór (1) w innej (statystycznej) postaci:

(2)

Pokażmy, że oszacowanie jest bezstronne:

Zatem oczekiwanie matematyczne średniej próbki jest równe prawdziwemu oczekiwaniu matematycznemu zmiennej losowej M. Jest to dość przewidywalny i zrozumiały fakt. W związku z tym średnią próbki (2) można przyjąć jako oszacowanie matematycznego oczekiwania zmiennej losowej. Powstaje teraz pytanie: co dzieje się z wariancją matematycznego oszacowania oczekiwań wraz ze wzrostem liczby eksperymentów? Pokazują to obliczenia analityczne

gdzie jest wariancją matematycznego oszacowania oczekiwań (2), oraz D- prawdziwa wariancja zmiennej losowej X.

Z powyższego wynika, że ​​wraz ze wzrostem N(liczba eksperymentów) wariancja estymatora maleje, tj. Im bardziej podsumujemy niezależne realizacje, tym bliżej oczekiwań matematycznych otrzymamy oszacowanie.


Szacunki wariancji matematycznej

Na pierwszy rzut oka ocena najbardziej naturalna wydaje się

(3)

gdzie oblicza się za pomocą wzoru (2). Sprawdźmy, czy szacunek jest obiektywny. Wzór (3) można zapisać następująco:

Podstawmy wyrażenie (2) do tego wzoru:

Znajdźmy matematyczne oczekiwanie oszacowania wariancji:

(4)

Ponieważ wariancja zmiennej losowej nie zależy od tego, jakie jest oczekiwanie matematyczne zmiennej losowej, przyjmijmy oczekiwanie matematyczne równe 0, tj. M = 0.

(5)
Na .(6)

Niech istnieje zmienna losowa X, której parametry są oczekiwaniami matematycznymi A i wariancja są nieznane. Na wartości X przeprowadzono N niezależnych eksperymentów, co dało wyniki x 1, x 2, x n.

Nie zmniejszając ogólności rozumowania, uznamy te wartości zmiennej losowej za różne. Wartości x 1, x 2, x n uznamy za niezależne, jednakowo rozłożone zmienne losowe X 1, X 2, X n.

Najprostsza metoda estymacji statystycznej - metoda podstawienia i analogii - polega na przyjęciu odpowiedniej cechy rozkładu próby - charakterystyki próby - jako oszacowania tej lub innej cechy liczbowej (średniej, wariancji itp.) populacji ogólnej .

Zastosowanie metody podstawieniowej jako oszacowania oczekiwań matematycznych A musimy przyjąć matematyczne oczekiwanie na rozkład próbki – średnią z próbki. W ten sposób otrzymujemy

Aby sprawdzić bezstronność i spójność średniej próbki jako oszacowanie A, rozważ tę statystykę jako funkcję wybranego wektora (X 1, X 2, X n). Biorąc pod uwagę, że każda z wielkości X 1, X 2, X n ma takie samo prawo dystrybucji jak wartość X, dochodzimy do wniosku, że charakterystyki liczbowe tych wielkości i wartości X są takie same: M(X I) = M(X) = A, D(X I) = D(X) = , I = 1, 2, rz , gdzie X i są zbiorowo niezależnymi zmiennymi losowymi.

Stąd,

Z definicji wynika, że ​​jest to bezstronny szacunek A, a ponieważ D()®0 dla n®¥, to zgodnie z twierdzeniem z poprzedniego akapitu jest spójnym oszacowaniem oczekiwań matematycznych A ogólna populacja.

Skuteczność lub nieefektywność oszacowania zależy od rodzaju prawa rozkładu zmiennej losowej X. Można wykazać, że jeśli wartość X zostanie rozłożona zgodnie z prawem normalnym, to oszacowanie jest efektywne. W przypadku innych przepisów dotyczących dystrybucji może to nie mieć miejsca.

Bezstronne oszacowanie wariancji ogólnej służy jako skorygowana wariancja próbki

,

Ponieważ , gdzie jest wariancją ogólną. Naprawdę,

Oszacowanie s - 2 dla wariancji ogólnej jest również ważne, ale nie jest efektywne. Jednakże w przypadku rozkładu normalnego jest on „asymptotycznie efektywny”, to znaczy wraz ze wzrostem n stosunek jego wariancji do możliwego minimum w nieskończoność zbliża się do jedności.

Zatem, jeśli otrzymamy próbkę z rozkładu F( X) zmienna losowa X z nieznanym oczekiwaniem matematycznym A i dyspersji, wówczas do obliczenia wartości tych parametrów mamy prawo zastosować następujące przybliżone wzory:

A ,

.

Tutaj x- i - - opcja próbkowania, n- i - - opcje częstotliwości x i, - - wielkość próbki.
Do obliczenia skorygowanej wariancji próbki wygodniejszy jest wzór


.

Aby uprościć obliczenia, zaleca się przejście na opcje warunkowe (ponieważ w tym przypadku korzystne jest przyjęcie wersji oryginalnej, znajdującej się w środku szeregu wariacji przedziałowych). Następnie

, .

Estymacja przedziałowa

Powyżej rozważaliśmy kwestię oszacowania nieznanego parametru A jeden numer. Takie szacunki nazywamy szacunkami punktowymi. Mają tę wadę, że przy małej liczebności próby mogą znacznie odbiegać od oszacowanych parametrów. Dlatego, aby zorientować się, jak blisko jest parametr do jego oszacowania, w statystyce matematycznej wprowadza się tak zwane szacunki przedziałowe.

Niech w próbce zostanie znaleziona estymata punktowa q* dla parametru q. Zazwyczaj badaczom podaje się z góry wystarczająco duże prawdopodobieństwo g (na przykład 0,95, 0,99 lub 0,999), aby zdarzenie z prawdopodobieństwem g można było uznać za praktycznie pewne i stawiają pytanie o znalezienie takiej wartości e > 0, dla której

.

Modyfikując tę ​​równość, otrzymujemy:

i w tym przypadku powiemy, że przedział ]q * - e; q* + e[ obejmuje oszacowany parametr q z prawdopodobieństwem g.

Interwał ]q * -e; q * +e [nazywa się przedział ufności .

Nazywa się prawdopodobieństwo g niezawodność (prawdopodobieństwo ufności) estymaty przedziału.

Końce przedziału ufności, tj. punkty q * -e i q * +e nazywane są granice zaufania .

Nazywa się liczbę e dokładność oceny .

Jako przykład problemu wyznaczania granic ufności rozważmy kwestię oszacowania oczekiwań matematycznych zmiennej losowej X, która ma rozkład normalny z parametrami A i s, tj. X = N( A, S). Oczekiwanie matematyczne w tym przypadku jest równe A. Na podstawie obserwacji X 1, X 2, X n obliczamy średnią i ocena dyspersja 2.

Okazuje się, że z przykładowych danych można skonstruować zmienną losową

który ma rozkład Studenta (lub rozkład t) z n = n -1 stopniami swobody.

Skorzystajmy z tabeli A.1.3 i znajdź dla danego prawdopodobieństwa g i liczby n liczbę t g taką, że prawdopodobieństwo

P(|t(n)|< t g) = g,

.

Po dokonaniu oczywistych przekształceń otrzymujemy,

Procedura stosowania testu F jest następująca:

1. Przyjmuje się założenie, że rozkład populacji jest normalny. Na danym poziomie istotności a formułuje się hipotezę zerową H 0: s x 2 = s y 2 o równości wariancji ogólnych populacji normalnych w ramach hipotezy konkurencyjnej H 1: s x 2 > s y 2.

2. Pobiera się dwie niezależne próbki z populacji X i Y o objętości odpowiednio n x i n y.

3. Oblicz wartości skorygowanych wariancji próbki s x 2 i s y 2 (metody obliczeń omówiono w §13.4). Większa z wariancji (s x 2 lub s y 2) jest oznaczona jako s 1 2, mniejsza - s 2 2.

4. Wartość kryterium F oblicza się ze wzoru F obs = s 1 2 / s 2 2.

5. Korzystając z tabeli punktów krytycznych rozkładu Fishera-Snedecora, przy danym poziomie istotności a i liczbie stopni swobody n 1 = n 1 - 1, n 2 = n 2 - 1 (n 1 to liczba stopnie swobody większej skorygowanej wariancji), zostaje znaleziony punkt krytyczny F cr (a, n 1, n 2).

Należy zauważyć, że tabela A.1.7 pokazuje wartości krytyczne jednostronnego testu F. Jeżeli zatem zastosuje się kryterium dwustronne (H 1: s x 2 ¹ s y 2), to prawostronnego punktu krytycznego F cr (a/2, n 1, n 2) poszukuje się na poziomie istotności a/ 2 (połowa podanej wartości) oraz liczbę stopni swobody potęg n 1 i n 2 (n 1 to liczba stopni swobody większego rozproszenia). Być może nie znaleziono lewego punktu krytycznego.

6. Nasuwa się wniosek: jeśli obliczona wartość kryterium F jest większa lub równa wartości krytycznej (F obs ³ F cr), to wariancje różnią się istotnie na danym poziomie istotności. W przeciwnym razie (F obs.< F кр) нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

Zadanie 15.1. Zużycie surowców na jednostkę produkcji przy zastosowaniu starej technologii wynosiło:

Korzystanie z nowej technologii:

Zakładając, że odpowiednie populacje ogólne X i Y mają rozkłady normalne, sprawdź, czy pod względem zmienności zużycie surowców dla nowych i starych technologii nie różni się, jeśli przyjmiemy poziom istotności a = 0,1.

Rozwiązanie. Postępujemy w kolejności wskazanej powyżej.

1. Zmienność zużycia surowców w nowych i starych technologiach będziemy oceniać na podstawie wartości dyspersji. Zatem hipoteza zerowa ma postać H 0: s x 2 = s y 2. Jako hipotezę konkurencyjną przyjmujemy hipotezę H 1: s x 2 ¹ s y 2, ponieważ nie mamy z góry pewności, czy którakolwiek z ogólnych wariancji jest większa od drugiej.

2-3. Znajdźmy przykładowe wariancje. Aby uprościć obliczenia, przejdźmy do opcji warunkowych:

u ja = x ja - 307, v ja = y ja - 304.

Wszystkie obliczenia uporządkujemy w formie poniższych tabel:

ty ja ja ja ty ja ja ty ja 2 m ja (u ja +1) 2 v ja n ja n ja w ja n ja w ja 2 n ja (v ja +1) 2
-3 -3 -1 -2
å -
å -

Kontrola: å m i u i 2 + 2å m i u i + m i = Kontrola: å n i v ja 2 + 2å n ja v ja + n i = 13 + 2 + 9 = 24 = 34 + 20 + 13 = 67

Znajdźmy skorygowane wariancje próbek:

4. Porównajmy wariancje. Znajdźmy stosunek większej skorygowanej wariancji do mniejszej:

.

5. Hipoteza konkurencyjna pod warunkiem ma postać s x 2 ¹ s y 2, zatem obszar krytyczny jest dwustronny i szukając punktu krytycznego należy przyjąć poziomy istotności o wartości połowy podanej wartości.

Zgodnie z tabelą A.1.7, stosując poziom istotności a/2 = 0,1/2 = 0,05 i liczbę stopni swobody n 1 = n 1 - 1 = 12, n 2 = n 2 - 1 = 8, znajdujemy punkt krytyczny F cr ( 0,05; 12; 8) = 3,28.

6. Ponieważ F obs.< F кр то гипотезу о равенстве дисперсий расхода сырья при старой и новой технологиях принимаем.

Powyżej, testując hipotezy, założyliśmy rozkład normalny badanych zmiennych losowych. Jednakże specjalne badania wykazały, że zaproponowane algorytmy są bardzo stabilne (szczególnie przy dużych liczebnościach próbek) pod względem odchyleń od rozkładu normalnego.

Parametry dystrybucji i statystyki

Wszelkie parametry rozkładu zmiennej losowej, takie jak na przykład oczekiwanie matematyczne lub wariancja, są wielkościami teoretycznymi, których nie można bezpośrednio zmierzyć, chociaż można je oszacować. Stanowią one cechę ilościową populacja i same mogą być wyznaczone jedynie podczas modelowania teoretycznego jako wartości hipotetyczne, ponieważ opisują cechy rozkładu zmiennej losowej w samej populacji ogólnej. Aby je określić w praktyce, badacz przeprowadzający eksperyment dokonuje ich selektywnej oceny. Ocena ta obejmuje obliczenia statystyczne.

Statystyka jest ilościową charakterystyką badanych parametrów charakteryzującą rozkład zmiennej losowej otrzymanej na podstawie badania wartości próbek. Statystyka służy albo do opisu samej próby, albo, co ma ogromne znaczenie w podstawowych badaniach eksperymentalnych, do oszacowania parametrów rozkładu zmiennej losowej w badanej populacji.

Rozdzielenie pojęć "parametr" I "Statystyka" jest bardzo ważne, gdyż pozwala uniknąć szeregu błędów związanych z błędną interpretacją danych uzyskanych w eksperymencie. Faktem jest, że szacując parametry rozkładu na podstawie danych statystycznych, otrzymujemy wartości, które tylko w pewnym stopniu są zbliżone do oszacowanych parametrów. Prawie zawsze istnieje pewna różnica między parametrami a statystykami i zwykle nie jesteśmy w stanie określić, jak duża jest ta różnica. Teoretycznie im większa próbka, tym bliższe są oszacowanym parametrom ich charakterystyce próbki. Nie oznacza to jednak, że zwiększając liczebność próby, nieuchronnie zbliżymy się do oszacowanego parametru i zmniejszymy różnicę między nim a obliczoną statystyką. W praktyce wszystko może okazać się znacznie bardziej skomplikowane.

Jeżeli teoretycznie wartość oczekiwana statystyki pokrywa się z oszacowanym parametrem, wówczas nazywa się takie oszacowanie nieprzesunięty. Nazywa się oszacowanie, w którym oczekiwana wartość szacowanego parametru różni się od samego parametru o pewną kwotę przesiedlony.

Należy także rozróżnić punktowe i przedziałowe oszacowania parametrów rozkładu. Miejsce nazywa się oceną za pomocą liczby. Jeśli na przykład powiemy, że wartość przestrzennego progu wrażliwości dotykowej dla danego podmiotu w danych warunkach i na danym obszarze skóry wynosi 21,8 mm, to takie oszacowanie będzie punktowe. W ten sam sposób szacunki punktowe mają miejsce, gdy prognoza pogody mówi nam, że za oknem jest 25°C. Estymacja przedziałowa wiąże się z wykorzystaniem w ocenie zestawu lub zakresu liczb. Oceniając przestrzenny próg wrażliwości dotykowej, można powiedzieć, że mieścił się on w przedziale od 20 do 25 mm. Podobnie synoptycy pogody mogą informować, że według ich prognoz temperatura powietrza w ciągu najbliższych 24 godzin wyniesie 22–24°C. Estymacja przedziałowa zmiennej losowej pozwala nie tylko określić pożądaną wartość tej wielkości, ale także ustalić możliwą dokładność takiego oszacowania.

Oczekiwanie matematyczne i jego ocena

Wróćmy do naszego eksperymentu z rzutem monetą.

Spróbujmy odpowiedzieć na pytanie: ile razy powinna pojawić się „reszka”, jeśli rzucimy monetą dziesięć razy? Odpowiedź wydaje się oczywista. Jeśli prawdopodobieństwa każdego z dwóch wyników są równe, wówczas same wyniki muszą być równomiernie rozłożone. Innymi słowy, rzucając dziesięciokrotnie zwykłą monetą, możemy spodziewać się, że jedna z jej stron, na przykład „reszka”, wyląduje dokładnie pięć razy. Podobnie przy rzucie monetą 100 razy „reszki” powinny pojawić się dokładnie 50 razy, a jeśli rzucimy monetą 4236 razy, to interesująca nas strona powinna pojawić się 2118 razy, ani więcej, ani mniej.

Tak więc zwykle nazywa się teoretyczne znaczenie zdarzenia losowego oczekiwanie matematyczne. Wartość oczekiwaną można znaleźć mnożąc teoretyczne prawdopodobieństwo zmiennej losowej przez liczbę prób. Jednak bardziej formalnie definiuje się go jako moment centralny pierwszego rzędu. Oczekiwanie matematyczne jest zatem wartością zmiennej losowej, do której teoretycznie dąży podczas powtarzanych testów i wokół której się waha.

Oczywiste jest, że teoretyczna wartość oczekiwań matematycznych jako parametru rozkładu nie zawsze jest równa wartości empirycznej interesującej nas zmiennej losowej, wyrażonej w statystyce. Jeśli przeprowadzimy eksperyment z rzutem monetą, to jest całkiem prawdopodobne, że na dziesięć wyników „reszka” wypadnie tylko cztery, trzy razy, a może wręcz przeciwnie, wypadnie osiem razy, a może w ogóle nigdy się nie pojawi. Oczywiste jest, że niektóre z tych wyników okazują się bardziej, inne mniej prawdopodobne. Jeśli skorzystamy z prawa rozkładu normalnego, możemy dojść do wniosku, że im bardziej wynik odbiega od teoretycznie oczekiwanej wartości określonej przez matematyczną wartość oczekiwaną, tym mniej jest to prawdopodobne w praktyce.

Załóżmy dalej, że podobną procedurę wykonaliśmy kilka razy i nigdy nie zaobserwowaliśmy teoretycznie oczekiwanej wartości. Wtedy możemy mieć wątpliwości co do autentyczności monety. Możemy założyć, że w przypadku naszej monety prawdopodobieństwo wyrzucenia orła nie wynosi w rzeczywistości 50%. W takim przypadku może być konieczne oszacowanie prawdopodobieństwa tego zdarzenia i odpowiednio wartości oczekiwania matematycznego. Potrzeba ta pojawia się zawsze, gdy w eksperymencie badamy rozkład ciągłej zmiennej losowej, takiej jak czas reakcji, nie mając wcześniej żadnego modelu teoretycznego. Z reguły jest to pierwszy obowiązkowy krok w ilościowym przetwarzaniu wyników eksperymentów.

Oczekiwanie matematyczne można oszacować na trzy sposoby, co w praktyce może dać nieco inne wyniki, ale w teorii z pewnością powinny nas one doprowadzić do wartości oczekiwania matematycznego.

Logikę takiej oceny ilustruje ryc. 1.2. Wartość oczekiwaną można uznać za centralną tendencję w rozkładzie zmiennej losowej X, jako jego najbardziej prawdopodobna, a zatem najczęściej występująca wartość oraz jako punkt dzielący rozkład na dwie równe części.

Ryż. 1.2.

Kontynuujmy nasze wyimaginowane eksperymenty z monetą i przeprowadźmy trzy eksperymenty z dziesięciokrotnym rzuceniem. Załóżmy, że w pierwszym eksperymencie „głowy” pojawiały się cztery razy, w drugim to samo, w trzecim „głowy” pojawiały się ponad półtora raza częściej – siedem razy. Logiczne jest założenie, że matematyczne oczekiwanie interesującego nas zdarzenia faktycznie leży gdzieś pomiędzy tymi wartościami.

Pierwszy, najprostszy Metoda oceny oczekiwaniem matematycznym będzie znalezienie Średnia arytmetyczna. Wtedy oszacowanie wartości oczekiwanej na podstawie powyższych trzech pomiarów będzie wynosić (4 + 4 + 7)/3 = 5. Podobnie w eksperymentach z czasem reakcji wartość oczekiwaną można oszacować, biorąc średnią arytmetyczną wszystkich uzyskanych wartości X. Jeśli więc wydaliśmy P pomiary czasu reakcji X, wówczas możemy użyć poniższego wzoru, który pokazuje nam, że aby obliczyć średnią arytmetyczną X należy zsumować wszystkie wartości uzyskane empirycznie i podzielić je przez liczbę obserwacji:

We wzorze (1.2) miarę oczekiwań matematycznych oznacza się zwykle jako ̅ X (czytaj jako „X z kreską”), chociaż czasami można to zapisać jako M (z angielskiego mieć na myśli - przeciętny).

Średnia arytmetyczna jest najczęściej stosowanym oszacowaniem oczekiwań matematycznych. W takich przypadkach przyjmuje się, że zmienną losową mierzy się w metryczny skala. Oczywiste jest, że uzyskany wynik może, ale nie musi, pokrywać się z prawdziwą wartością oczekiwań matematycznych, której nigdy nie znamy. Ważne jednak, że jest to metoda bezinteresowny estymacja oczekiwań matematycznych. Oznacza to, że wartość oczekiwana wartości szacowanej jest równa jej oczekiwaniu matematycznemu: .

Druga metoda oceny oczekiwanie matematyczne polega na tym, aby za swoją wartość przyjąć najczęściej występującą wartość interesującej nas zmiennej. Wartość ta nazywa się tryb dystrybucji. Przykładowo, w przypadku rozpatrywanego właśnie rzutu monetą, za wartość oczekiwania matematycznego można przyjąć „cztery”, gdyż w trzech przeprowadzonych testach wartość ta pojawiła się dwukrotnie; Dlatego tryb dystrybucji w tym przypadku okazał się równy cztery. Estymację modową stosuje się głównie wtedy, gdy eksperymentator ma do czynienia ze zmiennymi, które przyjmują określone wartości dyskretne niemetryczne skala.

Na przykład, opisując rozkład ocen uczniów na egzaminie, można skonstruować rozkład częstotliwości ocen otrzymywanych przez uczniów. Ten rozkład częstotliwości nazywa się histogram. W tym przypadku najczęstszym oszacowaniem można przyjąć wartość tendencji centralnej (oczekiwanie matematyczne). Przy badaniu zmiennych charakteryzujących się wartościami ciągłymi miara ta praktycznie nie jest stosowana lub jest stosowana rzadko. Jeśli mimo to skonstruowany zostanie rozkład częstotliwości uzyskanych wyników, to z reguły nie dotyczy to uzyskanych eksperymentalnie wartości badanej cechy, ale niektórych przedziałów jej przejawów. Przykładowo, badając wzrost ludzi, można zobaczyć, ile osób mieści się w przedziale do 150 cm wzrostu, ile w przedziale od 150 do 155 cm itd. W takim przypadku tryb będzie powiązany z wartościami przedziału badanej cechy, w tym przypadku wysokości.

Oczywiste jest, że tryb, podobnie jak średnia arytmetyczna, może, ale nie musi, pokrywać się z rzeczywistą wartością oczekiwań matematycznych. Ale podobnie jak średnia arytmetyczna, tryb jest bezstronnym oszacowaniem oczekiwań matematycznych.

Dodajmy, że jeśli w próbie dwie wartości występują jednakowo często, to nazywa się taki rozkład dwumodalny. Jeżeli trzy lub więcej wartości w próbce występuje równie często, wówczas mówi się, że taka próbka nie ma trybu. Takie przypadki, przy dostatecznie dużej liczbie obserwacji, z reguły wskazują, że dane pochodzą z populacji ogólnej, której charakter rozkładu odbiega od normalnego.

Wreszcie, trzecia metoda oceny oczekiwaniem matematycznym jest podzielenie próby podmiotów według interesującego nas parametru dokładnie na pół. Nazywa się wielkość charakteryzującą tę granicę mediana dystrybucje.

Załóżmy, że jesteśmy obecni na zawodach narciarskich i po ich zakończeniu chcemy ocenić, który z zawodników uzyskał wyniki powyżej średniej, a który poniżej. Jeśli skład uczestników jest mniej więcej równy, wówczas przy ocenie średniego wyniku logiczne jest obliczenie średniej arytmetycznej. Załóżmy jednak, że wśród zawodowych uczestników jest kilku amatorów. Jest ich niewiele, ale wykazują wyniki znacznie gorsze od innych. W tym przypadku może się okazać, że na 100 uczestników konkursu np. 87 uzyskało wyniki powyżej średniej. Wiadomo, że taka ocena średniej tendencji nie zawsze nas satysfakcjonuje. W tym przypadku logiczne jest założenie, że średni wynik wykazali uczestnicy, którzy zajęli gdzieś 50. lub 51. miejsce. Będzie to mediana rozkładu. Przed 50. finalistą ukończyło 49 uczestników, po 51. także 49. Nie jest jednak jasne, czyj wynik spośród nich należy uznać za średnią. Oczywiście może się okazać, że skończyli w tym samym czasie. Wtedy nie ma problemu. Problem nie pojawia się, gdy liczba obserwacji jest nieparzysta. W innych przypadkach można jednak posłużyć się średnią wyników dwóch uczestników.

Mediana jest szczególnym przypadkiem kwantyla rozkładu. Kwantyl jest częścią dystrybucji. Formalnie można go zdefiniować jako wartość całkowitą rozkładu dwóch wartości zmiennej X. Tym samym wartość X będzie medianą rozkładu, jeśli wartość całkowita rozkładu (gęstość prawdopodobieństwa) wynosi od -∞ do X równa wartości całkowitej rozkładu z X do +∞. Podobnie dystrybucję można podzielić na cztery, dziesięć lub 100 części. Takie kwantyle nazywane są odpowiednio kwartyle, decyle I percentyle. Istnieją inne typy kwantyli.

Podobnie jak dwie poprzednie metody szacowania oczekiwań matematycznych, mediana jest obiektywnym oszacowaniem oczekiwań matematycznych.

Teoretycznie zakłada się, że jeśli rzeczywiście mamy do czynienia z rozkładem normalnym zmiennej losowej, to wszystkie trzy oszacowania oczekiwań matematycznych powinny dać ten sam wynik, gdyż wszystkie reprezentują wariant bezinteresowny estymaty tego samego parametru rozkładu estymowanej zmiennej losowej (patrz rys. 1.2). W praktyce jednak zdarza się to rzadko. Może to wynikać w szczególności z faktu, że analizowany rozkład różni się od normalnego. Ale główną przyczyną takich rozbieżności jest z reguły to, że szacując wartość oczekiwania matematycznego, można uzyskać wartość, która znacznie różni się od jej prawdziwej wartości. Jednakże, jak zauważono powyżej, w statystyce matematycznej udowodniono, że im bardziej niezależne testy rozważanej zmiennej zostaną przeprowadzone, tym bliższa powinna być wartość szacunkowa wartości prawdziwej.

Zatem w praktyce o wyborze metody szacowania oczekiwań matematycznych podyktowana jest nie chęć uzyskania dokładniejszego i bardziej wiarygodnego oszacowania tego parametru, a jedynie względy wygody. Pewną rolę w wyborze metody szacowania oczekiwań matematycznych odgrywa także skala pomiarowa, która odzwierciedla obserwacje ocenianej zmiennej losowej.

Niech zostaną przeprowadzone niezależne eksperymenty na zmiennej losowej o nieznanym oczekiwaniu matematycznym i wariancji, co dało wyniki - . Obliczmy spójne i bezstronne szacunki parametrów i .

Jako oszacowanie oczekiwań matematycznych przyjmujemy średnią arytmetyczną wartości eksperymentalnych

. (2.9.1)

Zgodnie z prawem wielkich liczb jest to oszacowanie bogaty , z wartością według prawdopodobieństwa. Ta sama ocena jest również bezinteresowny , ponieważ

. (2.9.2)

Wariancja tego oszacowania wynosi

. (2.9.3)

Można wykazać, że dla prawa rozkładu normalnego oszacowanie to wynosi skuteczny . W przypadku innych przepisów może to nie mieć miejsca.

Oszacujmy teraz wariancję. Wybierzmy najpierw do oszacowania wzór na wariancja statystyczna

. (2.9.4)

Sprawdźmy zgodność oszacowania wariancji. Otwórzmy nawiasy we wzorze (2.9.4)

.

Kiedy pierwszy wyraz zbiega się prawdopodobieństwem do wartości , w drugim - do. Zatem nasze oszacowanie jest zbieżne pod względem prawdopodobieństwa z wariancją

,

dlatego jest bogaty .

Sprawdźmy nieprzesunięty szacunki ilościowe. W tym celu podstawiamy wyrażenie (2.9.1) do wzoru (2.9.4) i uwzględniamy, że zmienne losowe niezależny

,

. (2.9.5)

Przejdźmy we wzorze (2.9.5) do wahań zmiennych losowych

Otwierając nawiasy, otrzymujemy

,

. (2.9.6)

Obliczmy matematyczne oczekiwanie wartości (2.9.6), biorąc to pod uwagę

. (2.9.7)

Z zależności (2.9.7) wynika, że ​​wartość obliczona ze wzoru (2.9.4) nie jest bezstronnym szacunkiem do dyspersji. Jego matematyczne oczekiwanie nie jest równe, ale nieco mniejsze. Taka ocena prowadzi do systematycznego błędu w dół. Aby wyeliminować takie odchylenie, należy wprowadzić korektę poprzez pomnożenie wartości. Ta skorygowana wariancja statystyczna może następnie służyć jako bezstronny estymator wariancji

. (2.9.8)

Oszacowanie to jest tak samo ważne jak oszacowanie, ponieważ wartość wynosi .

W praktyce zamiast oszacowania (2.9.8) czasami wygodniej jest zastosować estymator równoważny związany z drugim początkowym momentem statystycznym

. (2.9.9)

Szacunki (2.9.8), (2.9.9) nie są efektywne. Można wykazać, że w przypadku prawa dystrybucji normalnej tak będzie asymptotycznie efektywny (w razie potrzeby dążyć do minimalnej możliwej wartości).

Można zatem sformułować następujące zasady przetwarzania materiału statystycznego o ograniczonej objętości. Jeśli w niezależnych eksperymentach zmienna losowa przyjmuje wartości przy nieznanym oczekiwaniu matematycznym i rozproszeniu, wówczas do określenia tych parametrów należy posłużyć się szacunkami przybliżonymi

(2.9.10)

Koniec pracy -

Ten temat należy do działu:

Notatki z wykładów z matematyki, teorii prawdopodobieństwa, statystyki matematycznej

Wydział Matematyki Wyższej i Informatyki.. Notatki z wykładów.. z matematyki..

Jeśli potrzebujesz dodatkowych materiałów na ten temat lub nie znalazłeś tego czego szukałeś, polecamy skorzystać z wyszukiwarki w naszej bazie dzieł:

Co zrobimy z otrzymanym materiałem:

Jeśli ten materiał był dla Ciebie przydatny, możesz zapisać go na swojej stronie w sieciach społecznościowych:

Wszystkie tematy w tym dziale:

Teoria prawdopodobieństwa
Teoria prawdopodobieństwa jest gałęzią matematyki, w której bada się wzorce losowych zjawisk masowych. Zjawisko losowe nazywa się

Statystyczna definicja prawdopodobieństwa
Zdarzenie to zjawisko losowe, które może pojawić się w wyniku doświadczenia lub nie (zjawisko niejednoznaczne). Wskazuj wydarzenia wielkimi literami łacińskimi

Przestrzeń zdarzeń elementarnych
Niech będzie wiele zdarzeń związanych z jakimś doświadczeniem i: 1) w wyniku doświadczenia pojawia się jedna i tylko jedna rzecz

Działania na zdarzeniach
Suma dwóch zdarzeń i

Przegrupowania
Liczba różnych permutacji elementów jest oznaczona przez

Miejsca docelowe
Umieszczając elementy wg

Kombinacje
Połączenie elementów

Wzór na dodawanie prawdopodobieństw zdarzeń niezgodnych
Twierdzenie. Prawdopodobieństwo sumy dwóch niezgodnych zdarzeń jest równe sumie prawdopodobieństw tych zdarzeń. (1

Wzór na dodawanie prawdopodobieństw dowolnych zdarzeń
Twierdzenie. Prawdopodobieństwo sumy dwóch zdarzeń jest równe sumie prawdopodobieństw tych zdarzeń bez prawdopodobieństwa ich iloczynu.

Wzór na mnożenie prawdopodobieństwa
Niech dwa zdarzenia i będą dane. Rozważ wydarzenie

Wzór na całkowite prawdopodobieństwo
Pozwolić będzie kompletną grupą niezgodnych zdarzeń; nazywane są hipotezami. Rozważmy jakieś wydarzenie

Hipoteza Wzór na prawdopodobieństwo (Bayesa)
Rozważmy jeszcze raz - całą grupę niezgodnych hipotez i zdarzenia

Asymptotyczna formuła Poissona
W przypadkach, gdy liczba testów jest duża i prawdopodobieństwo wystąpienia zdarzenia

Losowe ilości dyskretne
Wielkość losowa to wielkość, która po powtórzeniu eksperymentu może przyjąć nierówne wartości liczbowe. Zmienna losowa nazywana jest dyskretną,

Losowe zmienne ciągłe
Jeżeli w wyniku eksperymentu zmienna losowa może przyjąć dowolną wartość z określonego odcinka lub całej osi rzeczywistej, wówczas nazywa się ją ciągłą. Prawo

Funkcja gęstości prawdopodobieństwa losowej zmiennej ciągłej
Zostawiać. Rozważmy punkt i nadajmy mu przyrosty

Charakterystyki numeryczne zmiennych losowych
Losowe zmienne dyskretne lub ciągłe uważa się za całkowicie określone, jeśli znane są prawa ich rozkładu. Tak naprawdę, znając prawa dystrybucji, zawsze możesz obliczyć prawdopodobieństwo trafienia

Kwantyle zmiennych losowych
Kwantyl rzędu losowej zmiennej ciągłej

Matematyczne oczekiwanie zmiennych losowych
Matematyczne oczekiwanie zmiennej losowej charakteryzuje jej średnią wartość. Wszystkie wartości zmiennej losowej są zgrupowane wokół tej wartości. Rozważmy najpierw losową zmienną dyskretną

Odchylenie standardowe i rozproszenie zmiennych losowych
Rozważmy najpierw losową zmienną dyskretną. Model charakterystyki numerycznej, mediana, kwantyle i oczekiwanie matematyczne

Momenty zmiennych losowych
Oprócz matematycznych oczekiwań i rozproszenia teoria prawdopodobieństwa wykorzystuje charakterystyki numeryczne wyższych rzędów, które nazywane są momentami zmiennych losowych.

Twierdzenia o charakterystyce numerycznej zmiennych losowych
Twierdzenie 1. Oczekiwanie matematyczne wartości nielosowej jest równe samej tej wartości. Dowód: Niech

Prawo dystrybucji dwumianowej

Prawo rozkładu Poissona
Niech losowa zmienna dyskretna przyjmie wartości

Jednolite prawo dystrybucyjne
Jednorodnym prawem rozkładu losowej zmiennej ciągłej jest prawo funkcji gęstości prawdopodobieństwa, które

Normalne prawo dystrybucji
Prawo rozkładu normalnego losowej zmiennej ciągłej to prawo funkcji gęstości

Prawo dystrybucji wykładniczej
Rozkład wykładniczy lub wykładniczy zmiennej losowej jest stosowany w takich zastosowaniach teorii prawdopodobieństwa, jak teoria kolejek, teoria niezawodności

Układy zmiennych losowych
W praktyce w zastosowaniach teorii prawdopodobieństwa często spotyka się problemy, w których wyniki eksperymentu opisuje nie jedna zmienna losowa, ale kilka losowych jednocześnie.

Układ dwóch losowych zmiennych dyskretnych
Niech dwie losowe zmienne dyskretne utworzą system. Losowa wartość

Układ dwóch losowych zmiennych ciągłych
Niech teraz system utworzą dwie losowe zmienne ciągłe. Prawo dystrybucji tego systemu nazywa się prawdopodobnie

Warunkowe prawa dystrybucji
Niech zależne losowe ilości ciągłe

Charakterystyka numeryczna układu dwóch zmiennych losowych
Początkowy moment uporządkowania układu zmiennych losowych

Układ kilku zmiennych losowych
Wyniki uzyskane dla układu dwóch zmiennych losowych można uogólnić na przypadek układów składających się z dowolnej liczby zmiennych losowych. Niech system będzie utworzony przez zbiór

Prawo rozkładu normalnego układu dwóch zmiennych losowych
Rozważmy układ dwóch losowych zmiennych ciągłych. Prawo dystrybucji tego systemu jest prawem dystrybucji normalnej

Twierdzenia graniczne teorii prawdopodobieństwa
Głównym celem dyscypliny teorii prawdopodobieństwa jest badanie wzorców losowych zjawisk masowych. Praktyka pokazuje, że obserwacja masy jednorodnych zjawisk losowych ujawnia

Nierówność Czebyszewa
Rozważmy zmienną losową z oczekiwaniem matematycznym

Twierdzenie Czebyszewa
Jeśli zmienne losowe są parami niezależne i mają skończone, wspólnie ograniczone wariancje

Twierdzenie Bernoulliego
Przy nieograniczonym wzroście liczby eksperymentów częstotliwość występowania zdarzenia zbiega się z prawdopodobieństwem do prawdopodobieństwa zdarzenia

Centralne twierdzenie graniczne
Podczas dodawania zmiennych losowych z dowolnymi prawami dystrybucji, ale ze wspólnie ograniczonymi wariancjami, stosuje się prawo dystrybucji

Główne problemy statystyki matematycznej
Omówione powyżej prawa teorii prawdopodobieństwa stanowią matematyczny wyraz rzeczywistych wzorców, które faktycznie istnieją w różnych losowych zjawiskach masowych. Uczenie się

Prosta populacja statystyczna. Funkcja rozkładu statystycznego
Rozważmy pewną zmienną losową, której prawo rozkładu jest nieznane. Wymagane na podstawie doświadczenia

Seria statystyczna. wykres słupkowy
Przy dużej liczbie obserwacji (rzędu setek) populacja staje się niewygodna i uciążliwa w rejestracji materiału statystycznego. Dla przejrzystości i zwartości materiał statystyczny

Numeryczna charakterystyka rozkładu statystycznego
W teorii prawdopodobieństwa uwzględniano różne charakterystyki liczbowe zmiennych losowych: oczekiwanie matematyczne, dyspersję, momenty początkowe i centralne różnych rzędów. Podobne liczby

Dobór rozkładu teoretycznego metodą momentów
Każdy rozkład statystyczny nieuchronnie zawiera elementy losowości związane z ograniczoną liczbą obserwacji. Przy dużej liczbie obserwacji te elementy losowości ulegają wygładzeniu,

Sprawdzenie wiarygodności hipotezy o postaci prawa dystrybucji
Niech dany rozkład statystyczny będzie aproksymowany przez jakąś krzywą teoretyczną lub

Kryteria zgody
Rozważmy jedno z najczęściej stosowanych kryteriów dobroci dopasowania – tzw. kryterium Pearsona. Zgadywać

Oszacowania punktowe dla nieznanych parametrów rozkładu
na s. 2.1. – 2.7 szczegółowo sprawdziliśmy, jak rozwiązać pierwszy i drugi główny problem statystyki matematycznej. Są to problemy wyznaczania praw rozkładu zmiennych losowych na podstawie danych eksperymentalnych

Przedział ufności. Prawdopodobieństwo ufności
W praktyce przy niewielkiej liczbie eksperymentów na zmiennej losowej przybliżone zastąpienie nieznanego parametru

Niech próbka losowa zostanie wygenerowana na podstawie obserwowanej zmiennej losowej ξ, matematycznego oczekiwania i wariancji które są nieznane. Zaproponowano wykorzystanie średniej próbki jako szacunków dla tych cech

i wariancja próbki

. (3.14)

Rozważmy niektóre właściwości oszacowań matematycznego oczekiwania i rozproszenia.

1. Oblicz matematyczne oczekiwanie średniej próbki:

Dlatego średnia z próbki jest nieobciążonym estymatorem dla .

2. Przypomnijmy, że wyniki obserwacje są niezależnymi zmiennymi losowymi, z których każda ma takie samo prawo rozkładu jak wartość, tj , , . Zakładamy, że wariancja jest skończona. Wtedy, zgodnie z twierdzeniem Czebyszewa o prawie wielkich liczb, dla każdego ε > 0 zachodzi równość ,

co można zapisać w ten sposób: . (3.16) Porównując (3.16) z definicją właściwości konsystencji (3.11) widzimy, że oszacowanie jest zgodnym oszacowaniem oczekiwań matematycznych.

3. Znajdź wariancję średniej próbki:

. (3.17)

Zatem wariancja matematycznego oszacowania oczekiwań zmniejsza się odwrotnie proporcjonalnie do wielkości próby.

Można udowodnić, że jeśli zmienna losowa ξ ma rozkład normalny, to średnia z próby jest efektywnym oszacowaniem oczekiwania matematycznego, to znaczy wariancja przyjmuje najmniejszą wartość w porównaniu z jakimkolwiek innym oszacowaniem oczekiwania matematycznego. W przypadku innych przepisów dotyczących dystrybucji ξ może to nie mieć miejsca.

Wariancja próbki jest obciążonym oszacowaniem wariancji, ponieważ . (3.18)

Rzeczywiście, korzystając z właściwości matematycznego oczekiwania i wzoru (3.17), znajdujemy

.

Aby uzyskać bezstronne oszacowanie wariancji, należy skorygować oszacowanie (3.14), to znaczy pomnożyć przez . Następnie otrzymujemy nieobciążoną wariancję próbki

. (3.19)

Należy zauważyć, że wzory (3.14) i (3.19) różnią się tylko mianownikiem, a dla dużych wartości wariancja próbna i nieobciążona niewiele się różnią. Jednak przy małej liczebności próby należy zastosować zależność (3.19).

Do oszacowania odchylenia standardowego zmiennej losowej stosuje się tzw. „skorygowane” odchylenie standardowe, które jest równe pierwiastkowi kwadratowemu z nieobciążonej wariancji: .

Szacunki interwałowe

W statystyce istnieją dwa podejścia do szacowania nieznanych parametrów rozkładów: punktowe i przedziałowe. Zgodnie z estymacją punktową, o której była mowa w poprzednim podrozdziale, wskazywany jest jedynie punkt, wokół którego znajduje się estymowany parametr. Pożądane jest jednak wiedzieć, jak bardzo ten parametr może faktycznie różnić się od możliwych realizacji oszacowań w różnych seriach obserwacji.

Odpowiedź na to pytanie – również przybliżoną – daje inna metoda estymacji parametrów – przedziałowa. Zgodnie z tą metodą estymacji wyznaczany jest przedział, który z prawdopodobieństwem bliskim jedności obejmuje nieznaną wartość liczbową parametru.

Pojęcie estymacji przedziałowej

Punktowe oszacowanie jest zmienną losową i dla możliwych przykładowych realizacji przyjmuje wartości tylko w przybliżeniu równe prawdziwej wartości parametru. Im mniejsza różnica, tym dokładniejsze oszacowanie. Zatem liczba dodatnia, dla której , charakteryzuje dokładność oszacowania i nazywa się błąd oszacowania (lub błąd marginalny).

Prawdopodobieństwo ufności(lub niezawodność) zwane prawdopodobieństwem β , z którym realizowana jest nierówność , tj.

. (3.20)

Zastąpienie nierówności równoważna podwójna nierówność , Lub , otrzymujemy

Interwał , obejmujące z prawdopodobieństwem β , , nieznany parametr, nazywa się przedział ufności (lub estymacja przedziałowa), odpowiadające prawdopodobieństwo ufności β .

Zmienna losowa jest nie tylko szacunkiem, ale także błędem: jej wartość zależy od prawdopodobieństwa β i z reguły z próbki. Zatem przedział ufności jest losowy i wyrażenie (3.21) należy czytać następująco: „Przedział obejmie parametr z prawdopodobieństwem β ”, a nie tak: „Parametr wpadnie w przedział z prawdopodobieństwem β ”.

Znaczenie przedziału ufności polega na tym, że przy wielokrotnym powtarzaniu objętości próbki we względnej proporcji przypadków równej β , przedział ufności odpowiadający prawdopodobieństwu ufności β , pokrywa prawdziwą wartość szacowanego parametru. Zatem prawdopodobieństwo ufności β charakteryzuje niezawodność ocena zaufania: tym więcej β , tym większe jest prawdopodobieństwo, że implementacja przedziału ufności zawiera nieznany parametr.

KATEGORIE

POPULARNE ARTYKUŁY

2023 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich