무작위 변수의 수학적 기대값 추정. 수학적 기대의 점 추정

랜덤변수가 있다고 하자 엑스수학적 기대를 가지고 및 분산 , 이 두 매개변수는 모두 알려져 있지 않습니다. 가치 이상 엑스생산 N독립적인 실험의 결과로 일련의 N수치 결과 x 1 , x 2 , …, x N. 수학적 기대값의 추정으로서 관측된 값의 산술 평균을 제안하는 것이 당연합니다.

(1)

여기서는 x 나는결과로 얻은 특정 값(숫자)이 고려됩니다. N실험. 다른 항목을 취하는 경우(이전 항목과 별개로) N실험을 하면 분명히 다른 값을 얻게 될 것입니다. 더 많이 복용하면 N실험을 수행하면 또 다른 새로운 값을 얻을 수 있습니다. 다음으로 나타내자 X 나는다음으로 인해 발생하는 확률 변수 번째 실험, 구현 X 나는이 실험에서 얻은 숫자가 될 것입니다. 당연하게도 랜덤변수는 X 나는원래 확률 변수와 동일한 확률 밀도 함수를 갖습니다. 엑스. 우리는 또한 무작위 변수가 X 나는그리고 엑스제이독립할 때 , 같지 않음 j(서로 독립적인 다양한 실험). 따라서 공식 (1)을 다른 (통계적) 형식으로 다시 작성합니다.

(2)

추정치가 편향되지 않았음을 보여드리겠습니다.

따라서 표본 평균의 수학적 기대값은 확률 변수의 실제 수학적 기대값과 동일합니다. . 이것은 상당히 예측 가능하고 이해 가능한 사실입니다. 결과적으로, 표본 평균(2)은 확률 변수의 수학적 기대치에 대한 추정치로 간주될 수 있습니다. 이제 질문이 생깁니다. 실험 횟수가 증가함에 따라 수학적 기대 추정치의 분산은 어떻게 되나요? 분석 계산에 따르면

수학적 기대 추정치(2)의 분산은 어디에 있습니까? - 확률 변수의 실제 분산 엑스.

위에서부터 다음과 같이 증가합니다. N(실험 횟수) 추정치의 분산이 감소합니다. 즉, 독립적인 실현을 더 많이 요약할수록 추정치를 얻는 수학적 기대에 더 가까워집니다.


수학적 분산 추정

언뜻 보면 가장 자연스러운 평가는 다음과 같다.

(3)

여기서는 공식 (2)를 사용하여 계산됩니다. 추정치가 공정한지 확인해 보겠습니다. 공식 (3)은 다음과 같이 쓸 수 있습니다.

식 (2)를 이 공식에 대입해 보겠습니다.

분산 추정의 수학적 기대값을 찾아보겠습니다.

(4)

확률변수의 분산은 확률변수의 수학적 기대값에 의존하지 않으므로 수학적 기대값을 0으로 가정하겠습니다. = 0.

(5)
에 .(6)

임의의 변수 X가 있다고 가정하고 해당 매개변수는 수학적 기대값입니다. 에이그리고 변동은 알려져 있지 않습니다. X 값에 대해 N번의 독립적인 실험이 수행되었으며 결과는 x 1, x 2, x n이었습니다.

추론의 일반성을 줄이지 않고 이러한 확률 변수의 값이 다른 것으로 간주합니다. x 1, x 2, x n 값을 독립적이고 동일하게 분포된 확률 변수 X 1, X 2, X n으로 간주합니다.

가장 간단한 통계 추정 방법(대체 및 유추 방법)은 표본 분포의 해당 특성(표본 특성)을 일반 모집단의 하나 또는 다른 수치 특성(평균, 분산 등)의 추정치로 취하는 것으로 구성됩니다. .

수학적 기대값의 추정으로 대체 방법 사용 에이우리는 표본 분포에 대한 수학적 기대치, 즉 표본 평균을 취해야 합니다. 따라서 우리는 얻는다

추정치로서 표본 평균의 편향성과 일관성을 확인하려면 에이, 이 통계를 선택한 벡터(X 1, X 2, X n)의 함수로 간주합니다. 각 수량 X 1, X 2, X n이 값 X와 동일한 분포 법칙을 갖는다는 점을 고려하여 이러한 수량의 수치 특성과 값 X가 동일하다는 결론을 내립니다. M(X ) = M(X) = 에이, 디(엑스 ) = D(X) = , = 1, 2, 엔 , 여기서 X i는 집합적으로 독립된 확률 변수입니다.

따라서,

여기에서 정의에 따라 편향되지 않은 추정치를 얻습니다. 에이, n®\에 대한 D()®0이므로 이전 단락의 정리에 따릅니다. 수학적 기대에 대한 일관된 추정치입니다. 에이일반 인구.

추정의 유효성 또는 비효율성은 확률 변수 X의 분포 법칙의 유형에 따라 달라집니다. X 값이 정규 법칙에 따라 분포되면 추정이 효과적이라는 것을 증명할 수 있습니다. 다른 유통법의 경우에는 그렇지 않을 수도 있습니다.

일반 분산의 편견 없는 추정수정된 표본 분산의 역할을 합니다.

,

왜냐하면 , 일반적인 분산은 어디에 있습니까? 정말,

일반 분산에 대한 추정값 s - 2도 유효하지만 효율적이지 않습니다. 그러나 정규 분포의 경우 "점근적 효율적"입니다. 즉, n이 증가함에 따라 가능한 최소 분포에 대한 분산의 비율이 무한정 1에 가까워집니다.

따라서 분포 F( 엑스) 알 수 없는 수학적 기대값을 갖는 확률 변수 X 에이분산, 이러한 매개변수의 값을 계산하기 위해 우리는 다음과 같은 대략적인 공식을 사용할 권리가 있습니다.

에이 ,

.

여기 x- i - - 샘플링 옵션, n- i - - 주파수 옵션 x i, - - 표본 크기.
수정된 표본 분산을 계산하려면 공식이 더 편리합니다.


.

계산을 단순화하려면 조건부 옵션으로 전환하는 것이 좋습니다 (간격 변주 시리즈의 중간에 위치한 원본 버전을 사용하는 것이 유리합니다.) 그 다음에

, .

간격 추정

위에서 우리는 알려지지 않은 매개변수를 추정하는 문제를 고려했습니다. 에이하나의 숫자. 우리는 그러한 추정을 포인트 추정이라고 부릅니다. 표본 크기가 작을 경우 추정된 매개변수와 크게 다를 수 있다는 단점이 있습니다. 따라서 매개변수와 해당 추정치 사이의 근접성에 대한 아이디어를 얻기 위해 소위 간격 추정치가 수학적 통계에 도입됩니다.

매개변수 q에 대한 샘플에서 점 추정 q *를 찾도록 합니다. 일반적으로 연구자들은 확률 g를 갖는 사건이 실질적으로 확실한 것으로 간주될 수 있도록 충분히 큰 확률 g(예: 0.95, 0.99 또는 0.999)를 미리 제공하고, 다음과 같은 값 e > 0을 찾는 문제를 제기합니다.

.

이 평등을 수정하면 다음을 얻습니다.

이 경우 간격은 ]q * - e; q * + e[는 확률 g로 추정된 매개변수 q를 포괄합니다.

간격 ]q * -e; q * +e [라고 불린다 신뢰 구간 .

확률 g는 다음과 같습니다. 신뢰할 수 있음 구간 추정치의 (신뢰 확률)입니다.

신뢰 구간의 끝, 즉 q * -e 및 q * +e 점을 호출합니다. 신뢰 경계 .

숫자 e라고 불린다. 평가 정확도 .

신뢰 한계를 결정하는 문제의 예로, 매개변수가 있는 정규 분포 법칙을 갖는 확률 변수 X의 수학적 기대값을 추정하는 문제를 고려해 보세요. 에이그리고 즉, 엑스 = 엔( 에이, 들). 이 경우 수학적 기대값은 다음과 같습니다. 에이. 관측치 X 1, X 2, X n을 기반으로 평균을 계산합니다. 및 평가 분산 2.

샘플 데이터로부터 확률 변수를 구성하는 것이 가능하다는 것이 밝혀졌습니다.

이는 자유도가 n = n -1인 스튜던트 분포(또는 t-분포)를 갖습니다.

표 A.1.3을 사용하여 주어진 확률 g와 숫자 n에 대해 숫자 t g를 구해 보겠습니다.

P(|t(n)|< t g) = g,

.

우리가 얻은 분명한 변화를 보면,

F-검정을 적용하는 절차는 다음과 같습니다.

1. 인구분포는 정규분포로 가정한다. 주어진 유의 수준 a에서 귀무 가설 H 0: s x 2 = s y 2는 경쟁 가설 H 1: s x 2 > s y 2 하에서 정규 모집단의 일반 분산의 동일성에 대해 공식화됩니다.

2. 각각 n x와 n y의 모집단 X와 Y로부터 두 개의 독립적인 표본을 얻습니다.

3. 수정된 표본 분산 s x 2 및 s y 2의 값을 계산합니다(계산 방법은 §13.4에서 논의됨). 분산(s x 2 또는 s y 2) 중 더 큰 것은 s 1 2로 지정되고, 더 작은 것은 - s 2 2로 지정됩니다.

4. F 기준의 값은 F obs = s 1 2 / s 2 2 공식을 사용하여 계산됩니다.

5. 주어진 유의 수준 a와 자유도 n 1 = n 1 - 1, n 2 = n 2 - 1(n 1은 더 큰 수정 분산의 자유도), 임계점은 F cr (a, n 1, n 2)입니다.

표 A.1.7은 단측 F-검정의 임계값을 보여줍니다. 따라서 양면 기준(H 1: s x 2 1 s y 2)을 적용하면 유의 수준 a/에 따라 오른쪽 임계점 Fcr(a/2, n 1, n 2)을 구합니다. 2 (지정된 값의 절반) 및 자유도 n 1 및 n 2 (n 1은 더 큰 분산의 자유도)입니다. 왼쪽 임계점을 찾을 수 없습니다.

6. 결론은 다음과 같습니다. F 기준의 계산된 값이 임계값(F obs ³ F cr)보다 크거나 같으면 분산은 주어진 유의 수준에서 크게 다릅니다. 그렇지 않으면 (F obs.< F кр) нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

문제 15.1. 기존 기술을 사용한 생산 단위당 원자재 소비량은 다음과 같습니다.

새로운 기술 사용:

해당 일반 모집단 X와 Y가 정규 분포를 따른다고 가정하고, 유의 수준 a = 0.1을 취하면 가변성 측면에서 신기술과 기존 기술의 원자재 소비가 다르지 않음을 확인합니다.

해결책. 위에 표시된 순서대로 진행합니다.

1. 분산값을 기준으로 신기술과 기존기술에 따른 원재료 소비의 변동성을 판단하겠습니다. 따라서 귀무가설의 형식은 H 0: s x 2 = s y 2입니다. 경쟁 가설로서 우리는 가설 H 1: s x 2 1 s y 2를 받아들입니다. 왜냐하면 어떤 일반적인 분산이 다른 것보다 더 큰지 미리 확신할 수 없기 때문입니다.

2-3. 표본분산을 찾아보자. 계산을 단순화하기 위해 조건부 옵션으로 넘어갑니다.

u i = x i - 307, v i = y i - 304.

모든 계산은 다음 표 형식으로 정리됩니다.

너 나 나 너 나 나 너 나 2 m i (u i +1) 2 v 나는 아니 나는 n 나는 v 나는 나 v 나 2 n i (v i +1) 2
-3 -3 -1 -2
å -
å -

제어: å m i u i 2 + 2å m i u i + mi = 제어: å n i v i 2 + 2å n i v i + n i = 13 + 2 + 9 = 24 = 34 + 20 + 13 = 67

수정된 표본 분산을 찾아보겠습니다.

4. 차이를 비교해 보겠습니다. 더 큰 수정 분산과 더 작은 수정 분산의 비율을 찾아보겠습니다.

.

5. 조건에 따라 경쟁 가설은 s x 2 1 s y 2 형식을 가지므로 임계 영역은 양면이며 임계점을 찾을 때 지정된 값의 절반에 해당하는 유의 수준을 취해야 합니다.

표 A.1.7에 따르면 유의 수준 a/2 = 0.1/2 = 0.05와 자유도 n 1 = n 1 - 1 = 12, n 2 = n 2 - 1 = 8을 사용하여 다음을 찾습니다. 임계점 Fcr(0.05; 8) = 3.28.

6. F obs 이후.< F кр то гипотезу о равенстве дисперсий расхода сырья при старой и новой технологиях принимаем.

위에서 가설을 테스트할 때 연구 중인 확률 변수의 정규 분포를 가정했습니다. 그러나 특별한 연구에 따르면 제안된 알고리즘은 정규 분포와의 편차와 관련하여 매우 안정적입니다(특히 표본 크기가 큰 경우).

분포 매개변수 및 통계

예를 들어 수학적 기대값이나 분산과 같은 확률 변수 분포의 모든 매개변수는 추정할 수는 있지만 직접 측정할 수 없는 이론적 양입니다. 이는 정량적 특성을 나타냅니다. 인구 일반 모집단 자체의 무작위 변수 분포 특징을 설명하기 때문에 이론적인 모델링 중에만 가상 값으로 결정될 수 있습니다. 실제로 이를 결정하기 위해 실험을 수행하는 연구자는 이에 대해 선택적 평가를 수행합니다. 이 평가에는 통계적 계산이 포함됩니다.

통계 표본 값에 대한 연구를 기반으로 얻은 무작위 변수의 분포를 특성화하는 연구된 매개변수의 정량적 특성입니다. 통계는 표본 자체를 설명하거나 기초 실험 연구에서 가장 중요한 연구 대상 모집단의 무작위 변수 분포 매개변수를 추정하는 데 사용됩니다.

개념의 분리 "매개변수" 그리고 "통계" 이는 실험에서 얻은 데이터의 잘못된 해석과 관련된 여러 오류를 피할 수 있기 때문에 매우 중요합니다. 사실 우리가 통계자료를 이용하여 분포모수를 추정할 때 추정모수와 어느 정도 근접한 값만을 얻게 된다. 매개변수와 통계 간에는 거의 항상 약간의 차이가 있으며 일반적으로 이 차이가 얼마나 큰지 알 수 없습니다. 이론적으로 표본이 클수록 추정된 매개변수는 표본 특성에 더 가까워집니다. 그러나 이것이 표본 크기를 늘린다고 해서 필연적으로 추정된 매개변수에 가까워지고 계산된 통계치와의 차이가 줄어든다는 의미는 아닙니다. 실제로는 모든 것이 훨씬 더 복잡해질 수 있습니다.

이론적으로 통계의 기대값이 추정된 매개변수와 일치하는 경우 이러한 추정치를 호출합니다. 옮겨지지 않은. 추정된 매개변수의 기대값이 매개변수 자체와 일정량 차이가 나는 추정치를 호출합니다. 이주민.

또한 분포 모수에 대한 점 추정과 구간 추정을 구별하는 것도 필요합니다. 숫자를 사용하여 평가를 호출합니다. 예를 들어, 주어진 조건과 주어진 피부 영역에서 주어진 대상에 대한 촉각 감도의 공간 임계 값이 21.8mm라고 말하면 그러한 추정치는 포인트가 될 것입니다. 마찬가지로 일기 예보에서 창 밖의 온도가 25°C라고 알려지면 점 추정이 발생합니다. 간격 추정 평가에 일련의 숫자 또는 숫자 범위를 사용하는 것이 포함됩니다. 촉각 감도의 공간 임계값을 평가하면 20~25mm 범위에 있다고 말할 수 있습니다. 마찬가지로, 기상 예보관들은 자신들의 예측에 따르면 향후 24시간 동안 기온이 22~24°C에 도달할 것이라고 보고할 수 있습니다. 확률 변수의 간격 추정을 통해 우리는 이 양의 원하는 값을 결정할 수 있을 뿐만 아니라 그러한 추정에 대해 가능한 정확도를 설정할 수도 있습니다.

수학적 기대와 그 평가

동전 던지기 실험으로 돌아가 보겠습니다.

다음 질문에 답해 봅시다. 동전을 10번 던지면 "앞면"이 몇 번이나 나타나야 합니까? 대답은 분명해 보인다. 두 결과 각각의 확률이 동일하다면 결과 자체도 균등하게 분배되어야 합니다. 즉, 보통 동전을 10번 던지면 동전의 한 면, 예를 들어 앞면이 정확히 5번 나올 것으로 예상할 수 있습니다. 마찬가지로, 동전을 100번 던지면 앞면이 정확히 50번 나타나야 하고, 동전을 4236번 던지면 우리가 관심을 갖는 면은 그 이상도 그 이하도 아닌 2118회 나타나야 합니다.

따라서 무작위 사건의 이론적 의미는 일반적으로 다음과 같이 불립니다. 수학적 기대. 기대값은 확률변수의 이론적 확률에 시행 횟수를 곱하여 구할 수 있습니다. 그러나 보다 공식적으로는 1차 중심 모멘트로 정의됩니다. 따라서 수학적 기대값은 반복 테스트 중에 이론적으로 경향이 있는 무작위 변수의 값이며, 그 주위에서 변합니다.

분포 매개변수로서 수학적 기대값의 이론적 값이 통계로 표현되는 우리가 관심을 갖고 있는 확률 변수의 경험적 값과 항상 동일하지는 않다는 것은 분명합니다. 동전 던지기에 대한 실험을 한다면, 10개의 결과 중 앞면이 4~3번만 나올 가능성이 높습니다. 또는 반대로 8번 또는 10번 나올 수도 있습니다. 전혀 올라오지 않습니다. 이러한 결과 중 일부는 가능성이 더 높고 일부는 가능성이 낮다는 것이 분명합니다. 정규 분포의 법칙을 사용하면 결과가 이론적으로 예상되는 것, 즉 수학적 기대값으로 지정된 결과에서 벗어날수록 실제로 그럴 가능성이 낮아진다는 결론에 도달할 수 있습니다.

또한 유사한 절차를 여러 번 수행했지만 이론적으로 기대되는 값을 관찰한 적이 없다고 가정해 보겠습니다. 그렇다면 우리는 동전의 진위 여부에 대해 의심을 가질 수 있습니다. 우리 코인의 앞면이 나올 확률은 실제로 50%가 아니라고 가정할 수 있습니다. 이 경우 해당 사건의 확률과 이에 따른 수학적 기대값을 추정해야 할 수도 있습니다. 이러한 필요성은 실험에서 사전 이론적 모델 없이 반응 시간과 같은 연속 확률 변수의 분포를 연구할 때마다 발생합니다. 일반적으로 이는 실험 결과를 정량적으로 처리하는 첫 번째 필수 단계입니다.

수학적 기대값은 세 가지 방법으로 추정할 수 있으며, 실제로는 약간 다른 결과를 얻을 수 있지만 이론적으로는 확실히 수학적 기대값을 도출해야 합니다.

그러한 평가의 논리는 그림 1에 설명되어 있습니다. 1.2. 기대값은 확률변수 분포의 중심 경향으로 간주될 수 있습니다. 엑스, 가장 가능성이 높고 따라서 가장 자주 발생하는 값이자 분포를 두 개의 동일한 부분으로 나누는 지점으로 사용됩니다.

쌀. 1.2.

동전을 가지고 상상의 실험을 계속해서 동전을 10번 던지는 세 가지 실험을 해보자. 첫 번째 실험에서 "머리"가 4번 나왔고, 두 번째 실험에서도 같은 일이 일어났으며, 세 번째 실험에서는 "머리"가 1.5배 이상, 즉 7번 나왔다고 가정해 보겠습니다. 우리가 관심을 갖고 있는 사건에 대한 수학적 기대치가 실제로 이 값들 사이 어딘가에 있다고 가정하는 것이 논리적입니다.

첫 번째, 가장 단순한 평가방법 수학적 기대는 다음을 찾는 것입니다. 산술 평균. 그러면 위의 세 가지 측정값을 기반으로 한 기대값의 추정치는 (4 + 4 + 7)/3 = 5가 됩니다. 마찬가지로 반응 시간 실험에서도 얻은 모든 값의 산술 평균을 취하여 기대값을 추정할 수 있습니다. 엑스. 그래서 우리가 지출했다면 N 반응 시간 측정 엑스, 그런 다음 산술 평균을 계산하는 것을 보여주는 다음 공식을 사용할 수 있습니다. 엑스 경험적으로 얻은 모든 값을 더하고 관찰 횟수로 나누어야합니다.

공식 (1.2)에서 수학적 기대의 척도는 일반적으로 ̅로 표시됩니다. 엑스 ("막대가 있는 X"로 읽음) 때로는 다음과 같이 쓸 수도 있습니다. (영어에서 평균 - 평균).

산술 평균은 가장 일반적으로 사용되는 수학적 기대값의 추정치입니다. 이러한 경우 확률변수는 다음과 같이 측정된다고 가정합니다. 미터법 규모. 얻은 결과가 우리가 결코 알 수 없는 수학적 기대값의 실제 값과 일치할 수도 있고 일치하지 않을 수도 있다는 것은 분명합니다. 그러나 중요한 것은 이 방법이 편견 없는 수학적 기대의 추정. 이는 추정값의 기대값이 수학적 기대값과 동일함을 의미합니다.

두 번째 평가 방법 수학적 기대는 우리가 관심 있는 변수의 가장 자주 발생하는 값을 그 값으로 취하는 것입니다. 이 값은 배포 모드. 예를 들어 방금 고려한 동전 던지기의 경우 "4"는 수학적 기대값으로 간주될 수 있습니다. 왜냐하면 수행된 세 가지 테스트에서 이 값이 두 번 나타났기 때문입니다. 이것이 바로 이 경우 배포 모드가 4인 것으로 밝혀진 이유입니다. 모드 추정은 실험자가 지정된 이산 값을 취하는 변수를 다룰 때 주로 사용됩니다. 비미터법 규모.

예를 들어, 시험에서 학생들의 성적 분포를 기술함으로써 학생들이 받은 성적의 빈도 분포를 구성할 수 있습니다. 이 빈도 분포를 히스토그램. 이 경우 가장 일반적인 추정치는 중심 경향(수학적 기대값)의 값으로 간주할 수 있습니다. 연속적인 값을 특징으로 하는 변수를 연구할 때 이 측정값은 실제로 사용되지 않거나 거의 사용되지 않습니다. 그럼에도 불구하고 얻은 결과의 빈도 분포가 구성되면 일반적으로 연구 대상 특성의 실험적으로 얻은 값이 아니라 그 발현의 일부 간격에 관한 것입니다. 예를 들어, 사람의 키를 연구하면 150cm 이하의 키 범위에 속하는 사람이 몇 명인지, 150~155cm 범위에 속하는 사람이 몇 명인지 등을 알 수 있습니다. 이 경우 모드는 연구되는 특성의 간격 값(이 경우 높이)과 관련됩니다.

산술 평균과 마찬가지로 최빈값도 수학적 기대값의 실제 값과 일치할 수도 있고 일치하지 않을 수도 있다는 것은 분명합니다. 그러나 산술 평균과 마찬가지로 최빈값은 수학적 기대값에 대한 편향되지 않은 추정치입니다.

표본의 두 값이 동일하게 자주 발생하는 경우 이러한 분포를 호출한다고 덧붙여 보겠습니다. 바이모달. 표본에서 세 개 이상의 값이 동일하게 자주 발생하는 경우 해당 표본에는 최빈값이 없다고 합니다. 일반적으로 관찰 횟수가 충분히 많은 이러한 경우는 일반적으로 데이터가 분포의 성격이 정상과 다른 일반 모집단에서 추출되었음을 나타냅니다.

마지막으로, 세 번째 평가 방법 수학적 기대는 우리가 관심 있는 매개변수에 따라 대상의 표본을 정확히 절반으로 나누는 것입니다. 이 경계를 특징짓는 수량을 다음과 같이 부릅니다. 중앙값 배포판.

우리가 스키 대회에 참석했고 대회가 끝난 후 어떤 선수가 평균보다 높은 결과를 보였는지, 어떤 선수가 그 이하인지 평가하고 싶다고 가정해 보겠습니다. 참가자의 구성이 다소 균일하면 평균 결과를 평가할 때 산술 평균을 계산하는 것이 논리적입니다. 그러나 전문 참가자 중에는 아마추어가 여러 명 있다고 가정해 보겠습니다. 그 중 소수는 있지만 다른 것보다 현저히 열등한 결과를 보여줍니다. 이 경우, 예를 들어 대회 참가자 100명 중 87명이 평균 이상의 결과를 보인 것으로 드러날 수 있습니다. 이러한 평균 경향 평가가 항상 우리를 만족시킬 수는 없다는 것이 분명합니다. 이 경우 평균 결과는 50위 또는 51위를 차지한 참가자가 나타냈다고 가정하는 것이 논리적입니다. 이것이 분포의 중앙값이 됩니다. 50회 본선 진출자 이전에는 49명이 완주했고, 51회 이후에도 49명이 완주했다. 그러나 이들 중 누구의 결과를 평균으로 삼아야 할지 명확하지 않다. 물론, 같은 시간에 끝난 것으로 판명될 수도 있다. 그러면 문제가 없습니다. 관측값 수가 홀수인 경우에는 문제가 발생하지 않습니다. 그러나 다른 경우에는 두 참가자의 결과 평균을 사용할 수 있습니다.

중앙값은 분포 분위수의 특별한 경우입니다. 분위수 배포의 일부입니다. 공식적으로는 변수의 두 값 사이의 분포를 적분한 값으로 정의할 수 있습니다. 엑스. 따라서 값은 엑스 분포의 적분 값(확률 밀도)이 -부터 까지인 경우 분포의 중앙값이 됩니다. 엑스 분포의 적분 값과 같습니다. 엑스 + 까지. 마찬가지로 분포는 4개, 10개, 100개 부분으로 나눌 수 있습니다. 이러한 분위수는 그에 따라 호출됩니다. 사분위수, 십분위수 그리고 백분위 수. 다른 유형의 분위수가 있습니다.

수학적 기대값을 추정하는 이전의 두 가지 방법과 마찬가지로 중앙값은 수학적 기대값에 대한 편향되지 않은 추정값입니다.

이론적으로, 실제로 확률 변수의 정규 분포를 다루는 경우 수학적 기대값에 대한 세 가지 추정치는 모두 변형을 나타내기 때문에 동일한 결과를 제공해야 한다고 가정합니다. 편견 없는 추정된 무작위 변수의 동일한 분포 모수의 추정치(그림 1.2 참조). 그러나 실제로는 이런 일이 거의 발생하지 않습니다. 이는 특히 분석된 분포가 정규 분포와 다르기 때문일 수 있습니다. 그러나 이러한 불일치의 주된 이유는 일반적으로 수학적 기대값을 추정함으로써 실제 값과 매우 크게 다른 값을 얻을 수 있다는 것입니다. 그러나 위에서 언급한 바와 같이, 고려 중인 변수에 대해 보다 독립적인 테스트를 수행할수록 추정값이 실제 값에 더 가까워진다는 것이 수학적 통계에서 입증되었습니다.

따라서 실제로 수학적 기대값을 추정하기 위한 방법의 선택은 이 매개변수에 대한 보다 정확하고 신뢰할 수 있는 추정값을 얻으려는 욕구가 아니라 편의성을 고려하여 결정됩니다. 또한 수학적 기대값을 추정하기 위한 방법을 선택하는 데 있어 특정 역할은 평가되는 확률 변수의 관찰을 반영하는 측정 척도에 의해 수행됩니다.

수학적 기대값과 분산이 알려지지 않은 확률 변수에 대해 독립적인 실험을 수행하여 결과를 얻었습니다. . 매개변수 및 에 대해 일관되고 편향되지 않은 추정값을 계산해 보겠습니다.

수학적 기대값에 대한 추정치로서 실험값의 산술 평균을 사용합니다.

. (2.9.1)

대수의 법칙에 따르면 이 추정치는 다음과 같습니다. 풍부한 , 확률에 따른 값. 이런 평가도 마찬가지다. 편견 없는 , 왜냐하면

. (2.9.2)

이 추정의 분산은 다음과 같습니다.

. (2.9.3)

정규 분포 법칙에 대해 이 추정치는 다음과 같다는 것을 알 수 있습니다. 효과적인 . 다른 법률의 경우에는 그렇지 않을 수도 있습니다.

이제 분산을 추정해 보겠습니다. 먼저 추정을 위해 다음 공식을 선택하겠습니다. 통계적 차이

. (2.9.4)

분산 추정의 일관성을 확인해 보겠습니다. 공식 (2.9.4)에서 괄호를 열어 보겠습니다.

.

첫 번째 항이 확률에서 값으로 수렴할 때 , 두 번째-to. 따라서 우리의 추정치는 확률적으로 분산으로 수렴됩니다.

,

그러므로 그녀는 풍부한 .

확인해 보자 이주되지 않은 수량 추정. 이를 위해 식 (2.9.1)을 식 (2.9.4)로 대체하고 다음과 같은 확률 변수를 고려합니다. 독립적인

,

. (2.9.5)

공식 (2.9.5)에서 확률변수의 변동으로 이동해 보겠습니다.

괄호를 열면,

,

. (2.9.6)

다음을 고려하여 가치의 수학적 기대값(2.9.6)을 계산해 보겠습니다.

. (2.9.7)

관계식(2.9.7)은 식(2.9.4)을 사용하여 계산된 값을 보여줍니다. 편견 없는 추정은 아니다 분산을 위해. 수학적 기대치는 동일하지 않지만 다소 적습니다. 이러한 평가는 체계적인 오류로 이어집니다. 이러한 편향을 제거하려면 값을 곱하여 수정을 도입해야 합니다. 이렇게 수정된 통계적 분산은 분산에 대한 편견 없는 추정기 역할을 할 수 있습니다.

. (2.9.8)

이 추정치는 값이 이기 때문에 추정치만큼 유효합니다.

실제로는 추정(2.9.8) 대신 두 번째 초기 통계 순간과 관련된 등가 추정을 사용하는 것이 더 편리한 경우가 있습니다.

. (2.9.9)

추정치 (2.9.8), (2.9.9)는 효과적이지 않습니다. 정규분배법칙의 경우 다음과 같다는 것을 알 수 있다. 점근적으로 효율적 (가능한 최소값을 추구하는 경향이 있습니다).

따라서 볼륨이 제한된 통계 자료를 처리하기 위해 다음과 같은 규칙을 공식화할 수 있습니다. 독립 실험에서 확률 변수가 다음 값을 취하는 경우 알 수 없는 수학적 기대값과 분산이 있는 경우 이러한 매개변수를 결정하려면 대략적인 추정치를 사용해야 합니다.

(2.9.10)

작업 종료 -

이 주제는 다음 섹션에 속합니다.

수학 확률론 수학통계 강의 노트

고등수학과 컴퓨터공학과.. 강의노트.. 수학..

이 주제에 대한 추가 자료가 필요하거나 원하는 내용을 찾지 못한 경우 당사 저작물 데이터베이스에서 검색을 사용하는 것이 좋습니다.

받은 자료로 무엇을 할 것인가:

이 자료가 도움이 되었다면 소셜 네트워크 페이지에 저장할 수 있습니다.

이 섹션의 모든 주제:

확률 이론
확률 이론은 무작위 질량 현상의 패턴을 연구하는 수학의 한 분야입니다.

무작위로 나타나는 현상을
확률의 통계적 정의

사건은 경험의 결과로 나타날 수도 있고 나타나지 않을 수도 있는 무작위적인 현상(모호한 현상)입니다. 대문자 라틴 문자로 이벤트를 표시합니다.
초등행사 공간

어떤 경험과 관련된 많은 사건이 있다고 가정하고, 1) 경험의 결과로 오직 한 가지만 나타납니다.
이벤트에 대한 작업

두 가지 사건의 합과
재배치

요소의 서로 다른 순열 수는 다음과 같이 표시됩니다.
게재위치

에 따라 요소를 배치함으로써
조합

요소의 조합
호환되지 않는 사건의 확률을 추가하는 공식

정리. 양립할 수 없는 두 사건의 합에 대한 확률은 이들 사건의 확률의 합과 같습니다.
정리. 두 사건의 합에 대한 확률은 곱의 확률을 제외한 이들 사건의 확률의 합과 같습니다.

확률 곱셈 공식
두 가지 사건을 두고 주어집니다. 이벤트를 고려해보세요

총 확률 공식
양립할 수 없는 사건의 완전한 그룹을 가정이라고 합니다. 어떤 사건을 생각해 보자

가설 확률 공식(베이즈)
다시 생각해 봅시다 - 양립할 수 없는 가설과 사건의 전체 그룹

점근 포아송 공식
테스트 횟수가 많고 사건이 발생할 확률이 높은 경우

무작위 개별 수량
무작위 수량은 실험이 반복될 때 동일하지 않은 수치 값을 가질 수 있는 수량입니다. 확률변수를 이산형(discrete)이라고 합니다.

무작위 연속변수
실험 결과, 랜덤 변수가 특정 세그먼트 또는 전체 실제 축에서 임의의 값을 취할 수 있는 경우 이를 연속형이라고 합니다. 법

무작위 연속변수의 확률밀도함수
그렇게 놔두세요. 한 점을 고려하여 증분을 가해 봅시다

확률변수의 수치적 특성
무작위 이산형 또는 연속형 변수는 분포 법칙이 알려진 경우 완전히 지정된 것으로 간주됩니다. 사실 분배 법칙을 알면 언제든지 적중 확률을 계산할 수 있습니다.

확률 변수의 분위수
랜덤 연속 변수 차수의 분위수

확률변수의 수학적 기대
무작위 변수의 수학적 기대는 평균값의 특징을 나타냅니다. 확률 변수의 모든 값은 이 값을 중심으로 그룹화됩니다. 먼저 무작위 이산변수를 고려해 보겠습니다.

확률변수의 표준편차 및 분산
먼저 임의의 이산변수를 고려해 보겠습니다. 수치적 특성 모드, 중앙값, 분위수 및 수학적 기대

확률 변수의 순간
수학적 기대와 분산 외에도 확률 이론은 확률 변수의 모멘트라고 하는 고차원의 수치적 특성을 사용합니다.

확률변수의 수치적 특성에 관한 정리
정리 1. 무작위가 아닌 값의 수학적 기대값은 이 값 자체와 같습니다.

증명: 하자

이항분배법
포아송 분포 법칙

임의의 이산 변수가 값을 취하도록 하십시오.
균등분배법

랜덤 연속 변수의 균등 분포 법칙은 확률 밀도 함수의 법칙입니다.
정규분포법칙

지수분포 법칙
랜덤 변수의 지수 또는 지수 분포는 큐잉 이론, 신뢰성 이론과 같은 확률 이론의 응용에 사용됩니다.

확률 변수 시스템
실제로 확률 이론을 적용할 때 실험 결과가 하나의 무작위 변수가 아닌 여러 무작위 변수로 동시에 설명되는 문제에 자주 직면합니다.

두 개의 랜덤 이산변수 시스템
두 개의 무작위 이산변수가 시스템을 형성한다고 가정합니다. 무작위 변수

두 개의 랜덤 연속 변수 시스템
이제 두 개의 무작위 연속 변수로 시스템을 구성해 보겠습니다. 이 시스템의 분배법칙은 아마도 다음과 같습니다.

조건부 분포 법칙
종속 무작위 연속 수량을 보자

두 확률변수 시스템의 수치적 특성
확률 변수 시스템의 초기 순서 순간

여러 확률 변수의 시스템
두 개의 확률변수 시스템에 대해 얻은 결과는 임의의 개수의 확률변수로 구성된 시스템의 경우로 일반화될 수 있습니다.

시스템을 세트로 구성하자
두 개의 확률 변수 시스템에 대한 정규 분포 법칙

두 개의 임의 연속 변수로 구성된 시스템을 고려해 보겠습니다. 이 시스템의 분포 법칙은 정규 분포 법칙입니다.
확률 이론의 극한 정리

확률 이론의 주요 목표는 무작위 질량 현상의 패턴을 연구하는 것입니다.
실습에 따르면 대량의 균질한 무작위 현상을 관찰하면 다음과 같은 사실이 드러납니다.

체비쇼프 부등식
수학적 기대값을 갖는 확률변수를 생각해 봅시다.

체비쇼프의 정리
확률 변수가 쌍별 독립이고 유한하고 집합적으로 제한된 분산을 갖는 경우

베르누이의 정리
실험 횟수를 무제한으로 늘리면 사건 발생 빈도가 확률적으로 사건 확률로 수렴됩니다.

중심 극한 정리
임의의 분포 법칙을 사용하지만 공동으로 제한된 분산을 갖는 확률 변수를 추가할 때 분포 법칙은 다음과 같습니다.

수리통계의 주요 문제점
위에서 논의된 확률 이론의 법칙은 다양한 무작위 질량 현상에 실제로 존재하는 실제 패턴의 수학적 표현을 나타냅니다.

공부하는
관찰 수가 많아지면(수백 개 정도) 인구가 통계 자료를 기록하는 데 불편하고 번거로워집니다. 명확성과 간결성을 위해 통계 자료

통계분포의 수치적 특성
확률이론에서는 확률변수의 다양한 수치적 특성(수학적 기대, 분산, 다양한 차수의 초기 및 중심 모멘트)이 고려되었습니다. 비슷한 숫자

모멘트법을 이용한 이론적 분포 선택
모든 통계 분포에는 필연적으로 제한된 수의 관찰과 관련된 무작위성 요소가 포함됩니다. 많은 수의 관찰을 통해 이러한 무작위성 요소가 평활화됩니다.

분배 법칙의 형태에 대한 가설의 타당성 확인
주어진 통계적 분포를 이론적 곡선으로 근사화하거나

동의 기준
가장 일반적으로 사용되는 적합도 기준 중 하나인 피어슨 기준(Pearson criterion)을 고려해 보겠습니다.

추측하다
알 수 없는 분포 모수에 대한 점 추정

페이지에서. 2.1. – 2.7에서는 수리통계의 첫 번째와 두 번째 주요 문제를 해결하는 방법을 자세히 살펴보았습니다. 실험 데이터를 기반으로 확률변수의 분포 법칙을 결정하는 문제입니다.
신뢰 구간. 신뢰 확률

실제로는 확률변수에 대한 소수의 실험을 통해 알려지지 않은 매개변수를 대략적으로 대체합니다. 관측된 확률변수 ξ, 즉 수학적 기대값과 분산에 의해 확률표본을 생성한다고 가정합니다.

알려지지 않은 것. 이러한 특성에 대한 추정치로 표본 평균을 사용하는 것이 제안되었습니다.

. (3.14)

및 표본 분산

수학적 기대와 분산 추정의 몇 가지 속성을 고려해 보겠습니다.

1. 표본 평균의 수학적 기대값을 계산합니다.

따라서 표본 평균은 에 ​​대한 불편 추정량입니다. 2. 결과를 기억하세요 , 관측값은 독립 확률 변수이며, 각각은 값과 동일한 분포 법칙을 갖습니다. 즉, ,

, . 우리는 분산이 유한하다고 가정합니다. 그런 다음, 대수의 법칙에 관한 체비쇼프의 정리에 따라, 모든 ε > 0에 대해 평등이 유지됩니다. 이는 다음과 같이 작성할 수 있습니다.

. (3.16) (3.16)을 일관성 속성의 정의(3.11)와 비교하면 추정치가 수학적 기대값의 일관된 추정치라는 것을 알 수 있습니다.

. (3.17)

3. 표본 평균의 분산을 찾습니다.

확률 변수 ξ가 정규 분포를 따르는 경우 표본 평균은 수학적 기대값의 효과적인 추정치입니다. 즉, 분산은 수학적 기대값의 다른 추정값에 비해 가장 작은 값을 취합니다. 다른 유통법 ξ의 경우에는 그렇지 않을 수도 있습니다.

표본 분산은 편향된 분산 추정치입니다. 왜냐하면 . (3.18)

실제로 수학적 기대값과 공식(3.17)의 속성을 사용하여 다음을 찾습니다.

.

편향되지 않은 분산 추정값을 얻으려면 추정값(3.14)을 수정해야 합니다. 즉, 를 곱해야 합니다. 그런 다음 편견 없는 표본 분산을 얻습니다.

. (3.19)

공식 (3.14)과 (3.19)는 분모만 다르며, 큰 값의 경우 표본 분산과 편견 분산이 거의 다르지 않습니다. 그러나 표본 크기가 작을 경우 관계식 (3.19)을 사용해야 합니다.

무작위 변수의 표준 편차를 추정하기 위해 편향되지 않은 분산의 제곱근과 동일한 소위 "수정된" 표준 편차가 사용됩니다.

간격 추정

통계에는 알려지지 않은 분포 매개변수를 추정하는 두 가지 접근 방식, 즉 점과 구간이 있습니다. 이전 절에서 설명한 점 추정에 따르면 추정된 매개변수가 위치한 점만 표시됩니다. 그러나 이 매개변수가 다양한 일련의 관찰에서 가능한 추정치 실현과 실제로 얼마나 멀리 떨어져 있는지 아는 것이 바람직합니다.

이 질문에 대한 대답(근사치이기도 함)은 매개변수를 추정하는 또 다른 방법인 간격을 통해 제공됩니다. 이 추정 방법에 따르면, 1에 가까운 확률로 알려지지 않은 매개변수의 수치를 포함하는 구간이 발견됩니다.

구간 추정의 개념

포인트 추정 는 무작위 변수이며 가능한 샘플 구현의 경우 매개변수의 실제 값과 거의 동일한 값만 사용합니다. 차이가 작을수록 추정치가 더 정확해집니다. 따라서 양수는 다음과 같습니다. , 추정의 정확성을 특징으로하며 다음과 같이 불립니다. 추정 오류(또는 한계 오류).

신뢰 확률(또는 신뢰성)확률이라고 불리는 β , 불평등이 실현되는 , 즉.

. (3.20)

불평등 대체 등가 이중 불평등 , 또는 , 우리는 얻는다

간격 , 확률로 덮음 β , , 알 수 없는 매개변수가 호출됩니다. 신뢰 구간 (또는 간격 추정),해당 신뢰 확률 β .

확률 변수는 추정일 뿐만 아니라 오류이기도 합니다. 그 값은 확률에 따라 달라집니다. β 그리고 원칙적으로 샘플에서. 따라서 신뢰구간은 무작위적이며 식(3.21)은 다음과 같이 읽어야 합니다. “구간은 확률로 매개변수를 포괄합니다. β ”, 그리고 이와는 다릅니다: “매개변수는 확률로 구간에 속할 것입니다. β ”.

신뢰 구간의 의미는 다음과 같은 사례의 상대적 비율로 표본량을 여러 번 반복할 때 β , 신뢰 확률에 해당하는 신뢰 구간 β , 추정된 매개변수의 실제 값을 다룹니다. 따라서 신뢰 확률은 β 특징 신뢰할 수 있음신뢰도 평가: 많을수록 β , 신뢰 구간 구현에 알 수 없는 매개변수가 포함될 가능성이 더 높습니다.



카테고리

인기 기사

2024 “kingad.ru” – 인간 장기의 초음파 검사