Συνθέστε μια σειρά διαλειμματικής μεταβλητής κατανομής. Στατιστική περίληψη και ομαδοποίηση

Εάν η υπό μελέτη τυχαία μεταβλητή είναι συνεχής, τότε η κατάταξη και η ομαδοποίηση των παρατηρούμενων τιμών συχνά δεν μας επιτρέπουν να επισημάνουμε τα χαρακτηριστικά γνωρίσματα της διακύμανσης των τιμών της. Αυτό εξηγείται από το γεγονός ότι οι μεμονωμένες τιμές μιας τυχαίας μεταβλητής μπορούν να διαφέρουν όσο το δυνατόν λιγότερο μεταξύ τους, και ως εκ τούτου, στο σύνολο των παρατηρούμενων δεδομένων, σπάνια μπορούν να προκύψουν οι ίδιες τιμές μιας ποσότητας και οι συχνότητες των παραλλαγών διαφέρουν ελάχιστα μεταξύ τους.

Δεν είναι επίσης πρακτικό να κατασκευαστεί μια διακριτή σειρά για μια διακριτή τυχαία μεταβλητή, ο αριθμός των πιθανών τιμών της οποίας είναι μεγάλος. Σε τέτοιες περιπτώσεις, θα πρέπει κανείς να χτίσει σειρές παραλλαγής διαστήματος διανομή.

Για να κατασκευαστεί μια τέτοια σειρά, ολόκληρο το διάστημα μεταβολής των παρατηρούμενων τιμών μιας τυχαίας μεταβλητής χωρίζεται σε μια σειρά επιμέρους διαστήματα και μετρώντας τη συχνότητα εμφάνισης των τιμών μεγέθους σε κάθε μερικό διάστημα.

Σειρά παραλλαγής διαστήματοςονομάζεται ένα διατεταγμένο σύνολο διαστημάτων μεταβολής των τιμών μιας τυχαίας μεταβλητής με τις αντίστοιχες συχνότητες ή σχετικές συχνότητες επισκέψεων σε καθεμία από τις τιμές της τιμής.

Για να δημιουργήσετε μια σειρά διαστημάτων, χρειάζεστε:

  1. καθορίζω αξία Μερικά διαστήματα?
  2. καθορίζω πλάτος διαστήματα?
  3. ρυθμίστε για κάθε διάστημα μπλουζα Και χαμηλότερο όριο ;
  4. ομαδοποιήστε τα αποτελέσματα της παρατήρησης.

1 . Το ζήτημα της επιλογής του αριθμού και του πλάτους των διαστημάτων ομαδοποίησης πρέπει να αποφασίζεται σε κάθε συγκεκριμένη περίπτωση με βάση στόχους έρευνα, Ενταση ΗΧΟΥ δειγματοληψία και βαθμός διακύμανσης χαρακτηριστικό στο δείγμα.

Κατά προσέγγιση αριθμός διαστημάτων κ μπορεί να εκτιμηθεί μόνο από το μέγεθος του δείγματος n με έναν από τους παρακάτω τρόπους:

  • σύμφωνα με τον τύπο Sturges : k = 1 + 3,32 log n ;
  • χρησιμοποιώντας τον πίνακα 1.

Τραπέζι 1

2 . Γενικά προτιμώνται διαστήματα του ίδιου πλάτους. Για τον προσδιορισμό του πλάτους των διαστημάτων η υπολογίζω:

  • εύρος παραλλαγής R - τιμές δείγματος: R = x max - x min ,

Οπου xmax Και xmin - μέγιστες και ελάχιστες επιλογές δειγμάτων.

  • το πλάτος κάθε διαστήματος η καθορίζεται από τον ακόλουθο τύπο: h = R/k .

3 . Συμπέρασμα πρώτο διάστημα x h1 επιλέγεται έτσι ώστε η ελάχιστη παραλλαγή δείγματος xmin έπεσε περίπου στο μέσο αυτού του διαστήματος: x h1 = x min - 0,5 h .

Διαστήματαπου προκύπτει προσθέτοντας στο τέλος του προηγούμενου διαστήματος το μήκος του μερικού διαστήματος η :

xhi = xhi-1 +h.

Η κατασκευή της κλίμακας διαστημάτων με βάση τον υπολογισμό των ορίων των διαστημάτων συνεχίζεται μέχρι την τιμή x γεια ικανοποιεί τη σχέση:

x γεια< x max + 0,5·h .

4 . Σύμφωνα με την κλίμακα των διαστημάτων, οι τιμές του χαρακτηριστικού ομαδοποιούνται - για κάθε μερικό διάστημα, υπολογίζεται το άθροισμα των συχνοτήτων n i παραλλαγή που πιάστηκε Εγώ -ο μεσοδιάστημα. Σε αυτήν την περίπτωση, το διάστημα περιλαμβάνει τιμές μιας τυχαίας μεταβλητής μεγαλύτερες ή ίσες με το κατώτερο όριο και μικρότερες από το ανώτερο όριο του διαστήματος.

Πολύγωνο και ιστόγραμμα

Για λόγους σαφήνειας, κατασκευάζονται διάφορα γραφήματα της στατιστικής κατανομής.

Με βάση τα δεδομένα της διακριτής μεταβλητής σειράς κατασκευάζουμε πολύγωνο συχνότητες ή σχετικές συχνότητες.

Πολύγωνο συχνότητας x 1 ; ν 1 ), (x2 ; ν 2 ), ..., (x k ; nk ). Για την κατασκευή ενός πολυγώνου συχνοτήτων στον άξονα της τετμημένης, οι επιλογές παραμερίζονται x i , και στον άξονα y - οι αντίστοιχες συχνότητες n i . Πόντοι ( x i ; n i ) συνδέονται με τμήματα ευθειών γραμμών και προκύπτει ένα πολύγωνο συχνότητας (Εικ. 1).

Πολύγωνο σχετικής συχνότηταςονομάζεται πολύγραμμη της οποίας τα τμήματα συνδέουν τα σημεία ( x 1 ; W 1 ), (x2 ; W2 ), ..., (x k ; Εβ ). Για να δημιουργήσετε ένα πολύγωνο σχετικών συχνοτήτων στην τετμημένη, απολύστε επιλογές x i , και στον άξονα y - οι σχετικές συχνότητες που αντιστοιχούν σε αυτές Wi . Πόντοι ( x i ; Wi ) συνδέονται με τμήματα ευθειών και προκύπτει ένα πολύγωνο σχετικών συχνοτήτων.

Οταν συνεχές χαρακτηριστικό είναι σκόπιμο να χτιστεί ιστόγραμμα .

ιστόγραμμα συχνότηταςονομάζεται κλιμακωτό σχήμα που αποτελείται από ορθογώνια των οποίων οι βάσεις είναι μερικά διαστήματα μήκους η , και τα ύψη είναι ίσα με την αναλογία NIH (πυκνότητα συχνότητας).

Για να δημιουργηθεί ένα ιστόγραμμα συχνοτήτων, σχεδιάζονται μερικά διαστήματα στον άξονα της τετμημένης και τα τμήματα σχεδιάζονται από πάνω τους παράλληλα με τον άξονα της τετμημένης σε απόσταση NIH .

Αριθμός ομάδων (διαστήματα)καθορίζεται κατά προσέγγιση από τον τύπο Sturgess:

m = 1 + 3,322 × log(n)

όπου n είναι ο συνολικός αριθμός των μονάδων παρατήρησης (ο συνολικός αριθμός στοιχείων στον πληθυσμό κ.λπ.), το lg(n) είναι ο δεκαδικός λογάριθμος του n.

έλαβε σύμφωνα με τον τύπο Sturgess, η τιμή συνήθως στρογγυλοποιείται προς τα πάνω σε ένα ολόκληρο μεγαλύτεροαριθμοί, αφού ο αριθμός των ομάδων δεν μπορεί να είναι κλασματικός αριθμός.

Εάν μια σειρά διαστημάτων με τέτοιο αριθμό ομάδων δεν ικανοποιείται από κάποια κριτήρια, τότε μπορεί να κατασκευαστεί μια άλλη σειρά διαστημάτων με στρογγυλοποίηση Μσε έναν ακέραιο μικρότερο αριθμό και επιλέξτε την καταλληλότερη από τις δύο σειρές.

Ο αριθμός των ομάδων δεν πρέπει να υπερβαίνει τις 15.

Μπορείτε επίσης να χρησιμοποιήσετε τον παρακάτω πίνακα εάν δεν είναι καθόλου δυνατός ο υπολογισμός του δεκαδικού λογάριθμου.

    Προσδιορισμός του πλάτους του διαστήματος

Πλάτος διαστήματοςγια μια σειρά παραλλαγής διαστήματος με ίσα διαστήματα καθορίζεται από τον τύπο:

όπου X max είναι η μέγιστη τιμή του x i, X min είναι η ελάχιστη τιμή του x i. m - αριθμός ομάδων (διαστήματα).

Η τιμή του διαστήματος (Εγώ ) συνήθως στρογγυλοποιούνται στον πλησιέστερο ακέραιο αριθμό,οι μόνες εξαιρέσεις είναι οι περιπτώσεις όπου μελετώνται οι παραμικρές διακυμάνσεις ενός χαρακτηριστικού (για παράδειγμα, όταν ομαδοποιούνται μέρη σύμφωνα με το μέγεθος των αποκλίσεων από την ονομαστική τιμή, μετρούμενη σε κλάσματα του χιλιοστού).

Συχνά ισχύει ο ακόλουθος κανόνας:

Αριθμός δεκαδικών ψηφίων

Ένας αριθμός συμβόλων μετά από κόμμα

Ένα παράδειγμα του πλάτους διαστήματος σύμφωνα με τον τύπο

Σε ποιο ζώδιο στρογγυλοποιούμε

Παράδειγμα στρογγυλεμένου πλάτους διαστήματος

    Ορίζουμε τα όρια των διαστημάτων

χαμηλότερο όριο πρώτο διάστημαλαμβάνεται ίση με την ελάχιστη τιμή του χαρακτηριστικού (τις περισσότερες φορές προκαταρκτικά στρογγυλοποιείται σε έναν μικρότερο ακέραιο με το ίδιο ψηφίο με το πλάτος του διαστήματος). Για παράδειγμα, x min = 15, i=130, x n του πρώτου διαστήματος = 10.

x n1 ≈ x min

Ανω όριοτο πρώτο διάστημα αντιστοιχεί στην τιμή (Xmin + Εγώ).

Το κατώτερο όριο του δεύτερου διαστήματος είναι πάντα ίσο με το ανώτερο όριο του πρώτου διαστήματος. Για τις επόμενες ομάδες, τα όρια καθορίζονται με παρόμοιο τρόπο, δηλαδή, η τιμή του διαστήματος προστίθεται διαδοχικά.

Χ V Εγώ = x n Εγώ +i

Χ n Εγώ = x V i-1

    Καθορίζουμε τις συχνότητες των διαστημάτων.

Εξετάζουμε πόσες τιμές έπεσαν σε κάθε διάστημα. Ταυτόχρονα, να θυμάστε ότι εάν μια μονάδα έχει μια τιμή χαρακτηριστικού ίση με την τιμή του ανώτερου ορίου του διαστήματος, τότε θα πρέπει να αποδοθεί στο επόμενο διάστημα.

    Χτίζουμε μια σειρά διαστημάτων σε μορφή πίνακα.

    Προσδιορίστε τα μέσα των διαστημάτων.

Για περαιτέρω ανάλυση της σειράς διαστημάτων, θα χρειαστεί να επιλέξετε μια τιμή χαρακτηριστικού για κάθε διάστημα. Αυτή η τιμή χαρακτηριστικού θα είναι κοινή για όλες τις μονάδες παρατήρησης που εμπίπτουν σε αυτό το διάστημα. Εκείνοι. μεμονωμένα στοιχεία «χάνουν» τις μεμονωμένες χαρακτηριστικές τους τιμές και τους αποδίδεται μία κοινή χαρακτηριστική τιμή. Αυτή η κοινή αξία είναι στο μέσο του διαστήματος, που συμβολίζεται Χ" Εγώ .

Σκεφτείτε, χρησιμοποιώντας ένα παράδειγμα με την ανάπτυξη των παιδιών, πώς να δημιουργήσετε μια σειρά διαστημάτων με ίσα διαστήματα.

Υπάρχουν αρχικά στοιχεία.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

Σε πολλές περιπτώσεις, εάν ο στατιστικός πληθυσμός περιλαμβάνει έναν μεγάλο ή, ακόμη περισσότερο, έναν άπειρο αριθμό επιλογών, ο οποίος συναντάται συχνότερα με συνεχή διακύμανση, είναι πρακτικά αδύνατο και μη πρακτικό να σχηματιστεί μια ομάδα μονάδων για κάθε επιλογή. Σε τέτοιες περιπτώσεις, η σύνδεση στατιστικών μονάδων σε ομάδες είναι δυνατή μόνο με βάση το διάστημα, δηλ. μια τέτοια ομάδα που έχει ορισμένα όρια των τιμών του ποικίλου χαρακτηριστικού. Αυτά τα όρια υποδεικνύονται με δύο αριθμούς που υποδεικνύουν τα άνω και κάτω όρια κάθε ομάδας. Η χρήση των διαστημάτων οδηγεί στο σχηματισμό μιας σειράς κατανομής διαστημάτων.

διάστημα radείναι μια μεταβλητή σειρά, οι παραλλαγές της οποίας παρουσιάζονται ως διαστήματα.

Η διαστημική σειρά μπορεί να σχηματιστεί με ίσα και άνισα διαστήματα, ενώ η επιλογή της αρχής για την κατασκευή αυτής της σειράς εξαρτάται κυρίως από τον βαθμό αντιπροσωπευτικότητας και ευκολίας του στατιστικού πληθυσμού. Εάν το σύνολο είναι αρκετά μεγάλο (αντιπροσωπευτικό) ως προς τον αριθμό των μονάδων και είναι αρκετά ομοιογενές στη σύνθεση, τότε καλό είναι να βασιστεί ο σχηματισμός της σειράς διαστημάτων σε ίσα διαστήματα. Συνήθως, σύμφωνα με αυτή την αρχή, σχηματίζεται μια σειρά διαστημάτων για εκείνους τους πληθυσμούς όπου το εύρος διακύμανσης είναι σχετικά μικρό, δηλ. η μέγιστη και η ελάχιστη παραλλαγές συνήθως διαφέρουν μεταξύ τους κατά πολλές φορές. Σε αυτή την περίπτωση, η τιμή των ίσων διαστημάτων υπολογίζεται από την αναλογία του εύρους της παραλλαγής χαρακτηριστικών προς τον δεδομένο αριθμό σχηματισμένων διαστημάτων. Για να καθοριστεί ίσος Καιμεσοδιάστημα, μπορεί να χρησιμοποιηθεί ο τύπος Sturgess (συνήθως με μικρή απόκλιση στα χαρακτηριστικά διαστήματος και μεγάλο αριθμό μονάδων στον στατιστικό πληθυσμό):

όπου x i - την τιμή ενός ίσου διαστήματος· X max, X min - μέγιστες και ελάχιστες επιλογές στον στατιστικό πληθυσμό. n . - τον αριθμό των μονάδων στον πληθυσμό.

Παράδειγμα. Συνιστάται να υπολογιστεί το μέγεθος ενός ίσου διαστήματος σύμφωνα με την πυκνότητα της ραδιενεργής μόλυνσης με καίσιο - 137 σε 100 οικισμούς της περιοχής Krasnopolsky της περιοχής Mogilev, εάν είναι γνωστό ότι η αρχική (ελάχιστη) παραλλαγή είναι ίση με 1 km / km 2, ο τελικός (μέγιστο) - 65 ki / km 2. Χρησιμοποιώντας τον τύπο 5.1. παίρνουμε:

Επομένως, για να σχηματιστεί μια σειρά διαστημάτων με ίσα διαστήματα για την πυκνότητα της ρύπανσης από καίσιο - 137 οικισμοί της περιοχής Krasnopolsky, το μέγεθος ενός ίσου διαστήματος μπορεί να είναι 8 ki/km 2 .

Σε συνθήκες ανομοιόμορφης κατανομής δηλ. όταν οι μέγιστες και ελάχιστες επιλογές είναι εκατοντάδες φορές, όταν σχηματίζετε τη σειρά διαστημάτων, μπορείτε να εφαρμόσετε την αρχή άνισοςδιαστήματα. Τα άνισα διαστήματα συνήθως αυξάνονται καθώς μετακινείστε σε μεγαλύτερες τιμές του χαρακτηριστικού.

Το σχήμα των διαστημάτων μπορεί να είναι κλειστό και ανοιχτό. ΚλειστόΕίναι σύνηθες να ονομάζουμε διαστήματα για τα οποία υποδεικνύονται τόσο τα κάτω όσο και τα ανώτερα όρια. Άνοιξετα διαστήματα έχουν μόνο ένα όριο: στο πρώτο διάστημα - το άνω, στο τελευταίο - το κάτω όριο.

Συνιστάται να αξιολογούνται οι σειρές διαστήματος, ιδιαίτερα αυτές με άνισα διαστήματα, λαμβάνοντας υπόψη πυκνότητα κατανομής, ο απλούστερος τρόπος για να υπολογίσετε ποια είναι η αναλογία της τοπικής συχνότητας (ή συχνότητας) προς το μέγεθος του διαστήματος.

Για τον πρακτικό σχηματισμό της σειράς διαστημάτων, μπορείτε να χρησιμοποιήσετε τη διάταξη του πίνακα. 5.3.

T a b l e 5.3. Η διαδικασία για το σχηματισμό μιας σειράς διαστημάτων οικισμών στην περιοχή Krasnopolsky σύμφωνα με την πυκνότητα της ραδιενεργής μόλυνσης με καίσιο -137

Το κύριο πλεονέκτημα της σειράς διαστημάτων είναι το όριό της συμπαγές.Ταυτόχρονα, στη σειρά διαστημάτων της κατανομής, οι επιμέρους παραλλαγές του χαρακτηριστικού κρύβονται στα αντίστοιχα διαστήματα

Όταν μια γραφική αναπαράσταση μιας σειράς διαστήματος σε ένα σύστημα ορθογώνιων συντεταγμένων, τα άνω όρια των διαστημάτων σχεδιάζονται στον άξονα της τετμημένης και οι τοπικές συχνότητες της σειράς βρίσκονται στον άξονα τεταγμένων. Η γραφική κατασκευή μιας σειράς διαστήματος διαφέρει από την κατασκευή ενός πολυγώνου κατανομής στο ότι κάθε διάστημα έχει ένα κατώτερο και ένα ανώτερο όριο και δύο τετμημένες αντιστοιχούν σε οποιαδήποτε τιμή της τεταγμένης. Επομένως, στο γράφημα της σειράς διαστήματος δεν σημειώνεται ένα σημείο, όπως σε ένα πολύγωνο, αλλά μια γραμμή που συνδέει δύο σημεία. Αυτές οι οριζόντιες γραμμές συνδέονται μεταξύ τους με κατακόρυφες γραμμές και προκύπτει ένα σχήμα ενός βαθμιδωτού πολυγώνου, το οποίο συνήθως ονομάζεται ιστόγραμμακατανομές (Εικόνα 5.3).

Στη γραφική κατασκευή μιας σειράς διαστημάτων για έναν αρκετά μεγάλο στατιστικό πληθυσμό, το ιστόγραμμα προσεγγίζει συμμετρικόςφόρμα διανομής. Στις περιπτώσεις εκείνες που ο στατιστικός πληθυσμός είναι μικρός, κατά κανόνα, σχηματίζεται ασύμμετρηραβδόγραμμα.

Σε ορισμένες περιπτώσεις, υπάρχει σκοπιμότητα στο σχηματισμό ενός αριθμού συσσωρευμένων συχνοτήτων, δηλ. σωρευτικόςσειρά. Μια αθροιστική σειρά μπορεί να σχηματιστεί με βάση μια διακριτή ή διαλειμματική σειρά διανομής. Όταν μια αθροιστική σειρά εμφανίζεται γραφικά σε ένα σύστημα ορθογώνιων συντεταγμένων, οι επιλογές σχεδιάζονται στον άξονα της τετμημένης και οι συσσωρευμένες συχνότητες (συχνότητες) απεικονίζονται στον άξονα τεταγμένων. Η καμπύλη γραμμή που προκύπτει ονομάζεται σωρευτικόςκατανομές (Εικόνα 5.4).

Ο σχηματισμός και η γραφική αναπαράσταση διαφόρων τύπων μεταβλητών σειρών συμβάλλει σε έναν απλοποιημένο υπολογισμό των κύριων στατιστικών χαρακτηριστικών, τα οποία συζητούνται λεπτομερώς στο θέμα 6, βοηθά στην καλύτερη κατανόηση της ουσίας των νόμων κατανομής ενός στατιστικού πληθυσμού. Η ανάλυση της σειράς διακύμανσης έχει ιδιαίτερη σημασία σε περιπτώσεις όπου είναι απαραίτητο να εντοπιστεί και να εντοπιστεί η σχέση μεταξύ παραλλαγών και συχνοτήτων (συχνότητες). Αυτή η εξάρτηση εκδηλώνεται στο γεγονός ότι ο αριθμός των περιπτώσεων για κάθε παραλλαγή σχετίζεται κατά κάποιο τρόπο με την τιμή αυτής της παραλλαγής, δηλ. με την αύξηση των τιμών του μεταβαλλόμενου πρόσημου της συχνότητας (συχνότητας) αυτών των τιμών, βιώνουν ορισμένες, συστηματικές αλλαγές. Αυτό σημαίνει ότι οι αριθμοί στη στήλη των συχνοτήτων (συχνότητες) δεν υπόκεινται σε χαοτικές διακυμάνσεις, αλλά αλλάζουν προς μια συγκεκριμένη κατεύθυνση, με μια συγκεκριμένη σειρά και σειρά.

Εάν οι συχνότητες στις αλλαγές τους δείχνουν μια ορισμένη συστηματικότητα, τότε αυτό σημαίνει ότι βρισκόμαστε στο δρόμο για τον εντοπισμό προτύπων. Το σύστημα, η σειρά, η αλληλουχία στις μεταβαλλόμενες συχνότητες είναι μια αντανάκλαση κοινών αιτιών, γενικών συνθηκών που είναι χαρακτηριστικές για ολόκληρο τον πληθυσμό.

Δεν πρέπει να θεωρηθεί ότι το μοτίβο διανομής δίνεται πάντα έτοιμο. Υπάρχουν πολλές μεταβλητές σειρές στις οποίες οι συχνότητες πηδούν παράξενα, είτε αυξάνονται είτε μειώνονται. Σε τέτοιες περιπτώσεις, είναι σκόπιμο να μάθουμε με ποιο είδος κατανομής έχει να κάνει ο ερευνητής: είτε αυτή η κατανομή δεν είναι καθόλου εγγενής στα μοτίβα είτε η φύση της δεν έχει ακόμη προσδιοριστεί: Η πρώτη περίπτωση είναι σπάνια, ενώ η δεύτερη η δεύτερη περίπτωση είναι ένα αρκετά συχνό και πολύ συχνό φαινόμενο.

Έτσι, όταν σχηματίζετε μια σειρά διαστημάτων, ο συνολικός αριθμός στατιστικών μονάδων μπορεί να είναι μικρός και ένας μικρός αριθμός επιλογών εμπίπτει σε κάθε διάστημα (για παράδειγμα, 1-3 μονάδες). Σε τέτοιες περιπτώσεις, δεν είναι απαραίτητο να υπολογίζουμε στην εκδήλωση οποιασδήποτε κανονικότητας. Για να προκύψει ένα κανονικό αποτέλεσμα με βάση τυχαίες παρατηρήσεις, πρέπει να τεθεί σε ισχύ ο νόμος των μεγάλων αριθμών, δηλ. ώστε για κάθε διάστημα να μην υπάρχουν πολλές, αλλά δεκάδες και εκατοντάδες στατιστικές μονάδες. Για το σκοπό αυτό, πρέπει να προσπαθήσουμε να αυξήσουμε όσο το δυνατόν περισσότερο τον αριθμό των παρατηρήσεων. Αυτός είναι ο πιο σίγουρος τρόπος ανίχνευσης προτύπων σε μαζικές διαδικασίες. Εάν δεν υπάρχει πραγματική ευκαιρία να αυξηθεί ο αριθμός των παρατηρήσεων, τότε η αναγνώριση των μοτίβων μπορεί να επιτευχθεί με τη μείωση του αριθμού των διαστημάτων στη σειρά διανομής. Μειώνοντας τον αριθμό των διαστημάτων στη σειρά μεταβολών, αυξάνοντας έτσι τον αριθμό των συχνοτήτων σε κάθε διάστημα. Αυτό σημαίνει ότι οι τυχαίες διακυμάνσεις κάθε στατιστικής μονάδας υπερτίθενται η μία πάνω στην άλλη, «εξομαλύνονται», μετατρέπονται σε μοτίβο.

Ο σχηματισμός και η κατασκευή μεταβλητών σειρών σας επιτρέπει να έχετε μόνο μια γενική, κατά προσέγγιση εικόνα της κατανομής του στατιστικού πληθυσμού. Για παράδειγμα, ένα ιστόγραμμα εκφράζει μόνο χονδρικά τη σχέση μεταξύ των τιμών ενός χαρακτηριστικού και των συχνοτήτων του (συχνότητες).Επομένως, οι μεταβλητές σειρές είναι ουσιαστικά μόνο η βάση για περαιτέρω, σε βάθος μελέτη της εσωτερικής κανονικότητας μιας στατικής κατανομής.

ΘΕΜΑ 5 ΕΡΩΤΗΣΕΙΣ

1. Τι είναι η παραλλαγή; Τι προκαλεί τη διακύμανση ενός χαρακτηριστικού σε έναν στατιστικό πληθυσμό;

2. Ποιοι τύποι μεταβλητών σημείων μπορούν να λάβουν χώρα στις στατιστικές;

3. Τι είναι μια σειρά παραλλαγής; Ποιοι είναι οι τύποι των σειρών παραλλαγής;

4. Τι είναι μια σειρά κατάταξης; Ποια είναι τα πλεονεκτήματα και τα μειονεκτήματά του;

5. Τι είναι μια διακριτή σειρά και ποια είναι τα πλεονεκτήματα και τα μειονεκτήματά της;

6. Ποια είναι η σειρά σχηματισμού της σειράς διαστήματος, ποια είναι τα πλεονεκτήματα και τα μειονεκτήματά της;

7. Τι είναι μια γραφική αναπαράσταση μιας ταξινομημένης, διακριτής, διαλειμματικής σειράς διανομής;

8. Τι είναι η συσσώρευση διανομής και τι χαρακτηρίζει;

Στατιστικά μαθηματικών- ένα τμήμα των μαθηματικών αφιερωμένο σε μαθηματικές μεθόδους επεξεργασίας, συστηματοποίησης και χρήσης στατιστικών δεδομένων για επιστημονικά και πρακτικά συμπεράσματα.

3.1. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑΤΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ

Στα βιοϊατρικά προβλήματα, είναι συχνά απαραίτητο να διερευνηθεί η κατανομή του ενός ή του άλλου χαρακτηριστικού για έναν πολύ μεγάλο αριθμό ατόμων. Για διαφορετικά άτομα, αυτό το χαρακτηριστικό έχει διαφορετική σημασία, επομένως είναι μια τυχαία μεταβλητή. Για παράδειγμα, οποιοδήποτε θεραπευτικό φάρμακο έχει διαφορετική αποτελεσματικότητα όταν εφαρμόζεται σε διαφορετικούς ασθενείς. Ωστόσο, για να έχετε μια ιδέα της αποτελεσματικότητας αυτού του φαρμάκου, δεν είναι απαραίτητο να το εφαρμόσετε Ολοιάρρωστος. Είναι δυνατό να εντοπιστούν τα αποτελέσματα της χρήσης του φαρμάκου σε μια σχετικά μικρή ομάδα ασθενών και, με βάση τα δεδομένα που ελήφθησαν, να εντοπιστούν τα βασικά χαρακτηριστικά (αποτελεσματικότητα, αντενδείξεις) της θεραπευτικής διαδικασίας.

Πληθυσμός- ένα σύνολο ομοιογενών στοιχείων προς μελέτη, που χαρακτηρίζονται από κάποιο χαρακτηριστικό. Αυτό το σημάδι είναι συνεχήςτυχαία μεταβλητή με πυκνότητα κατανομής f(x).

Για παράδειγμα, εάν μας ενδιαφέρει ο επιπολασμός μιας ασθένειας σε μια συγκεκριμένη περιοχή, τότε ο γενικός πληθυσμός είναι ολόκληρος ο πληθυσμός της περιοχής. Αν θέλουμε να μάθουμε την ευαισθησία σε αυτή την ασθένεια ανδρών και γυναικών ξεχωριστά, τότε θα πρέπει να ληφθούν υπόψη δύο γενικοί πληθυσμοί.

Για τη μελέτη των ιδιοτήτων του γενικού πληθυσμού, επιλέγεται ένα ορισμένο μέρος των στοιχείων του.

Δείγμα- μέρος του γενικού πληθυσμού που επιλέχθηκε για εξέταση (θεραπεία).

Εάν αυτό δεν προκαλεί σύγχυση, τότε το δείγμα ονομάζεται ως συλλογή αντικειμένωνεπιλεγεί για εξέταση και ολότητα

αξίεςτου υπό μελέτη χαρακτηριστικού, που αποκτήθηκε κατά την εξέταση. Αυτές οι τιμές μπορούν να αναπαρασταθούν με διάφορους τρόπους.

Απλή στατιστική σειρά -οι τιμές του υπό μελέτη χαρακτηριστικού, καταγράφονται με τη σειρά με την οποία ελήφθησαν.

Ένα παράδειγμα μιας απλής στατιστικής σειράς που ελήφθη με τη μέτρηση της ταχύτητας των επιφανειακών κυμάτων (m/s) στο δέρμα του μετώπου 20 ασθενών φαίνεται στον Πίνακα. 3.1.

Πίνακας 3.1.Απλή Στατιστική Σειρά

Μια απλή στατιστική σειρά είναι ο κύριος και πληρέστερος τρόπος καταγραφής των αποτελεσμάτων της έρευνας. Μπορεί να περιέχει εκατοντάδες στοιχεία. Είναι πολύ δύσκολο να ρίξεις μια ματιά σε ένα τέτοιο σύνολο με μια ματιά. Επομένως, τα μεγάλα δείγματα συνήθως υποδιαιρούνται σε ομάδες. Για να γίνει αυτό, η περιοχή αλλαγής του χαρακτηριστικού χωρίζεται σε πολλά (N) διαστήματαίσου πλάτους και να υπολογίσετε τις σχετικές συχνότητες (n/n) του χαρακτηριστικού που εμπίπτουν σε αυτά τα διαστήματα. Το πλάτος κάθε διαστήματος είναι:

Τα όρια των διαστημάτων έχουν τις ακόλουθες έννοιες:

Εάν οποιοδήποτε στοιχείο του δείγματος είναι το όριο μεταξύ δύο γειτονικών διαστημάτων, τότε αναφέρεται ως αριστεράδιάστημα. Τα δεδομένα που ομαδοποιούνται με αυτόν τον τρόπο καλούνται διαστημικές στατιστικές σειρές.

- αυτός είναι ένας πίνακας που δείχνει τα διαστήματα των τιμών του χαρακτηριστικού και τις σχετικές συχνότητες του χαρακτηριστικού που εμπίπτουν σε αυτά τα διαστήματα.

Στην περίπτωσή μας, μπορούμε να σχηματίσουμε, για παράδειγμα, μια τέτοια διαστημική στατιστική σειρά (N = 5, ρε= 4), καρτέλα. 3.2.

Πίνακας 3.2.Διαστημικές στατιστικές σειρές

Εδώ, δύο τιμές ίσες με 28 εκχωρούνται στο διάστημα 28-32 (Πίνακας 3.1) και οι τιμές 32, 33, 34 και 35 εκχωρούνται στο διάστημα 32-36.

Μια στατιστική σειρά διαστημάτων μπορεί να αναπαρασταθεί γραφικά. Για να γίνει αυτό, σχεδιάζονται διαστήματα χαρακτηριστικών τιμών κατά μήκος του άξονα της τετμημένης και σε καθένα από αυτά, όπως στη βάση, χτίζεται ένα ορθογώνιο με ύψος ίσο με τη σχετική συχνότητα. Το ραβδόγραμμα που προκύπτει ονομάζεται ιστόγραμμα.

Ρύζι. 3.1.ραβδόγραμμα

Στο ιστόγραμμα, τα στατιστικά μοτίβα της κατανομής του χαρακτηριστικού φαίνονται αρκετά καθαρά.

Με μεγάλο μέγεθος δείγματος (πολλές χιλιάδες) και μικρό πλάτος στηλών, το σχήμα του ιστογράμματος είναι κοντά στο σχήμα του γραφήματος πυκνότητα κατανομήςσημάδι.

Ο αριθμός των στηλών του ιστογράμματος μπορεί να επιλεγεί χρησιμοποιώντας τον ακόλουθο τύπο:

Η κατασκευή ενός ιστογράμματος με το χέρι είναι μια μακρά διαδικασία. Ως εκ τούτου, έχουν αναπτυχθεί προγράμματα ηλεκτρονικών υπολογιστών για την αυτόματη κατασκευή τους.

3.2. ΑΡΙΘΜΗΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΤΑΤΙΣΤΙΚΩΝ ΣΕΙΡΩΝ

Πολλές στατιστικές διαδικασίες χρησιμοποιούν δειγματοληπτικές εκτιμήσεις για τον μέσο όρο και τη διακύμανση (ή την τυπική απόκλιση) του πληθυσμού.

δείγμα μέσου όρουΤο (X) είναι ο αριθμητικός μέσος όρος όλων των στοιχείων μιας απλής στατιστικής σειράς:

Για το παράδειγμά μας Χ= 37,05 (m/s).

Ο μέσος όρος του δείγματος είναιτο καλύτεροεκτίμηση του γενικού μέσου όρουΜ.

Δείγμα διακύμανσης s 2ισούται με το άθροισμα των τετραγωνικών αποκλίσεων των στοιχείων από τη μέση τιμή του δείγματος, διαιρούμενο με n- 1:

Στο παράδειγμά μας, s 2 \u003d 25,2 (m / s) 2.

Λάβετε υπόψη ότι κατά τον υπολογισμό της διακύμανσης του δείγματος, ο παρονομαστής του τύπου δεν είναι το μέγεθος δείγματος n, αλλά n-1. Αυτό οφείλεται στο γεγονός ότι κατά τον υπολογισμό των αποκλίσεων στον τύπο (3.3), αντί για μια άγνωστη μαθηματική προσδοκία, χρησιμοποιείται η εκτίμησή της - δείγμα μέσου όρου.

Η διακύμανση του δείγματος είναι το καλύτεροεκτίμηση της γενικής διακύμανσης (σ 2).

Δείγμα τυπικής απόκλισης(s) είναι η τετραγωνική ρίζα της διακύμανσης του δείγματος:

Για το παράδειγμά μας μικρό= 5,02 (m/s).

εκλεκτικός rmsη απόκλιση είναι η καλύτερη εκτίμηση του γενικού RMSE (σ).

Με μια απεριόριστη αύξηση του μεγέθους του δείγματος, όλα τα χαρακτηριστικά του δείγματος τείνουν στα αντίστοιχα χαρακτηριστικά του γενικού πληθυσμού.

Για τον υπολογισμό των χαρακτηριστικών του δείγματος, χρησιμοποιούνται τύποι υπολογιστή. Στο Excel, αυτοί οι υπολογισμοί εκτελούν τις στατιστικές συναρτήσεις AVERAGE, VARR. STDEV.

3.3. ΕΚΤΙΜΗΣΗ ΔΙΑΣΤΗΜΑΤΟΣ

Όλα τα χαρακτηριστικά του δείγματος είναι τυχαίες μεταβλητές.Αυτό σημαίνει ότι για ένα άλλο δείγμα του ίδιου μεγέθους, οι τιμές των χαρακτηριστικών του δείγματος θα είναι διαφορετικές. Έτσι, επιλεκτικά

χαρακτηριστικά είναι μόνο υπολογίζεισχετικά χαρακτηριστικά του γενικού πληθυσμού.

Αντισταθμίζει τις ελλείψεις της επιλεκτικής αξιολόγησης εκτίμηση διαστήματος,αντιπροσωπεύοντας αριθμητικό διάστημα,εντός του οποίου με δεδομένη πιθανότητα R dβρίσκεται η πραγματική τιμή της εκτιμώμενης παραμέτρου.

Αφήνω U r - κάποια παράμετρος του γενικού πληθυσμού (γενικός μέσος όρος, γενική διακύμανση κ.λπ.).

εκτίμηση διαστήματοςΗ παράμετρος U r ονομάζεται διάστημα (U 1 , U 2),ικανοποιεί την προϋπόθεση:

P(U < Ur < U2) = Рд. (3.5)

Πιθανότητα R dπου ονομάζεται πιθανότητα εμπιστοσύνης.

Πιθανότητα εμπιστοσύνης Πρε - η πιθανότητα ότι η πραγματική αξία της εκτιμώμενης ποσότητας είναι μέσατο καθορισμένο διάστημα.

Ταυτόχρονα, το μεσοδιάστημα (U 1 , U 2)που ονομάζεται διάστημα εμπιστοσύνηςγια την εκτιμώμενη παράμετρο.

Συχνά, αντί για την πιθανότητα εμπιστοσύνης, η σχετική τιμή α = 1 - R d, η οποία ονομάζεται επίπεδο σημασίας.

Επίπεδο σημασίαςείναι η πιθανότητα ότι η πραγματική τιμή της εκτιμώμενης παραμέτρου είναι εξω αποδιάστημα εμπιστοσύνης.

Μερικές φορές τα α και R d εκφράζονται ως ποσοστό, για παράδειγμα, 5% αντί για 0,05 και 95% αντί για 0,95.

Στην εκτίμηση διαστήματος, επιλέξτε πρώτα το κατάλληλο επίπεδο αυτοπεποίθησης(συνήθως 0,95 ή 0,99) και στη συνέχεια βρείτε το αντίστοιχο διάστημα τιμών της εκτιμώμενης παραμέτρου.

Σημειώνουμε ορισμένες γενικές ιδιότητες των εκτιμήσεων διαστήματος.

1. Όσο χαμηλότερο είναι το επίπεδο σημαντικότητας (τόσο περισσότερο Ε δ),τόσο ευρύτερη είναι η εκτίμηση του διαστήματος. Έτσι, εάν σε επίπεδο σημαντικότητας 0,05 η εκτίμηση του διαστήματος του γενικού μέσου όρου είναι 34,7< Μ< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < Μ< 40,25.

2. Όσο μεγαλύτερο είναι το μέγεθος του δείγματος n,τόσο στενότερη είναι η εκτίμηση του διαστήματος με το επιλεγμένο επίπεδο σημαντικότητας. Έστω, για παράδειγμα, 5 η ποσοστιαία εκτίμηση του γενικού μέσου όρου (β=0,05) που λαμβάνεται από ένα δείγμα 20 στοιχείων, και μετά 34,7< Μ< 39,4.

Αυξάνοντας το μέγεθος του δείγματος σε 80, θα έχουμε μια πιο ακριβή εκτίμηση στο ίδιο επίπεδο σημαντικότητας: 35,5< Μ< 38,6.

Στη γενική περίπτωση, η κατασκευή αξιόπιστων εκτιμήσεων εμπιστοσύνης απαιτεί γνώση της νομοθεσίας σύμφωνα με την οποία το εκτιμώμενο τυχαίο χαρακτηριστικό κατανέμεται στο γενικό πληθυσμό. Εξετάστε πώς κατασκευάζεται η εκτίμηση διαστήματος γενικός μέσος όροςχαρακτηριστικό, το οποίο κατανέμεται στο γενικό πληθυσμό σύμφωνα με κανονικόςνόμος.

3.4. ΕΚΤΙΜΗΣΗ ΔΙΑΣΤΗΜΑΤΟΣ ΓΕΝΙΚΗΣ ΜΕΣΗΣ ΓΙΑ ΤΟΝ ΝΟΜΟ ΚΑΝΟΝΙΚΗΣ ΔΙΑΝΟΜΗΣ

Η κατασκευή μιας εκτίμησης διαστήματος του γενικού μέσου όρου M για έναν γενικό πληθυσμό με νόμο κανονικής κατανομής βασίζεται στην ακόλουθη ιδιότητα. Για δειγματοληψία όγκου nστάση

υπακούει στην κατανομή Student με τον αριθμό των βαθμών ελευθερίας ν = n- 1.

Εδώ Χείναι ο μέσος όρος του δείγματος, και μικρό- επιλεκτική τυπική απόκλιση.

Χρησιμοποιώντας τους πίνακες κατανομής του Student ή το ανάλογο υπολογιστή τους, μπορεί κανείς να βρει μια τέτοια οριακή τιμή ώστε με δεδομένη πιθανότητα εμπιστοσύνης να ικανοποιείται η ακόλουθη ανισότητα:

Αυτή η ανισότητα αντιστοιχεί στην ανισότητα για το M:

Οπου ε είναι το μισό πλάτος του διαστήματος εμπιστοσύνης.

Έτσι, η κατασκευή ενός διαστήματος εμπιστοσύνης για το Μ πραγματοποιείται με την ακόλουθη σειρά.

1. Επιλέξτε την πιθανότητα εμπιστοσύνης P d (συνήθως 0,95 ή 0,99) και για αυτήν, σύμφωνα με τον πίνακα κατανομής του Student, βρίσκεται η παράμετρος t

2. Υπολογίστε το μισό πλάτος του διαστήματος εμπιστοσύνης ε:

3. Μια εκτίμηση διαστήματος του γενικού μέσου όρου λαμβάνεται με την επιλεγμένη πιθανότητα εμπιστοσύνης:

Συνοπτικά γράφεται ως εξής:

Έχουν αναπτυχθεί διαδικασίες υπολογιστών για την εύρεση εκτιμήσεων διαστημάτων.

Ας εξηγήσουμε πώς να χρησιμοποιήσετε τον πίνακα κατανομής του Μαθητή. Αυτός ο πίνακας έχει δύο «εισόδους»: την αριστερή στήλη, που ονομάζεται αριθμός βαθμών ελευθερίας ν = n- 1, και η επάνω σειρά είναι το επίπεδο σημαντικότητας α. Στην τομή της αντίστοιχης γραμμής και στήλης βρίσκεται ο συντελεστής Student t.

Ας εφαρμόσουμε αυτή τη μέθοδο στο δείγμα μας. Ένα τμήμα του πίνακα κατανομής του Μαθητή παρουσιάζεται παρακάτω.

Πίνακας 3.3. Τμήμα του πίνακα κατανομής του μαθητή

Μια απλή στατιστική σειρά για δείγμα 20 ατόμων = 20, ν =19) παρουσιάζεται στον Πίνακα. 3.1. Για αυτή τη σειρά, οι υπολογισμοί με χρήση των τύπων (3.1-3.3) δίνουν: Χ= 37,05; μικρό= 5,02.

Ας διαλέξουμε α = 0,05 (P d = 0,95). Στη διασταύρωση της γραμμής "19" και της στήλης "0,05" βρίσκουμε t= 2,09.

Ας υπολογίσουμε την ακρίβεια της εκτίμησης με τον τύπο (3.6): ε = 2.09;5.02/λ /20 = 2.34.

Ας οικοδομήσουμε μια εκτίμηση διαστήματος: με πιθανότητα 95%, ο άγνωστος γενικός μέσος όρος ικανοποιεί την ανισότητα:

37,05 - 2,34 < Μ< 37,05 + 2,34, или Μ= 37,05 ± 2,34 (m/s), Р d = 0,95.

3.5. ΜΕΘΟΔΟΙ ΕΠΑΛΗΘΕΥΣΗΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ

Στατιστικές υποθέσεις

Πριν διατυπώσετε τι είναι μια στατιστική υπόθεση, εξετάστε το ακόλουθο παράδειγμα.

Για να συγκριθούν δύο μέθοδοι θεραπείας μιας συγκεκριμένης ασθένειας, επιλέχθηκαν δύο ομάδες ασθενών των 20 ατόμων η καθεμία, η θεραπεία των οποίων πραγματοποιήθηκε σύμφωνα με αυτές τις μεθόδους. Για κάθε ασθενή, α τον αριθμό των διαδικασιώνακολουθούμενη από θετική επίδραση. Σύμφωνα με αυτά τα δεδομένα, για κάθε ομάδα, βρήκαμε μέσους όρους δείγματος (Χ), διακυμάνσεις δείγματος (s 2)και δείγμα RMS (μικρό).

Τα αποτελέσματα παρουσιάζονται στον πίνακα. 3.4.

Πίνακας 3.4

Ο αριθμός των διαδικασιών που απαιτούνται για τη λήψη θετικού αποτελέσματος είναι μια τυχαία μεταβλητή, όλες οι πληροφορίες για την οποία περιέχονται επί του παρόντος στο παραπάνω δείγμα.

Από τον πίνακα. Το 3.4 δείχνει ότι ο μέσος όρος του δείγματος στην πρώτη ομάδα είναι μικρότερος από ό,τι στη δεύτερη. Αυτό σημαίνει ότι ισχύει η ίδια αναλογία για τους γενικούς μέσους όρους: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает στατιστικός έλεγχος υποθέσεων.

Στατιστική υπόθεση- είναι μια υπόθεση για τις ιδιότητες των πληθυσμών.

Θα εξετάσουμε υποθέσεις για τις ιδιότητες δύογενικούς πληθυσμούς.

Αν οι πληθυσμοί έχουν γνωστό, το ίδιοκατανομή της εκτιμώμενης αξίας και οι παραδοχές αφορούν τις ποσότητες κάποια παράμετροςαυτή η κατανομή, τότε καλούνται οι υποθέσεις παραμετρική.Για παράδειγμα, λαμβάνονται δείγματα από πληθυσμούς με κανονικός νόμοςκατανομή και ίση διακύμανση. Απαιτείται να μάθουμε είναι τα ίδιαοι γενικοί μέσοι όροι αυτών των πληθυσμών.

Εάν τίποτα δεν είναι γνωστό για τους νόμους κατανομής των γενικών πληθυσμών, τότε ονομάζονται υποθέσεις για τις ιδιότητές τους μη παραμετρική.Για παράδειγμα, είναι τα ίδιατους νόμους κατανομής των πληθυσμών από τους οποίους λαμβάνονται τα δείγματα.

Μηδενικές και εναλλακτικές υποθέσεις.

Το έργο του ελέγχου υποθέσεων. Επίπεδο σημασίας

Ας εξοικειωθούμε με την ορολογία που χρησιμοποιείται στον έλεγχο υποθέσεων.

H 0 - μηδενική υπόθεση (σκεπτική υπόθεση) - αυτή είναι μια υπόθεση για καμία διαφοράμεταξύ των συγκριτικών δειγμάτων. Ο σκεπτικιστής πιστεύει ότι οι διαφορές μεταξύ των δειγματοληπτικών εκτιμήσεων που προέκυψαν από τα αποτελέσματα της έρευνας είναι τυχαίες.

H 1- μια εναλλακτική υπόθεση (υπόθεση του αισιόδοξου) είναι μια υπόθεση σχετικά με την παρουσία διαφορών μεταξύ των συγκριθέντων δειγμάτων. Ο αισιόδοξος πιστεύει ότι οι διαφορές μεταξύ των δειγματοληπτικών εκτιμήσεων προκαλούνται από αντικειμενικούς λόγους και αντιστοιχούν στις διαφορές στους γενικούς πληθυσμούς.

Ο έλεγχος των στατιστικών υποθέσεων είναι εφικτός μόνο όταν τα στοιχεία των συγκριτικών δειγμάτων μπορούν να χρησιμοποιηθούν για τη σύνθεση ορισμένων αξία(κριτήριο), ο νόμος διανομής του οποίου σε περίπτωση δικαιοσύνης H 0διάσημος. Στη συνέχεια, για αυτήν την ποσότητα, μπορεί κανείς να καθορίσει διάστημα εμπιστοσύνης,στο οποίο με δεδομένη πιθανότητα R dπαίρνει την αξία του. Αυτό το διάστημα ονομάζεται κρίσιμη περιοχή.Εάν η τιμή του κριτηρίου εμπίπτει στην κρίσιμη περιοχή, τότε η υπόθεση γίνεται αποδεκτή H 0 .Διαφορετικά, η υπόθεση H 1 γίνεται αποδεκτή.

Στην ιατρική έρευνα χρησιμοποιείται P d = 0,95 ή P d = 0,99. Αυτές οι τιμές αντιστοιχούν επίπεδα σημασίαςα = 0,05 ή α = 0,01.

Κατά τον έλεγχο στατιστικών υποθέσεωνεπίπεδο σημασίας(α) είναι η πιθανότητα απόρριψης της μηδενικής υπόθεσης όταν είναι αληθής.

Σημειώστε ότι, στον πυρήνα της, στοχεύει η διαδικασία ελέγχου υποθέσεων ανίχνευση διαφοράς,να μην επιβεβαιώσει την απουσία τους. Όταν η τιμή του κριτηρίου υπερβαίνει την κρίσιμη περιοχή, μπορούμε να πούμε "σκεπτικιστής" με καθαρή καρδιά - καλά, τι άλλο θέλετε;! Εάν δεν υπήρχαν διαφορές, τότε με πιθανότητα 95% (ή 99%) η υπολογιζόμενη τιμή θα ήταν εντός των καθορισμένων ορίων. Οπότε όχι!..

Λοιπόν, εάν η τιμή του κριτηρίου εμπίπτει στην κρίσιμη περιοχή, τότε δεν υπάρχει λόγος να πιστεύουμε ότι η υπόθεση H 0 είναι σωστή. Αυτό πιθανότατα υποδεικνύει μία από τις δύο πιθανές αιτίες.

1. Τα μεγέθη των δειγμάτων δεν είναι αρκετά μεγάλα για να ανιχνεύσουν διαφορές. Είναι πιθανό ότι ο συνεχιζόμενος πειραματισμός θα φέρει επιτυχία.

2. Υπάρχουν διαφορές. Είναι όμως τόσο μικρά που δεν έχουν καμία πρακτική σημασία. Σε αυτή την περίπτωση, η συνέχιση των πειραμάτων δεν έχει νόημα.

Ας προχωρήσουμε εξετάζοντας μερικές από τις στατιστικές υποθέσεις που χρησιμοποιούνται στην ιατρική έρευνα.

3.6. ΔΟΚΙΜΗ ΥΠΟΘΕΣΕΩΝ ΙΣΟΤΗΤΑΣ ΔΙΑΦΟΡΩΝ, ΚΡΙΤΗΡΙΟ F FISHER

Σε ορισμένες κλινικές μελέτες, μια θετική επίδραση αποδεικνύεται όχι τόσο από μέγεθοςυπό μελέτη παράμετρος, πόσο σταθεροποίηση,μειώνοντας τις διακυμάνσεις του. Σε αυτήν την περίπτωση, τίθεται το ερώτημα της σύγκρισης δύο γενικών αποκλίσεων με βάση τα αποτελέσματα μιας δειγματοληπτικής έρευνας. Αυτή η εργασία μπορεί να λυθεί χρησιμοποιώντας Το κριτήριο του Fisher.

Διατύπωση του προβλήματος

κανονικός νόμοςδιανομή. Μεγέθη δειγμάτων -

ν 1Και n2,ΕΝΑ αποκλίσεις δείγματοςίσος s 1 και s 2 2 γενικές αποκλίσεις.

Ελεγμένες υποθέσεις:

H 0- γενικές αποκλίσεις είναι τα ίδια;

H 1- γενικές αποκλίσεις διαφορετικός.

Εμφανίζεται εάν τα δείγματα λαμβάνονται από πληθυσμούς με κανονικός νόμοςκατανομή, τότε εάν η υπόθεση είναι αληθής H 0ο λόγος των διακυμάνσεων του δείγματος υπακούει στην κατανομή Fisher. Ως κριτήριο λοιπόν για τον έλεγχο της εγκυρότητας H 0λαμβάνεται η τιμή ΦΑ,υπολογίζεται με τον τύπο:

Οπου s 1 και s 2 - διακυμάνσεις δείγματος.

Αυτή η αναλογία υπακούει στην κατανομή Fisher με τον αριθμό των βαθμών ελευθερίας του αριθμητή ν 1 = ν 1- 1 και ο αριθμός των βαθμών ελευθερίας του παρονομαστή ν 2 = n 2 - 1. Τα όρια της κρίσιμης περιοχής βρίσκονται σύμφωνα με τους πίνακες κατανομής του Fisher ή χρησιμοποιώντας τη συνάρτηση υπολογιστή BRASPOBR.

Για το παράδειγμα που παρουσιάζεται στον Πίνακα. 3.4, παίρνουμε: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; φά= 2,16/4,05 = 0,53. Στο α = 0,05, τα όρια της κρίσιμης περιοχής είναι ίσα, αντίστοιχα: = 0,40, = 2,53.

Η τιμή του κριτηρίου έπεσε στην κρίσιμη περιοχή, επομένως η υπόθεση γίνεται αποδεκτή H 0:γενικές αποκλίσεις δείγματος είναι τα ίδια.

3.7. ΔΟΚΙΜΗ ΥΠΟΘΕΣΕΩΝ ΟΣΟΝ ΑΦΟΡΑ ΙΣΟΤΗΤΑ ΜΕΣΩΝ ΜΕΣΩΝ ΜΕΣΩΝ ΤΕΣΤ, STUDENT'S t-test

Πρόβλημα σύγκρισης Μεσαίοδύο γενικοί πληθυσμοί προκύπτουν όταν είναι το μέγεθοςτο υπό μελέτη χαρακτηριστικό. Για παράδειγμα, όταν συγκρίνετε τη διάρκεια της θεραπείας με δύο διαφορετικές μεθόδους ή τον αριθμό των επιπλοκών που προκύπτουν από τη χρήση τους. Σε αυτή την περίπτωση, μπορεί να χρησιμοποιηθεί το Student's t-test.

Διατύπωση του προβλήματος

Λήφθηκαν δύο δείγματα (Χ 1 ) και ( Χ 2 ) από πληθυσμούς με κανονικός νόμοςδιανομή και την ίδια διασπορά.Μεγέθη δειγμάτων - n 1 και n 2 , μέσα δείγματοςείναι ίσα με Χ 1 και Χ 2, και αποκλίσεις δείγματος- s 1 2 και s 2 2αντίστοιχα. Χρειάζεται σύγκριση γενικούς μέσους όρους.

Ελεγμένες υποθέσεις:

H 0- γενικοί μέσοι όροι είναι τα ίδια;

H 1- γενικοί μέσοι όροι διαφορετικός.

Αποδεικνύεται ότι εάν η υπόθεση είναι αληθής H 0η τιμή του t, που υπολογίζεται από τον τύπο:

κατανέμεται σύμφωνα με το νόμο του Student με τον αριθμό των βαθμών ελευθερίας ν = ν 1 + + ν2 - 2.

Εδώ όπου ν 1 = n 1 - 1 - αριθμός βαθμών ελευθερίας για το πρώτο δείγμα. v2 = n 2 - 1 - ο αριθμός των βαθμών ελευθερίας για το δεύτερο δείγμα.

Τα όρια της κρίσιμης περιοχής βρίσκονται από πίνακες κατανομής t ή χρησιμοποιώντας τη συνάρτηση υπολογιστή STUDRASP. Η κατανομή του Student είναι συμμετρική περίπου μηδέν, επομένως τα αριστερά και δεξιά όρια της κρίσιμης περιοχής είναι ίδια σε απόλυτη τιμή και αντίθετα στο πρόσημο: -και

Για το παράδειγμα που παρουσιάζεται στον Πίνακα. 3.4, παίρνουμε:

v 1 \u003d v 2 \u003d 20 - 1 \u003d 19; v = 38, t= -2,51. Με α = 0,05 = 2,02.

Η τιμή του κριτηρίου υπερβαίνει το αριστερό όριο της κρίσιμης περιοχής, επομένως αποδεχόμαστε την υπόθεση H 1:γενικούς μέσους όρους διαφορετικός.Παράλληλα, ο μέσος όρος του γενικού πληθυσμού πρώτο δείγμαΠΙΟ ΛΙΓΟ.

Εφαρμογή του Student's t-test

Το Student's t-test ισχύει μόνο για δείγματα από κανονικόςαδρανή με τις ίδιες γενικές αποκλίσεις.Εάν παραβιαστεί τουλάχιστον μία από τις προϋποθέσεις, τότε η εφαρμογή του κριτηρίου είναι αμφίβολη. Η απαίτηση της κανονικότητας του γενικού πληθυσμού συνήθως αγνοείται, αναφερόμενος σε κεντρικό οριακό θεώρημα.Πράγματι, η διαφορά του μέσου όρου του δείγματος, που είναι στον αριθμητή (3.10), μπορεί να θεωρηθεί ότι κατανέμεται κανονικά για ν > 30. Όμως το ζήτημα της ισότητας των διακυμάνσεων δεν υπόκειται σε επαλήθευση, και οι αναφορές στο γεγονός ότι ο Fisher Η δοκιμή δεν εντόπισε διαφορές δεν μπορούν να ληφθούν υπόψη. Ωστόσο, το t-test χρησιμοποιείται ευρέως για την ανίχνευση διαφορών στους μέσους όρους πληθυσμού, αν και χωρίς επαρκή στοιχεία.

Παρακάτω εξετάζεται μη παραμετρικό κριτήριο,η οποία χρησιμοποιείται με επιτυχία για τους ίδιους σκοπούς και η οποία δεν απαιτεί καμία κανονικότητα,κανενα απο τα δυο ισότητα διακυμάνσεων.

3.8. ΜΗ ΠΑΡΑΜΕΤΡΙΚΗ ΣΥΓΚΡΙΣΗ ΔΥΟ ΔΕΙΓΜΑΤΩΝ: Η ΔΟΚΙΜΗ MANN-WHITNEY

Τα μη παραμετρικά κριτήρια έχουν σχεδιαστεί για να ανιχνεύουν διαφορές στους νόμους κατανομής δύο γενικών πληθυσμών. Κριτήρια που είναι ευαίσθητα στις διαφορές γενικά Μεσαίο,που ονομάζονται κριτήρια βάρδια.Κριτήρια που είναι ευαίσθητα στις διαφορές γενικά διασπορά,που ονομάζονται κριτήρια κλίμακα.Το τεστ Mann-Whitney αναφέρεται στα κριτήρια κουρεύωκαι χρησιμοποιείται για την ανίχνευση διαφορών στους μέσους όρους δύο πληθυσμών, δείγματα από τα οποία παρουσιάζονται στο κλίμακα κατάταξης.Τα μετρούμενα ζώδια βρίσκονται σε αυτήν την κλίμακα με αύξουσα σειρά και στη συνέχεια αριθμούνται με ακέραιους αριθμούς 1, 2 ... Αυτοί οι αριθμοί ονομάζονται τάξεις.Οι ίσες τιμές αποδίδονται στις ίδιες βαθμίδες. Δεν είναι η αξία του ίδιου του χαρακτηριστικού που έχει σημασία, αλλά μόνο τακτικός τόπος,που κατέχει μεταξύ άλλων αξιών.

Στον πίνακα. 3.5. η πρώτη ομάδα από τον πίνακα 3.4 παρουσιάζεται σε διευρυμένη μορφή (σειρά 1), υποβάλλεται σε κατάταξη (σειρά 2) και στη συνέχεια οι τάξεις των ίδιων τιμών αντικαθίστανται από αριθμητικές μέσες τιμές. Για παράδειγμα, στα στοιχεία 4 και 4 στην πρώτη σειρά δόθηκαν οι τάξεις 2 και 3, οι οποίες στη συνέχεια αντικαταστάθηκαν με τις ίδιες τιμές 2,5.

Πίνακας 3.5

Διατύπωση του προβλήματος

Ανεξάρτητα δείγματα (X 1)Και (X 2)εξάγεται από πληθυσμούς με άγνωστους νόμους κατανομής. Μεγέθη δειγμάτων ν 1Και ν 2αντίστοιχα. Οι τιμές των στοιχείων των δειγμάτων παρουσιάζονται στο κλίμακα κατάταξης.Απαιτείται να ελεγχθεί εάν αυτοί οι γενικοί πληθυσμοί διαφέρουν μεταξύ τους;

Ελεγμένες υποθέσεις:

H 0- τα δείγματα ανήκουν στον ίδιο γενικό πληθυσμό. H 1- τα δείγματα ανήκουν σε διαφορετικούς γενικούς πληθυσμούς.

Για τον έλεγχο τέτοιων υποθέσεων, χρησιμοποιείται το τεστ (/-Mann-Whitney.

Πρώτον, ένα συνδυασμένο δείγμα (Χ) γίνεται από δύο δείγματα, τα στοιχεία των οποίων ταξινομούνται. Στη συνέχεια βρίσκεται το άθροισμα των βαθμών που αντιστοιχούν στα στοιχεία του πρώτου δείγματος. Αυτό το άθροισμα είναι το κριτήριο για τον έλεγχο των υποθέσεων.

U= Το άθροισμα των βαθμών του πρώτου δείγματος. (3.11)

Για ανεξάρτητα δείγματα μεγαλύτερα από 20, η τιμή Uυπακούει σε μια κανονική κατανομή, η μαθηματική προσδοκία και η τυπική απόκλιση της οποίας είναι ίσες με:

Επομένως, τα όρια της κρίσιμης περιοχής βρίσκονται σύμφωνα με τους κανονικούς πίνακες κατανομής.

Για το παράδειγμα που παρουσιάζεται στον Πίνακα. 3.4, παίρνουμε: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, U= 339, μ = 410, σ = 37. Για α = 0,05 παίρνουμε: και αριστερά = 338 και δεξιά = 482.

Η τιμή του κριτηρίου υπερβαίνει το αριστερό όριο της κρίσιμης περιοχής, επομένως η υπόθεση H 1 γίνεται αποδεκτή: οι γενικοί πληθυσμοί έχουν διαφορετικούς νόμους κατανομής. Παράλληλα, ο μέσος όρος του γενικού πληθυσμού πρώτο δείγμαΠΙΟ ΛΙΓΟ.

Κατά την κατασκευή μιας σειράς διαλειμματικής διανομής, λύνονται τρεις ερωτήσεις:

  • 1. Πόσα διαστήματα πρέπει να κάνω;
  • 2. Ποιο είναι το μήκος των διαστημάτων;
  • 3. Ποια είναι η διαδικασία για την ένταξη των πληθυσμιακών μονάδων στα όρια των διαστημάτων;
  • 1. Αριθμός διαστημάτωνμπορεί να προσδιοριστεί από Φόρμουλα Sturgess:

2. Μήκος διαστήματος ή βήμα διαστήματος, συνήθως καθορίζεται από τον τύπο

Οπου R-εύρος παραλλαγής.

3. Η σειρά ένταξης των πληθυσμιακών μονάδων στα όρια του διαστήματος

μπορεί να είναι διαφορετική, αλλά κατά την κατασκευή μιας σειράς διαστήματος, η κατανομή είναι απαραίτητα αυστηρά καθορισμένη.

Για παράδειγμα, αυτό: [), στο οποίο οι μονάδες του πληθυσμού περιλαμβάνονται στα κάτω όρια και δεν περιλαμβάνονται στα άνω όρια, αλλά μεταφέρονται στο επόμενο διάστημα. Η εξαίρεση σε αυτόν τον κανόνα είναι το τελευταίο διάστημα , του οποίου το άνω όριο περιλαμβάνει τον τελευταίο αριθμό της σειράς κατάταξης.

Τα όρια των διαστημάτων είναι:

  • κλειστό - με δύο ακραίες τιμές του χαρακτηριστικού.
  • ανοιχτό - με μια ακραία τιμή του χαρακτηριστικού (πρινκάποιο νούμερο ή πάνω απότέτοιος αριθμός).

Για να αφομοιώσουμε το θεωρητικό υλικό εισάγουμε γενικές πληροφορίεςγια λύσεις μέσω εργασιών.

Υπάρχουν δεδομένα υπό όρους για τον μέσο αριθμό των διευθυντών πωλήσεων, τον αριθμό των προϊόντων μοναδικής ποιότητας που πωλούνται από αυτούς, την μεμονωμένη τιμή αγοράς για αυτό το προϊόν, καθώς και τον όγκο πωλήσεων 30 εταιρειών σε μία από τις περιοχές της Ρωσικής Ομοσπονδίας στο το πρώτο τρίμηνο του έτους αναφοράς (Πίνακας 2.1).

Πίνακας 2.1

Αρχικές πληροφορίες για μια εγκάρσια εργασία

πληθυσμός

διαχειριστές

Τιμή, χιλιάδες ρούβλια

Όγκος πωλήσεων, εκατομμύρια ρούβλια

πληθυσμός

διαχειριστές

Ποσότητα πωληθέντων, τεμ.

Τιμή, χιλιάδες ρούβλια

Όγκος πωλήσεων, εκατομμύρια ρούβλια

Με βάση τις αρχικές πληροφορίες, καθώς και πρόσθετες πληροφορίες, θα ορίσουμε μεμονωμένες εργασίες. Στη συνέχεια παρουσιάζουμε τη μεθοδολογία επίλυσής τους και τις ίδιες τις λύσεις.

Οριζόντια εργασία. Εργασία 2.1

Χρησιμοποιώντας τον αρχικό πίνακα δεδομένων. 2.1 απαιτείταινα δημιουργήσετε μια διακριτή σειρά διανομής των επιχειρήσεων με βάση τον αριθμό των προϊόντων που πωλήθηκαν (Πίνακας 2.2).

Λύση:

Πίνακας 2.2

Διακεκριμένες σειρές διανομής επιχειρήσεων κατά τον αριθμό των αγαθών που πωλήθηκαν σε μία από τις περιοχές της Ρωσικής Ομοσπονδίας κατά το πρώτο τρίμηνο του έτους αναφοράς

Οριζόντια εργασία. Εργασία 2.2

απαιτείταιδημιουργήστε μια σειρά κατάταξης 30 εταιρειών με βάση τον μέσο αριθμό διευθυντικών στελεχών.

Λύση:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Οριζόντια εργασία. Εργασία 2.3

Χρησιμοποιώντας τον αρχικό πίνακα δεδομένων. 2.1, απαιτείται:

  • 1. Κατασκευάστε μια σειρά διαστημάτων για την κατανομή των επιχειρήσεων με βάση τον αριθμό των διευθυντών.
  • 2. Υπολογίστε τις συχνότητες της σειράς διανομής των επιχειρήσεων.
  • 3. Εξάγετε συμπεράσματα.

Λύση:

Υπολογίστε χρησιμοποιώντας τον τύπο Sturgess (2.5) αριθμός διαστημάτων:

Έτσι, παίρνουμε 6 διαστήματα (ομάδες).

Μήκος διαστήματος, ή βήμα μεσοδιάστημα, υπολογίστε με τον τύπο

Σημείωση.Η σειρά συμπερίληψης των μονάδων του πληθυσμού στα όρια του διαστήματος έχει ως εξής: I), στην οποία οι μονάδες του πληθυσμού περιλαμβάνονται στα κατώτερα όρια και δεν περιλαμβάνονται στα ανώτερα, αλλά μεταφέρονται στο επόμενο διάστημα. Η εξαίρεση σε αυτόν τον κανόνα είναι το τελευταίο διάστημα I ], του οποίου το άνω όριο περιλαμβάνει τον τελευταίο αριθμό της σειράς κατάταξης.

Κατασκευάζουμε μια σειρά διαστημάτων (Πίνακας 2.3).

Σειρές μεσοδιαστημάτων κατανομής των επιχειρήσεων αλλά ο μέσος αριθμός διευθυντικών στελεχών σε μία από τις περιοχές της Ρωσικής Ομοσπονδίας κατά το πρώτο τρίμηνο του έτους αναφοράς

Συμπέρασμα.Η πιο πολυάριθμη ομάδα επιχειρήσεων είναι η ομάδα με μέσο αριθμό διευθυντών 25-30 ατόμων, η οποία περιλαμβάνει 8 επιχειρήσεις (27%). Η μικρότερη ομάδα με μέσο αριθμό διευθυντών 40-45 ατόμων περιλαμβάνει μόνο μία εταιρεία (3%).

Χρησιμοποιώντας τον αρχικό πίνακα δεδομένων. 2.1, καθώς και τις σειρές διαστημάτων κατανομής των επιχειρήσεων κατά τον αριθμό των διευθυντών (Πίνακας 2.3), απαιτείταιοικοδομήστε μια αναλυτική ομαδοποίηση της σχέσης μεταξύ του αριθμού των διευθυντών και του όγκου των πωλήσεων των επιχειρήσεων και, με βάση αυτήν, εξάγετε ένα συμπέρασμα σχετικά με την παρουσία (ή την απουσία) μιας σχέσης μεταξύ των υποδεικνυόμενων σημείων.

Λύση:

Η αναλυτική ομαδοποίηση βασίζεται σε συντελεστή βάσης. Στο πρόβλημά μας, το πρόσημο παράγοντα (x) είναι ο αριθμός των διευθυντών και το προκύπτον πρόσημο (y) είναι ο όγκος πωλήσεων (Πίνακας 2.4).

Ας χτίσουμε τώρα αναλυτική ομαδοποίηση(Πίνακας 2.5).

Συμπέρασμα.Με βάση τα δεδομένα της κατασκευασμένης αναλυτικής ομαδοποίησης, μπορεί να ειπωθεί ότι με την αύξηση του αριθμού των διευθυντών πωλήσεων, αυξάνεται επίσης ο μέσος όγκος πωλήσεων της εταιρείας στον όμιλο, γεγονός που υποδηλώνει την ύπαρξη άμεσης σχέσης μεταξύ αυτών των χαρακτηριστικών.

Πίνακας 2.4

Βοηθητικός πίνακας για την κατασκευή αναλυτικής ομαδοποίησης

Αριθμός διευθυντών, ατόμων,

Αριθμός εταιρείας

Όγκος πωλήσεων, εκατομμύρια ρούβλια, y

» = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

στο = ’ =10,31 30

Πίνακας 2.5

Εξάρτηση των όγκων πωλήσεων από τον αριθμό των διευθυντών εταιρειών σε μία από τις περιοχές της Ρωσικής Ομοσπονδίας κατά το πρώτο τρίμηνο του έτους αναφοράς

ΕΡΩΤΗΣΕΙΣ ΕΛΕΓΧΟΥ
  • 1. Ποια είναι η ουσία της στατιστικής παρατήρησης;
  • 2. Ονομάστε τα στάδια της στατιστικής παρατήρησης.
  • 3. Ποιες είναι οι οργανωτικές μορφές στατιστικής παρατήρησης;
  • 4. Ονομάστε τα είδη της στατιστικής παρατήρησης.
  • 5. Τι είναι η στατιστική περίληψη;
  • 6. Ονομάστε τα είδη των στατιστικών αναφορών.
  • 7. Τι είναι μια στατιστική ομαδοποίηση;
  • 8. Ονομάστε τα είδη των στατιστικών ομαδοποιήσεων.
  • 9. Τι είναι η σειρά διανομής;
  • 10. Ονομάστε τα δομικά στοιχεία της σειράς διανομής.
  • 11. Ποια είναι η διαδικασία κατασκευής μιας σειράς διανομής;
ΚΑΤΗΓΟΡΙΕΣ

Δημοφιλή ΑΡΘΡΑ

2023 "kingad.ru" - υπερηχογραφική εξέταση ανθρώπινων οργάνων