Τι είναι μια συνάρτηση παλινδρόμησης. Ανάλυση παλινδρόμησης - μια στατιστική μέθοδος για τη μελέτη της εξάρτησης μιας τυχαίας μεταβλητής από μεταβλητές

Η ανάλυση παλινδρόμησης είναι μια μέθοδος δημιουργίας μιας αναλυτικής έκφρασης μιας στοχαστικής σχέσης μεταξύ των μελετημένων χαρακτηριστικών. Η εξίσωση παλινδρόμησης δείχνει πώς, κατά μέσο όρο, αλλάζει στοόταν αλλάζετε κάποιο από Χ Εγώ , και μοιάζει με:

όπου y -εξαρτημένη μεταβλητή (είναι πάντα μία).

Χ Εγώ - ανεξάρτητες μεταβλητές (παράγοντες) (μπορεί να υπάρχουν αρκετές από αυτές).

Εάν υπάρχει μόνο μία ανεξάρτητη μεταβλητή, αυτή είναι μια απλή ανάλυση παλινδρόμησης. Αν υπάρχουν αρκετές Π 2), τότε μια τέτοια ανάλυση ονομάζεται πολυμεταβλητή.

Κατά τη διάρκεια της ανάλυσης παλινδρόμησης, επιλύονται δύο κύριες εργασίες:

    κατασκευή της εξίσωσης παλινδρόμησης, δηλ. βρίσκοντας το είδος της σχέσης μεταξύ του δείκτη αποτελέσματος και των ανεξάρτητων παραγόντων Χ 1 , Χ 2 , …, Χ n .

    εκτίμηση της σημασίας της εξίσωσης που προκύπτει, δηλ. προσδιορισμός του πόσο τα επιλεγμένα χαρακτηριστικά παραγόντων εξηγούν την παραλλαγή του χαρακτηριστικού y.

Η ανάλυση παλινδρόμησης χρησιμοποιείται κυρίως για τον προγραμματισμό, καθώς και για την ανάπτυξη ενός κανονιστικού πλαισίου.

Σε αντίθεση με την ανάλυση συσχέτισης, η οποία απαντά μόνο στο ερώτημα εάν υπάρχει σχέση μεταξύ των αναλυόμενων χαρακτηριστικών, η ανάλυση παλινδρόμησης δίνει επίσης την τυποποιημένη έκφρασή της. Επιπλέον, εάν η ανάλυση συσχέτισης μελετά οποιαδήποτε σχέση παραγόντων, τότε η ανάλυση παλινδρόμησης μελετά τη μονόπλευρη εξάρτηση, δηλ. μια σύνδεση που δείχνει πώς μια αλλαγή στα πρόσημα του παράγοντα επηρεάζει το προκύπτον πρόσημο.

Η ανάλυση παλινδρόμησης είναι μια από τις πιο ανεπτυγμένες μεθόδους μαθηματικής στατιστικής. Αυστηρά μιλώντας, η εφαρμογή της ανάλυσης παλινδρόμησης απαιτεί την εκπλήρωση ορισμένων ειδικών απαιτήσεων (ιδίως, Χμεγάλο 2 ,...,Χ n ;yπρέπει να είναι ανεξάρτητες, κανονικά κατανεμημένες τυχαίες μεταβλητές με σταθερές διακυμάνσεις). Στην πραγματική ζωή, η αυστηρή συμμόρφωση με τις απαιτήσεις της ανάλυσης παλινδρόμησης και συσχέτισης είναι πολύ σπάνια, αλλά και οι δύο αυτές μέθοδοι είναι πολύ κοινές στην οικονομική έρευνα. Οι εξαρτήσεις στην οικονομία μπορεί να είναι όχι μόνο άμεσες, αλλά και αντίστροφες και μη γραμμικές. Ένα μοντέλο παλινδρόμησης μπορεί να κατασκευαστεί παρουσία οποιασδήποτε εξάρτησης, ωστόσο, στην πολυμεταβλητή ανάλυση, χρησιμοποιούνται μόνο γραμμικά μοντέλα της μορφής:

Η κατασκευή της εξίσωσης παλινδρόμησης πραγματοποιείται, κατά κανόνα, με τη μέθοδο των ελαχίστων τετραγώνων, η ουσία της οποίας είναι να ελαχιστοποιηθεί το άθροισμα των τετραγωνικών αποκλίσεων των πραγματικών τιμών του προκύπτοντος χαρακτηριστικού από τις υπολογιζόμενες τιμές του, δηλ.:

όπου t -αριθμός παρατηρήσεων·

ι =α+β 1 Χ 1 ι 2 Χ 2 ι + ... + β n Χ n ι - υπολογισμένη τιμή του συντελεστή αποτελέσματος.

Συνιστάται ο προσδιορισμός των συντελεστών παλινδρόμησης χρησιμοποιώντας αναλυτικά πακέτα για έναν προσωπικό υπολογιστή ή έναν ειδικό οικονομικό υπολογιστή. Στην απλούστερη περίπτωση, οι συντελεστές παλινδρόμησης μιας μονοπαραγοντικής γραμμικής εξίσωσης παλινδρόμησης της μορφής y = a + bxμπορεί να βρεθεί χρησιμοποιώντας τους τύπους:

ανάλυση συστάδων

Η ανάλυση συστάδων είναι μια από τις μεθόδους πολυμεταβλητής ανάλυσης, σχεδιασμένη για την ομαδοποίηση (ομαδοποίηση) ενός πληθυσμού, τα στοιχεία του οποίου χαρακτηρίζονται από πολλά χαρακτηριστικά. Οι τιμές καθενός από τα χαρακτηριστικά χρησιμεύουν ως συντεταγμένες κάθε μονάδας του υπό μελέτη πληθυσμού στον πολυδιάστατο χώρο των χαρακτηριστικών. Κάθε παρατήρηση, που χαρακτηρίζεται από τις τιμές πολλών δεικτών, μπορεί να αναπαρασταθεί ως ένα σημείο στο χώρο αυτών των δεικτών, οι τιμές των οποίων θεωρούνται ως συντεταγμένες σε έναν πολυδιάστατο χώρο. Απόσταση μεταξύ σημείων Rκαι qΜε κοι συντεταγμένες ορίζονται ως:

Το κύριο κριτήριο για την ομαδοποίηση είναι ότι οι διαφορές μεταξύ των συστάδων θα πρέπει να είναι πιο σημαντικές από ό,τι μεταξύ των παρατηρήσεων που έχουν εκχωρηθεί στο ίδιο σύμπλεγμα, δηλ. σε έναν πολυδιάστατο χώρο, πρέπει να παρατηρηθεί η ανισότητα:

όπου r 1, 2 - απόσταση μεταξύ των συστάδων 1 και 2.

Εκτός από τις διαδικασίες ανάλυσης παλινδρόμησης, η διαδικασία ομαδοποίησης είναι αρκετά επίπονη, καλό είναι να γίνει σε υπολογιστή.

Στα έργα του χρονολογούνται από το 1908. Το περιέγραψε χρησιμοποιώντας το παράδειγμα της δουλειάς ενός πράκτορα που πουλούσε ακίνητα. Στις σημειώσεις του, ο ειδικός πωλήσεων κατοικιών κρατούσε αρχείο με ένα ευρύ φάσμα δεδομένων εισόδου για κάθε συγκεκριμένο κτίριο. Με βάση τα αποτελέσματα της δημοπρασίας, καθορίστηκε ποιος παράγοντας είχε τη μεγαλύτερη επίδραση στην τιμή της συναλλαγής.

Η ανάλυση μεγάλου αριθμού συναλλαγών έδωσε ενδιαφέροντα αποτελέσματα. Πολλοί παράγοντες επηρέασαν την τελική τιμή, οδηγώντας μερικές φορές σε παράδοξα συμπεράσματα και ακόμη και σε ξεκάθαρα «ακραία» όταν ένα σπίτι με υψηλές αρχικές δυνατότητες πωλούνταν σε χαμηλότερο δείκτη τιμής.

Το δεύτερο παράδειγμα εφαρμογής μιας τέτοιας ανάλυσης είναι η εργασία στην οποία ανατέθηκε ο καθορισμός της αμοιβής των εργαζομένων. Η πολυπλοκότητα του έργου ήταν ότι απαιτούνταν να μην διανεμηθεί ένα σταθερό ποσό σε όλους, αλλά να ταιριάζει αυστηρά η αξία του με τη συγκεκριμένη εργασία που εκτελούνταν. Η εμφάνιση πολλών προβλημάτων με πρακτικά παρόμοιες λύσεις απαιτούσε μια πιο λεπτομερή μελέτη τους σε μαθηματικό επίπεδο.

Σημαντική θέση δόθηκε στην ενότητα «ανάλυση παλινδρόμησης», συνδύασε τις πρακτικές μεθόδους που χρησιμοποιούνται για τη μελέτη των εξαρτήσεων που εμπίπτουν στην έννοια της παλινδρόμησης. Αυτές οι σχέσεις παρατηρούνται μεταξύ των δεδομένων που λαμβάνονται κατά τη διάρκεια των στατιστικών μελετών.

Μεταξύ των πολλών εργασιών που πρέπει να επιλυθούν, θέτει τρεις κύριους στόχους: τον ορισμό μιας εξίσωσης παλινδρόμησης μιας γενικής μορφής. κτιριακές εκτιμήσεις παραμέτρων που είναι άγνωστες, οι οποίες αποτελούν μέρος της εξίσωσης παλινδρόμησης. έλεγχος υποθέσεων στατιστικής παλινδρόμησης. Κατά τη μελέτη της σχέσης που προκύπτει μεταξύ ενός ζεύγους μεγεθών που λαμβάνονται ως αποτέλεσμα πειραματικών παρατηρήσεων και αποτελούν μια σειρά (σύνολο) του τύπου (x1, y1), ..., (xn, yn), βασίζονται σε τις διατάξεις της θεωρίας της παλινδρόμησης και υποθέτουμε ότι για μια ποσότητα Υ, παρατηρείται μια ορισμένη κατανομή πιθανοτήτων, ενώ η άλλη Χ παραμένει σταθερή.

Το αποτέλεσμα Y εξαρτάται από την τιμή της μεταβλητής X, αυτή η εξάρτηση μπορεί να προσδιοριστεί από διάφορα μοτίβα, ενώ η ακρίβεια των αποτελεσμάτων που λαμβάνονται επηρεάζεται από τη φύση των παρατηρήσεων και τον σκοπό της ανάλυσης. Το πειραματικό μοντέλο βασίζεται σε ορισμένες υποθέσεις που είναι απλοϊκές αλλά εύλογες. Η κύρια προϋπόθεση είναι ότι η παράμετρος X είναι μια ελεγχόμενη τιμή. Οι τιμές του ορίζονται πριν από την έναρξη του πειράματος.

Εάν κατά τη διάρκεια του πειράματος χρησιμοποιείται ένα ζεύγος μη ελεγχόμενων τιμών XY, τότε πραγματοποιείται ανάλυση παλινδρόμησης με τον ίδιο τρόπο, αλλά για την ερμηνεία των αποτελεσμάτων, κατά την οποία μελετάται η σχέση των τυχαίων μεταβλητών υπό μελέτη, χρησιμοποιούνται μέθοδοι Οι μέθοδοι μαθηματικών στατιστικών δεν είναι αφηρημένο θέμα. Βρίσκουν την εφαρμογή τους στη ζωή σε διάφορους τομείς της ανθρώπινης δραστηριότητας.

Στην επιστημονική βιβλιογραφία, ο όρος ανάλυση γραμμικής παλινδρόμησης έχει βρει ευρεία χρήση για να ορίσει την παραπάνω μέθοδο. Για τη μεταβλητή X, χρησιμοποιείται ο όρος παλινδρομικός ή προγνωστικός παράγοντας και οι εξαρτημένες μεταβλητές Υ ονομάζονται επίσης μεταβλητές κριτηρίου. Αυτή η ορολογία αντικατοπτρίζει μόνο τη μαθηματική εξάρτηση των μεταβλητών, αλλά όχι τις σχέσεις αιτίου-αιτιατού.

Η ανάλυση παλινδρόμησης είναι η πιο κοινή μέθοδος που χρησιμοποιείται για την επεξεργασία των αποτελεσμάτων μιας μεγάλης ποικιλίας παρατηρήσεων. Οι φυσικές και βιολογικές εξαρτήσεις μελετώνται μέσω αυτής της μεθόδου, εφαρμόζεται τόσο στην οικονομία όσο και στην τεχνολογία. Μια σειρά από άλλες περιοχές χρησιμοποιούν μοντέλα ανάλυσης παλινδρόμησης. Η ανάλυση διασποράς, η πολυπαραγοντική στατιστική ανάλυση συνεργάζονται στενά με αυτή τη μέθοδο μελέτης.

Ανάλυση παλινδρόμησης και συσχέτισης - μέθοδοι στατιστικής έρευνας. Αυτοί είναι οι πιο συνηθισμένοι τρόποι εμφάνισης της εξάρτησης μιας παραμέτρου από μία ή περισσότερες ανεξάρτητες μεταβλητές.

Παρακάτω, χρησιμοποιώντας συγκεκριμένα πρακτικά παραδείγματα, θα εξετάσουμε αυτές τις δύο πολύ δημοφιλείς αναλύσεις μεταξύ των οικονομολόγων. Θα δώσουμε επίσης ένα παράδειγμα απόκτησης αποτελεσμάτων όταν συνδυάζονται.

Ανάλυση παλινδρόμησης στο Excel

Δείχνει την επίδραση ορισμένων τιμών (ανεξάρτητων, ανεξάρτητων) στην εξαρτημένη μεταβλητή. Για παράδειγμα, πώς ο αριθμός του οικονομικά ενεργού πληθυσμού εξαρτάται από τον αριθμό των επιχειρήσεων, τους μισθούς και άλλες παραμέτρους. Ή: πώς οι ξένες επενδύσεις, οι τιμές της ενέργειας κ.λπ. επηρεάζουν το επίπεδο του ΑΕΠ.

Το αποτέλεσμα της ανάλυσης σας επιτρέπει να θέσετε προτεραιότητες. Και με βάση τους κύριους παράγοντες, να προβλέψει, να σχεδιάσει την ανάπτυξη των τομέων προτεραιότητας, να λάβει αποφάσεις διαχείρισης.

Η παλινδρόμηση συμβαίνει:

  • γραμμικό (y = a + bx);
  • παραβολική (y = a + bx + cx 2);
  • εκθετική (y = a * exp(bx));
  • ισχύς (y = a*x^b);
  • υπερβολική (y = b/x + a);
  • λογαριθμική (y = b * 1n(x) + a);
  • εκθετική (y = a * b^x).

Εξετάστε το παράδειγμα δημιουργίας ενός μοντέλου παλινδρόμησης στο Excel και ερμηνείας των αποτελεσμάτων. Ας πάρουμε έναν γραμμικό τύπο παλινδρόμησης.

Μια εργασία. Σε 6 επιχειρήσεις αναλύθηκε ο μέσος μηνιαίος μισθός και ο αριθμός των εργαζομένων που αποχώρησαν. Είναι απαραίτητο να προσδιοριστεί η εξάρτηση του αριθμού των συνταξιούχων από τον μέσο μισθό.

Το μοντέλο γραμμικής παλινδρόμησης έχει την ακόλουθη μορφή:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Όπου a είναι οι συντελεστές παλινδρόμησης, x οι μεταβλητές που επηρεάζουν και k είναι ο αριθμός των παραγόντων.

Στο παράδειγμά μας, το Y είναι ο δείκτης των εργαζομένων που εγκατέλειψαν. Ο παράγοντας που επηρεάζει είναι οι μισθοί (x).

Το Excel διαθέτει ενσωματωμένες συναρτήσεις που μπορούν να χρησιμοποιηθούν για τον υπολογισμό των παραμέτρων ενός μοντέλου γραμμικής παλινδρόμησης. Αλλά το πρόσθετο Analysis ToolPak θα το κάνει πιο γρήγορα.

Ενεργοποιήστε ένα ισχυρό αναλυτικό εργαλείο:

Μόλις ενεργοποιηθεί, το πρόσθετο θα είναι διαθέσιμο στην καρτέλα Δεδομένα.

Τώρα θα ασχοληθούμε άμεσα με την ανάλυση παλινδρόμησης.



Πρώτα απ 'όλα, δίνουμε προσοχή στο R-τετράγωνο και τους συντελεστές.

Το R-τετράγωνο είναι ο συντελεστής προσδιορισμού. Στο παράδειγμά μας, είναι 0,755, ή 75,5%. Αυτό σημαίνει ότι οι υπολογισμένες παράμετροι του μοντέλου εξηγούν τη σχέση μεταξύ των παραμέτρων που μελετήθηκαν κατά 75,5%. Όσο μεγαλύτερος είναι ο συντελεστής προσδιορισμού, τόσο καλύτερο είναι το μοντέλο. Καλό - πάνω από 0,8. Κακή - λιγότερο από 0,5 (μια τέτοια ανάλυση δύσκολα μπορεί να θεωρηθεί λογική). Στο παράδειγμά μας - "όχι κακό".

Ο συντελεστής 64,1428 δείχνει τι θα είναι το Y εάν όλες οι μεταβλητές στο υπό εξέταση μοντέλο είναι ίσες με 0. Δηλαδή, άλλοι παράγοντες που δεν περιγράφονται στο μοντέλο επηρεάζουν επίσης την τιμή της παραμέτρου που αναλύθηκε.

Ο συντελεστής -0,16285 δείχνει το βάρος της μεταβλητής X στο Y. Δηλαδή, ο μέσος μηνιαίος μισθός σε αυτό το μοντέλο επηρεάζει τον αριθμό των παραιτητών με βάρος -0,16285 (αυτός είναι ένας μικρός βαθμός επιρροής). Το σύμβολο "-" υποδηλώνει αρνητικό αντίκτυπο: όσο υψηλότερος είναι ο μισθός, τόσο λιγότερη παραίτηση. Που είναι δίκαιο.



Ανάλυση συσχέτισης στο Excel

Η ανάλυση συσχέτισης βοηθά να διαπιστωθεί εάν υπάρχει σχέση μεταξύ δεικτών σε ένα ή δύο δείγματα. Για παράδειγμα, μεταξύ του χρόνου λειτουργίας του μηχανήματος και του κόστους των επισκευών, της τιμής του εξοπλισμού και της διάρκειας λειτουργίας, του ύψους και του βάρους των παιδιών κ.λπ.

Αν υπάρχει σχέση, τότε αν η αύξηση της μιας παραμέτρου οδηγεί σε αύξηση (θετική συσχέτιση) ή μείωση (αρνητική) της άλλης. Η ανάλυση συσχέτισης βοηθά τον αναλυτή να προσδιορίσει εάν η τιμή ενός δείκτη μπορεί να προβλέψει την πιθανή τιμή ενός άλλου.

Ο συντελεστής συσχέτισης συμβολίζεται με r. Διαφέρει από +1 έως -1. Η ταξινόμηση των συσχετισμών για διαφορετικές περιοχές θα είναι διαφορετική. Όταν η τιμή του συντελεστή είναι 0, δεν υπάρχει γραμμική σχέση μεταξύ των δειγμάτων.

Σκεφτείτε πώς να χρησιμοποιήσετε το Excel για να βρείτε τον συντελεστή συσχέτισης.

Η συνάρτηση CORREL χρησιμοποιείται για την εύρεση των ζευγαρωμένων συντελεστών.

Εργασία: Προσδιορίστε εάν υπάρχει σχέση μεταξύ του χρόνου λειτουργίας ενός τόρνου και του κόστους συντήρησής του.

Βάλτε τον κέρσορα σε οποιοδήποτε κελί και πατήστε το κουμπί fx.

  1. Στην κατηγορία "Στατιστικά", επιλέξτε τη συνάρτηση CORREL.
  2. Επιχείρημα "Array 1" - το πρώτο εύρος τιμών - ο χρόνος του μηχανήματος: A2: A14.
  3. Επιχείρημα "Array 2" - το δεύτερο εύρος τιμών - το κόστος των επισκευών: B2:B14. Κάντε κλικ στο OK.

Για να προσδιορίσετε τον τύπο σύνδεσης, πρέπει να εξετάσετε τον απόλυτο αριθμό του συντελεστή (κάθε πεδίο δραστηριότητας έχει τη δική του κλίμακα).

Για ανάλυση συσχέτισης πολλών παραμέτρων (περισσότερες από 2), είναι πιο βολικό να χρησιμοποιήσετε το "Data Analysis" (πρόσθετο "Analysis Package"). Στη λίστα, πρέπει να επιλέξετε μια συσχέτιση και να ορίσετε έναν πίνακα. Ολα.

Οι προκύπτοντες συντελεστές θα εμφανιστούν στον πίνακα συσχέτισης. Σαν αυτό:

Ανάλυση συσχέτισης – παλινδρόμησης

Στην πράξη, αυτές οι δύο τεχνικές χρησιμοποιούνται συχνά μαζί.

Παράδειγμα:


Τώρα τα δεδομένα της ανάλυσης παλινδρόμησης είναι ορατά.

Ο στόχος της ανάλυσης παλινδρόμησης είναι να μετρήσει τη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας (ανάλυσης παλινδρόμησης κατά ζεύγη) ή περισσότερων (πολλαπλών) ανεξάρτητων μεταβλητών. Οι ανεξάρτητες μεταβλητές ονομάζονται επίσης παραγοντικές, επεξηγηματικές, προσδιοριστικές, παλινδρομικές και προγνωστικές.

Η εξαρτημένη μεταβλητή αναφέρεται μερικές φορές ως η καθορισμένη, επεξηγημένη ή "απόκριση" μεταβλητή. Η εξαιρετικά διαδεδομένη χρήση της ανάλυσης παλινδρόμησης στην εμπειρική έρευνα δεν οφείλεται μόνο στο γεγονός ότι είναι ένα βολικό εργαλείο για τον έλεγχο υποθέσεων. Η παλινδρόμηση, ειδικά η πολλαπλή παλινδρόμηση, είναι μια αποτελεσματική τεχνική μοντελοποίησης και πρόβλεψης.

Ας αρχίσουμε να εξηγούμε τις αρχές της εργασίας με την ανάλυση παλινδρόμησης με μια απλούστερη - τη μέθοδο ζεύγους.

Ανάλυση παλινδρόμησης κατά ζεύγη

Τα πρώτα βήματα κατά τη χρήση της ανάλυσης παλινδρόμησης θα είναι σχεδόν πανομοιότυπα με αυτά που έχουμε κάνει στο πλαίσιο του υπολογισμού του συντελεστή συσχέτισης. Οι τρεις βασικές προϋποθέσεις για την αποτελεσματικότητα της ανάλυσης συσχέτισης χρησιμοποιώντας τη μέθοδο Pearson - η κανονική κατανομή των μεταβλητών, η μέτρηση του διαστήματος των μεταβλητών, η γραμμική σχέση μεταξύ των μεταβλητών - σχετίζονται επίσης με την πολλαπλή παλινδρόμηση. Αντίστοιχα, στο πρώτο στάδιο κατασκευάζονται διαγράμματα διασποράς, πραγματοποιείται στατιστική και περιγραφική ανάλυση των μεταβλητών και υπολογίζεται μια γραμμή παλινδρόμησης. Όπως και στο πλαίσιο της ανάλυσης συσχέτισης, οι γραμμές παλινδρόμησης κατασκευάζονται με τη μέθοδο των ελαχίστων τετραγώνων.

Για να δείξουμε με μεγαλύτερη σαφήνεια τις διαφορές μεταξύ των δύο μεθόδων ανάλυσης δεδομένων, ας στραφούμε στο παράδειγμα που έχει ήδη εξεταστεί με τις μεταβλητές «υποστήριξη SPS» και «μερίδιο αγροτικού πληθυσμού». Τα αρχικά δεδομένα είναι πανομοιότυπα. Η διαφορά στα διαγράμματα διασποράς θα είναι ότι στην ανάλυση παλινδρόμησης είναι σωστό να σχεδιάσουμε την εξαρτημένη μεταβλητή - στην περίπτωσή μας, "υποστήριξη SPS" κατά μήκος του άξονα Υ, ενώ στην ανάλυση συσχέτισης δεν έχει σημασία. Μετά τον καθαρισμό των ακραίων σημείων, το διάγραμμα διασποράς μοιάζει με:

Η θεμελιώδης ιδέα της ανάλυσης παλινδρόμησης είναι ότι, έχοντας μια γενική τάση για τις μεταβλητές - με τη μορφή μιας γραμμής παλινδρόμησης - μπορείτε να προβλέψετε την τιμή της εξαρτημένης μεταβλητής, έχοντας τις τιμές της ανεξάρτητης.

Ας φανταστούμε μια συνηθισμένη μαθηματική γραμμική συνάρτηση. Οποιαδήποτε γραμμή στον Ευκλείδειο χώρο μπορεί να περιγραφεί με τον τύπο:

όπου a είναι μια σταθερά που καθορίζει τη μετατόπιση κατά μήκος του άξονα y. β - συντελεστής που καθορίζει τη γωνία της ευθείας.

Γνωρίζοντας την κλίση και τη σταθερά, μπορείτε να υπολογίσετε (να προβλέψετε) την τιμή του y για οποιοδήποτε x.

Αυτή η απλούστερη συνάρτηση αποτέλεσε τη βάση του μοντέλου ανάλυσης παλινδρόμησης με την προειδοποίηση ότι θα προβλέψουμε την τιμή του y όχι ακριβώς, αλλά μέσα σε ένα συγκεκριμένο διάστημα εμπιστοσύνης, δηλ. κατά προσέγγιση.

Η σταθερά είναι το σημείο τομής της γραμμής παλινδρόμησης και του άξονα y (η τομή F, που συνήθως αναφέρεται ως "αναχαιτιστής" στα στατιστικά πακέτα). Στο παράδειγμά μας ψηφοφορίας για το SPS, η στρογγυλοποιημένη τιμή του θα είναι 10,55. Ο συντελεστής κλίσης b θα είναι περίπου ίσος με -0,1 (όπως στην ανάλυση συσχέτισης, το πρόσημο δείχνει τον τύπο της σχέσης - άμεση ή αντίστροφη). Έτσι, το μοντέλο που προκύπτει θα μοιάζει με SP C = -0,1 x Sel. μας. + 10.55.

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Η διαφορά μεταξύ της αρχικής και της προβλεπόμενης τιμής ονομάζεται υπολειπόμενη (έχουμε ήδη συναντήσει αυτόν τον όρο - θεμελιώδη για τις στατιστικές - κατά την ανάλυση των πινάκων έκτακτης ανάγκης). Έτσι, για την περίπτωση της Δημοκρατίας της Αδύγεας, το υπόλοιπο θα είναι 3,92 - 5,63 = -1,71. Όσο μεγαλύτερη είναι η τιμή modulo του υπολοίπου, τόσο λιγότερο καλά προβλεπόμενη τιμή.

Υπολογίζουμε τις προβλεπόμενες τιμές και τα υπολείμματα για όλες τις περιπτώσεις:
Συμβαίνει Σάβ. μας. ευχαριστώ

(πρωτότυπο)

ευχαριστώ

(προβλεπόμενο)

Λείψανα
Δημοκρατία της Αδύγεας 47 3,92 5,63 -1,71 -
Δημοκρατία του Αλτάι 76 5,4 2,59 2,81
Δημοκρατία του Μπασκορτοστάν 36 6,04 6,78 -0,74
Δημοκρατία της Μπουριατίας 41 8,36 6,25 2,11
Δημοκρατία του Νταγκεστάν 59 1,22 4,37 -3,15
Δημοκρατία της Ινγκουσετίας 59 0,38 4,37 3,99
Και τα λοιπά.

Η ανάλυση της αναλογίας αρχικών και προβλεπόμενων τιμών χρησιμεύει για την αξιολόγηση της ποιότητας του προκύπτοντος μοντέλου, της προγνωστικής του ικανότητας. Ένας από τους κύριους δείκτες των στατιστικών παλινδρόμησης είναι ο πολλαπλός συντελεστής συσχέτισης R - ο συντελεστής συσχέτισης μεταξύ των αρχικών και των προβλεπόμενων τιμών της εξαρτημένης μεταβλητής. Στην ανάλυση ζευγαρωμένης παλινδρόμησης, είναι ίσος με τον συνήθη συντελεστή συσχέτισης Pearson μεταξύ της εξαρτημένης και της ανεξάρτητης μεταβλητής, στην περίπτωσή μας - 0,63. Για να ερμηνευτεί με νόημα το πολλαπλάσιο R, πρέπει να μετατραπεί σε συντελεστή προσδιορισμού. Αυτό γίνεται με τον ίδιο τρόπο όπως και στην ανάλυση συσχέτισης - τετραγωνισμό. Ο συντελεστής προσδιορισμού R-square (R 2) δείχνει την αναλογία διακύμανσης στην εξαρτημένη μεταβλητή που εξηγείται από τις ανεξάρτητες (ανεξάρτητες) μεταβλητές.

Στην περίπτωσή μας, R 2 = 0,39 (0,63 2); Αυτό σημαίνει ότι η μεταβλητή "αναλογία του αγροτικού πληθυσμού" εξηγεί περίπου το 40% της διακύμανσης στη μεταβλητή "υποστήριξη για CPS". Όσο μεγαλύτερη είναι η τιμή του συντελεστή προσδιορισμού, τόσο υψηλότερη είναι η ποιότητα του μοντέλου.

Ένα άλλο μέτρο της ποιότητας του μοντέλου είναι το τυπικό σφάλμα εκτίμησης. Αυτό είναι ένα μέτρο για το πόσο τα σημεία είναι «σκορπισμένα» γύρω από τη γραμμή παλινδρόμησης. Το μέτρο της διασποράς για τις μεταβλητές διαστήματος είναι η τυπική απόκλιση. Συνεπώς, το τυπικό σφάλμα της εκτίμησης είναι η τυπική απόκλιση της κατανομής των υπολειμμάτων. Όσο μεγαλύτερη είναι η αξία του, τόσο μεγαλύτερη είναι η διαφορά και τόσο χειρότερο είναι το μοντέλο. Στην περίπτωσή μας, το τυπικό σφάλμα είναι 2.18. Σε αυτό το ποσό το μοντέλο μας θα «σφάλει κατά μέσο όρο» κατά την πρόβλεψη της τιμής της μεταβλητής «υποστήριξη SPS».

Τα στατιστικά παλινδρόμησης περιλαμβάνουν επίσης ανάλυση διακύμανσης. Με τη βοήθειά του, ανακαλύπτουμε: 1) ποια αναλογία της παραλλαγής (διασποράς) της εξαρτημένης μεταβλητής εξηγείται από την ανεξάρτητη μεταβλητή. 2) ποιο ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής λαμβάνεται υπόψη από τα υπολείμματα (ανεξήγητο μέρος); 3) ποια είναι η αναλογία αυτών των δύο τιμών (/ "-ratio). Τα στατιστικά στοιχεία διασποράς είναι ιδιαίτερα σημαντικά για δειγματοληπτικές μελέτες - δείχνει πόσο πιθανό είναι να υπάρχει σχέση μεταξύ των ανεξάρτητων και των εξαρτημένων μεταβλητών στο γενικό πληθυσμό. , για συνεχείς μελέτες (όπως στο παράδειγμά μας), η μελέτη Σε αυτή την περίπτωση, ελέγχεται εάν το αποκαλυπτόμενο στατιστικό μοτίβο προκαλείται από σύμπτωση τυχαίων περιστάσεων, πόσο χαρακτηριστικό είναι για το σύμπλεγμα συνθηκών στις οποίες βρίσκεται ο ερωτώμενος πληθυσμός , δηλ. διαπιστώνεται ότι το αποτέλεσμα που προκύπτει δεν ισχύει για κάποιο πιο εκτεταμένο γενικό σύνολο, αλλά ο βαθμός της κανονικότητάς του, η ελευθερία από τυχαίες επιρροές.

Στην περίπτωσή μας, η ανάλυση της στατιστικής διακύμανσης έχει ως εξής:

SS df Κυρία φά έννοια
Οπισθοχώρηση. 258,77 1,00 258,77 54,29 0.000000001
Παραμένων 395,59 83,00 L,11
Σύνολο 654,36

Ο λόγος F 54,29 είναι σημαντικός στο επίπεδο 0,0000000001. Αντίστοιχα, μπορούμε με ασφάλεια να απορρίψουμε τη μηδενική υπόθεση (ότι η σχέση που βρήκαμε είναι τυχαία).

Μια παρόμοια λειτουργία εκτελείται με το κριτήριο t, αλλά σε σχέση με τους συντελεστές παλινδρόμησης (γωνιακές και διασταυρώσεις F). Χρησιμοποιώντας το κριτήριο /, ελέγχουμε την υπόθεση ότι οι συντελεστές παλινδρόμησης στο γενικό πληθυσμό είναι ίσοι με μηδέν. Στην περίπτωσή μας, μπορούμε και πάλι να απορρίψουμε με σιγουριά τη μηδενική υπόθεση.

Ανάλυση πολλαπλής παλινδρόμησης

Το μοντέλο πολλαπλής παλινδρόμησης είναι σχεδόν πανομοιότυπο με το μοντέλο παλινδρόμησης κατά ζεύγη. η μόνη διαφορά είναι ότι πολλές ανεξάρτητες μεταβλητές περιλαμβάνονται διαδοχικά στη γραμμική συνάρτηση:

Y = b1X1 + b2X2 + …+ bpXp + a.

Εάν υπάρχουν περισσότερες από δύο ανεξάρτητες μεταβλητές, δεν μπορούμε να πάρουμε μια οπτική αναπαράσταση της σχέσης τους· από αυτή την άποψη, η πολλαπλή παλινδρόμηση είναι λιγότερο «ορατή» από την παλινδρόμηση ζεύγους. Όταν υπάρχουν δύο ανεξάρτητες μεταβλητές, μπορεί να είναι χρήσιμο να εμφανιστούν τα δεδομένα σε ένα τρισδιάστατο scatterplot. Σε επαγγελματικά πακέτα στατιστικού λογισμικού (για παράδειγμα, Statistica) υπάρχει η επιλογή περιστροφής ενός τρισδιάστατου γραφήματος, που επιτρέπει μια καλή οπτική αναπαράσταση της δομής δεδομένων.

Όταν εργάζεστε με πολλαπλή παλινδρόμηση, σε αντίθεση με την παλινδρόμηση ζεύγους, είναι απαραίτητο να προσδιοριστεί ο αλγόριθμος ανάλυσης. Ο τυπικός αλγόριθμος περιλαμβάνει όλους τους διαθέσιμους προγνωστικούς παράγοντες στο τελικό μοντέλο παλινδρόμησης. Ο αλγόριθμος βήμα προς βήμα προϋποθέτει τη διαδοχική συμπερίληψη (εξαίρεση) ανεξάρτητων μεταβλητών, με βάση το επεξηγηματικό «βάρος» τους. Η σταδιακή μέθοδος είναι καλή όταν υπάρχουν πολλές ανεξάρτητες μεταβλητές. "καθαρίζει" το μοντέλο από ειλικρινά αδύναμους προγνωστικούς παράγοντες, καθιστώντας το πιο συμπαγές και συνοπτικό.

Μια πρόσθετη προϋπόθεση για την ορθότητα της πολλαπλής παλινδρόμησης (μαζί με το διάστημα, την κανονικότητα και τη γραμμικότητα) είναι η απουσία πολυσυγγραμμικότητας - η παρουσία ισχυρών συσχετίσεων μεταξύ ανεξάρτητων μεταβλητών.

Η ερμηνεία των στατιστικών πολλαπλής παλινδρόμησης περιλαμβάνει όλα τα στοιχεία που έχουμε εξετάσει για την περίπτωση της παλινδρόμησης κατά ζεύγη. Επιπλέον, υπάρχουν και άλλα σημαντικά στοιχεία στα στατιστικά στοιχεία της ανάλυσης πολλαπλής παλινδρόμησης.

Θα παρουσιάσουμε την εργασία με πολλαπλή παλινδρόμηση στο παράδειγμα δοκιμής υποθέσεων που εξηγούν τις διαφορές στο επίπεδο της εκλογικής δραστηριότητας στις περιοχές της Ρωσίας. Συγκεκριμένες εμπειρικές μελέτες έχουν δείξει ότι η προσέλευση των ψηφοφόρων επηρεάζεται από:

Εθνικός παράγοντας (μεταβλητή "ρωσικός πληθυσμός"· λειτουργεί ως το μερίδιο του ρωσικού πληθυσμού στις συνιστώσες οντότητες της Ρωσικής Ομοσπονδίας). Υποτίθεται ότι η αύξηση του ποσοστού του ρωσικού πληθυσμού οδηγεί σε μείωση της προσέλευσης των ψηφοφόρων.

Συντελεστής αστικοποίησης (μεταβλητή "αστικός πληθυσμός", λειτουργικός ως το μερίδιο του αστικού πληθυσμού στις συνιστώσες οντότητες της Ρωσικής Ομοσπονδίας, έχουμε ήδη εργαστεί με αυτόν τον παράγοντα ως μέρος της ανάλυσης συσχέτισης). Υποτίθεται ότι η αύξηση του ποσοστού του αστικού πληθυσμού οδηγεί επίσης σε μείωση της προσέλευσης των ψηφοφόρων.

Η εξαρτημένη μεταβλητή - "ένταση εκλογικής δραστηριότητας" ("ενεργός") τίθεται σε λειτουργία μέσω των δεδομένων μέσης συμμετοχής για τις περιφέρειες στις ομοσπονδιακές εκλογές από το 1995 έως το 2003. Ο αρχικός πίνακας δεδομένων για δύο ανεξάρτητες και μία εξαρτημένη μεταβλητή θα έχει την ακόλουθη μορφή :

Συμβαίνει Μεταβλητές
Περιουσιακά στοιχεία. Γκορ. μας. Rus. μας.
Δημοκρατία της Αδύγεας 64,92 53 68
Δημοκρατία του Αλτάι 68,60 24 60
Δημοκρατία της Μπουριατίας 60,75 59 70
Δημοκρατία του Νταγκεστάν 79,92 41 9
Δημοκρατία της Ινγκουσετίας 75,05 41 23
Δημοκρατία της Καλμυκίας 68,52 39 37
Δημοκρατία του Καρατσάι-Τσερκ 66,68 44 42
Δημοκρατία της Καρελίας 61,70 73 73
Δημοκρατία της Κόμης 59,60 74 57
Mari El Republic 65,19 62 47

Και τα λοιπά. (μετά τον καθαρισμό των εκπομπών, απομένουν 83 περιπτώσεις από 88)

Στατιστικά στοιχεία που περιγράφουν την ποιότητα του μοντέλου:

1. Πολλαπλάσια R = 0,62; Τετράγωνο L = 0,38. Επομένως, ο εθνικός παράγοντας και ο παράγοντας αστικοποίησης μαζί εξηγούν περίπου το 38% της διακύμανσης στη μεταβλητή «εκλογική δραστηριότητα».

2. Το μέσο σφάλμα είναι 3,38. Έτσι είναι «κατά μέσο όρο» λάθος το κατασκευασμένο μοντέλο κατά την πρόβλεψη του επιπέδου προσέλευσης.

3. /l-αναλογία επεξηγημένης και ανεξήγητης διακύμανσης είναι 25,2 στο επίπεδο 0,000000003. Η μηδενική υπόθεση για την τυχαιότητα των αποκαλυπτόμενων σχέσεων απορρίπτεται.

4. Το κριτήριο / για τους σταθερούς συντελεστές και τους συντελεστές παλινδρόμησης των μεταβλητών "αστικός πληθυσμός" και "Ρωσικός πληθυσμός" είναι σημαντικό στο επίπεδο 0,0000001. 0,00005 και 0,007 αντίστοιχα. Η μηδενική υπόθεση για την τυχαιότητα των συντελεστών απορρίπτεται.

Πρόσθετα χρήσιμα στατιστικά στοιχεία για την ανάλυση του λόγου των αρχικών και των προβλεπόμενων τιμών της εξαρτημένης μεταβλητής είναι η απόσταση Mahalanobis και η απόσταση Cook. Το πρώτο είναι ένα μέτρο της μοναδικότητας της περίπτωσης (δείχνει πόσο ο συνδυασμός τιμών όλων των ανεξάρτητων μεταβλητών για μια δεδομένη περίπτωση αποκλίνει από τη μέση τιμή για όλες τις ανεξάρτητες μεταβλητές ταυτόχρονα). Το δεύτερο είναι ένα μέτρο της επιρροής της υπόθεσης. Διαφορετικές παρατηρήσεις επηρεάζουν την κλίση της γραμμής παλινδρόμησης με διαφορετικούς τρόπους και χρησιμοποιώντας την απόσταση του μάγειρα, μπορείτε να τις συγκρίνετε σύμφωνα με αυτόν τον δείκτη. Αυτό είναι χρήσιμο κατά τον καθαρισμό των ακραίων σημείων (ένα ακραίο στοιχείο μπορεί να θεωρηθεί ως μια υπερβολικά σημαντική περίπτωση).

Στο παράδειγμά μας, το Νταγκεστάν είναι μια από τις μοναδικές και σημαίνουσες περιπτώσεις.

Συμβαίνει Αρχικός

αξίες

Πρέντσκα

αξίες

Λείψανα Απόσταση

Μαχαλανόμπης

Απόσταση
Αδύγεα 64,92 66,33 -1,40 0,69 0,00
Δημοκρατία του Αλτάι 68,60 69.91 -1,31 6,80 0,01
Δημοκρατία της Μπουριατίας 60,75 65,56 -4,81 0,23 0,01
Δημοκρατία του Νταγκεστάν 79,92 71,01 8,91 10,57 0,44
Δημοκρατία της Ινγκουσετίας 75,05 70,21 4,84 6,73 0,08
Δημοκρατία της Καλμυκίας 68,52 69,59 -1,07 4,20 0,00

Το πραγματικό μοντέλο παλινδρόμησης έχει τις ακόλουθες παραμέτρους: Y-intercept (σταθερά) = 75,99; b (Χορ. σαβ.) \u003d -0,1; β (Ρωσ. nas.) = -0,06. Τελική φόρμουλα.

Η ανάλυση παλινδρόμησης είναι μια από τις πιο δημοφιλείς μεθόδους στατιστικής έρευνας. Μπορεί να χρησιμοποιηθεί για τον προσδιορισμό του βαθμού επιρροής των ανεξάρτητων μεταβλητών στην εξαρτημένη μεταβλητή. Η λειτουργικότητα του Microsoft Excel διαθέτει εργαλεία σχεδιασμένα για τη διεξαγωγή αυτού του τύπου ανάλυσης. Ας ρίξουμε μια ματιά σε τι είναι και πώς να τα χρησιμοποιήσετε.

Όμως, για να χρησιμοποιήσετε τη συνάρτηση που σας επιτρέπει να πραγματοποιήσετε ανάλυση παλινδρόμησης, πρώτα απ 'όλα, πρέπει να ενεργοποιήσετε το Πακέτο Ανάλυσης. Μόνο τότε τα απαραίτητα εργαλεία για αυτήν τη διαδικασία θα εμφανιστούν στην κορδέλα του Excel.


Τώρα όταν πάμε στην καρτέλα "Δεδομένα", στην κορδέλα στην εργαλειοθήκη "Ανάλυση"θα δούμε ένα νέο κουμπί - "Ανάλυση δεδομένων".

Τύποι ανάλυσης παλινδρόμησης

Υπάρχουν διάφοροι τύποι παλινδρόμησης:

  • παραβολικός;
  • εξουσία;
  • λογαριθμική?
  • εκθετικός;
  • επίδειξη;
  • υπερβολικός;
  • γραμμικής παλινδρόμησης.

Θα μιλήσουμε λεπτομερέστερα για την υλοποίηση του τελευταίου τύπου ανάλυσης παλινδρόμησης στο Excel αργότερα.

Γραμμική παλινδρόμηση στο Excel

Παρακάτω, για παράδειγμα, είναι ένας πίνακας που δείχνει τη μέση ημερήσια θερμοκρασία αέρα στο δρόμο και τον αριθμό των πελατών του καταστήματος για την αντίστοιχη εργάσιμη ημέρα. Ας μάθουμε με τη βοήθεια της ανάλυσης παλινδρόμησης πώς ακριβώς οι καιρικές συνθήκες με τη μορφή της θερμοκρασίας του αέρα μπορούν να επηρεάσουν την προσέλευση σε ένα κατάστημα λιανικής.

Η γενική εξίσωση γραμμικής παλινδρόμησης μοιάζει με αυτό: Y = a0 + a1x1 + ... + axk. Σε αυτή τη φόρμουλα Υσημαίνει τη μεταβλητή της οποίας την επιρροή προσπαθούμε να μελετήσουμε. Στην περίπτωσή μας, αυτός είναι ο αριθμός των αγοραστών. Εννοια Χείναι οι διάφοροι παράγοντες που επηρεάζουν τη μεταβλητή. Επιλογές έναείναι οι συντελεστές παλινδρόμησης. Δηλαδή, καθορίζουν τη σημασία ενός συγκεκριμένου παράγοντα. Δείκτης κδηλώνει τον συνολικό αριθμό αυτών των ίδιων παραγόντων.


Ανάλυση αποτελεσμάτων ανάλυσης

Τα αποτελέσματα της ανάλυσης παλινδρόμησης εμφανίζονται με τη μορφή πίνακα στη θέση που καθορίζεται στις ρυθμίσεις.

Ένας από τους κύριους δείκτες είναι R-τετράγωνο. Δείχνει την ποιότητα του μοντέλου. Στην περίπτωσή μας, αυτός ο συντελεστής είναι 0,705 ή περίπου 70,5%. Αυτό είναι ένα αποδεκτό επίπεδο ποιότητας. Μια σχέση μικρότερη από 0,5 είναι κακή.

Ένας άλλος σημαντικός δείκτης βρίσκεται στο κελί στη διασταύρωση της γραμμής "Υ-τομή"και στήλη "Συντελεστές". Εδώ υποδεικνύεται ποια τιμή θα έχει το Υ και στην περίπτωσή μας αυτός είναι ο αριθμός των αγοραστών, με όλους τους άλλους παράγοντες ίσους με μηδέν. Σε αυτόν τον πίνακα, αυτή η τιμή είναι 58,04.

Τιμή στην τομή του γραφήματος "Μεταβλητή X1"και "Συντελεστές"δείχνει το επίπεδο εξάρτησης του Υ από το Χ. Στην περίπτωσή μας, αυτό είναι το επίπεδο εξάρτησης του αριθμού των πελατών του καταστήματος από τη θερμοκρασία. Ο συντελεστής 1,31 θεωρείται αρκετά υψηλός δείκτης επιρροής.

Όπως μπορείτε να δείτε, είναι αρκετά εύκολο να δημιουργήσετε έναν πίνακα ανάλυσης παλινδρόμησης χρησιμοποιώντας το Microsoft Excel. Όμως, μόνο ένα εκπαιδευμένο άτομο μπορεί να εργαστεί με τα δεδομένα που λαμβάνονται στην έξοδο και να κατανοήσει την ουσία τους.

ΚΑΤΗΓΟΡΙΕΣ

Δημοφιλή ΑΡΘΡΑ

2022 "kingad.ru" - υπερηχογραφική εξέταση ανθρώπινων οργάνων