Παλινδρομικός εθισμός. Ανάλυση παλινδρόμησης

Στη στατιστική μοντελοποίηση, η ανάλυση παλινδρόμησης είναι μια μελέτη που χρησιμοποιείται για την αξιολόγηση της σχέσης μεταξύ των μεταβλητών. Αυτή η μαθηματική μέθοδος περιλαμβάνει πολλές άλλες μεθόδους για τη μοντελοποίηση και την ανάλυση πολλαπλών μεταβλητών όπου η εστίαση είναι στη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων. Πιο συγκεκριμένα, η ανάλυση παλινδρόμησης μας βοηθά να κατανοήσουμε πώς αλλάζει η τυπική τιμή μιας εξαρτημένης μεταβλητής εάν αλλάξει μία από τις ανεξάρτητες μεταβλητές ενώ οι άλλες ανεξάρτητες μεταβλητές παραμένουν σταθερές.

Σε όλες τις περιπτώσεις, η εκτίμηση στόχος είναι συνάρτηση των ανεξάρτητων μεταβλητών και ονομάζεται συνάρτηση παλινδρόμησης. Στην ανάλυση παλινδρόμησης, είναι επίσης ενδιαφέρον να χαρακτηριστεί η αλλαγή στην εξαρτημένη μεταβλητή ως συνάρτηση της παλινδρόμησης, η οποία μπορεί να περιγραφεί χρησιμοποιώντας μια κατανομή πιθανοτήτων.

Προβλήματα Ανάλυσης Παλινδρόμησης

Αυτή η μέθοδος στατιστικής έρευνας χρησιμοποιείται ευρέως για την πρόβλεψη, όπου η χρήση της έχει σημαντικό πλεονέκτημα, αλλά μερικές φορές μπορεί να οδηγήσει σε ψευδαίσθηση ή ψευδείς σχέσεις, γι' αυτό συνιστάται να χρησιμοποιείται προσεκτικά στο εν λόγω θέμα, καθώς, για παράδειγμα, συσχέτιση δεν σημαίνει αιτία.

Ένας μεγάλος αριθμός μεθόδων έχει αναπτυχθεί για την ανάλυση παλινδρόμησης, όπως η γραμμική και η συνηθισμένη παλινδρόμηση ελαχίστων τετραγώνων, οι οποίες είναι παραμετρικές. Η ουσία τους είναι ότι η συνάρτηση παλινδρόμησης ορίζεται με βάση έναν πεπερασμένο αριθμό άγνωστων παραμέτρων που υπολογίζονται από τα δεδομένα. Η μη παραμετρική παλινδρόμηση επιτρέπει στη συνάρτησή της να βρίσκεται μέσα σε ένα συγκεκριμένο σύνολο συναρτήσεων, το οποίο μπορεί να είναι απεριόριστων διαστάσεων.

Ως μέθοδος στατιστικής έρευνας, η ανάλυση παλινδρόμησης στην πράξη εξαρτάται από τη μορφή της διαδικασίας παραγωγής δεδομένων και από το πώς σχετίζεται με την προσέγγιση παλινδρόμησης. Δεδομένου ότι η πραγματική μορφή της δημιουργίας της διαδικασίας δεδομένων είναι συνήθως ένας άγνωστος αριθμός, η ανάλυση παλινδρόμησης των δεδομένων συχνά εξαρτάται σε κάποιο βαθμό από τις υποθέσεις σχετικά με τη διαδικασία. Αυτές οι παραδοχές μερικές φορές μπορούν να ελεγχθούν εάν υπάρχουν αρκετά διαθέσιμα δεδομένα. Τα μοντέλα παλινδρόμησης είναι συχνά χρήσιμα ακόμη και όταν οι παραδοχές παραβιάζονται μετρίως, αν και μπορεί να μην αποδίδουν στη μέγιστη απόδοση.

Με μια στενότερη έννοια, η παλινδρόμηση μπορεί να αναφέρεται συγκεκριμένα στην εκτίμηση των μεταβλητών συνεχούς απόκρισης, σε αντίθεση με τις διακριτές μεταβλητές απόκρισης που χρησιμοποιούνται στην ταξινόμηση. Η περίπτωση της μεταβλητής συνεχούς εξόδου ονομάζεται επίσης μετρική παλινδρόμηση για να τη διακρίνει από τα σχετικά προβλήματα.

Ιστορία

Η πιο πρώιμη μορφή παλινδρόμησης είναι η γνωστή μέθοδος των ελαχίστων τετραγώνων. Δημοσιεύτηκε από τον Legendre το 1805 και τον Gauss το 1809. Ο Legendre και ο Gauss εφάρμοσαν τη μέθοδο στο πρόβλημα του προσδιορισμού από αστρονομικές παρατηρήσεις τις τροχιές σωμάτων γύρω από τον Ήλιο (κυρίως κομήτες, αλλά αργότερα και νεοανακαλυφθέντες πλανήτες). Ο Gauss δημοσίευσε μια περαιτέρω ανάπτυξη της θεωρίας των ελαχίστων τετραγώνων το 1821, συμπεριλαμβανομένης μιας εκδοχής του θεωρήματος Gauss-Markov.

Ο όρος «οπισθοδρόμηση» επινοήθηκε από τον Φράνσις Γκάλτον τον 19ο αιώνα για να περιγράψει ένα βιολογικό φαινόμενο. Η ιδέα ήταν ότι το ύψος των απογόνων από αυτό των προγόνων τους τείνει να υποχωρεί προς τα κάτω προς την κανονική μέση τιμή. Για τον Galton, η παλινδρόμηση είχε μόνο αυτό το βιολογικό νόημα, αλλά αργότερα το έργο του συνεχίστηκε από τους Udney Yoley και Karl Pearson και τέθηκε σε ένα γενικότερο στατιστικό πλαίσιο. Στην εργασία των Yule και Pearson, η κοινή κατανομή της απόκρισης και των επεξηγηματικών μεταβλητών θεωρείται ότι είναι Gaussian. Αυτή η υπόθεση απορρίφθηκε από τον Fischer σε έγγραφα του 1922 και του 1925. Ο Fisher πρότεινε ότι η υπό όρους κατανομή της μεταβλητής απόκρισης είναι Gaussian, αλλά η κοινή κατανομή δεν χρειάζεται να είναι. Από αυτή την άποψη, η πρόταση του Fischer είναι πιο κοντά στη διατύπωση του Gauss του 1821. Πριν από το 1970, μερικές φορές χρειάζονταν έως και 24 ώρες για να ληφθεί το αποτέλεσμα μιας ανάλυσης παλινδρόμησης.

Οι μέθοδοι ανάλυσης παλινδρόμησης συνεχίζουν να αποτελούν πεδίο ενεργούς έρευνας. Τις τελευταίες δεκαετίες, έχουν αναπτυχθεί νέες μέθοδοι για ισχυρή παλινδρόμηση. παλινδρομήσεις που περιλαμβάνουν συσχετισμένες απαντήσεις. μεθόδους παλινδρόμησης που φιλοξενούν διαφορετικούς τύπους δεδομένων που λείπουν. μη παραμετρική παλινδρόμηση; Μέθοδοι παλινδρόμησης Bayes; παλινδρομήσεις στις οποίες οι μεταβλητές πρόβλεψης μετρώνται με σφάλμα. παλινδρόμηση με περισσότερους προγνωστικούς παράγοντες από τις παρατηρήσεις και συμπέρασμα αιτίου-αποτελέσματος με παλινδρόμηση.

Μοντέλα παλινδρόμησης

Τα μοντέλα ανάλυσης παλινδρόμησης περιλαμβάνουν τις ακόλουθες μεταβλητές:

  • Άγνωστες παράμετροι, που ορίζονται ως βήτα, που μπορεί να είναι βαθμωτές ή διάνυσμα.
  • Ανεξάρτητες Μεταβλητές, X.
  • Εξαρτημένες μεταβλητές, Υ.

Διαφορετικά πεδία της επιστήμης όπου χρησιμοποιείται η ανάλυση παλινδρόμησης χρησιμοποιούν διαφορετικούς όρους στη θέση των εξαρτημένων και ανεξάρτητων μεταβλητών, αλλά σε όλες τις περιπτώσεις το μοντέλο παλινδρόμησης συσχετίζει το Y με μια συνάρτηση των X και β.

Η προσέγγιση συνήθως γράφεται ως E(Y | X) = F(X, β). Για να πραγματοποιηθεί ανάλυση παλινδρόμησης, πρέπει να καθοριστεί ο τύπος της συνάρτησης f. Λιγότερο συχνά, βασίζεται στη γνώση για τη σχέση μεταξύ Y και X, η οποία δεν βασίζεται σε δεδομένα. Εάν αυτή η γνώση δεν είναι διαθέσιμη, τότε επιλέγεται η ευέλικτη ή βολική μορφή F.

Εξαρτημένη μεταβλητή Υ

Ας υποθέσουμε τώρα ότι το διάνυσμα των άγνωστων παραμέτρων β έχει μήκος k. Για την εκτέλεση ανάλυσης παλινδρόμησης, ο χρήστης πρέπει να παρέχει πληροφορίες σχετικά με την εξαρτημένη μεταβλητή Y:

  • Αν παρατηρηθούν N σημεία δεδομένων της μορφής (Y, X), όπου N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Εάν παρατηρούνται ακριβώς N = K και η συνάρτηση F είναι γραμμική, τότε η εξίσωση Y = F(X, β) μπορεί να λυθεί ακριβώς και όχι κατά προσέγγιση. Αυτό ισοδυναμεί με την επίλυση ενός συνόλου Ν-εξισώσεων με Ν-άγνωστα (στοιχεία β) που έχει μοναδική λύση εφόσον το Χ είναι γραμμικά ανεξάρτητο. Εάν η F είναι μη γραμμική, μπορεί να μην υπάρχει λύση ή να υπάρχουν πολλές λύσεις.
  • Η πιο συνηθισμένη κατάσταση είναι όπου παρατηρούνται N > σημεία δεδομένων. Σε αυτήν την περίπτωση, υπάρχουν αρκετές πληροφορίες στα δεδομένα για να εκτιμηθεί μια μοναδική τιμή για το β που ταιριάζει καλύτερα στα δεδομένα και ένα μοντέλο παλινδρόμησης όπου η εφαρμογή στα δεδομένα μπορεί να θεωρηθεί ως ένα υπερκαθορισμένο σύστημα στο β.

Στην τελευταία περίπτωση, η ανάλυση παλινδρόμησης παρέχει εργαλεία για:

  • Εύρεση λύσης για τις άγνωστες παραμέτρους β, η οποία, για παράδειγμα, θα ελαχιστοποιήσει την απόσταση μεταξύ της μετρούμενης και της προβλεπόμενης τιμής του Y.
  • Κάτω από ορισμένες στατιστικές παραδοχές, η ανάλυση παλινδρόμησης χρησιμοποιεί πλεονάζουσες πληροφορίες για να παρέχει στατιστικές πληροφορίες σχετικά με τις άγνωστες παραμέτρους β και τις προβλεπόμενες τιμές της εξαρτημένης μεταβλητής Y.

Απαιτούμενος αριθμός ανεξάρτητων μετρήσεων

Θεωρήστε ένα μοντέλο παλινδρόμησης που έχει τρεις άγνωστες παραμέτρους: β 0 , β 1 και β 2 . Ας υποθέσουμε ότι ο πειραματιστής κάνει 10 μετρήσεις στην ίδια τιμή του διανύσματος X της ανεξάρτητης μεταβλητής. Σε αυτή την περίπτωση, η ανάλυση παλινδρόμησης δεν παράγει ένα μοναδικό σύνολο τιμών. Το καλύτερο που μπορείτε να κάνετε είναι να υπολογίσετε τον μέσο όρο και την τυπική απόκλιση της εξαρτημένης μεταβλητής Y. Ομοίως, μετρώντας δύο διαφορετικές τιμές του X, μπορείτε να αποκτήσετε αρκετά δεδομένα για παλινδρόμηση με δύο άγνωστα, αλλά όχι με τρία ή περισσότερα άγνωστα.

Εάν οι μετρήσεις του πειραματιστή έγιναν σε τρεις διαφορετικές τιμές του ανεξάρτητου μεταβλητού διανύσματος X, τότε η ανάλυση παλινδρόμησης θα παρέχει ένα μοναδικό σύνολο εκτιμήσεων για τις τρεις άγνωστες παραμέτρους στο β.

Στην περίπτωση της γενικής γραμμικής παλινδρόμησης, η παραπάνω δήλωση είναι ισοδύναμη με την απαίτηση ότι ο πίνακας X T X είναι αντιστρέψιμος.

Στατιστικές Υποθέσεις

Όταν ο αριθμός των μετρήσεων N είναι μεγαλύτερος από τον αριθμό των άγνωστων παραμέτρων k και των σφαλμάτων μέτρησης ε i, τότε, κατά κανόνα, οι πλεονάζουσες πληροφορίες που περιέχονται στις μετρήσεις διαδίδονται και χρησιμοποιούνται για στατιστικές προβλέψεις σχετικά με τις άγνωστες παραμέτρους. Αυτή η περίσσεια πληροφοριών ονομάζεται βαθμός ελευθερίας παλινδρόμησης.

Θεμελιώδεις Υποθέσεις

Οι κλασικές παραδοχές για την ανάλυση παλινδρόμησης περιλαμβάνουν:

  • Η δειγματοληψία είναι αντιπροσωπευτική της πρόβλεψης συμπερασμάτων.
  • Ο όρος σφάλματος είναι μια τυχαία μεταβλητή με μέσο όρο μηδέν, ο οποίος εξαρτάται από τις επεξηγηματικές μεταβλητές.
  • Οι ανεξάρτητες μεταβλητές μετρώνται χωρίς σφάλματα.
  • Ως ανεξάρτητες μεταβλητές (προγνωστικοί), είναι γραμμικά ανεξάρτητες, δηλαδή δεν είναι δυνατόν να εκφραστεί κανένας προγνωστικός παράγοντας ως γραμμικός συνδυασμός των άλλων.
  • Τα σφάλματα δεν είναι συσχετισμένα, δηλαδή ο πίνακας συνδιακύμανσης σφάλματος των διαγωνίων και κάθε μη μηδενικό στοιχείο είναι η διακύμανση σφάλματος.
  • Η διακύμανση του σφάλματος είναι σταθερή μεταξύ των παρατηρήσεων (ομοσκεδαστικότητα). Εάν όχι, τότε μπορούν να χρησιμοποιηθούν σταθμισμένα ελάχιστα τετράγωνα ή άλλες μέθοδοι.

Αυτές οι επαρκείς συνθήκες για την εκτίμηση των ελαχίστων τετραγώνων έχουν τις απαιτούμενες ιδιότητες· συγκεκριμένα, αυτές οι παραδοχές σημαίνουν ότι οι εκτιμήσεις παραμέτρων θα είναι αντικειμενικές, συνεπείς και αποτελεσματικές, ειδικά όταν λαμβάνονται υπόψη στην κατηγορία των γραμμικών εκτιμητών. Είναι σημαντικό να σημειωθεί ότι τα στοιχεία σπάνια ικανοποιούν τις προϋποθέσεις. Δηλαδή, η μέθοδος χρησιμοποιείται ακόμα κι αν οι υποθέσεις δεν είναι σωστές. Η απόκλιση από τις παραδοχές μπορεί μερικές φορές να χρησιμοποιηθεί ως μέτρο του πόσο χρήσιμο είναι το μοντέλο. Πολλές από αυτές τις υποθέσεις μπορούν να χαλαρώσουν με πιο προηγμένες μεθόδους. Οι αναφορές στατιστικής ανάλυσης περιλαμβάνουν συνήθως ανάλυση δοκιμών σε δεδομένα δείγματος και μεθοδολογία για τη χρησιμότητα του μοντέλου.

Επιπλέον, οι μεταβλητές σε ορισμένες περιπτώσεις αναφέρονται σε τιμές που μετρώνται σε θέσεις σημείων. Μπορεί να υπάρχουν χωρικές τάσεις και χωρικές αυτοσυσχετίσεις σε μεταβλητές που παραβιάζουν στατιστικές υποθέσεις. Η γεωγραφική σταθμισμένη παλινδρόμηση είναι η μόνη μέθοδος που αντιμετωπίζει τέτοια δεδομένα.

Ένα χαρακτηριστικό της γραμμικής παλινδρόμησης είναι ότι η εξαρτημένη μεταβλητή, η οποία είναι Yi, είναι ένας γραμμικός συνδυασμός παραμέτρων. Για παράδειγμα, η απλή γραμμική παλινδρόμηση χρησιμοποιεί μία ανεξάρτητη μεταβλητή, x i, και δύο παραμέτρους, β 0 και β 1 , για τη μοντελοποίηση n-σημείων.

Στην πολλαπλή γραμμική παλινδρόμηση, υπάρχουν πολλές ανεξάρτητες μεταβλητές ή συναρτήσεις τους.

Όταν λαμβάνεται ένα τυχαίο δείγμα από έναν πληθυσμό, οι παράμετροί του επιτρέπουν σε κάποιον να αποκτήσει ένα δείγμα μοντέλου γραμμικής παλινδρόμησης.

Από αυτή την άποψη, η πιο δημοφιλής είναι η μέθοδος των ελαχίστων τετραγώνων. Χρησιμοποιείται για τη λήψη εκτιμήσεων παραμέτρων που ελαχιστοποιούν το άθροισμα των τετραγωνικών υπολειμμάτων. Αυτό το είδος ελαχιστοποίησης (που είναι τυπικό της γραμμικής παλινδρόμησης) αυτής της συνάρτησης οδηγεί σε ένα σύνολο κανονικών εξισώσεων και σε ένα σύνολο γραμμικών εξισώσεων με παραμέτρους, οι οποίες επιλύονται για να ληφθούν εκτιμήσεις παραμέτρων.

Με την περαιτέρω υπόθεση ότι το σφάλμα πληθυσμού γενικά διαδίδεται, ένας ερευνητής μπορεί να χρησιμοποιήσει αυτές τις τυπικές εκτιμήσεις σφαλμάτων για να δημιουργήσει διαστήματα εμπιστοσύνης και να πραγματοποιήσει δοκιμές υποθέσεων σχετικά με τις παραμέτρους του.

Ανάλυση μη γραμμικής παλινδρόμησης

Ένα παράδειγμα όπου η συνάρτηση δεν είναι γραμμική ως προς τις παραμέτρους υποδεικνύει ότι το άθροισμα των τετραγώνων πρέπει να ελαχιστοποιηθεί χρησιμοποιώντας μια επαναληπτική διαδικασία. Αυτό εισάγει πολλές επιπλοκές που καθορίζουν τις διαφορές μεταξύ γραμμικών και μη γραμμικών μεθόδων ελαχίστων τετραγώνων. Κατά συνέπεια, τα αποτελέσματα της ανάλυσης παλινδρόμησης όταν χρησιμοποιείται μια μη γραμμική μέθοδος είναι μερικές φορές απρόβλεπτα.

Υπολογισμός ισχύος και μέγεθος δείγματος

Γενικά δεν υπάρχουν συνεπείς μέθοδοι σχετικά με τον αριθμό των παρατηρήσεων έναντι του αριθμού των ανεξάρτητων μεταβλητών στο μοντέλο. Ο πρώτος κανόνας προτάθηκε από τους Dobra και Hardin και μοιάζει με N = t^n, όπου N είναι το μέγεθος του δείγματος, n είναι ο αριθμός των ανεξάρτητων μεταβλητών και t είναι ο αριθμός των παρατηρήσεων που απαιτούνται για να επιτευχθεί η επιθυμητή ακρίβεια εάν το μοντέλο είχε μόνο μία ανεξάρτητη μεταβλητή. Για παράδειγμα, ένας ερευνητής δημιουργεί ένα μοντέλο γραμμικής παλινδρόμησης χρησιμοποιώντας ένα σύνολο δεδομένων που περιέχει 1000 ασθενείς (Ν). Εάν ο ερευνητής αποφασίσει ότι χρειάζονται πέντε παρατηρήσεις για τον ακριβή ορισμό της γραμμής (m), τότε ο μέγιστος αριθμός ανεξάρτητων μεταβλητών που μπορεί να υποστηρίξει το μοντέλο είναι 4.

Άλλες μέθοδοι

Αν και οι παράμετροι του μοντέλου παλινδρόμησης εκτιμώνται συνήθως χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων, υπάρχουν και άλλες μέθοδοι που χρησιμοποιούνται πολύ λιγότερο συχνά. Για παράδειγμα, αυτές είναι οι ακόλουθες μέθοδοι:

  • Μπεϋζιανές μέθοδοι (για παράδειγμα, Μπεϋζιανή γραμμική παλινδρόμηση).
  • Ποσοστιαία παλινδρόμηση, που χρησιμοποιείται για καταστάσεις όπου η μείωση των ποσοστιαίων σφαλμάτων θεωρείται καταλληλότερη.
  • Μικρότερες απόλυτες αποκλίσεις, οι οποίες είναι πιο εύρωστες με την παρουσία ακραίων τιμών που οδηγούν σε ποσοστιαία παλινδρόμηση.
  • Μη παραμετρική παλινδρόμηση, η οποία απαιτεί μεγάλο αριθμό παρατηρήσεων και υπολογισμών.
  • Μια μέτρηση εξ αποστάσεως εκμάθησης που μαθαίνεται να βρίσκει μια σημαντική μέτρηση απόστασης σε έναν δεδομένο χώρο εισόδου.

Λογισμικό

Όλα τα μεγάλα πακέτα στατιστικών λογισμικού εκτελούν ανάλυση παλινδρόμησης ελαχίστων τετραγώνων. Η απλή γραμμική παλινδρόμηση και η ανάλυση πολλαπλής παλινδρόμησης μπορούν να χρησιμοποιηθούν σε ορισμένες εφαρμογές υπολογιστικών φύλλων καθώς και σε ορισμένες αριθμομηχανές. Αν και πολλά πακέτα στατιστικού λογισμικού μπορούν να εκτελέσουν διάφορους τύπους μη παραμετρικής και ισχυρής παλινδρόμησης, αυτές οι μέθοδοι είναι λιγότερο τυποποιημένες. διαφορετικά πακέτα λογισμικού εφαρμόζουν διαφορετικές μεθόδους. Εξειδικευμένο λογισμικό παλινδρόμησης έχει αναπτυχθεί για χρήση σε τομείς όπως η ανάλυση εξέτασης και η νευροαπεικόνιση.

Κατά τη διάρκεια των σπουδών τους, οι μαθητές πολύ συχνά συναντούν ποικίλες εξισώσεις. Ένα από αυτά - η εξίσωση παλινδρόμησης - συζητείται σε αυτό το άρθρο. Αυτός ο τύπος εξίσωσης χρησιμοποιείται ειδικά για να περιγράψει τα χαρακτηριστικά της σχέσης μεταξύ μαθηματικών παραμέτρων. Αυτός ο τύπος ισότητας χρησιμοποιείται στη στατιστική και στην οικονομετρία.

Ορισμός παλινδρόμησης

Στα μαθηματικά, παλινδρόμηση σημαίνει μια ορισμένη ποσότητα που περιγράφει την εξάρτηση της μέσης τιμής ενός συνόλου δεδομένων από τις τιμές μιας άλλης ποσότητας. Η εξίσωση παλινδρόμησης δείχνει, ως συνάρτηση ενός συγκεκριμένου χαρακτηριστικού, τη μέση τιμή ενός άλλου χαρακτηριστικού. Η συνάρτηση παλινδρόμησης έχει τη μορφή μιας απλής εξίσωσης y = x, στην οποία το y δρα ως εξαρτημένη μεταβλητή και το x ως ανεξάρτητη μεταβλητή (χαρακτηριστικό-παράγοντας). Στην πραγματικότητα, η παλινδρόμηση εκφράζεται ως y = f (x).

Ποιοι είναι οι τύποι σχέσεων μεταξύ μεταβλητών;

Γενικά, υπάρχουν δύο αντίθετοι τύποι σχέσεων: η συσχέτιση και η παλινδρόμηση.

Η πρώτη χαρακτηρίζεται από την ισότητα των μεταβλητών υπό όρους. Σε αυτή την περίπτωση, δεν είναι αξιόπιστα γνωστό ποια μεταβλητή εξαρτάται από την άλλη.

Εάν δεν υπάρχει ισότητα μεταξύ των μεταβλητών και οι συνθήκες λένε ποια μεταβλητή είναι επεξηγηματική και ποια εξαρτημένη, τότε μπορούμε να μιλήσουμε για την ύπαρξη σύνδεσης του δεύτερου τύπου. Προκειμένου να κατασκευαστεί μια εξίσωση γραμμικής παλινδρόμησης, θα χρειαστεί να βρεθεί ποιος τύπος σχέσης παρατηρείται.

Τύποι παλινδρόμησης

Σήμερα, υπάρχουν 7 διαφορετικοί τύποι παλινδρόμησης: υπερβολική, γραμμική, πολλαπλή, μη γραμμική, κατά ζεύγη, αντίστροφη, λογαριθμικά γραμμική.

Υπερβολική, γραμμική και λογαριθμική

Η εξίσωση γραμμικής παλινδρόμησης χρησιμοποιείται στη στατιστική για να εξηγήσει με σαφήνεια τις παραμέτρους της εξίσωσης. Μοιάζει με y = c+t*x+E. Μια υπερβολική εξίσωση έχει τη μορφή κανονικής υπερβολής y = c + m / x + E. Μια λογαριθμικά γραμμική εξίσωση εκφράζει τη σχέση χρησιμοποιώντας μια λογαριθμική συνάρτηση: Σε y = Σε c + m * Σε x + Σε Ε.

Πολλαπλά και μη γραμμικά

Οι δύο πιο σύνθετοι τύποι παλινδρόμησης είναι πολλαπλοί και μη γραμμικοί. Η εξίσωση πολλαπλής παλινδρόμησης εκφράζεται με τη συνάρτηση y = f(x 1, x 2 ... x c) + E. Σε αυτήν την περίπτωση, η y δρα ως εξαρτημένη μεταβλητή και η x ως επεξηγηματική μεταβλητή. Η μεταβλητή Ε είναι στοχαστική και περιλαμβάνει την επίδραση άλλων παραγόντων στην εξίσωση. Η εξίσωση μη γραμμικής παλινδρόμησης είναι λίγο αμφιλεγόμενη. Αφενός, σε σχέση με τους δείκτες που λαμβάνονται υπόψη, δεν είναι γραμμικός, αφετέρου όμως, σε ρόλο αξιολόγησης δεικτών, είναι γραμμικός.

Αντίστροφοι και ζευγαρωμένοι τύποι παλινδρόμησης

Η αντίστροφη είναι ένας τύπος συνάρτησης που πρέπει να μετατραπεί σε γραμμική μορφή. Στα πιο παραδοσιακά προγράμματα εφαρμογών, έχει τη μορφή συνάρτησης y = 1/c + m*x+E. Μια εξίσωση παλινδρόμησης κατά ζεύγη δείχνει τη σχέση μεταξύ των δεδομένων ως συνάρτηση του y = f (x) + E. Όπως και σε άλλες εξισώσεις, το y εξαρτάται από το x και το E είναι μια στοχαστική παράμετρος.

Έννοια της συσχέτισης

Αυτός είναι ένας δείκτης που καταδεικνύει την ύπαρξη σχέσης μεταξύ δύο φαινομένων ή διεργασιών. Η ισχύς της σχέσης εκφράζεται ως συντελεστής συσχέτισης. Η τιμή του κυμαίνεται στο διάστημα [-1;+1]. Ένας αρνητικός δείκτης υποδηλώνει την παρουσία ανατροφοδότησης, ένας θετικός δείκτης υποδεικνύει άμεση ανατροφοδότηση. Αν ο συντελεστής πάρει μια τιμή ίση με 0, τότε δεν υπάρχει σχέση. Όσο πιο κοντά είναι η τιμή στο 1, τόσο ισχυρότερη είναι η σχέση μεταξύ των παραμέτρων· όσο πιο κοντά στο 0, τόσο πιο αδύναμη είναι.

Μέθοδοι

Οι παραμετρικές μέθοδοι συσχέτισης μπορούν να αξιολογήσουν την ισχύ της σχέσης. Χρησιμοποιούνται με βάση την εκτίμηση κατανομής για τη μελέτη παραμέτρων που υπακούουν στο νόμο της κανονικής κατανομής.

Οι παράμετροι της εξίσωσης γραμμικής παλινδρόμησης είναι απαραίτητες για τον προσδιορισμό του τύπου εξάρτησης, τη συνάρτηση της εξίσωσης παλινδρόμησης και την αξιολόγηση των δεικτών του επιλεγμένου τύπου σχέσης. Το πεδίο συσχέτισης χρησιμοποιείται ως μέθοδος αναγνώρισης σύνδεσης. Για να γίνει αυτό, όλα τα υπάρχοντα δεδομένα πρέπει να απεικονίζονται γραφικά. Όλα τα γνωστά δεδομένα πρέπει να απεικονίζονται σε ένα ορθογώνιο δισδιάστατο σύστημα συντεταγμένων. Έτσι σχηματίζεται ένα πεδίο συσχέτισης. Οι τιμές του συντελεστή περιγραφής σημειώνονται κατά μήκος του άξονα της τετμημένης, ενώ οι τιμές του εξαρτημένου παράγοντα σημειώνονται κατά μήκος του άξονα της τεταγμένης. Εάν υπάρχει λειτουργική σχέση μεταξύ των παραμέτρων, αυτές παρατάσσονται με τη μορφή γραμμής.

Εάν ο συντελεστής συσχέτισης τέτοιων δεδομένων είναι μικρότερος από 30%, μπορούμε να μιλάμε για σχεδόν πλήρη απουσία σύνδεσης. Εάν είναι μεταξύ 30% και 70%, τότε αυτό υποδηλώνει την παρουσία συνδέσεων μεσαίου-κλειστού. Ένας δείκτης 100% είναι απόδειξη μιας λειτουργικής σύνδεσης.

Μια μη γραμμική εξίσωση παλινδρόμησης, ακριβώς όπως μια γραμμική, πρέπει να συμπληρωθεί με έναν δείκτη συσχέτισης (R).

Συσχέτιση για πολλαπλή παλινδρόμηση

Ο συντελεστής προσδιορισμού είναι ένας δείκτης του τετραγώνου της πολλαπλής συσχέτισης. Μιλά για τη στενή σχέση του παρουσιαζόμενου συνόλου δεικτών με το χαρακτηριστικό που μελετάται. Μπορεί επίσης να μιλήσει για τη φύση της επιρροής των παραμέτρων στο αποτέλεσμα. Η εξίσωση πολλαπλής παλινδρόμησης εκτιμάται χρησιμοποιώντας αυτόν τον δείκτη.

Για να υπολογιστεί ο δείκτης πολλαπλής συσχέτισης, είναι απαραίτητο να υπολογιστεί ο δείκτης του.

Μέθοδος ελάχιστου τετραγώνου

Αυτή η μέθοδος είναι ένας τρόπος εκτίμησης των παραγόντων παλινδρόμησης. Η ουσία του είναι να ελαχιστοποιήσει το άθροισμα των τετραγωνικών αποκλίσεων που λαμβάνονται ως αποτέλεσμα της εξάρτησης του παράγοντα από τη συνάρτηση.

Μια κατά ζεύγη γραμμική εξίσωση παλινδρόμησης μπορεί να εκτιμηθεί χρησιμοποιώντας μια τέτοια μέθοδο. Αυτός ο τύπος εξισώσεων χρησιμοποιείται όταν ανιχνεύεται μια ζευγαρωμένη γραμμική σχέση μεταξύ των δεικτών.

Παράμετροι εξίσωσης

Κάθε παράμετρος της συνάρτησης γραμμικής παλινδρόμησης έχει μια συγκεκριμένη σημασία. Η εξίσωση ζευγαρωμένης γραμμικής παλινδρόμησης περιέχει δύο παραμέτρους: c και m. Η παράμετρος m δείχνει τη μέση μεταβολή στον τελικό δείκτη της συνάρτησης y, με την προϋπόθεση ότι η μεταβλητή x μειώνεται (αυξάνεται) κατά μία συμβατική μονάδα. Αν η μεταβλητή x είναι μηδέν, τότε η συνάρτηση είναι ίση με την παράμετρο c. Εάν η μεταβλητή x δεν είναι μηδέν, τότε ο παράγοντας c δεν έχει οικονομική σημασία. Η μόνη επιρροή στη συνάρτηση είναι το πρόσημο μπροστά από τον παράγοντα c. Εάν υπάρχει ένα μείον, τότε μπορούμε να πούμε ότι η αλλαγή στο αποτέλεσμα είναι αργή σε σύγκριση με τον παράγοντα. Εάν υπάρχει ένα συν, τότε αυτό δείχνει μια επιταχυνόμενη αλλαγή στο αποτέλεσμα.

Κάθε παράμετρος που αλλάζει την τιμή της εξίσωσης παλινδρόμησης μπορεί να εκφραστεί μέσω μιας εξίσωσης. Για παράδειγμα, ο παράγοντας c έχει τη μορφή c = y - mx.

Ομαδοποιημένα δεδομένα

Υπάρχουν συνθήκες εργασίας στις οποίες όλες οι πληροφορίες ομαδοποιούνται με το χαρακτηριστικό x, αλλά για μια συγκεκριμένη ομάδα υποδεικνύονται οι αντίστοιχες μέσες τιμές του εξαρτημένου δείκτη. Σε αυτήν την περίπτωση, οι μέσες τιμές χαρακτηρίζουν πώς αλλάζει ο δείκτης ανάλογα με το x. Έτσι, οι ομαδοποιημένες πληροφορίες βοηθούν στην εύρεση της εξίσωσης παλινδρόμησης. Χρησιμοποιείται ως ανάλυση των σχέσεων. Ωστόσο, αυτή η μέθοδος έχει τα μειονεκτήματά της. Δυστυχώς, οι μέσοι δείκτες υπόκεινται συχνά σε εξωτερικές διακυμάνσεις. Αυτές οι διακυμάνσεις δεν αντικατοπτρίζουν το μοτίβο της σχέσης, απλώς συγκαλύπτουν τον «θόρυβο» της. Οι μέσοι όροι δείχνουν μοτίβα σχέσης πολύ χειρότερα από μια εξίσωση γραμμικής παλινδρόμησης. Ωστόσο, μπορούν να χρησιμοποιηθούν ως βάση για την εύρεση μιας εξίσωσης. Πολλαπλασιάζοντας τον αριθμό ενός μεμονωμένου πληθυσμού με τον αντίστοιχο μέσο όρο, μπορεί κανείς να πάρει το άθροισμα y εντός της ομάδας. Στη συνέχεια, πρέπει να αθροίσετε όλα τα ποσά που έχετε λάβει και να βρείτε τον τελικό δείκτη y. Είναι λίγο πιο δύσκολο να κάνετε υπολογισμούς με τον δείκτη αθροίσματος xy. Εάν τα διαστήματα είναι μικρά, μπορούμε να πάρουμε υπό όρους τον δείκτη x για όλες τις μονάδες (εντός της ομάδας) να είναι ίδιος. Θα πρέπει να το πολλαπλασιάσετε με το άθροισμα του y για να βρείτε το άθροισμα των γινομένων των x και y. Στη συνέχεια, όλα τα ποσά αθροίζονται και προκύπτει το συνολικό ποσό xy.

Εξίσωση παλινδρόμησης πολλαπλών ζευγαριών: αξιολόγηση της σημασίας μιας σχέσης

Όπως αναφέρθηκε προηγουμένως, η πολλαπλή παλινδρόμηση έχει μια συνάρτηση της μορφής y = f (x 1,x 2,…,x m)+E. Τις περισσότερες φορές, μια τέτοια εξίσωση χρησιμοποιείται για την επίλυση του προβλήματος της προσφοράς και της ζήτησης για ένα προϊόν, των εσόδων από τόκους από επαναγορασμένες μετοχές και για τη μελέτη των αιτιών και του τύπου της συνάρτησης κόστους παραγωγής. Χρησιμοποιείται επίσης ενεργά σε μια μεγάλη ποικιλία μακροοικονομικών μελετών και υπολογισμών, αλλά σε μικροοικονομικό επίπεδο αυτή η εξίσωση χρησιμοποιείται λίγο λιγότερο συχνά.

Το κύριο καθήκον της πολλαπλής παλινδρόμησης είναι η κατασκευή ενός μοντέλου δεδομένων που περιέχει τεράστιο όγκο πληροφοριών, προκειμένου να προσδιοριστεί περαιτέρω η επίδραση που έχει κάθε ένας από τους παράγοντες ξεχωριστά και στο σύνολό τους στον δείκτη που πρέπει να μοντελοποιηθεί και στους συντελεστές του. Η εξίσωση παλινδρόμησης μπορεί να λάβει μια μεγάλη ποικιλία τιμών. Σε αυτή την περίπτωση, για την αξιολόγηση της σχέσης, χρησιμοποιούνται συνήθως δύο τύποι συναρτήσεων: γραμμικές και μη γραμμικές.

Η γραμμική συνάρτηση απεικονίζεται με τη μορφή της ακόλουθης σχέσης: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Στην περίπτωση αυτή, τα a2, a m θεωρούνται «καθαροί» συντελεστές παλινδρόμησης. Είναι απαραίτητα για τον χαρακτηρισμό της μέσης μεταβολής της παραμέτρου y με αλλαγή (μείωση ή αύξηση) σε κάθε αντίστοιχη παράμετρο x κατά μία μονάδα, με την προϋπόθεση των σταθερών τιμών άλλων δεικτών.

Οι μη γραμμικές εξισώσεις έχουν, για παράδειγμα, τη μορφή μιας συνάρτησης ισχύος y=ax 1 b1 x 2 b2 ...x m bm. Στην περίπτωση αυτή, οι δείκτες b 1, b 2 ..... b m ονομάζονται συντελεστές ελαστικότητας, δείχνουν πώς θα αλλάξει το αποτέλεσμα (κατά πόσο%) με αύξηση (μείωση) στον αντίστοιχο δείκτη x κατά 1% και με σταθερό δείκτη άλλων παραγόντων.

Ποιοι παράγοντες πρέπει να λαμβάνονται υπόψη κατά την κατασκευή πολλαπλής παλινδρόμησης

Προκειμένου να κατασκευαστεί σωστά η πολλαπλή παλινδρόμηση, είναι απαραίτητο να βρούμε σε ποιους παράγοντες πρέπει να δοθεί ιδιαίτερη προσοχή.

Είναι απαραίτητο να έχουμε κάποια κατανόηση της φύσης των σχέσεων μεταξύ των οικονομικών παραγόντων και αυτού που διαμορφώνεται. Οι παράγοντες που θα πρέπει να συμπεριληφθούν πρέπει να πληρούν τα ακόλουθα κριτήρια:

  • Πρέπει να υπόκειται σε ποσοτική μέτρηση. Για να χρησιμοποιηθεί ένας παράγοντας που περιγράφει την ποιότητα ενός αντικειμένου, σε κάθε περίπτωση θα πρέπει να του δοθεί μια ποσοτική μορφή.
  • Δεν πρέπει να υπάρχει αλληλοσυσχέτιση παραγόντων ή λειτουργική σχέση. Τέτοιες ενέργειες οδηγούν τις περισσότερες φορές σε μη αναστρέψιμες συνέπειες - το σύστημα των συνηθισμένων εξισώσεων γίνεται άνευ όρων, και αυτό συνεπάγεται την αναξιοπιστία και τις ασαφείς εκτιμήσεις του.
  • Στην περίπτωση ενός τεράστιου δείκτη συσχέτισης, δεν υπάρχει τρόπος να διαπιστωθεί η μεμονωμένη επίδραση παραγόντων στο τελικό αποτέλεσμα του δείκτη, επομένως, οι συντελεστές γίνονται ανερμήνευτοι.

Μέθοδοι κατασκευής

Υπάρχει ένας τεράστιος αριθμός μεθόδων και μεθόδων που εξηγούν πώς μπορείτε να επιλέξετε παράγοντες για μια εξίσωση. Ωστόσο, όλες αυτές οι μέθοδοι βασίζονται στην επιλογή των συντελεστών χρησιμοποιώντας έναν δείκτη συσχέτισης. Μεταξύ αυτών είναι:

  • Μέθοδος εξάλειψης.
  • Μέθοδος εναλλαγής.
  • Ανάλυση παλινδρόμησης σταδιακά.

Η πρώτη μέθοδος περιλαμβάνει το φιλτράρισμα όλων των συντελεστών από το συνολικό σύνολο. Η δεύτερη μέθοδος περιλαμβάνει την εισαγωγή πολλών πρόσθετων παραγόντων. Λοιπόν, το τρίτο είναι η εξάλειψη των παραγόντων που χρησιμοποιήθηκαν προηγουμένως για την εξίσωση. Κάθε μία από αυτές τις μεθόδους έχει το δικαίωμα ύπαρξης. Έχουν τα πλεονεκτήματα και τα μειονεκτήματά τους, αλλά μπορούν όλοι να λύσουν το ζήτημα της εξάλειψης περιττών δεικτών με τον δικό τους τρόπο. Κατά κανόνα, τα αποτελέσματα που λαμβάνονται από κάθε μεμονωμένη μέθοδο είναι αρκετά κοντά.

Μέθοδοι πολυμεταβλητής ανάλυσης

Τέτοιες μέθοδοι για τον προσδιορισμό των παραγόντων βασίζονται στην εξέταση μεμονωμένων συνδυασμών αλληλένδετων χαρακτηριστικών. Αυτά περιλαμβάνουν ανάλυση διάκρισης, αναγνώριση σχήματος, ανάλυση κύριου συστατικού και ανάλυση συστάδων. Επιπλέον, υπάρχει και παραγοντική ανάλυση, αλλά εμφανίστηκε λόγω της ανάπτυξης της μεθόδου συστατικών. Όλα αυτά ισχύουν υπό ορισμένες συνθήκες, υπό ορισμένες προϋποθέσεις και παράγοντες.

Ο σκοπός της ανάλυσης παλινδρόμησης είναι να μετρήσει τη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας (ανάλυσης παλινδρόμησης κατά ζεύγη) ή περισσότερων (πολλαπλών) ανεξάρτητων μεταβλητών. Οι ανεξάρτητες μεταβλητές ονομάζονται επίσης μεταβλητές παράγοντα, επεξηγηματικό, προσδιοριστικό, παλινδρομικό και προγνωστικό.

Η εξαρτημένη μεταβλητή ονομάζεται μερικές φορές μεταβλητή προσδιορισμένη, επεξηγημένη ή «απόκριση». Η εξαιρετικά διαδεδομένη χρήση της ανάλυσης παλινδρόμησης στην εμπειρική έρευνα δεν οφείλεται μόνο στο γεγονός ότι είναι ένα βολικό εργαλείο για τον έλεγχο υποθέσεων. Η παλινδρόμηση, ειδικά η πολλαπλή παλινδρόμηση, είναι μια αποτελεσματική μέθοδος για τη μοντελοποίηση και την πρόβλεψη.

Ας αρχίσουμε να εξηγούμε τις αρχές της εργασίας με την ανάλυση παλινδρόμησης με μια απλούστερη - τη μέθοδο ζεύγους.

Ανάλυση ζευγών παλινδρόμησης

Τα πρώτα βήματα κατά τη χρήση της ανάλυσης παλινδρόμησης θα είναι σχεδόν ίδια με εκείνα που κάναμε για τον υπολογισμό του συντελεστή συσχέτισης. Οι τρεις βασικές προϋποθέσεις για την αποτελεσματικότητα της ανάλυσης συσχέτισης χρησιμοποιώντας τη μέθοδο Pearson - κανονική κατανομή μεταβλητών, μέτρηση διαστήματος μεταβλητών, γραμμική σχέση μεταξύ των μεταβλητών - είναι επίσης σχετικές για την πολλαπλή παλινδρόμηση. Αντίστοιχα, στο πρώτο στάδιο κατασκευάζονται διαγράμματα διασποράς, πραγματοποιείται στατιστική και περιγραφική ανάλυση των μεταβλητών και υπολογίζεται μια γραμμή παλινδρόμησης. Όπως και στο πλαίσιο της ανάλυσης συσχέτισης, οι γραμμές παλινδρόμησης κατασκευάζονται με τη μέθοδο των ελαχίστων τετραγώνων.

Για να δείξουμε με μεγαλύτερη σαφήνεια τις διαφορές μεταξύ των δύο μεθόδων ανάλυσης δεδομένων, ας στραφούμε στο παράδειγμα που έχει ήδη συζητηθεί με τις μεταβλητές «υποστήριξη SPS» και «μερίδιο αγροτικού πληθυσμού». Τα δεδομένα πηγής είναι πανομοιότυπα. Η διαφορά στα διαγράμματα διασποράς θα είναι ότι στην ανάλυση παλινδρόμησης είναι σωστό να γραφεί η εξαρτημένη μεταβλητή - στην περίπτωσή μας, «υποστήριξη SPS» στον άξονα Υ, ενώ στην ανάλυση συσχέτισης αυτό δεν έχει σημασία. Μετά τον καθαρισμό των ακραίων σημείων, το scatterplot μοιάζει με αυτό:

Η θεμελιώδης ιδέα της ανάλυσης παλινδρόμησης είναι ότι, έχοντας μια γενική τάση για τις μεταβλητές - με τη μορφή μιας γραμμής παλινδρόμησης - είναι δυνατό να προβλεφθεί η τιμή της εξαρτημένης μεταβλητής, δεδομένων των τιμών της ανεξάρτητης.

Ας φανταστούμε μια συνηθισμένη μαθηματική γραμμική συνάρτηση. Οποιαδήποτε ευθεία γραμμή στον Ευκλείδειο χώρο μπορεί να περιγραφεί με τον τύπο:

όπου a είναι μια σταθερά που καθορίζει τη μετατόπιση κατά μήκος του άξονα τεταγμένων. Το b είναι ένας συντελεστής που καθορίζει τη γωνία κλίσης της ευθείας.

Γνωρίζοντας την κλίση και τη σταθερά, μπορείτε να υπολογίσετε (να προβλέψετε) την τιμή του y για οποιοδήποτε x.

Αυτή η απλούστερη συνάρτηση αποτέλεσε τη βάση του μοντέλου ανάλυσης παλινδρόμησης με την προειδοποίηση ότι δεν θα προβλέψουμε την τιμή του y ακριβώς, αλλά μέσα σε ένα συγκεκριμένο διάστημα εμπιστοσύνης, δηλ. κατά προσέγγιση.

Η σταθερά είναι το σημείο τομής της γραμμής παλινδρόμησης και του άξονα y (τομή F, που συνήθως υποδηλώνεται «αναχαιτιστής» σε στατιστικά πακέτα). Στο παράδειγμά μας με την ψηφοφορία για την Ένωση Δεξιών Δυνάμεων, η στρογγυλοποιημένη τιμή του θα είναι 10,55. Ο γωνιακός συντελεστής b θα είναι περίπου -0,1 (όπως στην ανάλυση συσχέτισης, το πρόσημο δείχνει τον τύπο σύνδεσης - άμεση ή αντίστροφη). Έτσι, το μοντέλο που προκύπτει θα έχει τη μορφή SP C = -0,1 x Sel. μας. + 10.55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Η διαφορά μεταξύ της αρχικής και της προβλεπόμενης τιμής ονομάζεται υπόλοιπο (έχουμε ήδη συναντήσει αυτόν τον όρο, ο οποίος είναι θεμελιώδης για τις στατιστικές, κατά την ανάλυση των πινάκων έκτακτης ανάγκης). Άρα, για την περίπτωση της «Δημοκρατίας των Αδύγεων» το υπόλοιπο θα είναι ίσο με 3,92 - 5,63 = -1,71. Όσο μεγαλύτερη είναι η αρθρωτή τιμή του υπολοίπου, τόσο λιγότερο επιτυχώς η προβλεπόμενη τιμή.

Υπολογίζουμε τις προβλεπόμενες τιμές και τα υπολείμματα για όλες τις περιπτώσεις:
Συμβαίνει Κάθισα. μας. ευχαριστώ

(πρωτότυπο)

ευχαριστώ

(προβλεπόμενο)

Αποφάγια
Δημοκρατία της Αδύγεας 47 3,92 5,63 -1,71 -
Δημοκρατία του Αλτάι 76 5,4 2,59 2,81
Δημοκρατία του Μπασκορτοστάν 36 6,04 6,78 -0,74
Δημοκρατία της Μπουριατίας 41 8,36 6,25 2,11
Δημοκρατία του Νταγκεστάν 59 1,22 4,37 -3,15
Δημοκρατία της Ινγκουσετίας 59 0,38 4,37 3,99
Και τα λοιπά.

Η ανάλυση της αναλογίας αρχικών και προβλεπόμενων τιμών χρησιμεύει για την αξιολόγηση της ποιότητας του προκύπτοντος μοντέλου και της προγνωστικής του ικανότητας. Ένας από τους κύριους δείκτες των στατιστικών παλινδρόμησης είναι ο πολλαπλός συντελεστής συσχέτισης R - ο συντελεστής συσχέτισης μεταξύ των αρχικών και των προβλεπόμενων τιμών της εξαρτημένης μεταβλητής. Στην ανάλυση ζευγαρωμένης παλινδρόμησης, είναι ίσος με τον συνήθη συντελεστή συσχέτισης Pearson μεταξύ των εξαρτημένων και ανεξάρτητων μεταβλητών, στην περίπτωσή μας - 0,63. Για να ερμηνευτεί με νόημα το πολλαπλάσιο R, πρέπει να μετατραπεί σε συντελεστή προσδιορισμού. Αυτό γίνεται με τον ίδιο τρόπο όπως στην ανάλυση συσχέτισης - με τετραγωνισμό. Ο συντελεστής προσδιορισμού R-τετράγωνο (R 2) δείχνει την αναλογία διακύμανσης στην εξαρτημένη μεταβλητή που εξηγείται από την ανεξάρτητη μεταβλητή.

Στην περίπτωσή μας, R 2 = 0,39 (0,63 2); Αυτό σημαίνει ότι η μεταβλητή «μερίδιο αγροτικού πληθυσμού» εξηγεί περίπου το 40% της διακύμανσης στη μεταβλητή «υποστήριξη SPS». Όσο μεγαλύτερος είναι ο συντελεστής προσδιορισμού, τόσο υψηλότερη είναι η ποιότητα του μοντέλου.

Ένας άλλος δείκτης ποιότητας μοντέλου είναι το τυπικό σφάλμα εκτίμησης. Αυτό είναι ένα μέτρο του πόσο ευρέως είναι «διασπορά» τα σημεία γύρω από τη γραμμή παλινδρόμησης. Το μέτρο του spread για τις μεταβλητές διαστήματος είναι η τυπική απόκλιση. Συνεπώς, το τυπικό σφάλμα της εκτίμησης είναι η τυπική απόκλιση της κατανομής των υπολειμμάτων. Όσο μεγαλύτερη είναι η τιμή του, τόσο μεγαλύτερη είναι η διασπορά και τόσο χειρότερο είναι το μοντέλο. Στην περίπτωσή μας, το τυπικό σφάλμα είναι 2.18. Σε αυτό το ποσό το μοντέλο μας θα «σφάλει κατά μέσο όρο» κατά την πρόβλεψη της τιμής της μεταβλητής «υποστήριξη SPS».

Οι στατιστικές παλινδρόμησης περιλαμβάνουν επίσης ανάλυση διασποράς. Με τη βοήθειά του, ανακαλύπτουμε: 1) ποια αναλογία της παραλλαγής (διασποράς) της εξαρτημένης μεταβλητής εξηγείται από την ανεξάρτητη μεταβλητή. 2) ποιο ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής λαμβάνεται υπόψη από τα υπολείμματα (ανεξήγητο μέρος); 3) ποια είναι η αναλογία αυτών των δύο μεγεθών (/"-ratio). Τα στατιστικά στοιχεία διασποράς είναι ιδιαίτερα σημαντικά για δειγματοληπτικές μελέτες - δείχνει πόσο πιθανό είναι να υπάρχει σχέση μεταξύ των ανεξάρτητων και εξαρτημένων μεταβλητών στον πληθυσμό. Ωστόσο, για συνεχείς μελέτες (όπως στο παράδειγμά μας) τα αποτελέσματα της μελέτης της ανάλυσης διασποράς δεν είναι χρήσιμα. Σε αυτήν την περίπτωση, ελέγχουν εάν το προσδιορισμένο στατιστικό πρότυπο προκαλείται από συνδυασμό τυχαίων περιστάσεων, πόσο χαρακτηριστικό είναι για το σύμπλεγμα συνθηκών στις οποίες Ο πληθυσμός που εξετάζεται εντοπίζεται, δηλ. διαπιστώνεται ότι το αποτέλεσμα που προκύπτει δεν ισχύει για κάποιο ευρύτερο γενικό σύνολο, αλλά ο βαθμός της κανονικότητάς του, η ελευθερία από τυχαίες επιρροές.

Στην περίπτωσή μας, τα στατιστικά ANOVA είναι τα εξής:

SS df Κυρία φά έννοια
Οπισθοχώρηση. 258,77 1,00 258,77 54,29 0.000000001
Υπόλοιπο 395,59 83,00 L,11
Σύνολο 654,36

Ο λόγος F 54,29 είναι σημαντικός στο επίπεδο 0,0000000001. Συνεπώς, μπορούμε με βεβαιότητα να απορρίψουμε τη μηδενική υπόθεση (ότι η σχέση που ανακαλύψαμε οφείλεται στην τύχη).

Το κριτήριο t εκτελεί παρόμοια λειτουργία, αλλά σε σχέση με τους συντελεστές παλινδρόμησης (γωνιακή και διατομή F). Χρησιμοποιώντας το κριτήριο / ελέγχουμε την υπόθεση ότι στον γενικό πληθυσμό οι συντελεστές παλινδρόμησης είναι ίσοι με μηδέν. Στην περίπτωσή μας, μπορούμε και πάλι να απορρίψουμε με σιγουριά τη μηδενική υπόθεση.

Ανάλυση πολλαπλής παλινδρόμησης

Το μοντέλο πολλαπλής παλινδρόμησης είναι σχεδόν πανομοιότυπο με το μοντέλο ζευγαρωμένης παλινδρόμησης. η μόνη διαφορά είναι ότι πολλές ανεξάρτητες μεταβλητές περιλαμβάνονται διαδοχικά στη γραμμική συνάρτηση:

Y = b1X1 + b2X2 + …+ bpXp + a.

Εάν υπάρχουν περισσότερες από δύο ανεξάρτητες μεταβλητές, δεν μπορούμε να έχουμε μια οπτική ιδέα της σχέσης τους· από αυτή την άποψη, η πολλαπλή παλινδρόμηση είναι λιγότερο «οπτική» από την παλινδρόμηση κατά ζεύγη. Όταν έχετε δύο ανεξάρτητες μεταβλητές, μπορεί να είναι χρήσιμο να εμφανίσετε τα δεδομένα σε ένα τρισδιάστατο scatterplot. Σε επαγγελματικά πακέτα στατιστικού λογισμικού (για παράδειγμα, Statistica) υπάρχει η επιλογή περιστροφής ενός τρισδιάστατου γραφήματος, το οποίο σας επιτρέπει να αναπαραστήσετε οπτικά τη δομή των δεδομένων καλά.

Όταν εργάζεστε με πολλαπλή παλινδρόμηση, σε αντίθεση με την παλινδρόμηση κατά ζεύγη, είναι απαραίτητο να προσδιοριστεί ο αλγόριθμος ανάλυσης. Ο τυπικός αλγόριθμος περιλαμβάνει όλους τους διαθέσιμους προγνωστικούς παράγοντες στο τελικό μοντέλο παλινδρόμησης. Ο αλγόριθμος βήμα προς βήμα περιλαμβάνει τη διαδοχική συμπερίληψη (εξαίρεση) ανεξάρτητων μεταβλητών με βάση το επεξηγηματικό «βάρος» τους. Η σταδιακή μέθοδος είναι καλή όταν υπάρχουν πολλές ανεξάρτητες μεταβλητές. «καθαρίζει» το μοντέλο από ειλικρινά αδύναμους προγνωστικούς παράγοντες, καθιστώντας το πιο συμπαγές και συνοπτικό.

Μια πρόσθετη προϋπόθεση για την ορθότητα της πολλαπλής παλινδρόμησης (μαζί με το διάστημα, την κανονικότητα και τη γραμμικότητα) είναι η απουσία πολυσυγγραμμικότητας - η παρουσία ισχυρών συσχετίσεων μεταξύ ανεξάρτητων μεταβλητών.

Η ερμηνεία των στατιστικών πολλαπλής παλινδρόμησης περιλαμβάνει όλα τα στοιχεία που εξετάσαμε για την περίπτωση της παλινδρόμησης κατά ζεύγη. Επιπλέον, υπάρχουν άλλα σημαντικά στοιχεία στα στατιστικά στοιχεία της ανάλυσης πολλαπλής παλινδρόμησης.

Θα παρουσιάσουμε την εργασία με πολλαπλή παλινδρόμηση χρησιμοποιώντας το παράδειγμα δοκιμής υποθέσεων που εξηγούν διαφορές στο επίπεδο της εκλογικής δραστηριότητας στις ρωσικές περιοχές. Συγκεκριμένες εμπειρικές μελέτες έχουν δείξει ότι τα επίπεδα προσέλευσης των ψηφοφόρων επηρεάζονται από:

Εθνικός παράγοντας (μεταβλητή «ρωσικός πληθυσμός»· λειτουργικός ως το μερίδιο του ρωσικού πληθυσμού στις συνιστώσες οντότητες της Ρωσικής Ομοσπονδίας). Υποτίθεται ότι η αύξηση του μεριδίου του ρωσικού πληθυσμού οδηγεί σε μείωση της προσέλευσης των ψηφοφόρων.

Συντελεστής αστικοποίησης (η μεταβλητή «αστικός πληθυσμός», λειτουργική ως το μερίδιο του αστικού πληθυσμού στις συνιστώσες οντότητες της Ρωσικής Ομοσπονδίας· έχουμε ήδη εργαστεί με αυτόν τον παράγοντα ως μέρος της ανάλυσης συσχέτισης). Υποτίθεται ότι η αύξηση του μεριδίου του αστικού πληθυσμού οδηγεί επίσης σε μείωση της προσέλευσης των ψηφοφόρων.

Η εξαρτημένη μεταβλητή - «ένταση εκλογικής δραστηριότητας» («ενεργός») ενεργοποιείται μέσω των δεδομένων μέσης συμμετοχής ανά περιφέρεια στις ομοσπονδιακές εκλογές από το 1995 έως το 2003. Ο αρχικός πίνακας δεδομένων για δύο ανεξάρτητες και μία εξαρτημένη μεταβλητή θα είναι ο εξής:

Συμβαίνει Μεταβλητές
Περιουσιακά στοιχεία. Γκορ. μας. Rus. μας.
Δημοκρατία της Αδύγεας 64,92 53 68
Δημοκρατία του Αλτάι 68,60 24 60
Δημοκρατία της Μπουριατίας 60,75 59 70
Δημοκρατία του Νταγκεστάν 79,92 41 9
Δημοκρατία της Ινγκουσετίας 75,05 41 23
Δημοκρατία της Καλμυκίας 68,52 39 37
Δημοκρατία του Καρατσάι-Τσερκ 66,68 44 42
Δημοκρατία της Καρελίας 61,70 73 73
Δημοκρατία της Κόμης 59,60 74 57
Mari El Republic 65,19 62 47

Και τα λοιπά. (μετά τον καθαρισμό των εκπομπών, παραμένουν 83 περιπτώσεις από τις 88)

Στατιστικά στοιχεία που περιγράφουν την ποιότητα του μοντέλου:

1. Πολλαπλάσια R = 0,62; Τετράγωνο L = 0,38. Κατά συνέπεια, ο εθνικός παράγοντας και ο παράγοντας αστικοποίησης εξηγούν από κοινού περίπου το 38% της διακύμανσης στη μεταβλητή «εκλογική δραστηριότητα».

2. Το μέσο σφάλμα είναι 3,38. Αυτό ακριβώς είναι το πόσο «λάθος κατά μέσο όρο» είναι το κατασκευασμένο μοντέλο κατά την πρόβλεψη του επιπέδου προσέλευσης.

3. /l-αναλογία επεξηγημένης και ανεξήγητης διακύμανσης είναι 25,2 στο επίπεδο 0,000000003. Η μηδενική υπόθεση για την τυχαιότητα των σχέσεων που προσδιορίζονται απορρίπτεται.

4. Το κριτήριο / για τους σταθερούς συντελεστές και τους συντελεστές παλινδρόμησης των μεταβλητών «αστικός πληθυσμός» και «ρωσικός πληθυσμός» είναι σημαντικό στο επίπεδο 0,0000001. 0,00005 και 0,007 αντίστοιχα. Η μηδενική υπόθεση ότι οι συντελεστές είναι τυχαίοι απορρίπτεται.

Πρόσθετα χρήσιμα στατιστικά στοιχεία για την ανάλυση της σχέσης μεταξύ των αρχικών και των προβλεπόμενων τιμών της εξαρτημένης μεταβλητής είναι η απόσταση Mahalanobis και η απόσταση Cook. Το πρώτο είναι ένα μέτρο της μοναδικότητας της περίπτωσης (δείχνει πόσο ο συνδυασμός τιμών όλων των ανεξάρτητων μεταβλητών για μια δεδομένη περίπτωση αποκλίνει από τη μέση τιμή για όλες τις ανεξάρτητες μεταβλητές ταυτόχρονα). Το δεύτερο είναι ένα μέτρο της επιρροής της υπόθεσης. Διαφορετικές παρατηρήσεις έχουν διαφορετικά αποτελέσματα στην κλίση της γραμμής παλινδρόμησης και η απόσταση του Cook μπορεί να χρησιμοποιηθεί για τη σύγκριση τους σε αυτόν τον δείκτη. Αυτό μπορεί να είναι χρήσιμο κατά τον καθαρισμό των ακραίων σημείων (ένα ακραίο στοιχείο μπορεί να θεωρηθεί ως μια περίπτωση υπερβολικά επιρροής).

Στο παράδειγμά μας, μοναδικές και σημαντικές περιπτώσεις περιλαμβάνουν το Νταγκεστάν.

Συμβαίνει Πρωτότυπο

αξίες

Πρέντσκα

αξίες

Αποφάγια Απόσταση

Μαχαλανόμπης

Απόσταση
Αδύγεα 64,92 66,33 -1,40 0,69 0,00
Δημοκρατία του Αλτάι 68,60 69.91 -1,31 6,80 0,01
Δημοκρατία της Μπουριατίας 60,75 65,56 -4,81 0,23 0,01
Δημοκρατία του Νταγκεστάν 79,92 71,01 8,91 10,57 0,44
Δημοκρατία της Ινγκουσετίας 75,05 70,21 4,84 6,73 0,08
Δημοκρατία της Καλμυκίας 68,52 69,59 -1,07 4,20 0,00

Το ίδιο το μοντέλο παλινδρόμησης έχει τις ακόλουθες παραμέτρους: Y-τομή (σταθερά) = 75,99; b (οριζόντια) = -0,1; Kommersant (Ρωσικά nas.) = -0,06. Τελική φόρμουλα.

Σε προηγούμενες δημοσιεύσεις, η ανάλυση επικεντρωνόταν συχνά σε μια μεμονωμένη αριθμητική μεταβλητή, όπως οι αποδόσεις αμοιβαίων κεφαλαίων, οι χρόνοι φόρτωσης της ιστοσελίδας ή η κατανάλωση αναψυκτικών. Σε αυτήν και στις επόμενες σημειώσεις, θα εξετάσουμε μεθόδους για την πρόβλεψη των τιμών μιας αριθμητικής μεταβλητής ανάλογα με τις τιμές μιας ή περισσότερων άλλων αριθμητικών μεταβλητών.

Το υλικό θα επεξηγηθεί με ένα εγκάρσιο παράδειγμα. Πρόβλεψη όγκου πωλήσεων σε κατάστημα ρούχων.Η αλυσίδα καταστημάτων εκπτωτικών ρούχων Sunflowers επεκτείνεται συνεχώς εδώ και 25 χρόνια. Ωστόσο, η εταιρεία δεν έχει επί του παρόντος συστηματική προσέγγιση για την επιλογή νέων καταστημάτων. Η τοποθεσία στην οποία μια εταιρεία σκοπεύει να ανοίξει ένα νέο κατάστημα καθορίζεται βάσει υποκειμενικών εκτιμήσεων. Τα κριτήρια επιλογής είναι οι ευνοϊκές συνθήκες ενοικίασης ή η ιδέα του διαχειριστή για την ιδανική τοποθεσία του καταστήματος. Φανταστείτε ότι είστε επικεφαλής του τμήματος ειδικών έργων και προγραμματισμού. Σας έχει ανατεθεί να αναπτύξετε ένα στρατηγικό σχέδιο για το άνοιγμα νέων καταστημάτων. Αυτό το σχέδιο θα πρέπει να περιλαμβάνει μια πρόβλεψη των ετήσιων πωλήσεων για τα νέα καταστήματα. Πιστεύετε ότι ο χώρος λιανικής σχετίζεται άμεσα με τα έσοδα και θέλετε να το συνυπολογίσετε στη διαδικασία λήψης αποφάσεων. Πώς αναπτύσσετε ένα στατιστικό μοντέλο για να προβλέψετε τις ετήσιες πωλήσεις με βάση το μέγεθος ενός νέου καταστήματος;

Συνήθως, η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη των τιμών μιας μεταβλητής. Στόχος του είναι να αναπτύξει ένα στατιστικό μοντέλο που μπορεί να προβλέψει τις τιμές μιας εξαρτημένης μεταβλητής ή απόκρισης από τις τιμές μιας τουλάχιστον ανεξάρτητης ή επεξηγηματικής μεταβλητής. Σε αυτή τη σημείωση, θα εξετάσουμε την απλή γραμμική παλινδρόμηση - μια στατιστική μέθοδο που σας επιτρέπει να προβλέψετε τις τιμές μιας εξαρτημένης μεταβλητής Υαπό ανεξάρτητες μεταβλητές τιμές Χ. Οι επόμενες σημειώσεις θα περιγράψουν ένα μοντέλο πολλαπλής παλινδρόμησης σχεδιασμένο να προβλέπει τις τιμές μιας ανεξάρτητης μεταβλητής Υμε βάση τις τιμές πολλών εξαρτημένων μεταβλητών ( X 1, X 2, …, X k).

Κατεβάστε τη σημείωση σε ή μορφή, παραδείγματα σε μορφή

Τύποι μοντέλων παλινδρόμησης

Οπου ρ 1 – συντελεστής αυτοσυσχέτισης. Αν ρ 1 = 0 (χωρίς αυτοσυσχέτιση), ρε≈ 2; Αν ρ 1 ≈ 1 (θετική αυτοσυσχέτιση), ρε≈ 0; Αν ρ 1 = -1 (αρνητική αυτοσυσχέτιση), ρε ≈ 4.

Στην πράξη, η εφαρμογή του κριτηρίου Durbin-Watson βασίζεται στη σύγκριση της τιμής ρεμε κρίσιμες θεωρητικές αξίες δ ΛΚαι δ Uγια δεδομένο αριθμό παρατηρήσεων n, αριθμός ανεξάρτητων μεταβλητών του μοντέλου κ(για απλή γραμμική παλινδρόμηση κ= 1) και επίπεδο σημαντικότητας α. Αν ρε< d L , η υπόθεση για την ανεξαρτησία των τυχαίων αποκλίσεων απορρίπτεται (επομένως, υπάρχει θετική αυτοσυσχέτιση). Αν D>dU, η υπόθεση δεν απορρίπτεται (δηλαδή δεν υπάρχει αυτοσυσχέτιση). Αν δ Λ< D < d U , δεν υπάρχουν επαρκείς λόγοι για τη λήψη απόφασης. Όταν η υπολογιζόμενη τιμή ρευπερβαίνει το 2, τότε με δ ΛΚαι δ UΔεν συγκρίνεται ο ίδιος ο συντελεστής ρεκαι η έκφραση (4 – ρε).

Για να υπολογίσουμε τα στατιστικά στοιχεία Durbin-Watson στο Excel, ας στραφούμε στον κάτω πίνακα στο Σχ. 14 Απόσυρση υπολοίπου. Ο αριθμητής στην παράσταση (10) υπολογίζεται χρησιμοποιώντας τη συνάρτηση =SUMMAR(array1;array2) και τον παρονομαστή =SUMMAR(array) (Εικ. 16).

Ρύζι. 16. Τύποι υπολογισμού στατιστικών Durbin-Watson

Στο παράδειγμά μας ρε= 0,883. Το κύριο ερώτημα είναι: ποια τιμή της στατιστικής Durbin-Watson θα πρέπει να θεωρηθεί αρκετά μικρή για να συμπεράνουμε ότι υπάρχει θετική αυτοσυσχέτιση; Είναι απαραίτητο να συσχετιστεί η τιμή του D με τις κρίσιμες τιμές ( δ ΛΚαι δ U), ανάλογα με τον αριθμό των παρατηρήσεων nκαι επίπεδο σημαντικότητας α (Εικ. 17).

Ρύζι. 17. Κρίσιμες τιμές στατιστικών Durbin-Watson (τεμάχιο πίνακα)

Έτσι, στο πρόβλημα του όγκου πωλήσεων σε ένα κατάστημα που παραδίδει αγαθά στο σπίτι, υπάρχει μία ανεξάρτητη μεταβλητή ( κ= 1), 15 παρατηρήσεις ( n= 15) και επίπεδο σημαντικότητας α = 0,05. Ως εκ τούτου, δ Λ= 1,08 και ρεU= 1,36. Επειδή η ρε = 0,883 < δ Λ= 1,08, υπάρχει θετική αυτοσυσχέτιση μεταξύ των υπολειμμάτων, η μέθοδος των ελαχίστων τετραγώνων δεν μπορεί να χρησιμοποιηθεί.

Έλεγχος υποθέσεων σχετικά με την κλίση και τον συντελεστή συσχέτισης

Παραπάνω, η παλινδρόμηση χρησιμοποιήθηκε αποκλειστικά για την πρόβλεψη. Για τον προσδιορισμό των συντελεστών παλινδρόμησης και την πρόβλεψη της τιμής μιας μεταβλητής Υγια μια δεδομένη τιμή μεταβλητής ΧΧρησιμοποιήθηκε η μέθοδος των ελαχίστων τετραγώνων. Επιπλέον, εξετάσαμε το ριζικό μέσο τετραγωνικό σφάλμα της εκτίμησης και τον μικτό συντελεστή συσχέτισης. Εάν η ανάλυση των υπολειμμάτων επιβεβαιώσει ότι δεν παραβιάζονται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και ότι το μοντέλο της απλής γραμμικής παλινδρόμησης είναι επαρκές, με βάση τα δεδομένα του δείγματος, μπορεί να υποστηριχθεί ότι υπάρχει γραμμική σχέση μεταξύ των μεταβλητών στο πληθυσμός.

Εφαρμογήt -κριτήρια για την κλίση.Δοκιμάζοντας εάν η κλίση του πληθυσμού β 1 είναι ίση με μηδέν, μπορείτε να προσδιορίσετε εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ των μεταβλητών ΧΚαι Υ. Εάν αυτή η υπόθεση απορριφθεί, μπορεί να υποστηριχθεί ότι μεταξύ των μεταβλητών ΧΚαι Υυπάρχει μια γραμμική σχέση. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: β 1 = 0 (δεν υπάρχει γραμμική εξάρτηση), H1: β 1 ≠ 0 (υπάρχει γραμμική εξάρτηση). Α-πριό t-το στατιστικό είναι ίσο με τη διαφορά μεταξύ της κλίσης του δείγματος και της υποθετικής τιμής της κλίσης του πληθυσμού, διαιρούμενη με το ριζικό μέσο τετραγωνικό σφάλμα της εκτίμησης της κλίσης:

(11) t = (σι 1 β 1 ) / Sb 1

Οπου σι 1 – κλίση άμεσης παλινδρόμησης σε δεδομένα δείγματος, β1 – υποθετική κλίση άμεσου πληθυσμού, και στατιστικά δοκιμών tΕχει t-διανομή με n – 2βαθμοί ελευθερίας.

Ας ελέγξουμε αν υπάρχει στατιστικά σημαντική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων στο α = 0,05. t-το κριτήριο εμφανίζεται μαζί με άλλες παραμέτρους όταν χρησιμοποιείται Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Τα πλήρη αποτελέσματα του πακέτου ανάλυσης φαίνονται στο Σχ. 4, θραύσμα που σχετίζεται με τη στατιστική t - στο Σχ. 18.

Ρύζι. 18. Αποτελέσματα αιτήσεων t

Από τον αριθμό των καταστημάτων n= 14 (βλ. Εικ. 3), κρίσιμη τιμή t- στατιστικές σε επίπεδο σημαντικότητας α = 0,05 μπορούν να βρεθούν χρησιμοποιώντας τον τύπο: t L=STUDENT.ARV(0,025,12) = –2,1788, όπου 0,025 είναι το μισό του επιπέδου σημαντικότητας και 12 = n – 2; t U=STUDENT.OBR(0,975,12) = +2,1788.

Επειδή η t-statistics = 10,64 > t U= 2,1788 (Εικ. 19), μηδενική υπόθεση H 0απορρίφθηκε. Στην άλλη πλευρά, R-τιμή για Χ= 10,6411, υπολογισμένο με τον τύπο =1-STUDENT.DIST(D3,12,TRUE), είναι περίπου ίσο με μηδέν, οπότε η υπόθεση H 0και πάλι απορρίφθηκε. Το γεγονός οτι R-Η τιμή σχεδόν μηδέν σημαίνει ότι αν δεν υπήρχε πραγματική γραμμική σχέση μεταξύ των μεγεθών των καταστημάτων και των ετήσιων πωλήσεων, θα ήταν σχεδόν αδύνατο να εντοπιστεί χρησιμοποιώντας γραμμική παλινδρόμηση. Επομένως, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των μέσων ετήσιων πωλήσεων καταστήματος και του μεγέθους του καταστήματος.

Ρύζι. 19. Έλεγχος της υπόθεσης για την κλίση του πληθυσμού σε επίπεδο σημαντικότητας 0,05 και 12 βαθμών ελευθερίας

Εφαρμογήφά -κριτήρια για την κλίση.Μια εναλλακτική προσέγγιση για τον έλεγχο υποθέσεων σχετικά με την κλίση της απλής γραμμικής παλινδρόμησης είναι να χρησιμοποιηθεί φά-κριτήρια. Να σας το υπενθυμίσουμε φάΤο -test χρησιμοποιείται για τον έλεγχο της σχέσης μεταξύ δύο διακυμάνσεων (για περισσότερες λεπτομέρειες, βλ.). Κατά τον έλεγχο της υπόθεσης της κλίσης, το μέτρο των τυχαίων σφαλμάτων είναι η διακύμανση σφάλματος (το άθροισμα των τετραγωνικών σφαλμάτων διαιρούμενο με τον αριθμό των βαθμών ελευθερίας), άρα φά-το κριτήριο χρησιμοποιεί τον λόγο της διακύμανσης που εξηγείται από την παλινδρόμηση (δηλαδή την τιμή SSR, διαιρούμενο με τον αριθμό των ανεξάρτητων μεταβλητών κ), στη διακύμανση σφάλματος ( MSE = S YΧ 2 ).

Α-πριό φά-το στατιστικό είναι ίσο με το μέσο τετράγωνο παλινδρόμησης (MSR) διαιρούμενο με τη διακύμανση σφάλματος (MSE): φά = MSR/ MSE, Οπου MSR=SSR / κ, MSE =SSE/(n– k – 1), k– αριθμός ανεξάρτητων μεταβλητών στο μοντέλο παλινδρόμησης. Στατιστικά τεστ φάΕχει φά-διανομή με κΚαι n– k – 1βαθμοί ελευθερίας.

Για ένα δεδομένο επίπεδο σημαντικότητας α, ο κανόνας απόφασης διατυπώνεται ως εξής: αν F>FU, η μηδενική υπόθεση απορρίπτεται. διαφορετικά δεν απορρίπτεται. Τα αποτελέσματα, που παρουσιάζονται με τη μορφή ενός συνοπτικού πίνακα ανάλυσης διακύμανσης, φαίνονται στο Σχ. 20.

Ρύζι. 20. Πίνακας ανάλυσης διακύμανσης για τον έλεγχο της υπόθεσης σχετικά με τη στατιστική σημασία του συντελεστή παλινδρόμησης

Επίσης t-κριτήριο φά-το κριτήριο εμφανίζεται στον πίνακα όταν χρησιμοποιείται Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Πλήρη αποτελέσματα της εργασίας Πακέτο ανάλυσηςφαίνονται στο Σχ. 4, θραύσμα που σχετίζεται με φά- στατιστικά - στο Σχ. 21.

Ρύζι. 21. Αποτελέσματα αιτήσεων φά-κριτήρια που λαμβάνονται χρησιμοποιώντας το πακέτο ανάλυσης Excel

Η στατιστική F είναι 113,23 και R-τιμή κοντά στο μηδέν (κελί Σημασίαφά). Εάν το επίπεδο σημαντικότητας α είναι 0,05, προσδιορίστε την κρίσιμη τιμή φά-κατανομές με έναν και 12 βαθμούς ελευθερίας μπορούν να ληφθούν χρησιμοποιώντας τον τύπο F U=F.OBR(1-0,05;1;12) = 4,7472 (Εικ. 22). Επειδή η φά = 113,23 > F U= 4,7472, και R-τιμή κοντά στο 0< 0,05, нулевая гипотеза H 0απορρίπτεται, δηλ. Το μέγεθος ενός καταστήματος σχετίζεται στενά με τις ετήσιες πωλήσεις του.

Ρύζι. 22. Έλεγχος της υπόθεσης κλίσης πληθυσμού σε επίπεδο σημαντικότητας 0,05 με έναν και 12 βαθμούς ελευθερίας

Διάστημα εμπιστοσύνης που περιέχει κλίση β 1 .Για να ελέγξετε την υπόθεση ότι υπάρχει γραμμική σχέση μεταξύ των μεταβλητών, μπορείτε να κατασκευάσετε ένα διάστημα εμπιστοσύνης που να περιέχει την κλίση β 1 και να επαληθεύσετε ότι η υποθετική τιμή β 1 = 0 ανήκει σε αυτό το διάστημα. Το κέντρο του διαστήματος εμπιστοσύνης που περιέχει την κλίση β 1 είναι η κλίση του δείγματος σι 1 , και τα όριά του είναι οι ποσότητες b 1 ±tn –2 Sb 1

Όπως φαίνεται στο Σχ. 18, σι 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0,975,12) = 2,1788. Ως εκ τούτου, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ή + 1,328 ≤ β 1 ≤ +2,012. Έτσι, υπάρχει μια πιθανότητα 0,95 ότι η κλίση του πληθυσμού κυμαίνεται μεταξύ +1.328 και +2.012 (δηλαδή, $1.328.000 έως $2.012.000). Δεδομένου ότι αυτές οι τιμές είναι μεγαλύτερες από το μηδέν, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των ετήσιων πωλήσεων και της περιοχής καταστήματος. Εάν το διάστημα εμπιστοσύνης περιείχε μηδέν, δεν θα υπήρχε σχέση μεταξύ των μεταβλητών. Επιπλέον, το διάστημα εμπιστοσύνης σημαίνει ότι κάθε αύξηση της επιφάνειας του καταστήματος κατά 1.000 τ. ft οδηγεί σε αύξηση του μέσου όγκου πωλήσεων μεταξύ 1.328.000 $ και 2.012.000 $.

Χρήσηt -κριτήρια για τον συντελεστή συσχέτισης.εισήχθη ο συντελεστής συσχέτισης r, το οποίο είναι ένα μέτρο της σχέσης μεταξύ δύο αριθμητικών μεταβλητών. Μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ δύο μεταβλητών. Ας υποδηλώσουμε τον συντελεστή συσχέτισης μεταξύ των πληθυσμών και των δύο μεταβλητών με το σύμβολο ρ. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: ρ = 0 (χωρίς συσχέτιση), H 1: ρ ≠ 0 (υπάρχει συσχέτιση). Έλεγχος ύπαρξης συσχέτισης:

Οπου r = + , Αν σι 1 > 0, r = – , Αν σι 1 < 0. Тестовая статистика tΕχει t-διανομή με n – 2βαθμοί ελευθερίας.

Στο πρόβλημα για την αλυσίδα καταστημάτων Sunflowers r 2= 0,904, α β 1- +1.670 (βλ. Εικ. 4). Επειδή η β 1> 0, ο συντελεστής συσχέτισης μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος είναι r= +√0,904 = +0,951. Ας ελέγξουμε τη μηδενική υπόθεση ότι δεν υπάρχει συσχέτιση μεταξύ αυτών των μεταβλητών χρησιμοποιώντας t-στατιστική:

Σε επίπεδο σημαντικότητας α = 0,05, η μηδενική υπόθεση θα πρέπει να απορριφθεί γιατί t= 10,64 > 2,1788. Έτσι, μπορεί να υποστηριχθεί ότι υπάρχει στατιστικά σημαντική σχέση μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος.

Όταν συζητούνται συμπεράσματα σχετικά με την κλίση του πληθυσμού, τα διαστήματα εμπιστοσύνης και τα τεστ υποθέσεων χρησιμοποιούνται εναλλακτικά. Ωστόσο, ο υπολογισμός του διαστήματος εμπιστοσύνης που περιέχει τον συντελεστή συσχέτισης αποδεικνύεται πιο δύσκολος, δεδομένου ότι ο τύπος της δειγματοληπτικής κατανομής της στατιστικής rεξαρτάται από τον πραγματικό συντελεστή συσχέτισης.

Εκτίμηση μαθηματικής προσδοκίας και πρόβλεψη επιμέρους τιμών

Αυτή η ενότητα εξετάζει μεθόδους για την εκτίμηση της μαθηματικής προσδοκίας μιας απάντησης Υκαι προβλέψεις ατομικών αξιών Υγια δεδομένες τιμές της μεταβλητής Χ.

Κατασκευή ενός διαστήματος εμπιστοσύνης.Στο παράδειγμα 2 (βλ. ενότητα παραπάνω Μέθοδος ελάχιστου τετραγώνου) η εξίσωση παλινδρόμησης κατέστησε δυνατή την πρόβλεψη της τιμής της μεταβλητής Υ Χ. Στο πρόβλημα της επιλογής τοποθεσίας για ένα κατάστημα λιανικής, ο μέσος ετήσιος όγκος πωλήσεων σε ένα κατάστημα με έκταση 4000 τ. πόδια ήταν ίσο με 7,644 εκατομμύρια δολάρια.Ωστόσο, αυτή η εκτίμηση της μαθηματικής προσδοκίας του γενικού πληθυσμού είναι σημειακή. Για την εκτίμηση της μαθηματικής προσδοκίας του πληθυσμού, προτάθηκε η έννοια του διαστήματος εμπιστοσύνης. Ομοίως, μπορούμε να εισαγάγουμε την έννοια διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απάντησηςγια μια δεδομένη τιμή μεταβλητής Χ:

Οπου , = σι 0 + σι 1 X i– η προβλεπόμενη τιμή είναι μεταβλητή Υστο Χ = X i, Σ ΥΧ– ρίζα μέσο τετραγωνικό σφάλμα, n- το μέγεθος του δείγματος, ΧΕγώ- καθορισμένη τιμή της μεταβλητής Χ, µ Υ|Χ = ΧΕγώ– μαθηματική προσδοκία της μεταβλητής Υστο Χ = Xi, SSX =

Η ανάλυση του τύπου (13) δείχνει ότι το πλάτος του διαστήματος εμπιστοσύνης εξαρτάται από διάφορους παράγοντες. Σε ένα δεδομένο επίπεδο σημαντικότητας, μια αύξηση στο πλάτος των διακυμάνσεων γύρω από τη γραμμή παλινδρόμησης, που μετράται χρησιμοποιώντας το ριζικό μέσο τετραγωνικό σφάλμα, οδηγεί σε αύξηση του πλάτους του διαστήματος. Από την άλλη πλευρά, όπως θα περίμενε κανείς, η αύξηση του μεγέθους του δείγματος συνοδεύεται από στένωση του διαστήματος. Επιπλέον, το πλάτος του διαστήματος αλλάζει ανάλογα με τις τιμές ΧΕγώ. Αν η μεταβλητή τιμή Υπροβλεπόμενη για τις ποσότητες Χ, κοντά στη μέση τιμή , το διάστημα εμπιστοσύνης αποδεικνύεται μικρότερο από ό,τι όταν προβλέπεται η απόκριση για τιμές που απέχουν πολύ από το μέσο όρο.

Ας πούμε ότι κατά την επιλογή μιας τοποθεσίας καταστήματος, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τις μέσες ετήσιες πωλήσεις όλων των καταστημάτων των οποίων η επιφάνεια είναι 4000 τετραγωνικά μέτρα. πόδια:

Επομένως, ο μέσος ετήσιος όγκος πωλήσεων σε όλα τα καταστήματα με έκταση 4.000 τ. πόδια, με 95% πιθανότητα να κυμαίνεται από 6,971 έως 8,317 εκατομμύρια δολάρια.

Υπολογίστε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή.Εκτός από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απόκρισης για μια δεδομένη τιμή της μεταβλητής Χ, είναι συχνά απαραίτητο να γνωρίζουμε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή. Αν και ο τύπος για τον υπολογισμό ενός τέτοιου διαστήματος εμπιστοσύνης είναι πολύ παρόμοιος με τον τύπο (13), αυτό το διάστημα περιέχει την προβλεπόμενη τιμή και όχι την εκτίμηση της παραμέτρου. Διάστημα για την προβλεπόμενη απόκριση ΥΧ = Xiγια μια συγκεκριμένη τιμή μεταβλητής ΧΕγώκαθορίζεται από τον τύπο:

Ας υποθέσουμε ότι, όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα λιανικής, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τον προβλεπόμενο ετήσιο όγκο πωλήσεων για ένα κατάστημα του οποίου η έκταση είναι 4000 τετραγωνικά μέτρα. πόδια:

Επομένως, ο προβλεπόμενος ετήσιος όγκος πωλήσεων για ένα κατάστημα με επιφάνεια 4000 τ. πόδια, με πιθανότητα 95% κυμαίνεται από 5,433 έως 9,854 εκατομμύρια δολάρια Όπως μπορούμε να δούμε, το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή απόκρισης είναι πολύ μεγαλύτερο από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία. Αυτό συμβαίνει επειδή η μεταβλητότητα στην πρόβλεψη μεμονωμένων τιμών είναι πολύ μεγαλύτερη από την εκτίμηση της μαθηματικής προσδοκίας.

Παγίδες και ηθικά ζητήματα που σχετίζονται με τη χρήση παλινδρόμησης

Δυσκολίες που σχετίζονται με την ανάλυση παλινδρόμησης:

  • Αγνοώντας τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εσφαλμένη εκτίμηση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Λανθασμένη επιλογή εναλλακτικών μεθόδων όταν παραβιάζονται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εφαρμογή ανάλυσης παλινδρόμησης χωρίς βαθιά γνώση του αντικειμένου της έρευνας.
  • Παρέκταση μιας παλινδρόμησης πέρα ​​από το εύρος της επεξηγηματικής μεταβλητής.
  • Σύγχυση μεταξύ στατιστικών και αιτιακών σχέσεων.

Η ευρεία χρήση υπολογιστικών φύλλων και στατιστικού λογισμικού έχει εξαλείψει τα υπολογιστικά προβλήματα που είχαν παρεμποδίσει τη χρήση της ανάλυσης παλινδρόμησης. Ωστόσο, αυτό οδήγησε στο γεγονός ότι η ανάλυση παλινδρόμησης χρησιμοποιήθηκε από χρήστες που δεν είχαν επαρκή προσόντα και γνώσεις. Πώς μπορούν οι χρήστες να γνωρίζουν εναλλακτικές μεθόδους εάν πολλοί από αυτούς δεν έχουν ιδέα για τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και δεν γνωρίζουν πώς να ελέγξουν την εφαρμογή τους;

Ο ερευνητής δεν πρέπει να παρασυρθεί με τους τσακισμένους αριθμούς - υπολογίζοντας τη μετατόπιση, την κλίση και τον μικτό συντελεστή συσχέτισης. Χρειάζεται βαθύτερη γνώση. Ας το ερμηνεύσουμε αυτό με ένα κλασικό παράδειγμα από σχολικά βιβλία. Ο Anscombe έδειξε ότι και τα τέσσερα σύνολα δεδομένων που φαίνονται στο Σχ. 23, έχουν τις ίδιες παραμέτρους παλινδρόμησης (Εικ. 24).

Ρύζι. 23. Τέσσερα σύνολα τεχνητών δεδομένων

Ρύζι. 24. Ανάλυση παλινδρόμησης τεσσάρων συνόλων τεχνητών δεδομένων. τελείωσα με Πακέτο ανάλυσης(κάντε κλικ στην εικόνα για μεγέθυνση)

Έτσι, από την άποψη της ανάλυσης παλινδρόμησης, όλα αυτά τα σύνολα δεδομένων είναι εντελώς πανομοιότυπα. Αν η ανάλυση τελείωνε εκεί, θα χάναμε πολλές χρήσιμες πληροφορίες. Αυτό αποδεικνύεται από τα διαγράμματα διασποράς (Εικόνα 25) και τα υπολειμματικά διαγράμματα (Εικόνα 26) που κατασκευάστηκαν για αυτά τα σύνολα δεδομένων.

Ρύζι. 25. Γραφήματα διασποράς για τέσσερα σύνολα δεδομένων

Τα διαγράμματα διασποράς και τα υπολειμματικά γραφήματα υποδεικνύουν ότι αυτά τα δεδομένα διαφέρουν μεταξύ τους. Το μόνο σύνολο που κατανέμεται κατά μήκος μιας ευθείας γραμμής είναι το σύνολο Α. Η γραφική παράσταση των υπολειμμάτων που υπολογίζονται από το σύνολο Α δεν έχει κανένα σχέδιο. Αυτό δεν μπορεί να ειπωθεί για τα σύνολα Β, Γ και Δ. Η γραφική παράσταση διασποράς για το σύνολο Β δείχνει ένα έντονο τετραγωνικό σχέδιο. Αυτό το συμπέρασμα επιβεβαιώνεται από το υπολειπόμενο οικόπεδο, το οποίο έχει παραβολικό σχήμα. Το διάγραμμα διασποράς και το υπολειπόμενο διάγραμμα δείχνουν ότι το σύνολο δεδομένων Β περιέχει μια ακραία τιμή. Σε αυτήν την περίπτωση, είναι απαραίτητο να εξαιρεθεί η ακραία τιμή από το σύνολο δεδομένων και να επαναληφθεί η ανάλυση. Μια μέθοδος για τον εντοπισμό και την εξάλειψη των ακραίων τιμών στις παρατηρήσεις ονομάζεται ανάλυση επιρροής. Μετά την εξάλειψη της ακραίας τιμής, το αποτέλεσμα της επανεκτίμησης του μοντέλου μπορεί να είναι εντελώς διαφορετικό. Το διάγραμμα διασποράς που σχεδιάστηκε από δεδομένα από το σύνολο G απεικονίζει μια ασυνήθιστη κατάσταση στην οποία το εμπειρικό μοντέλο εξαρτάται σημαντικά από μια μεμονωμένη απόκριση ( Χ 8 = 19, Υ 8 = 12,5). Τέτοια μοντέλα παλινδρόμησης πρέπει να υπολογίζονται ιδιαίτερα προσεκτικά. Έτσι, τα διαγράμματα διασποράς και τα υπολειμματικά διαγράμματα είναι ένα ουσιαστικό εργαλείο για την ανάλυση παλινδρόμησης και θα πρέπει να αποτελούν αναπόσπαστο μέρος της. Χωρίς αυτές, η ανάλυση παλινδρόμησης δεν είναι αξιόπιστη.

Ρύζι. 26. Υπολειμματικά διαγράμματα για τέσσερα σύνολα δεδομένων

Πώς να αποφύγετε παγίδες στην ανάλυση παλινδρόμησης:

  • Ανάλυση πιθανών σχέσεων μεταξύ μεταβλητών ΧΚαι Υξεκινάτε πάντα σχεδιάζοντας ένα διάγραμμα διασποράς.
  • Πριν ερμηνεύσετε τα αποτελέσματα της ανάλυσης παλινδρόμησης, ελέγξτε τις προϋποθέσεις για την εφαρμογή της.
  • Σχεδιάστε τα υπολείμματα έναντι της ανεξάρτητης μεταβλητής. Αυτό θα επιτρέψει να προσδιοριστεί πόσο καλά ταιριάζει το εμπειρικό μοντέλο με τα αποτελέσματα της παρατήρησης και να ανιχνευθεί παραβίαση της σταθερότητας διασποράς.
  • Χρησιμοποιήστε ιστογράμματα, διαγράμματα στελέχους και φύλλων, διαγράμματα πλαισίου και γραφικές παραστάσεις κανονικής κατανομής για να ελέγξετε την υπόθεση της κανονικής κατανομής σφάλματος.
  • Εάν δεν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, χρησιμοποιήστε εναλλακτικές μεθόδους (για παράδειγμα, μοντέλα τετραγωνικής ή πολλαπλής παλινδρόμησης).
  • Εάν πληρούνται οι προϋποθέσεις για τη δυνατότητα εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, είναι απαραίτητο να ελεγχθεί η υπόθεση σχετικά με τη στατιστική σημασία των συντελεστών παλινδρόμησης και να κατασκευαστούν διαστήματα εμπιστοσύνης που περιέχουν τη μαθηματική προσδοκία και την προβλεπόμενη τιμή απόκρισης.
  • Αποφύγετε την πρόβλεψη τιμών της εξαρτημένης μεταβλητής εκτός του εύρους της ανεξάρτητης μεταβλητής.
  • Λάβετε υπόψη ότι οι στατιστικές σχέσεις δεν είναι πάντα αιτίου-αποτελέσματος. Να θυμάστε ότι η συσχέτιση μεταξύ των μεταβλητών δεν σημαίνει ότι υπάρχει σχέση αιτίου-αποτελέσματος μεταξύ τους.

Περίληψη.Όπως φαίνεται στο μπλοκ διάγραμμα (Εικόνα 27), η σημείωση περιγράφει το απλό μοντέλο γραμμικής παλινδρόμησης, τις προϋποθέσεις για την εφαρμογή του και τον τρόπο δοκιμής αυτών των συνθηκών. Θεωρούνται t-κριτήριο ελέγχου της στατιστικής σημασίας της κλίσης παλινδρόμησης. Χρησιμοποιήθηκε ένα μοντέλο παλινδρόμησης για την πρόβλεψη των τιμών της εξαρτημένης μεταβλητής. Θεωρείται ένα παράδειγμα που σχετίζεται με την επιλογή τοποθεσίας για ένα κατάστημα λιανικής, στο οποίο εξετάζεται η εξάρτηση του ετήσιου όγκου πωλήσεων από την περιοχή του καταστήματος. Οι πληροφορίες που λαμβάνονται σάς επιτρέπουν να επιλέξετε με μεγαλύτερη ακρίβεια μια τοποθεσία για ένα κατάστημα και να προβλέψετε τον ετήσιο όγκο πωλήσεών του. Οι ακόλουθες σημειώσεις θα συνεχίσουν τη συζήτηση της ανάλυσης παλινδρόμησης και θα εξετάσουν επίσης μοντέλα πολλαπλών παλινδρόμησης.

Ρύζι. 27. Σημειώστε διάγραμμα δομής

Χρησιμοποιούνται υλικά από το βιβλίο Levin et al Statistics for Managers. – Μ.: Williams, 2004. – Σελ. 792–872

Εάν η εξαρτημένη μεταβλητή είναι κατηγορική, πρέπει να χρησιμοποιηθεί λογιστική παλινδρόμηση.

ΣΥΜΠΕΡΑΣΜΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Πίνακας 8.3α. Στατιστικά παλινδρόμησης
Στατιστικά παλινδρόμησης
Πληθυντικός R 0,998364
R-τετράγωνο 0,99673
Κανονικοποιημένο R-τετράγωνο 0,996321
Τυπικό σφάλμα 0,42405
Παρατηρήσεις 10

Αρχικά, ας δούμε το πάνω μέρος των υπολογισμών, που παρουσιάζεται στον πίνακα 8.3a - στατιστικά παλινδρόμησης.

Η τιμή R-τετράγωνο, που ονομάζεται επίσης μέτρο βεβαιότητας, χαρακτηρίζει την ποιότητα της γραμμής παλινδρόμησης που προκύπτει. Αυτή η ποιότητα εκφράζεται από τον βαθμό αντιστοιχίας μεταξύ των δεδομένων πηγής και του μοντέλου παλινδρόμησης (υπολογισμένα δεδομένα). Το μέτρο της βεβαιότητας είναι πάντα μέσα στο διάστημα.

Στις περισσότερες περιπτώσεις, η τιμή R-τετράγωνο πέφτει μεταξύ αυτών των τιμών, που ονομάζονται ακραίες τιμές, δηλ. μεταξύ μηδέν και ενός.

Εάν η τιμή R-τετράγωνο είναι κοντά στο ένα, αυτό σημαίνει ότι το κατασκευασμένο μοντέλο εξηγεί σχεδόν όλη τη μεταβλητότητα στις σχετικές μεταβλητές. Αντίθετα, μια τιμή R-τετράγωνο κοντά στο μηδέν σημαίνει ότι η ποιότητα του κατασκευασμένου μοντέλου είναι κακή.

Στο παράδειγμά μας, το μέτρο βεβαιότητας είναι 0,99673, το οποίο υποδεικνύει μια πολύ καλή προσαρμογή της γραμμής παλινδρόμησης στα αρχικά δεδομένα.

Πληθυντικός R- πολλαπλός συντελεστής συσχέτισης R - εκφράζει το βαθμό εξάρτησης των ανεξάρτητων μεταβλητών (X) και της εξαρτημένης μεταβλητής (Y).

Το πολλαπλάσιο R είναι ίσο με την τετραγωνική ρίζα του συντελεστή προσδιορισμού· αυτή η ποσότητα παίρνει τιμές στην περιοχή από μηδέν έως ένα.

Στην απλή γραμμική ανάλυση παλινδρόμησης, το πολλαπλάσιο R είναι ίσο με τον συντελεστή συσχέτισης Pearson. Πράγματι, το πολλαπλάσιο R στην περίπτωσή μας είναι ίσο με τον συντελεστή συσχέτισης Pearson από το προηγούμενο παράδειγμα (0,998364).

Πίνακας 8.3β. Συντελεστές παλινδρόμησης
Πιθανότητα Τυπικό σφάλμα t-statistic
Υ-τομή 2,694545455 0,33176878 8,121757129
Μεταβλητή X 1 2,305454545 0,04668634 49,38177965
* Παρέχεται μια περικομμένη έκδοση των υπολογισμών

Τώρα εξετάστε το μεσαίο τμήμα των υπολογισμών, που παρουσιάζεται στον πίνακα 8.3β. Εδώ δίνεται ο συντελεστής παλινδρόμησης b (2,305454545) και η μετατόπιση κατά μήκος του άξονα τεταγμένων, δηλ. σταθερά α (2,694545455).

Με βάση τους υπολογισμούς, μπορούμε να γράψουμε την εξίσωση παλινδρόμησης ως εξής:

Υ= x*2,305454545+2,694545455

Η κατεύθυνση της σχέσης μεταξύ των μεταβλητών καθορίζεται με βάση τα πρόσημα (αρνητικά ή θετικά) συντελεστές παλινδρόμησης(συντελεστής β).

Εάν η πινακίδα στο συντελεστής παλινδρόμησης- θετική, η σχέση μεταξύ της εξαρτημένης μεταβλητής και της ανεξάρτητης μεταβλητής θα είναι θετική. Στην περίπτωσή μας, το πρόσημο του συντελεστή παλινδρόμησης είναι θετικό, επομένως, η σχέση είναι επίσης θετική.

Εάν η πινακίδα στο συντελεστής παλινδρόμησης- αρνητική, η σχέση μεταξύ της εξαρτημένης μεταβλητής και της ανεξάρτητης μεταβλητής είναι αρνητική (αντίστροφη).

Στον πίνακα 8.3γ. Παρουσιάζονται τα αποτελέσματα της εξαγωγής υπολειμμάτων. Για να εμφανιστούν αυτά τα αποτελέσματα στην αναφορά, πρέπει να ενεργοποιήσετε το πλαίσιο ελέγχου "Υπολείμματα" κατά την εκτέλεση του εργαλείου "Προσβολή".

ΑΠΟΣΥΡΣΗ ΤΩΝ ΥΠΟΛΟΙΠΩΝ

Πίνακας 8.3γ. Αποφάγια
Παρατήρηση Προέβλεψε ο Υ Αποφάγια Τυπικά υπόλοιπα
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Χρησιμοποιώντας αυτό το μέρος της αναφοράς, μπορούμε να δούμε τις αποκλίσεις κάθε σημείου από την κατασκευασμένη γραμμή παλινδρόμησης. Η μεγαλύτερη απόλυτη τιμή

ΚΑΤΗΓΟΡΙΕΣ

Δημοφιλή ΑΡΘΡΑ

2023 "kingad.ru" - υπερηχογραφική εξέταση ανθρώπινων οργάνων