Analisis data menggunakan metode kuadrat terkecil. Kuadrat Terkecil di Excel

Metode kuadrat terkecil

Dalam pelajaran terakhir dari topik ini, kita akan berkenalan dengan aplikasi paling terkenal FNP, yang menemukan aplikasi terluas di berbagai bidang ilmu pengetahuan dan praktek. Bisa fisika, kimia, biologi, ekonomi, sosiologi, psikologi dan lain sebagainya. Dengan kehendak takdir, saya sering harus berurusan dengan ekonomi, dan karena itu hari ini saya akan mengaturkan Anda tiket ke negara yang menakjubkan bernama ekonometrika=) … Bagaimana Anda tidak menginginkannya?! Sangat bagus di sana - Anda hanya perlu memutuskan! …Tapi yang mungkin Anda inginkan adalah belajar bagaimana memecahkan masalah kuadrat terkecil. Dan terutama pembaca yang rajin akan belajar menyelesaikannya tidak hanya secara akurat, tetapi juga SANGAT CEPAT ;-) Tapi pertama-tama pernyataan umum dari masalah+ contoh terkait:

Biarkan indikator dipelajari di beberapa bidang studi yang memiliki ekspresi kuantitatif. Pada saat yang sama, ada banyak alasan untuk percaya bahwa indikator bergantung pada indikator. Asumsi ini dapat berupa hipotesis ilmiah dan berdasarkan akal sehat dasar. Namun, mari kita kesampingkan sains, dan jelajahi area yang lebih menggugah selera - yaitu, toko kelontong. Dilambangkan dengan:

– ruang ritel toko kelontong, sq.m.,
- omset tahunan toko kelontong, juta rubel.

Cukup jelas bahwa semakin besar area toko, semakin besar omsetnya dalam banyak kasus.

Misalkan setelah melakukan pengamatan / eksperimen / perhitungan / menari dengan rebana, kami memiliki data numerik yang kami miliki:

Dengan toko kelontong, saya pikir semuanya jelas: - ini adalah area toko pertama, - omset tahunannya, - area toko ke-2, - omset tahunannya, dll. Ngomong-ngomong, sama sekali tidak perlu memiliki akses ke materi rahasia - penilaian omset yang cukup akurat dapat diperoleh dengan menggunakan statistik matematika. Namun, jangan terganggu, kursus spionase komersial sudah dibayar =)

Data tabular juga dapat ditulis dalam bentuk titik dan digambarkan dengan cara yang biasa bagi kita. sistem kartesius .

Mari kita jawab pertanyaan penting: berapa banyak poin yang diperlukan untuk studi kualitatif?

Lebih besar lebih baik. Set minimum yang dapat diterima terdiri dari 5-6 poin. Selain itu, dengan jumlah data yang sedikit, hasil “abnormal” tidak boleh dimasukkan dalam sampel. Jadi, misalnya, toko elit kecil dapat membantu lebih banyak daripada "rekan mereka", sehingga mendistorsi pola umum yang perlu ditemukan!



Jika cukup sederhana, kita perlu memilih fungsi , jadwal yang melewati sedekat mungkin ke titik . Fungsi seperti ini disebut mendekati (perkiraan - perkiraan) atau fungsi teoritis . Secara umum, di sini segera muncul "penipu" yang jelas - polinomial tingkat tinggi, yang grafiknya melewati SEMUA titik. Tetapi opsi ini rumit, dan seringkali tidak benar. (karena grafik akan "berputar" sepanjang waktu dan kurang mencerminkan tren utama).

Dengan demikian, fungsi yang diinginkan harus cukup sederhana dan pada saat yang sama mencerminkan ketergantungan secara memadai. Seperti yang Anda duga, salah satu metode untuk menemukan fungsi seperti itu disebut kuadrat terkecil. Pertama, mari kita menganalisis esensinya secara umum. Biarkan beberapa fungsi mendekati data eksperimen:


Bagaimana cara mengevaluasi keakuratan pendekatan ini? Mari kita juga menghitung perbedaan (penyimpangan) antara nilai eksperimental dan fungsional (kami mempelajari gambarnya). Pikiran pertama yang muncul di benak adalah memperkirakan seberapa besar jumlahnya, tetapi masalahnya adalah perbedaannya bisa negatif. (Misalnya, ) dan penyimpangan sebagai akibat dari penjumlahan tersebut akan membatalkan satu sama lain. Oleh karena itu, sebagai perkiraan keakuratan aproksimasi, ia menyarankan dirinya untuk mengambil jumlah modul penyimpangan:

atau dalam bentuk terlipat: (bagi yang belum tahu: adalah ikon penjumlahan, dan - variabel tambahan - "penghitung", yang mengambil nilai dari 1 hingga ) .

Mendekati titik percobaan dengan fungsi yang berbeda, kita akan mendapatkan nilai yang berbeda, dan jelas di mana jumlah ini kurang - fungsi itu lebih akurat.

Metode seperti itu ada dan disebut metode modulus terkecil. Namun, dalam praktiknya telah menjadi jauh lebih luas. metode kuadrat terkecil, di mana kemungkinan nilai negatif dihilangkan bukan oleh modulus, tetapi dengan mengkuadratkan deviasi:



, setelah itu upaya diarahkan pada pemilihan fungsi sedemikian rupa sehingga jumlah deviasi kuadrat adalah sekecil mungkin. Sebenarnya, itulah nama metodenya.

Dan sekarang kita kembali ke poin penting lainnya: seperti disebutkan di atas, fungsi yang dipilih seharusnya cukup sederhana - tetapi ada juga banyak fungsi seperti itu: linier , hiperbolis , eksponensial , logaritma , kuadrat dll. Dan, tentu saja, di sini saya ingin segera "mengurangi bidang kegiatan". Kelas fungsi apa yang harus dipilih untuk penelitian? Teknik primitif tapi efektif:

- Cara termudah untuk menarik poin pada gambar dan menganalisis lokasi mereka. Jika mereka cenderung berada dalam garis lurus, maka Anda harus mencari persamaan garis lurus dengan nilai optimal dan . Dengan kata lain, tugasnya adalah menemukan koefisien TERSEBUT - sehingga jumlah deviasi kuadrat adalah yang terkecil.

Jika titik-titik itu terletak, misalnya, di sepanjang hiperbola, maka jelas bahwa fungsi linier akan memberikan aproksimasi yang buruk. Dalam hal ini, kami mencari koefisien yang paling "menguntungkan" untuk persamaan hiperbola - koefisien yang memberikan jumlah kuadrat minimum .

Sekarang perhatikan bahwa dalam kedua kasus yang kita bicarakan fungsi dua variabel, yang argumennya adalah opsi ketergantungan yang dicari:

Dan pada intinya, kita perlu memecahkan masalah standar - untuk menemukan minimal fungsi dari dua variabel.

Ingat contoh kita: misalkan titik "toko" cenderung terletak pada garis lurus dan ada banyak alasan untuk mempercayai kehadirannya ketergantungan linier omset dari area perdagangan. Mari kita cari koefisien TERSEBUT "a" dan "menjadi" sehingga jumlah deviasi kuadrat adalah yang terkecil. Semuanya seperti biasa - pertama turunan parsial dari orde pertama. Berdasarkan aturan linearitas anda dapat membedakan tepat di bawah ikon jumlah:

Jika Anda ingin menggunakan informasi ini untuk esai atau kursus, saya akan sangat berterima kasih atas tautan dalam daftar sumber, Anda tidak akan menemukan perhitungan terperinci seperti itu di mana pun:

Mari kita membuat sistem standar:

Kami mengurangi setiap persamaan dengan "dua" dan, sebagai tambahan, "memecah" jumlahnya:

Catatan : menganalisis secara independen mengapa "a" dan "menjadi" dapat diambil dari ikon jumlah. Ngomong-ngomong, secara formal ini bisa dilakukan dengan penjumlahan

Mari kita tulis ulang sistem dalam bentuk "terapan":

setelah itu algoritma untuk memecahkan masalah kita mulai ditarik:

Apakah kita mengetahui koordinat titik-titik tersebut? Kita tahu. Jumlah bisa kita temukan? Mudah. Kami membuat yang paling sederhana sistem dua persamaan linier dengan dua yang tidak diketahui("a" dan "beh"). Kami memecahkan sistem, misalnya, Metode Cramer, menghasilkan titik stasioner . Memeriksa kondisi yang cukup untuk ekstrim, kita dapat memverifikasi bahwa pada titik ini fungsinya mencapai tepat minimum. Verifikasi dikaitkan dengan perhitungan tambahan dan oleh karena itu kami akan meninggalkannya di belakang layar. (jika perlu, bingkai yang hilang dapat dilihatdi sini ) . Kami menarik kesimpulan akhir:

Fungsi jalan terbaik (setidaknya dibandingkan dengan fungsi linier lainnya) membawa poin eksperimental lebih dekat . Secara kasar, grafiknya melewati sedekat mungkin ke titik-titik ini. Dalam tradisi ekonometrika fungsi aproksimasi yang dihasilkan juga disebut persamaan regresi linier berpasangan .

Masalah yang sedang dipertimbangkan sangat penting secara praktis. Dalam situasi dengan contoh kita, persamaan memungkinkan Anda untuk memprediksi omset seperti apa ("yg") akan berada di toko dengan satu atau lain nilai area penjualan (satu atau arti lain dari "x"). Ya, ramalan yang dihasilkan hanya akan menjadi ramalan, tetapi dalam banyak kasus ternyata cukup akurat.

Saya akan menganalisis hanya satu masalah dengan angka "nyata", karena tidak ada kesulitan di dalamnya - semua perhitungan berada di level kurikulum sekolah di kelas 7-8. Dalam 95 persen kasus, Anda akan diminta untuk mencari fungsi linier saja, tetapi di akhir artikel saya akan menunjukkan bahwa tidak sulit lagi menemukan persamaan untuk hiperbola optimal, eksponen, dan beberapa fungsi lainnya.

Faktanya, tetap mendistribusikan barang yang dijanjikan - sehingga Anda belajar bagaimana menyelesaikan contoh-contoh seperti itu tidak hanya secara akurat, tetapi juga dengan cepat. Kami mempelajari standar dengan cermat:

Sebuah tugas

Sebagai hasil dari mempelajari hubungan antara dua indikator, pasangan angka berikut diperoleh:

Dengan menggunakan metode kuadrat terkecil, temukan fungsi linier yang paling mendekati fungsi empiris (berpengalaman) data. Buat gambar di mana, dalam sistem koordinat persegi panjang Cartesian, plot titik-titik eksperimental dan grafik fungsi aproksimasi . Temukan jumlah deviasi kuadrat antara nilai empiris dan teoritis. Cari tahu apakah fungsinya lebih baik (dalam hal metode kuadrat terkecil) perkiraan titik percobaan.

Perhatikan bahwa nilai "x" adalah nilai alami, dan ini memiliki makna makna yang khas, yang akan saya bicarakan nanti; tetapi mereka, tentu saja, dapat berupa pecahan. Selain itu, tergantung pada konten tugas tertentu, nilai "X" dan "G" dapat sepenuhnya atau sebagian negatif. Nah, kami telah diberi tugas "tanpa wajah", dan kami memulainya larutan:

Kami menemukan koefisien fungsi optimal sebagai solusi untuk sistem:

Untuk tujuan notasi yang lebih ringkas, variabel “penghitung” dapat dihilangkan, karena sudah jelas bahwa penjumlahan dilakukan dari 1 hingga .

Lebih mudah untuk menghitung jumlah yang diperlukan dalam bentuk tabel:


Perhitungan dapat dilakukan pada mikrokalkulator, tetapi jauh lebih baik menggunakan Excel - lebih cepat dan tanpa kesalahan; tonton video singkatnya:

Dengan demikian, kita mendapatkan yang berikut sistem:

Di sini Anda dapat mengalikan persamaan kedua dengan 3 dan kurangi suku ke-2 dari suku persamaan ke-1 dengan suku. Tapi ini keberuntungan - dalam praktiknya, sistem seringkali tidak berbakat, dan dalam kasus seperti itu menghemat Metode Cramer:
, sehingga sistem memiliki solusi yang unik.

Mari kita lakukan pemeriksaan. Saya mengerti bahwa saya tidak mau, tetapi mengapa melewatkan kesalahan di mana Anda benar-benar tidak dapat melewatkannya? Substitusikan solusi yang ditemukan ke ruas kiri setiap persamaan sistem:

Bagian yang tepat dari persamaan yang sesuai diperoleh, yang berarti bahwa sistem diselesaikan dengan benar.

Jadi, fungsi aproksimasi yang diinginkan: – dari semua fungsi linier data eksperimen paling baik didekati olehnya.

Tidak seperti lurus ketergantungan omset toko pada luasnya, ketergantungan yang ditemukan adalah membalik (prinsip "semakin banyak - semakin sedikit"), dan fakta ini segera terungkap oleh yang negatif koefisien sudut. Fungsi memberi tahu kita bahwa dengan peningkatan indikator tertentu sebesar 1 unit, nilai indikator dependen menurun rata-rata sebesar 0,65 unit. Seperti yang mereka katakan, semakin tinggi harga soba, semakin sedikit yang dijual.

Untuk memplot fungsi aproksimasi, kami menemukan dua nilainya:

dan jalankan gambarnya:

Garis yang dibangun disebut garis tren (yaitu, garis tren linier, yaitu dalam kasus umum, tren tidak harus berupa garis lurus). Semua orang akrab dengan ungkapan "menjadi tren", dan saya pikir istilah ini tidak perlu komentar tambahan.

Hitung jumlah deviasi kuadrat antara nilai empiris dan teoritis. Secara geometris, ini adalah jumlah kuadrat dari panjang segmen "merah" (dua di antaranya sangat kecil sehingga Anda bahkan tidak dapat melihatnya).

Mari kita rangkum perhitungannya dalam sebuah tabel:


Mereka dapat dilakukan lagi secara manual, untuk berjaga-jaga saya akan memberikan contoh untuk poin pertama:

tetapi jauh lebih efisien untuk melakukan cara yang sudah diketahui:

Mari kita ulangi: apa arti dari hasil Dari semua fungsi linier fungsi eksponennya adalah yang terkecil, yaitu aproksimasi terbaik dalam keluarganya. Dan di sini, omong-omong, pertanyaan terakhir dari masalah ini bukanlah kebetulan: bagaimana jika fungsi eksponensial yang diusulkan akan lebih mendekati titik-titik eksperimental?

Mari kita temukan jumlah deviasi kuadrat yang sesuai - untuk membedakannya, saya akan menunjuknya dengan huruf "epsilon". Tekniknya persis sama:

Dan lagi untuk setiap perhitungan api untuk poin pertama:

Di Excel, kami menggunakan fungsi standar EXP (Sintaks dapat ditemukan di Bantuan Excel).

Kesimpulan: , jadi fungsi eksponensial mendekati titik eksperimen lebih buruk daripada garis lurus .

Tetapi perlu dicatat di sini bahwa "lebih buruk" adalah belum berarti, apa yang salah. Sekarang saya membuat grafik fungsi eksponensial ini - dan juga mendekati titik - sedemikian rupa sehingga tanpa studi analitis sulit untuk mengatakan fungsi mana yang lebih akurat.

Ini melengkapi solusinya, dan saya kembali ke pertanyaan tentang nilai-nilai alami dari argumen tersebut. Dalam berbagai penelitian, sebagai aturan, ekonomi atau sosiologis, bulan, tahun, atau interval waktu lain yang sama diberi nomor dengan "X" alami. Pertimbangkan, misalnya, masalah berikut:

Kami memiliki data berikut tentang omset ritel toko untuk paruh pertama tahun ini:

Menggunakan perataan analitik garis lurus, temukan volume penjualan untuk bulan Juli.

Ya, tidak masalah: kami memberi nomor bulan 1, 2, 3, 4, 5, 6 dan menggunakan algoritme yang biasa, sebagai hasilnya kami mendapatkan persamaan - satu-satunya hal tentang waktu biasanya adalah huruf “te ” (walaupun tidak kritis). Persamaan yang dihasilkan menunjukkan bahwa pada semester pertama tahun ini, omzet meningkat rata-rata sebesar Rp 27,74. per bulan. Dapatkan perkiraan untuk bulan Juli (bulan #7): e.u.

Dan tugas serupa - kegelapan itu gelap. Yang mau bisa menggunakan layanan tambahan yaitu my kalkulator excel (versi demo), yang memecahkan masalah hampir seketika! Versi kerja dari program ini tersedia sebagai gantinya atau untuk pembayaran simbolis.

Di akhir pelajaran, informasi singkat tentang menemukan dependensi dari beberapa jenis lain. Sebenarnya, tidak ada yang istimewa untuk diceritakan, karena pendekatan fundamental dan algoritma solusi tetap sama.

Mari kita asumsikan bahwa lokasi titik percobaan menyerupai hiperbola. Kemudian, untuk menemukan koefisien hiperbola terbaik, Anda perlu menemukan fungsi minimum - mereka yang ingin dapat melakukan perhitungan terperinci dan datang ke sistem serupa:

Dari sudut pandang teknis formal, diperoleh dari sistem "linier" (mari kita tandai dengan tanda bintang) mengganti "x" dengan . Nah, jumlahnya hitung, setelah itu ke koefisien optimal "a" dan "menjadi" di tangan.

Jika ada alasan untuk percaya bahwa poin disusun sepanjang kurva logaritmik, kemudian untuk mencari nilai optimal dan menemukan fungsi minimum . Secara formal, dalam sistem (*) harus diganti dengan:

Saat menghitung di Excel, gunakan fungsi LN. Saya akui bahwa tidak akan sulit bagi saya untuk membuat kalkulator untuk setiap kasus yang sedang dipertimbangkan, tetapi akan lebih baik jika Anda "memprogram" perhitungannya sendiri. Video tutorial untuk membantu.

Dengan ketergantungan eksponensial, situasinya sedikit lebih rumit. Untuk mengurangi masalah ke kasus linier, kami mengambil logaritma dari fungsi dan menggunakan sifat-sifat logaritma:

Sekarang, membandingkan fungsi yang diperoleh dengan fungsi linier , kita sampai pada kesimpulan bahwa dalam sistem (*) harus diganti oleh , dan - oleh . Untuk kenyamanan, kami menunjukkan:

Harap dicatat bahwa sistem diselesaikan sehubungan dengan dan , dan oleh karena itu, setelah menemukan akarnya, Anda tidak boleh lupa untuk menemukan koefisien itu sendiri.

Untuk memperkirakan titik eksperimental parabola optimal , harus ditemukan minimal fungsi dari tiga variabel. Setelah melakukan tindakan standar, kami mendapatkan "bekerja" berikut sistem:

Ya tentu saja jumlahnya lebih banyak di sini, tetapi tidak ada kesulitan sama sekali saat menggunakan aplikasi favorit Anda. Dan akhirnya, saya akan memberi tahu Anda cara cepat memeriksa menggunakan Excel dan membangun garis tren yang diinginkan: buat bagan sebar, pilih salah satu titik dengan mouse dan klik kanan pilih opsi "Tambahkan garis tren". Selanjutnya, pilih jenis grafik dan pada tab "Pilihan" aktifkan opsi "Tampilkan persamaan pada grafik". Oke

Seperti biasa, saya ingin mengakhiri artikel dengan frasa yang indah, dan saya hampir mengetik "Jadilah tren!". Namun lama kelamaan dia berubah pikiran. Dan bukan karena formulanya. Saya tidak tahu bagaimana orang, tetapi saya tidak ingin mengikuti tren Amerika dan terutama Eropa yang dipromosikan sama sekali =) Oleh karena itu, saya berharap Anda masing-masing untuk tetap pada jalur Anda sendiri!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Metode kuadrat terkecil adalah salah satu yang paling umum dan paling berkembang karena kesederhanaan dan efisiensi metode untuk memperkirakan parameter model ekonometrik linier. Pada saat yang sama, beberapa kehati-hatian harus diperhatikan saat menggunakannya, karena model yang dibangun dengan menggunakannya mungkin tidak memenuhi sejumlah persyaratan untuk kualitas parameternya dan, sebagai akibatnya, tidak mencerminkan pola pengembangan proses dengan baik.

Mari kita pertimbangkan prosedur untuk memperkirakan parameter model ekonometrik linier menggunakan metode kuadrat terkecil secara lebih rinci. Model seperti itu dalam bentuk umum dapat diwakili oleh persamaan (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + t .

Data awal saat menaksir parameter a 0 , a 1 ,..., a n adalah vektor dari nilai variabel dependen kamu= (y 1 , y 2 , ... , y T)" dan matriks nilai variabel bebas

di mana kolom pertama, yang terdiri dari satu, sesuai dengan koefisien model .

Metode kuadrat terkecil mendapatkan namanya berdasarkan prinsip dasar bahwa estimasi parameter yang diperoleh atas dasarnya harus memenuhi: jumlah kuadrat dari kesalahan model harus minimal.

Contoh penyelesaian masalah dengan metode kuadrat terkecil

Contoh 2.1. Perusahaan perdagangan memiliki jaringan yang terdiri dari 12 toko, informasi tentang kegiatannya disajikan pada Tabel. 2.1.

Manajemen perusahaan ingin mengetahui bagaimana ukuran omset tahunan tergantung pada ruang ritel toko.

Tabel 2.1

Nomor toko Omset tahunan, juta rubel Area perdagangan, ribu m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Solusi kuadrat terkecil. Mari kita tentukan - omset tahunan toko -th, juta rubel; - luas jual toko ke th, ribu m 2.

Gambar 2.1. Scatterplot untuk Contoh 2.1

Untuk menentukan bentuk hubungan fungsional antar variabel dan membangun scatterplot (Gbr. 2.1).

Berdasarkan diagram pencar, kita dapat menyimpulkan bahwa omset tahunan secara positif bergantung pada area penjualan (yaitu, y akan meningkat dengan pertumbuhan ). Bentuk koneksi fungsional yang paling tepat adalah linier.

Informasi untuk perhitungan lebih lanjut disajikan pada Tabel. 2.2. Dengan menggunakan metode kuadrat terkecil, kami memperkirakan parameter model ekonometrik satu faktor linier

Tabel 2.2

t y t x 1t y t 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Rata-rata 68,29 0,89

Lewat sini,

Oleh karena itu, dengan peningkatan area perdagangan sebesar 1 ribu m 2, hal-hal lain dianggap sama, omset tahunan rata-rata meningkat sebesar 67,8871 juta rubel.

Contoh 2.2. Manajemen perusahaan memperhatikan bahwa omset tahunan tidak hanya bergantung pada area penjualan toko (lihat contoh 2.1), tetapi juga pada jumlah rata-rata pengunjung. Informasi yang relevan disajikan dalam tabel. 2.3.

Tabel 2.3

Larutan. Menunjukkan - jumlah rata-rata pengunjung ke toko -th per hari, ribu orang.

Untuk menentukan bentuk hubungan fungsional antar variabel dan membangun scatterplot (Gbr. 2.2).

Berdasarkan diagram pencar, kita dapat menyimpulkan bahwa omset tahunan berhubungan positif dengan jumlah rata-rata pengunjung per hari (yaitu, y akan meningkat dengan pertumbuhan ). Bentuk ketergantungan fungsional adalah linier.

Beras. 2.2. Scatterplot misalnya 2.2

Tabel 2.4

t x 2t x 2t 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Rata-rata 10,65

Secara umum, perlu untuk menentukan parameter model ekonometrik dua faktor

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + t

Informasi yang diperlukan untuk perhitungan lebih lanjut disajikan pada Tabel. 2.4.

Mari kita perkirakan parameter model ekonometrika dua faktor linier menggunakan metode kuadrat terkecil.

Lewat sini,

Evaluasi koefisien = 61,6583 menunjukkan bahwa, semua hal lain dianggap sama, dengan peningkatan area penjualan sebesar 1 ribu m 2, omset tahunan akan meningkat rata-rata 61,6583 juta rubel.

Perkiraan koefisien = 2,2748 menunjukkan bahwa, hal lain dianggap sama, dengan peningkatan rata-rata jumlah pengunjung per 1.000 orang. per hari, omset tahunan akan meningkat rata-rata 2,2748 juta rubel.

Contoh 2.3. Menggunakan informasi yang disajikan dalam tabel. 2.2 dan 2.4, perkirakan parameter model ekonometrik faktor tunggal

di mana nilai terpusat dari omset tahunan toko ke-, juta rubel; - nilai terpusat dari rata-rata jumlah pengunjung harian ke toko ke-t, ribu orang. (lihat contoh 2.1-2.2).

Larutan. Informasi tambahan yang diperlukan untuk perhitungan disajikan dalam Tabel. 2.5.

Tabel 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Jumlah 48,4344 431,0566

Dengan menggunakan rumus (2.35), kita peroleh

Lewat sini,

http://www.cleverstudents.ru/articles/mnk.html

Contoh.

Data eksperimen tentang nilai-nilai variabel X dan pada diberikan dalam tabel.

Sebagai hasil dari penyelarasannya, fungsi

Menggunakan metode kuadrat terkecil, perkiraan data ini dengan ketergantungan linier y=ax+b(temukan opsi sebuah dan b). Cari tahu mana dari dua garis yang lebih baik (dalam arti metode kuadrat terkecil) menyelaraskan data eksperimen. Membuat gambar.

Larutan.

Dalam contoh kita n=5. Kami mengisi tabel untuk kenyamanan menghitung jumlah yang termasuk dalam rumus koefisien yang diperlukan.

Nilai pada baris keempat tabel diperoleh dengan mengalikan nilai baris ke-2 dengan nilai baris ke-3 untuk setiap angka saya.

Nilai pada baris kelima tabel diperoleh dengan mengkuadratkan nilai baris ke-2 untuk setiap angka saya.

Nilai kolom terakhir dari tabel adalah jumlah nilai di seluruh baris.

Kami menggunakan rumus metode kuadrat terkecil untuk menemukan koefisien sebuah dan b. Kami menggantinya dengan nilai yang sesuai dari kolom terakhir tabel:

Akibatnya, y=0.165x+2.184 adalah garis lurus aproksimasi yang diinginkan.

Masih mencari tahu yang mana dari garis y=0.165x+2.184 atau lebih baik mendekati data asli, yaitu membuat perkiraan menggunakan metode kuadrat terkecil.

Bukti.

Sehingga ketika ditemukan sebuah dan b fungsi mengambil nilai terkecil, perlu bahwa pada titik ini matriks bentuk kuadrat dari diferensial orde kedua untuk fungsi pasti positif. Mari kita tunjukkan.

Diferensial orde kedua memiliki bentuk:

Itu adalah

Oleh karena itu, matriks bentuk kuadrat memiliki bentuk

dan nilai elemen tidak bergantung pada sebuah dan b.

Mari kita tunjukkan bahwa matriks tersebut pasti positif. Ini mensyaratkan bahwa sudut minor harus positif.

Minor sudut dari orde pertama . Ketimpangannya ketat, karena poin

  • tutorial

pengantar

Saya seorang pemrogram komputer. Saya membuat lompatan terbesar dalam karir saya ketika saya belajar mengatakan: "Aku tidak mengerti apapun!" Sekarang saya tidak malu untuk memberi tahu ahli ilmu pengetahuan bahwa dia memberi saya kuliah, bahwa saya tidak mengerti apa yang dibicarakan oleh orang yang termasyhur itu kepada saya. Dan itu sangat sulit. Ya, sulit dan memalukan untuk mengakui bahwa Anda tidak tahu. Siapa yang suka mengakui bahwa dia tidak tahu dasar-dasar sesuatu-ada. Karena profesi saya, saya harus menghadiri banyak presentasi dan kuliah, di mana, saya akui, dalam sebagian besar kasus saya merasa mengantuk, karena saya tidak mengerti apa-apa. Dan saya tidak mengerti karena masalah besar dari situasi saat ini dalam sains terletak pada matematika. Ini mengasumsikan bahwa semua siswa akrab dengan semua bidang matematika (yang tidak masuk akal). Mengakui bahwa Anda tidak tahu apa itu turunan (bahwa ini sedikit lebih lambat) adalah hal yang memalukan.

Tetapi saya telah belajar untuk mengatakan bahwa saya tidak tahu apa itu perkalian. Ya, saya tidak tahu apa itu subaljabar di atas aljabar Lie. Ya, saya tidak tahu mengapa persamaan kuadrat diperlukan dalam kehidupan. Omong-omong, jika Anda yakin bahwa Anda tahu, maka kami memiliki sesuatu untuk dibicarakan! Matematika adalah serangkaian trik. Matematikawan mencoba membingungkan dan mengintimidasi publik; di mana tidak ada kebingungan, tidak ada reputasi, tidak ada otoritas. Ya, sangat bergengsi untuk berbicara dalam bahasa yang paling abstrak, yang sama sekali tidak masuk akal.

Tahukah kamu apa itu turunan? Kemungkinan besar Anda akan memberi tahu saya tentang batas hubungan perbedaan. Pada tahun pertama matematika di Universitas Negeri St. Petersburg, Viktor Petrovich Khavin me ditentukan turunan sebagai koefisien suku pertama deret Taylor dari fungsi di titik (itu adalah senam terpisah untuk menentukan deret Taylor tanpa turunan). Saya menertawakan definisi ini untuk waktu yang lama, sampai akhirnya saya mengerti tentang apa itu. Turunan tidak lebih dari sekedar ukuran seberapa mirip fungsi yang kita bedakan dengan fungsi y=x, y=x^2, y=x^3.

Saya sekarang mendapat kehormatan untuk mengajar siswa yang takut matematika. Jika Anda takut matematika - kami sedang dalam perjalanan. Segera setelah Anda mencoba membaca beberapa teks dan tampaknya bagi Anda itu terlalu rumit, ketahuilah bahwa itu ditulis dengan buruk. Saya berpendapat bahwa tidak ada satu bidang matematika pun yang tidak dapat dibicarakan "dengan jari" tanpa kehilangan akurasi.

Tantangan untuk waktu dekat: Saya menginstruksikan siswa saya untuk memahami apa itu pengontrol linier-kuadrat. Jangan malu, buang tiga menit hidup Anda, ikuti tautannya. Jika Anda tidak mengerti apa-apa, maka kami sedang dalam perjalanan. Saya (ahli matematika-programmer profesional) juga tidak mengerti apa-apa. Dan saya jamin, ini bisa diselesaikan "dengan jari." Saat ini saya tidak tahu apa itu, tetapi saya meyakinkan Anda bahwa kami akan dapat mengetahuinya.

Jadi, kuliah pertama yang akan saya berikan kepada siswa saya setelah mereka datang kepada saya dengan ngeri dengan kata-kata bahwa pengontrol linear-kuadrat adalah bug mengerikan yang tidak akan pernah Anda kuasai dalam hidup Anda adalah metode kuadrat terkecil. Bisakah kamu menyelesaikan persamaan linear? Jika Anda membaca teks ini, kemungkinan besar tidak.

Jadi, diberikan dua titik (x0, y0), (x1, y1), misalnya, (1,1) dan (3,2), tugasnya adalah menemukan persamaan garis lurus yang melalui dua titik ini:

ilustrasi

Garis lurus ini harus memiliki persamaan seperti berikut:

Di sini alfa dan beta tidak kita ketahui, tetapi dua titik dari garis ini diketahui:

Anda dapat menulis persamaan ini dalam bentuk matriks:

Di sini kita harus membuat penyimpangan liris: apa itu matriks? Matriks tidak lain adalah array dua dimensi. Ini adalah cara menyimpan data, tidak ada lagi nilai yang harus diberikan padanya. Terserah kita bagaimana tepatnya menafsirkan matriks tertentu. Secara berkala, saya akan menafsirkannya sebagai pemetaan linier, secara berkala sebagai bentuk kuadrat, dan kadang-kadang hanya sebagai kumpulan vektor. Ini semua akan diklarifikasi dalam konteks.

Mari kita ganti matriks tertentu dengan representasi simbolisnya:

Kemudian (alfa, beta) dapat dengan mudah ditemukan:

Lebih khusus untuk data kami sebelumnya:

Yang mengarah ke persamaan garis lurus berikut melalui titik (1,1) dan (3,2):

Oke, semuanya jelas di sini. Dan mari kita cari persamaan garis lurus yang melalui tiga poin: (x0,y0), (x1,y1) dan (x2,y2):

Oh-oh-oh, tapi kita punya tiga persamaan untuk dua yang tidak diketahui! Ahli matematika standar akan mengatakan bahwa tidak ada solusi. Apa yang akan dikatakan programmer? Dan dia pertama-tama akan menulis ulang sistem persamaan sebelumnya dalam bentuk berikut:

Dalam kasus kami, vektor i, j, b adalah tiga dimensi, oleh karena itu, (dalam kasus umum) tidak ada solusi untuk sistem ini. Setiap vektor (alpha\*i + beta\*j) terletak pada bidang yang direntang oleh vektor (i, j). Jika b tidak termasuk dalam bidang ini, maka tidak ada solusi (persamaan dalam persamaan tidak dapat dicapai). Apa yang harus dilakukan? Mari kita cari kompromi. Mari dilambangkan dengan e (alfa, beta) bagaimana tepatnya kami tidak mencapai kesetaraan:

Dan kami akan mencoba meminimalkan kesalahan ini:

Mengapa persegi?

Kami tidak hanya mencari norma minimum, tetapi juga kuadrat norma minimum. Mengapa? Titik minimum itu sendiri bertepatan, dan bujur sangkar memberikan fungsi halus (fungsi kuadrat dari argumen (alfa, beta)), sedangkan hanya panjangnya yang memberikan fungsi dalam bentuk kerucut, tidak dapat dibedakan pada titik minimum. br. Persegi lebih nyaman.

Jelas, kesalahan diminimalkan ketika vektor e ortogonal terhadap bidang yang direntang oleh vektor saya dan j.

Ilustrasi

Dengan kata lain: kami mencari garis sedemikian rupa sehingga jumlah kuadrat panjang jarak dari semua titik ke garis ini minimal:

UPDATE: di sini saya punya kusen, jarak ke garis harus diukur secara vertikal, bukan proyeksi ortografis. Komentator ini benar.

Ilustrasi

Dengan kata-kata yang sangat berbeda (hati-hati, diformalkan dengan buruk, tetapi harus jelas di jari): kami mengambil semua garis yang mungkin di antara semua pasangan titik dan mencari garis rata-rata di antara semua:

Ilustrasi

Penjelasan lain di jari: kami memasang pegas di antara semua titik data (di sini kami memiliki tiga) dan garis yang kami cari, dan garis keadaan setimbang persis seperti yang kami cari.

Bentuk kuadrat minimum

Jadi, mengingat vektor b dan bidang yang direntang oleh kolom-vektor matriks SEBUAH(dalam hal ini (x0,x1,x2) dan (1,1,1)), kami mencari vektor e dengan panjang persegi minimal. Jelas, minimum hanya dapat dicapai untuk vektor e, ortogonal terhadap bidang yang direntang oleh kolom-vektor matriks SEBUAH:

Dengan kata lain, kita mencari vektor x=(alpha, beta) sedemikian rupa sehingga:

Saya ingatkan Anda bahwa vektor x=(alpha, beta) ini adalah minimum dari fungsi kuadrat ||e(alpha, beta)||^2:

Di sini perlu diingat bahwa matriks dapat diinterpretasikan seperti halnya bentuk kuadrat, misalnya matriks identitas ((1,0),(0,1)) dapat diinterpretasikan sebagai fungsi dari x^2 + y ^2:

bentuk kuadrat

Semua senam ini dikenal sebagai regresi linier.

Persamaan Laplace dengan syarat batas Dirichlet

Sekarang masalah nyata yang paling sederhana: ada permukaan segitiga tertentu, perlu untuk menghaluskannya. Sebagai contoh, mari kita muat model wajah saya:

Komit asli tersedia. Untuk meminimalkan ketergantungan eksternal, saya mengambil kode penyaji perangkat lunak saya, yang sudah ada di Habré. Untuk menyelesaikan sistem linier, saya menggunakan OpenNL , ini adalah pemecah yang hebat, tetapi sangat sulit untuk menginstal: Anda perlu menyalin dua file (.h + .c) ke folder proyek Anda. Semua smoothing dilakukan dengan kode berikut:

Untuk (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&wajah = wajah[i]; untuk (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Koordinat X, Y dan Z dapat dipisahkan, saya menghaluskannya secara terpisah. Artinya, saya memecahkan tiga sistem persamaan linier, masing-masing dengan jumlah variabel yang sama dengan jumlah simpul dalam model saya. N baris pertama dari matriks A hanya memiliki satu 1 per baris, dan n baris pertama dari vektor b memiliki koordinat model asli. Yaitu, saya mengikat pegas antara posisi simpul baru dan posisi simpul lama - yang baru tidak boleh terlalu jauh dari yang lama.

Semua baris berikutnya dari matriks A (faces.size()*3 = jumlah rusuk semua segitiga dalam kisi) memiliki satu kemunculan 1 dan satu kemunculan -1, sedangkan vektor b memiliki nol komponen yang berlawanan. Ini berarti saya meletakkan pegas di setiap tepi jaring segitiga kami: semua tepi mencoba untuk mendapatkan titik yang sama dengan titik awal dan akhir mereka.

Sekali lagi: semua simpul adalah variabel, dan mereka tidak dapat menyimpang jauh dari posisi semula, tetapi pada saat yang sama mereka mencoba untuk menjadi serupa satu sama lain.

Inilah hasilnya:

Semuanya akan baik-baik saja, modelnya benar-benar halus, tetapi menjauh dari tepi aslinya. Mari kita ubah sedikit kodenya:

Untuk (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

Dalam matriks A kami, untuk simpul yang ada di tepi, saya menambahkan bukan baris dari kategori v_i = verts[i][d], tetapi 1000*v_i = 1000*verts[i][d]. Apa yang berubah? Dan ini mengubah bentuk kuadrat kesalahan kita. Sekarang satu penyimpangan dari atas di tepi tidak akan dikenakan biaya satu unit, seperti sebelumnya, tetapi 1000 * 1000 unit. Artinya, kami menggantung pegas yang lebih kuat di simpul ekstrem, solusinya lebih suka meregangkan yang lain lebih kuat. Inilah hasilnya:

Mari kita gandakan kekuatan pegas di antara simpul:
nlKoefisien(wajah[ j ], 2); nlKoefisien(wajah[(j+1)%3], -2);

Adalah logis bahwa permukaan menjadi lebih halus:

Dan sekarang bahkan seratus kali lebih kuat:

Apa ini? Bayangkan kita telah mencelupkan cincin kawat ke dalam air sabun. Akibatnya, film sabun yang dihasilkan akan mencoba memiliki kelengkungan sesedikit mungkin, menyentuh batas yang sama - cincin kawat kami. Inilah yang kami dapatkan dengan memperbaiki perbatasan dan meminta permukaan yang halus di dalamnya. Selamat, kita baru saja menyelesaikan persamaan Laplace dengan syarat batas Dirichlet. Terdengar keren? Namun pada kenyataannya, hanya satu sistem persamaan linear yang harus diselesaikan.

persamaan Poison

Ayo punya nama keren lainnya.

Katakanlah saya memiliki gambar seperti ini:

Semua orang baik, tapi saya tidak suka kursi itu.

Saya memotong gambar menjadi dua:



Dan saya akan memilih kursi dengan tangan saya:

Kemudian saya akan menyeret semua yang berwarna putih di topeng ke sisi kiri gambar, dan pada saat yang sama saya akan mengatakan di seluruh gambar bahwa perbedaan antara dua piksel tetangga harus sama dengan perbedaan antara dua piksel tetangga dari gambar kanan:

Untuk (int i=0; i

Inilah hasilnya:

Kode dan gambar tersedia

Metode kuadrat terkecil (OLS, eng. Ordinary Least Squares, OLS)- metode matematika yang digunakan untuk memecahkan berbagai masalah, berdasarkan meminimalkan jumlah deviasi kuadrat dari beberapa fungsi dari variabel yang diinginkan. Ini dapat digunakan untuk "menyelesaikan" sistem persamaan yang ditentukan lebih (ketika jumlah persamaan melebihi jumlah yang tidak diketahui), untuk menemukan solusi dalam kasus sistem persamaan nonlinier biasa (tidak terlalu ditentukan), untuk mendekati nilai titik dari beberapa fungsi. OLS adalah salah satu metode dasar analisis regresi untuk memperkirakan parameter model regresi yang tidak diketahui dari data sampel.

YouTube ensiklopedis

    1 / 5

    Metode kuadrat terkecil. Tema

    Mitin I. V. - Mengolah hasil fisik. eksperimen - Metode kuadrat terkecil (Kuliah 4)

    Kuadrat terkecil, pelajaran 1/2. Fungsi linear

    Ekonometrika. Kuliah 5. Metode kuadrat terkecil

    Metode kuadrat terkecil. Jawaban

    Subtitle

Cerita

Sampai awal abad XIX. ilmuwan tidak memiliki aturan tertentu untuk memecahkan sistem persamaan di mana jumlah yang tidak diketahui kurang dari jumlah persamaan; Sampai saat itu, metode tertentu digunakan, tergantung pada jenis persamaan dan kecerdikan kalkulator, dan oleh karena itu kalkulator yang berbeda, mulai dari data pengamatan yang sama, sampai pada kesimpulan yang berbeda. Gauss (1795) dikreditkan dengan penerapan pertama metode ini, dan Legendre (1805) secara independen menemukan dan menerbitkannya dengan nama modernnya (fr. Metode des moindres quarres) . Laplace menghubungkan metode tersebut dengan teori probabilitas, dan matematikawan Amerika Adrain (1808) mempertimbangkan aplikasi probabilistiknya. Metode ini tersebar luas dan ditingkatkan dengan penelitian lebih lanjut oleh Encke, Bessel, Hansen dan lain-lain.

Inti dari metode kuadrat terkecil

Membiarkan x (\gaya tampilan x)- kit n (\gaya tampilan n) variabel yang tidak diketahui (parameter), f i (x) (\displaystyle f_(i)(x)), , m > n (\gaya tampilan m>n)- set fungsi dari set variabel ini. Masalahnya adalah memilih nilai seperti itu x (\gaya tampilan x) sehingga nilai-nilai fungsi ini sedekat mungkin dengan beberapa nilai y i (\gaya tampilan y_(i)). Intinya, kita berbicara tentang "solusi" dari sistem persamaan yang terlalu ditentukan f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) dalam arti yang ditunjukkan, kedekatan maksimum bagian kiri dan kanan sistem. Inti dari LSM adalah memilih sebagai "ukuran kedekatan" jumlah deviasi kuadrat dari bagian kiri dan kanan | f i (x) y i | (\displaystyle |f_(i)(x)-y_(i)|). Dengan demikian, esensi LSM dapat diungkapkan sebagai berikut:

i e i 2 = i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\panah kanan \min _(x)).

Jika sistem persamaan memiliki solusi, maka jumlah kuadrat minimum akan sama dengan nol dan solusi eksak dari sistem persamaan dapat ditemukan secara analitik atau, misalnya, dengan berbagai metode optimasi numerik. Jika sistem ditentukan lebih, yaitu, secara longgar, jumlah persamaan independen lebih besar dari jumlah variabel yang tidak diketahui, maka sistem tidak memiliki solusi eksak dan metode kuadrat terkecil memungkinkan kita untuk menemukan beberapa vektor "optimal" x (\gaya tampilan x) dalam arti kedekatan maksimum dari vektor y (\gaya tampilan y) dan f (x) (\gaya tampilan f(x)) atau kedekatan maksimum dari vektor deviasi e (\gaya tampilan e) ke nol (kedekatan dipahami dalam arti jarak Euclidean).

Contoh - sistem persamaan linear

Secara khusus, metode kuadrat terkecil dapat digunakan untuk "menyelesaikan" sistem persamaan linear

A x = b (\displaystyle Ax=b),

di mana A (\gaya tampilan A) matriks ukuran persegi panjang m × n , m > n (\displaystyle m\kali n,m>n)(yaitu jumlah baris matriks A lebih besar dari jumlah variabel yang diperlukan).

Sistem persamaan seperti itu umumnya tidak memiliki solusi. Oleh karena itu, sistem ini dapat "dipecahkan" hanya dalam arti memilih vektor seperti itu x (\gaya tampilan x) untuk meminimalkan "jarak" antara vektor A x (\displaystyle Axe) dan b (\gaya tampilan b). Untuk melakukan ini, Anda dapat menerapkan kriteria untuk meminimalkan jumlah perbedaan kuadrat dari bagian kiri dan kanan persamaan sistem, yaitu (A x b) T (A x b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). Sangat mudah untuk menunjukkan bahwa solusi dari masalah minimasi ini mengarah ke solusi dari sistem persamaan berikut:

A T A x = A T b x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Panah kanan x=(A^(T)A)^(-1)A^ (T)b).

OLS dalam analisis regresi (perkiraan data)

Biarkan disana ada n (\gaya tampilan n) nilai dari beberapa variabel y (\gaya tampilan y)(ini mungkin hasil pengamatan, eksperimen, dll.) dan variabel yang sesuai x (\gaya tampilan x). Tantangannya adalah membuat hubungan antara y (\gaya tampilan y) dan x (\gaya tampilan x) perkiraan oleh beberapa fungsi yang diketahui hingga beberapa parameter yang tidak diketahui b (\gaya tampilan b), yaitu, benar-benar menemukan nilai terbaik dari parameter b (\gaya tampilan b), secara maksimal mendekati nilai f (x , b) (\gaya tampilan f(x,b)) ke nilai sebenarnya y (\gaya tampilan y). Sebenarnya, ini mereduksi menjadi kasus "solusi" dari sistem persamaan yang ditentukan lebih terhadap b (\gaya tampilan b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Dalam analisis regresi, dan khususnya dalam ekonometrika, model probabilistik dari hubungan antar variabel digunakan.

Y t = f (x t , b) + t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

di mana t (\displaystyle \varepsilon _(t))- disebut kesalahan acak model.

Dengan demikian, penyimpangan dari nilai-nilai yang diamati y (\gaya tampilan y) dari model f (x , b) (\gaya tampilan f(x,b)) sudah diasumsikan dalam model itu sendiri. Inti dari LSM (biasa, klasik) adalah menemukan parameter seperti itu b (\gaya tampilan b), di mana jumlah deviasi kuadrat (kesalahan, untuk model regresi sering disebut residual regresi) e t (\gaya tampilan e_(t)) akan minimal:

b ^ O L S = arg min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

di mana R S S (\ gaya tampilan RSS)- Bahasa inggris. Jumlah Sisa Kuadrat didefinisikan sebagai:

R S S (b) = e T e = t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Dalam kasus umum, masalah ini dapat diselesaikan dengan metode numerik optimasi (minimalisasi). Dalam hal ini, seseorang berbicara tentang kuadrat terkecil nonlinier(NLS atau NLLS - ind. Non-Linear Least Squares). Dalam banyak kasus, solusi analitis dapat diperoleh. Untuk menyelesaikan masalah minimasi, perlu untuk menemukan titik stasioner dari fungsi R S S (b) (\displaystyle RSS(b)), membedakannya dengan parameter yang tidak diketahui b (\gaya tampilan b), menyamakan turunan ke nol dan menyelesaikan sistem persamaan yang dihasilkan:

t = 1 n (y t − f (x t , b)) f (x t , b) b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\sebagian f(x_(t),b))(\sebagian b))=0).

LSM dalam kasus regresi linier

Biarkan ketergantungan regresi linier:

y t = j = 1 k b j x t j + = x t T b + t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Membiarkan kamu adalah vektor kolom pengamatan dari variabel yang dijelaskan, dan X (\gaya tampilan X)- ini (n × k) (\displaystyle ((n\kali k))))- matriks pengamatan faktor (baris matriks - vektor nilai faktor dalam pengamatan ini, menurut kolom - vektor nilai faktor ini dalam semua pengamatan). Representasi matriks dari model linier memiliki bentuk:

y = Xb + (\displaystyle y=Xb+\varepsilon ).

Maka vektor penduga dari variabel yang dijelaskan dan vektor residu regresi akan sama dengan

y ^ = X b , e = y y ^ = y X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

karenanya, jumlah kuadrat dari residual regresi akan sama dengan

R S S = e T e = (y X b) T (y X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Membedakan fungsi ini sehubungan dengan vektor parameter b (\gaya tampilan b) dan menyamakan turunannya dengan nol, kita memperoleh sistem persamaan (dalam bentuk matriks):

(X T X) b = X T y (\gaya tampilan (X^(T)X)b=X^(T)y).

Dalam bentuk matriks yang diuraikan, sistem persamaan ini terlihat seperti ini:

(∑ x t 1 2 x t 1 x t 2 x t 1 x t 3 … x t 1 x t k ∑ x t 2 x t 1 x t 2 2 x t 2 x t 3 … x t 2 x t k ∑ x t 3 x t 1 x t x t 3 … gaya (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\jumlah x_(t2)x_(t1)&\jumlah x_(t2)^(2)&\jumlah x_(t2)x_(t3)&\ldots &\ jumlah x_(t2)x_(tk) \\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatriks))=(\begin(pmatriks)\jumlah x_(t1)y_(t)\\\jumlah x_(t2)y_(t)\\ \jumlah x_(t3)y_(t )\\\vdots \\\jumlah x_(tk)y_(t)\\\end(pmatriks))) di mana semua jumlah diambil alih semua nilai yang dapat diterima t (\gaya tampilan t).

Jika sebuah konstanta dimasukkan dalam model (seperti biasa), maka x t 1 = 1 (\displaystyle x_(t1)=1) untuk semua t (\gaya tampilan t), oleh karena itu, di sudut kiri atas matriks sistem persamaan adalah jumlah pengamatan n (\gaya tampilan n), dan di elemen yang tersisa dari baris pertama dan kolom pertama - hanya jumlah nilai variabel: x t j (\displaystyle \sum x_(tj)) dan elemen pertama dari sisi kanan sistem - y t (\displaystyle \sum y_(t)).

Solusi dari sistem persamaan ini memberikan rumus umum untuk taksiran kuadrat terkecil untuk model linier:

b ^ O L S = (X T X) 1 X T y = (1 n X T X) 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Untuk tujuan analitis, representasi terakhir dari rumus ini ternyata berguna (dalam sistem persamaan ketika dibagi dengan n, sarana aritmatika muncul alih-alih jumlah). Jika data dalam model regresi terpusat, maka dalam representasi ini matriks pertama memiliki arti matriks kovarians sampel faktor, dan yang kedua adalah vektor kovarians faktor dengan variabel dependen. Jika, selain itu, datanya juga dinormalisasi di SKO (yaitu, pada akhirnya terstandarisasi), maka matriks pertama memiliki arti matriks korelasi sampel faktor, vektor kedua - vektor sampel korelasi faktor dengan variabel terikat.

Properti penting dari perkiraan LLS untuk model dengan konstanta- garis regresi yang dibangun melewati pusat gravitasi data sampel, yaitu persamaan terpenuhi:

y = b 1 ^ + j = 2 k b ^ j x j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

Secara khusus, dalam kasus ekstrim, ketika satu-satunya regressor adalah konstanta, kami menemukan bahwa estimasi OLS dari parameter tunggal (konstanta itu sendiri) sama dengan nilai rata-rata dari variabel yang dijelaskan. Artinya, rata-rata aritmatika, yang dikenal karena sifat-sifat baiknya dari hukum bilangan besar, juga merupakan perkiraan kuadrat terkecil - memenuhi kriteria untuk jumlah minimum deviasi kuadrat darinya.

Kasus khusus paling sederhana

Dalam kasus regresi linier berpasangan y t = a + b x t + t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), ketika ketergantungan linier satu variabel pada variabel lain diperkirakan, rumus perhitungan disederhanakan (Anda dapat melakukannya tanpa aljabar matriks). Sistem persamaan memiliki bentuk:

(1 x x x 2 ) (a b) = (y x y ) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Dari sini mudah untuk menemukan perkiraan untuk koefisien:

( b ^ = Cov (x , y) Var (x) = x y ¯ x ¯ y ¯ x 2 − x 2 , a ^ = y b x .(\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(kasus)))

Terlepas dari kenyataan bahwa, secara umum, model dengan konstanta lebih disukai, dalam beberapa kasus diketahui dari pertimbangan teoritis bahwa konstanta a (\gaya tampilan a) harus sama dengan nol. Misalnya, dalam fisika, hubungan antara tegangan dan arus memiliki bentuk U = I R (\displaystyle U=I\cdot R); mengukur tegangan dan arus, perlu untuk memperkirakan resistansi. Dalam hal ini, kita berbicara tentang model y = b x (\gaya tampilan y=bx). Dalam hal ini, alih-alih sistem persamaan, kami memiliki persamaan tunggal

(∑ x t 2) b = x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Oleh karena itu, rumus untuk memperkirakan koefisien tunggal memiliki bentuk

B ^ = t = 1 n x t y t t = 1 n x t 2 = x y x 2 (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Kasus model polinomial

Jika data dilengkapi dengan fungsi regresi polinomial dari satu variabel f (x) = b 0 + i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), kemudian, memahami derajat x i (\gaya tampilan x^(i)) sebagai faktor independen untuk masing-masing saya (\gaya tampilan i) dimungkinkan untuk memperkirakan parameter model berdasarkan rumus umum untuk memperkirakan parameter model linier. Untuk melakukan ini, cukup memperhitungkan dalam rumus umum bahwa dengan interpretasi seperti itu x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) dan x t j y t = x t j y t (\gaya tampilan x_(tj)y_(t)=x_(t)^(j)y_(t)). Oleh karena itu, persamaan matriks dalam hal ini akan berbentuk:

(n n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... m x i k + 1 ∑ ∑ n x t k ∑ n x t k + 1 ... n x t 2 k) [b 0 b = 1 b k] n y t n x t y t n x t k y t k y t]. (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ jumlah \batas _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatriks)).)

Sifat Statistik Estimasi OLS

Pertama-tama, kami mencatat bahwa untuk model linier, perkiraan kuadrat terkecil adalah perkiraan linier, sebagai berikut dari rumus di atas. Untuk ketidak-biasan estimasi kuadrat terkecil, perlu dan cukup untuk memenuhi kondisi terpenting dari analisis regresi: ekspektasi matematis dari kesalahan acak yang bersyarat pada faktor harus sama dengan nol. Kondisi ini dipenuhi, khususnya, jika

  1. harapan matematis dari kesalahan acak adalah nol, dan
  2. faktor dan kesalahan acak adalah nilai-nilai independen-acak.

Kondisi kedua - kondisi faktor eksogen - adalah fundamental. Jika properti ini tidak terpenuhi, maka kita dapat mengasumsikan bahwa hampir semua perkiraan akan sangat tidak memuaskan: mereka bahkan tidak akan konsisten (yaitu, bahkan sejumlah besar data tidak memungkinkan untuk memperoleh perkiraan kualitatif dalam kasus ini). Dalam kasus klasik, asumsi yang lebih kuat dibuat tentang determinisme faktor, berbeda dengan kesalahan acak, yang secara otomatis berarti bahwa kondisi eksogen terpenuhi. Dalam kasus umum, untuk konsistensi pendugaan, cukup memenuhi kondisi eksogenitas bersama-sama dengan konvergensi matriks. V x (\gaya tampilan V_(x)) untuk beberapa matriks nondegenerate sebagai ukuran sampel meningkat hingga tak terhingga.

Agar, selain konsistensi dan ketidakberpihakan, estimasi kuadrat terkecil (biasa) juga efektif (yang terbaik di kelas estimasi tak bias linier), properti tambahan dari kesalahan acak harus dipenuhi:

Asumsi ini dapat dirumuskan untuk kovarians matriks vektor kesalahan acak V (ε) = 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Sebuah model linier yang memenuhi kondisi ini disebut klasik. Estimasi OLS untuk regresi linier klasik adalah estimasi yang tidak bias, konsisten dan paling efisien di kelas semua estimasi linier yang tidak bias (dalam literatur bahasa Inggris, singkatan kadang-kadang digunakan biru (Penaksir Tak Bias Linier Terbaik) adalah penduga tak bias linier terbaik; dalam literatur domestik, teorema Gauss - Markov lebih sering dikutip). Karena mudah ditunjukkan, matriks kovarians dari vektor penduga koefisien akan sama dengan:

V (b ^ O L S) = 2 (X T X) 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Efisiensi berarti bahwa matriks kovarians ini "minimal" (setiap kombinasi linier dari koefisien, dan khususnya koefisien itu sendiri, memiliki varians minimum), yaitu, di kelas estimasi linier yang tidak bias, estimasi OLS adalah yang terbaik. Elemen diagonal dari matriks ini - varians dari estimasi koefisien - adalah parameter penting dari kualitas estimasi yang diperoleh. Namun, tidak mungkin menghitung matriks kovarians karena varian galat acak tidak diketahui. Dapat dibuktikan bahwa penduga tak bias dan konsisten (untuk model linier klasik) dari variansi galat acak bernilai:

S 2 = R S S / (n k) (\displaystyle s^(2)=RSS/(n-k)).

Mengganti nilai ini ke dalam rumus untuk matriks kovarians, kami memperoleh perkiraan matriks kovarians. Estimasi yang dihasilkan juga tidak bias dan konsisten. Hal ini juga penting bahwa estimasi varians kesalahan (dan karenanya varians dari koefisien) dan estimasi parameter model adalah variabel acak independen, yang memungkinkan untuk memperoleh statistik uji untuk menguji hipotesis tentang koefisien model.

Perlu dicatat bahwa jika asumsi klasik tidak terpenuhi, estimasi parameter kuadrat terkecil bukanlah yang paling efisien dan, di mana W (\gaya tampilan W) adalah beberapa matriks bobot pasti positif simetris. Kuadrat terkecil biasa adalah kasus khusus dari pendekatan ini, ketika matriks bobot sebanding dengan matriks identitas. Seperti diketahui, untuk matriks simetris (atau operator) ada dekomposisi W = P T P (\displaystyle W=P^(T)P). Oleh karena itu, fungsional ini dapat direpresentasikan sebagai berikut: e T P T P e = (P e) T P e = e ∗ T e (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), yaitu, fungsi ini dapat direpresentasikan sebagai jumlah kuadrat dari beberapa "sisa" yang diubah. Dengan demikian, kita dapat membedakan kelas metode kuadrat terkecil - metode LS (Kuadrat Terkecil).

Terbukti (teorema Aitken) bahwa untuk model regresi linier umum (di mana tidak ada batasan yang dikenakan pada matriks kovarians kesalahan acak), yang paling efektif (di kelas estimasi linier yang tidak bias) adalah perkiraan yang disebut. OLS umum (OMNK, GLS - Kuadrat Terkecil Umum)- Metode LS dengan matriks bobot sama dengan matriks kovarians terbalik dari kesalahan acak: W = V 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Dapat ditunjukkan bahwa rumus untuk estimasi GLS dari parameter model linier memiliki bentuk

B ^ G L S = (X T V 1 X) 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Matriks kovarians dari perkiraan ini, masing-masing, akan sama dengan

V (b ^ G L S) = (X T V 1 X) 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- satu)).

Sebenarnya, inti dari OLS terletak pada transformasi (linier) (P) tertentu dari data asli dan penerapan kuadrat terkecil biasa pada data yang ditransformasi. Tujuan dari transformasi ini adalah bahwa untuk data yang ditransformasi, kesalahan acak sudah memenuhi asumsi klasik.

Kuadrat terkecil berbobot

Dalam kasus matriks bobot diagonal (dan karenanya matriks kovarians kesalahan acak), kami memiliki apa yang disebut kuadrat terkecil tertimbang (WLS - Kuadrat Terkecil Tertimbang). Dalam hal ini, jumlah kuadrat dari residual model diminimalkan, yaitu, setiap pengamatan menerima "bobot" yang berbanding terbalik dengan varians kesalahan acak dalam pengamatan ini: e T W e = t = 1 n e t 2 t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). Faktanya, data ditransformasikan dengan pembobotan pengamatan (dibagi dengan jumlah yang sebanding dengan standar deviasi yang diasumsikan dari kesalahan acak), dan kuadrat terkecil normal diterapkan pada data berbobot.

ISBN 978-5-7749-0473-0.

  • Ekonometrika. Buku teks / Ed. Eliseeva I.I. - edisi ke-2. - M. : Keuangan dan statistik, 2006. - 576 hal. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Sejarah istilah matematika, konsep, sebutan: buku referensi kamus. - Edisi ke-3 - M. : LKI, 2008. - 248 hal. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Analisis dan pengolahan data eksperimen - edisi ke-5 - 24p.
  • Kami memperkirakan fungsi dengan polinomial derajat ke-2. Untuk melakukan ini, kami menghitung koefisien sistem persamaan normal:

    , ,

    Mari kita buat sistem normal kuadrat terkecil, yang berbentuk:

    Solusi dari sistem ini mudah ditemukan :, , .

    Jadi, polinomial derajat 2 ditemukan: .

    Latar belakang teoritis

    Kembali ke halaman<Введение в вычислительную математику. Примеры>

    Contoh 2. Mencari derajat optimal suatu polinomial.

    Kembali ke halaman<Введение в вычислительную математику. Примеры>

    Contoh 3. Turunan dari sistem persamaan normal untuk menemukan parameter ketergantungan empiris.

    Mari kita turunkan sistem persamaan untuk menentukan koefisien dan fungsi , yang melakukan pendekatan akar-rata-rata-kuadrat dari fungsi yang diberikan sehubungan dengan titik. Buat fungsi dan tulis kondisi ekstrem yang diperlukan untuk itu:

    Maka sistem normal akan berbentuk:

    Kami telah memperoleh sistem persamaan linier untuk parameter yang tidak diketahui dan, yang mudah diselesaikan.

    Latar belakang teoritis

    Kembali ke halaman<Введение в вычислительную математику. Примеры>

    Contoh.

    Data eksperimen tentang nilai-nilai variabel X dan pada diberikan dalam tabel.

    Sebagai hasil dari penyelarasannya, fungsi

    Menggunakan metode kuadrat terkecil, perkiraan data ini dengan ketergantungan linier y=ax+b(temukan opsi sebuah dan b). Cari tahu mana dari dua garis yang lebih baik (dalam arti metode kuadrat terkecil) menyelaraskan data eksperimen. Membuat gambar.

    Inti dari metode kuadrat terkecil (LSM).

    Masalahnya adalah untuk menemukan koefisien ketergantungan linier yang fungsi dari dua variabel sebuah dan bmengambil nilai terkecil. Artinya, mengingat data sebuah dan b jumlah deviasi kuadrat dari data eksperimen dari garis lurus yang ditemukan akan menjadi yang terkecil. Ini adalah inti dari metode kuadrat terkecil.

    Jadi, solusi dari contoh direduksi menjadi menemukan ekstrem dari fungsi dua variabel.

    Turunan rumus untuk mencari koefisien.

    Sistem dua persamaan dengan dua yang tidak diketahui disusun dan diselesaikan. Menemukan turunan parsial dari fungsi oleh variabel sebuah dan b, kita menyamakan turunan ini dengan nol.

    Kami memecahkan sistem persamaan yang dihasilkan dengan metode apa pun (misalnya metode substitusi atau metode Cramer) dan dapatkan rumus untuk mencari koefisien menggunakan metode kuadrat terkecil (LSM).

    Dengan data sebuah dan b fungsi mengambil nilai terkecil. Bukti dari fakta ini diberikan di bawah dalam teks di akhir halaman.

    Itulah seluruh metode kuadrat terkecil. Rumus untuk mencari parameter sebuah berisi jumlah , , , dan parameter n adalah jumlah data percobaan. Nilai dari jumlah ini direkomendasikan untuk dihitung secara terpisah.

    Koefisien b ditemukan setelah perhitungan sebuah.

    Saatnya untuk mengingat contoh aslinya.

    Larutan.

    Dalam contoh kita n=5. Kami mengisi tabel untuk kenyamanan menghitung jumlah yang termasuk dalam rumus koefisien yang diperlukan.

    Nilai pada baris keempat tabel diperoleh dengan mengalikan nilai baris ke-2 dengan nilai baris ke-3 untuk setiap angka saya.

    Nilai pada baris kelima tabel diperoleh dengan mengkuadratkan nilai baris ke-2 untuk setiap angka saya.

    Nilai kolom terakhir dari tabel adalah jumlah nilai di seluruh baris.

    Kami menggunakan rumus metode kuadrat terkecil untuk menemukan koefisien sebuah dan b. Kami menggantinya dengan nilai yang sesuai dari kolom terakhir tabel:

    Akibatnya, y=0.165x+2.184 adalah garis lurus aproksimasi yang diinginkan.

    Masih mencari tahu yang mana dari garis y=0.165x+2.184 atau lebih baik mendekati data asli, yaitu membuat perkiraan menggunakan metode kuadrat terkecil.

    Estimasi kesalahan metode kuadrat terkecil.

    Untuk melakukan ini, Anda perlu menghitung jumlah deviasi kuadrat dari data asli dari garis-garis ini dan , nilai yang lebih kecil sesuai dengan garis yang lebih mendekati data asli dalam hal metode kuadrat terkecil.

    Karena , maka garis y=0.165x+2.184 mendekati data asli dengan lebih baik.

    Ilustrasi grafis dari metode kuadrat terkecil (LSM).

    Semuanya tampak hebat di tangga lagu. Garis merah adalah garis yang ditemukan y=0.165x+2.184, garis biru adalah , titik-titik merah muda adalah data asli.

    Untuk apa, untuk apa semua perkiraan ini?

    Saya pribadi menggunakan untuk memecahkan masalah pemulusan data, masalah interpolasi dan ekstrapolasi (dalam contoh asli, Anda dapat diminta untuk menemukan nilai dari nilai yang diamati kamu pada x=3 atau kapan x=6 menurut metode MNC). Tetapi kita akan membicarakan lebih lanjut tentang ini nanti di bagian lain situs ini.

    Bagian atas halaman

    Bukti.

    Sehingga ketika ditemukan sebuah dan b fungsi mengambil nilai terkecil, perlu bahwa pada titik ini matriks bentuk kuadrat dari diferensial orde kedua untuk fungsi pasti positif. Mari kita tunjukkan.

    Diferensial orde kedua memiliki bentuk:

    Itu adalah

    Oleh karena itu, matriks bentuk kuadrat memiliki bentuk

    dan nilai elemen tidak bergantung pada sebuah dan b.

    Mari kita tunjukkan bahwa matriks tersebut pasti positif. Ini mensyaratkan bahwa sudut minor harus positif.

    Minor sudut dari orde pertama . Ketimpangannya sangat ketat, karena titik-titiknya tidak bertepatan. Ini akan tersirat dalam apa yang berikut.

    Minor sudut dari orde kedua

    Ayo buktikan metode induksi matematika.

    Kesimpulan: nilai yang ditemukan sebuah dan b sesuai dengan nilai terkecil dari fungsi , oleh karena itu, adalah parameter yang diinginkan untuk metode kuadrat terkecil.

    Pernah mengerti?
    Memesan Solusi

    Bagian atas halaman

    Pengembangan peramalan menggunakan metode kuadrat terkecil. Contoh solusi masalah

    Ekstrapolasi — ini adalah metode penelitian ilmiah, yang didasarkan pada penyebaran tren masa lalu dan sekarang, pola, hubungan dengan perkembangan masa depan objek peramalan. Metode ekstrapolasi meliputi: metode rata-rata bergerak, metode pemulusan eksponensial, metode kuadrat terkecil.

    Esensi metode kuadrat terkecil terdiri dari meminimalkan jumlah deviasi kuadrat antara nilai yang diamati dan yang dihitung. Nilai yang dihitung ditemukan sesuai dengan persamaan yang dipilih - persamaan regresi. Semakin kecil jarak antara nilai sebenarnya dan yang dihitung, semakin akurat perkiraan berdasarkan persamaan regresi.

    Analisis teoretis tentang esensi fenomena yang diteliti, perubahan yang ditampilkan oleh deret waktu, berfungsi sebagai dasar untuk memilih kurva. Pertimbangan tentang sifat pertumbuhan tingkat seri kadang-kadang diperhitungkan. Jadi, jika pertumbuhan output diharapkan dalam deret aritmatika, maka pemulusan dilakukan dalam garis lurus. Jika ternyata pertumbuhannya eksponensial, maka pemulusan harus dilakukan sesuai dengan fungsi eksponensial.

    Rumus kerja metode kuadrat terkecil : Y t+1 = a*X + b, di mana t + 1 adalah periode perkiraan; t+1 – indikator yang diprediksi; a dan b adalah koefisien; X adalah simbol waktu.

    Koefisien a dan b dihitung menurut rumus berikut:

    di mana, Uf - nilai aktual dari rangkaian dinamika; n adalah jumlah level dalam deret waktu;

    Pemulusan deret waktu dengan metode kuadrat terkecil berfungsi untuk mencerminkan pola perkembangan fenomena yang diteliti. Dalam ekspresi analitik dari sebuah tren, waktu dianggap sebagai variabel independen, dan tingkat deret bertindak sebagai fungsi dari variabel independen ini.

    Perkembangan suatu fenomena tidak tergantung pada berapa tahun telah berlalu sejak titik awalnya, tetapi pada faktor-faktor apa yang mempengaruhi perkembangannya, ke arah mana dan dengan intensitas apa. Dari sini jelas bahwa perkembangan suatu fenomena dalam waktu muncul sebagai akibat dari tindakan faktor-faktor ini.

    Mengatur jenis kurva dengan benar, jenis ketergantungan analitis pada waktu adalah salah satu tugas analisis pra-prediktif yang paling sulit. .

    Pilihan jenis fungsi yang menggambarkan tren, parameter yang ditentukan oleh metode kuadrat terkecil, dalam banyak kasus empiris, dengan membangun sejumlah fungsi dan membandingkannya satu sama lain dalam hal nilai akar. -mean-square error, dihitung dengan rumus:

    di mana Uf - nilai aktual dari rangkaian dinamika; Ur – nilai yang dihitung (dihaluskan) dari deret waktu; n adalah jumlah level dalam deret waktu; p adalah jumlah parameter yang ditentukan dalam rumus yang menggambarkan tren (tren perkembangan).

    Kekurangan dari metode kuadrat terkecil :

    • ketika mencoba menggambarkan fenomena ekonomi yang diteliti menggunakan persamaan matematis, ramalan akan akurat untuk waktu yang singkat dan persamaan regresi harus dihitung ulang saat informasi baru tersedia;
    • kompleksitas pemilihan persamaan regresi, yang dapat dipecahkan dengan menggunakan program komputer standar.

    Contoh penggunaan metode kuadrat terkecil untuk mengembangkan ramalan

    Sebuah tugas . Terdapat data yang mencirikan tingkat pengangguran di wilayah tersebut, %

    • Buat perkiraan tingkat pengangguran di wilayah tersebut untuk bulan November, Desember, Januari, dengan menggunakan metode: rata-rata bergerak, pemulusan eksponensial, kuadrat terkecil.
    • Hitung kesalahan dalam peramalan yang dihasilkan menggunakan masing-masing metode.
    • Bandingkan hasil yang diperoleh, tarik kesimpulan.

    Solusi kuadrat terkecil

    Untuk solusinya, kami akan menyusun tabel di mana kami akan membuat perhitungan yang diperlukan:

    = 28,63/10 = 2,86% akurasi perkiraan tinggi.

    Kesimpulan : Membandingkan hasil yang diperoleh dalam perhitungan metode rata-rata bergerak , pemulusan eksponensial dan metode kuadrat terkecil, kita dapat mengatakan bahwa kesalahan relatif rata-rata dalam perhitungan dengan metode pemulusan eksponensial berada dalam kisaran 20-50%. Ini berarti bahwa akurasi ramalan dalam hal ini hanya memuaskan.

    Dalam kasus pertama dan ketiga, akurasi perkiraan tinggi, karena kesalahan relatif rata-rata kurang dari 10%. Tetapi metode rata-rata bergerak memungkinkan untuk mendapatkan hasil yang lebih andal (perkiraan untuk November - 1,52%, perkiraan untuk Desember - 1,53%, perkiraan untuk Januari - 1,49%), karena kesalahan relatif rata-rata saat menggunakan metode ini adalah yang terkecil - 1 ,13%.

    Metode kuadrat terkecil

    Artikel terkait lainnya:

    Daftar sumber yang digunakan

    1. Rekomendasi ilmiah dan metodologis tentang masalah mendiagnosis risiko sosial dan memperkirakan tantangan, ancaman, dan konsekuensi sosial. Universitas Sosial Negeri Rusia. Moskow. 2010;
    2. Vladimirova L.P. Peramalan dan perencanaan dalam kondisi pasar: Proc. uang saku. M.: Rumah Penerbitan "Dashkov and Co", 2001;
    3. Novikova N.V., Pozdeeva O.G. Prakiraan Perekonomian Nasional: Panduan Pendidikan dan Metodologi. Yekaterinburg: Rumah Penerbitan Ural. negara ekonomi universitas, 2007;
    4. Slutskin L.N. Kursus MBA dalam peramalan bisnis. Moskow: Buku Bisnis Alpina, 2006.

    Program MNE

    Masukkan data

    Data dan Perkiraan y = a + b x

    saya- nomor titik percobaan;
    x saya- nilai parameter tetap pada titik saya;
    y saya- nilai parameter yang diukur pada titik saya;
    saya- pengukuran berat pada titik saya;
    y saya, kal.- perbedaan antara nilai yang diukur dan nilai yang dihitung dari regresi kamu pada intinya saya;
    S x i (x i)- perkiraan kesalahan x saya saat mengukur kamu pada intinya saya.

    Data dan Perkiraan y = kx

    saya x saya y saya saya y saya, kal. y saya S x i (x i)

    Klik pada grafik

    Panduan pengguna untuk program online MNC.

    Di bidang data, masukkan nilai `x` dan `y` pada setiap baris terpisah pada satu titik percobaan. Nilai harus dipisahkan dengan spasi (spasi atau tab).

    Nilai ketiga dapat berupa bobot titik dari `w`. Jika bobot poin tidak ditentukan, maka itu sama dengan satu. Dalam sebagian besar kasus, bobot titik eksperimen tidak diketahui atau tidak dihitung; semua data eksperimen dianggap setara. Terkadang bobot dalam rentang nilai yang dipelajari pasti tidak setara dan bahkan dapat dihitung secara teoritis. Misalnya, dalam spektrofotometri, bobot dapat dihitung menggunakan rumus sederhana, meskipun pada dasarnya semua orang mengabaikan hal ini untuk mengurangi biaya tenaga kerja.

    Data dapat ditempelkan melalui clipboard dari spreadsheet kantor seperti Excel dari Microsoft Office atau Calc dari Open Office. Untuk melakukan ini, pilih rentang data yang akan disalin di spreadsheet, salin ke clipboard, dan tempel data ke bidang data di halaman ini.

    Untuk menghitung dengan metode kuadrat terkecil, setidaknya diperlukan dua titik untuk menentukan dua koefisien `b` - garis singgung sudut kemiringan garis lurus dan `a` - nilai yang dipotong oleh garis lurus pada `y ` sumbu.

    Untuk memperkirakan kesalahan dari koefisien regresi yang dihitung, perlu untuk mengatur jumlah titik eksperimen menjadi lebih dari dua.

    Metode kuadrat terkecil (LSM).

    Semakin besar jumlah titik eksperimen, semakin akurat estimasi statistik dari koefisien (karena penurunan koefisien Student) dan semakin dekat estimasi dengan estimasi sampel umum.

    Memperoleh nilai pada setiap titik eksperimental sering dikaitkan dengan biaya tenaga kerja yang signifikan, oleh karena itu, sejumlah eksperimen sering dilakukan, yang memberikan perkiraan yang dapat dicerna dan tidak menyebabkan biaya tenaga kerja yang berlebihan. Sebagai aturan, jumlah titik eksperimental untuk ketergantungan kuadrat terkecil linier dengan dua koefisien dipilih di wilayah 5-7 poin.

    Teori Singkat Kuadrat Terkecil untuk Ketergantungan Linier

    Misalkan kita memiliki sekumpulan data eksperimen berupa pasangan nilai [`y_i`, `x_i`], di mana `i` adalah jumlah satu pengukuran eksperimental dari 1 hingga `n`; `y_i` - nilai nilai terukur pada titik `i`; `x_i` - nilai parameter yang kita tetapkan pada titik `i`.

    Contohnya adalah operasi hukum Ohm. Dengan mengubah tegangan (beda potensial) antara bagian dari rangkaian listrik, kami mengukur jumlah arus yang melewati bagian ini. Fisika memberi kita ketergantungan yang ditemukan secara eksperimental:

    `I = U/R`,
    di mana `I` - kekuatan saat ini; `R` - resistensi; `U` - tegangan.

    Dalam hal ini, `y_i` adalah nilai arus terukur, dan `x_i` adalah nilai tegangan.

    Sebagai contoh lain, perhatikan penyerapan cahaya oleh larutan suatu zat dalam larutan. Kimia memberi kita rumus:

    `A = l C`,
    di mana `A` adalah kerapatan optik solusi; `ε` - transmisi zat terlarut; `l` - panjang jalur ketika cahaya melewati kuvet dengan larutan; `C` adalah konsentrasi zat terlarut.

    Dalam hal ini, `y_i` adalah kerapatan optik terukur `A`, dan `x_i` adalah konsentrasi zat yang kita tetapkan.

    Kami akan mempertimbangkan kasus ketika kesalahan relatif dalam pengaturan `x_i` jauh lebih kecil daripada kesalahan relatif dalam mengukur `y_i`. Kami juga akan mengasumsikan bahwa semua nilai terukur dari `y_i` adalah acak dan terdistribusi normal, mis. mematuhi hukum distribusi normal.

    Dalam kasus ketergantungan linier `y` pada `x`, kita dapat menulis ketergantungan teoretis:
    `y = a + bx`.

    Dari sudut pandang geometris, koefisien `b` menunjukkan garis singgung kemiringan garis ke sumbu `x`, dan koefisien `a` - nilai `y` pada titik perpotongan garis dengan ` sumbu y` (dengan `x = 0`).

    Menemukan parameter garis regresi.

    Dalam sebuah eksperimen, nilai terukur `y_i` tidak dapat terletak tepat pada garis teoretis karena kesalahan pengukuran, yang selalu melekat dalam kehidupan nyata. Oleh karena itu, persamaan linier harus diwakili oleh sistem persamaan:
    `y_i = a + b x_i + _i` (1),
    di mana `ε_i` adalah kesalahan pengukuran `y` yang tidak diketahui dalam eksperimen `i`.

    Ketergantungan (1) juga disebut regresi, yaitu ketergantungan dua kuantitas satu sama lain dengan signifikansi statistik.

    Tugas memulihkan ketergantungan adalah menemukan koefisien `a` dan `b` dari titik eksperimental [`y_i`, `x_i`].

    Untuk mencari koefisien `a` dan `b` biasanya digunakan metode kuadrat terkecil(MNK). Ini adalah kasus khusus dari prinsip kemungkinan maksimum.

    Mari kita tulis ulang (1) sebagai `ε_i = y_i - a - b x_i`.

    Maka jumlah kesalahan kuadrat adalah
    `Φ = jumlah_(i=1)^(n) _i^2 = jumlah_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

    Prinsip dari metode kuadrat terkecil adalah meminimalkan jumlah (2) terhadap parameter `a` dan `b`.

    Minimum tercapai ketika turunan parsial dari jumlah (2) sehubungan dengan koefisien `a` dan `b` sama dengan nol:
    `frac(sebagian )(sebagian a) = frac(jumlah sebagian_(i=1)^(n) (y_i - a - b x_i)^2)(sebagian a) = 0`
    `frac(sebagian )(sebagian b) = frac(jumlah sebagian_(i=1)^(n) (y_i - a - b x_i)^2)(sebagian b) = 0`

    Memperluas turunan, kami memperoleh sistem dua persamaan dengan dua yang tidak diketahui:
    `jumlah_(i=1)^(n) (2a + 2bx_i - 2y_i) = jumlah_(i=1)^(n) (a + bx_i - y_i) = 0`
    `sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

    Kami membuka tanda kurung dan mentransfer jumlah yang tidak tergantung pada koefisien yang diinginkan ke setengah lainnya, kami mendapatkan sistem persamaan linier:
    `sum_(i=1)^(n) y_i = a n + b jumlah_(i=1)^(n) bx_i`
    `jumlah_(i=1)^(n) x_iy_i = jumlah_(i=1)^(n) x_i + b jumlah_(i=1)^(n) x_i^2`

    Memecahkan sistem yang dihasilkan, kami menemukan rumus untuk koefisien `a` dan `b`:

    `a = frac(sum_(i=1)^(n) y_i jumlah_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i jumlah_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

    `b = frac(n jumlah_(i=1)^(n) x_iy_i - jumlah_(i=1)^(n) x_i jumlah_(i=1)^(n) y_i) (n jumlah_(i=1)^ (n) x_i^2 - (jumlah_(i=1)^(n) x_i)^2)` (3.2)

    Rumus ini memiliki solusi ketika `n > 1` (garis dapat ditarik menggunakan setidaknya 2 titik) dan ketika determinan `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1 )^(n) x_i)^2 != 0`, mis. ketika titik `x_i` dalam eksperimen berbeda (yaitu ketika garis tidak vertikal).

    Estimasi kesalahan dalam koefisien garis regresi

    Untuk perkiraan kesalahan yang lebih akurat dalam menghitung koefisien `a` dan `b`, sejumlah besar titik eksperimen diinginkan. Ketika `n = 2`, tidak mungkin untuk memperkirakan kesalahan koefisien, karena garis aproksimasi akan secara unik melewati dua titik.

    Kesalahan variabel acak `V` ditentukan hukum akumulasi kesalahan
    `S_V^2 = jumlah_(i=1)^p (frac(sebagian f)(sebagian z_i))^2 S_(z_i)^2`,
    di mana `p` adalah jumlah parameter `z_i` dengan kesalahan `S_(z_i)` yang memengaruhi kesalahan `S_V`;
    `f` adalah fungsi ketergantungan `V` pada `z_i`.

    Mari kita tulis hukum akumulasi kesalahan untuk kesalahan koefisien `a` dan `b`
    `S_a^2 = jumlah_(i=1)^(n)(frac(sebagian a)(sebagian y_i))^2 S_(y_i)^2 + jumlah_(i=1)^(n)(frac(sebagian a )(sebagian x_i))^2 S_(x_i)^2 = S_y^2 jumlah_(i=1)^(n)(frac(sebagian a)(sebagian y_i))^2 `,
    `S_b^2 = jumlah_(i=1)^(n)(frac(sebagian b)(sebagian y_i))^2 S_(y_i)^2 + jumlah_(i=1)^(n)(frac(sebagian b )(sebagian x_i))^2 S_(x_i)^2 = S_y^2 jumlah_(i=1)^(n)(frac(sebagian b)(sebagian y_i))^2 `,
    karena `S_(x_i)^2 = 0` (sebelumnya kami membuat reservasi bahwa kesalahan `x` dapat diabaikan).

    `S_y^2 = S_(y_i)^2` - kesalahan (varians, deviasi standar kuadrat) dalam dimensi `y`, dengan asumsi bahwa kesalahan seragam untuk semua nilai `y`.

    Mengganti rumus untuk menghitung `a` dan `b` ke dalam ekspresi yang dihasilkan, kita mendapatkan

    `S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

    `S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n jumlah_(i=1)^(n) x_i^2 - (jumlah_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

    Dalam kebanyakan eksperimen nyata, nilai `Sy` tidak diukur. Untuk melakukan ini, perlu untuk melakukan beberapa pengukuran paralel (percobaan) pada satu atau beberapa titik rencana, yang meningkatkan waktu (dan mungkin biaya) percobaan. Oleh karena itu, biasanya diasumsikan bahwa penyimpangan `y` dari garis regresi dapat dianggap acak. Estimasi varians `y` dalam hal ini dihitung dengan rumus.

    `S_y^2 = S_(y, istirahat)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

    Pembagi `n-2` muncul karena kita telah mengurangi jumlah derajat kebebasan karena perhitungan dua koefisien untuk sampel data eksperimen yang sama.

    Estimasi ini juga disebut varians residual relatif terhadap garis regresi `S_(y, rest)^2`.

    Penilaian signifikansi koefisien dilakukan sesuai dengan kriteria Siswa

    `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

    Jika kriteria yang dihitung `t_a`, `t_b` kurang dari kriteria tabel `t(P, n-2)`, maka dianggap bahwa koefisien yang sesuai tidak berbeda secara signifikan dari nol dengan probabilitas `P` yang diberikan.

    Untuk menilai kualitas deskripsi hubungan linier, Anda dapat membandingkan `S_(y, rest)^2` dan `S_(bar y)` relatif terhadap mean menggunakan kriteria Fisher.

    `S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - estimasi sampel varians `y` relatif terhadap mean.

    Untuk mengevaluasi efektivitas persamaan regresi untuk menggambarkan ketergantungan, koefisien Fisher dihitung
    `F = S_(bar y) / S_(y, istirahat)^2`,
    yang dibandingkan dengan koefisien Fisher tabular `F(p, n-1, n-2)`.

    Jika `F > F(P, n-1, n-2)`, perbedaan antara deskripsi ketergantungan `y = f(x)` menggunakan persamaan regresi dan deskripsi menggunakan mean dianggap signifikan secara statistik dengan probabilitas `P`. Itu. regresi menggambarkan ketergantungan lebih baik daripada penyebaran `y` di sekitar rata-rata.

    Klik pada grafik
    untuk menambahkan nilai ke tabel

    Metode kuadrat terkecil. Metode kuadrat terkecil berarti penentuan parameter yang tidak diketahui a, b, c, ketergantungan fungsional yang diterima

    Metode kuadrat terkecil berarti penentuan parameter yang tidak diketahui a, b, c,… ketergantungan fungsional yang diterima

    y = f(x,a,b,c,…),

    yang akan memberikan minimum kuadrat rata-rata (varians) dari kesalahan

    , (24)

    dimana x i , y i - himpunan pasangan bilangan yang diperoleh dari percobaan.

    Karena syarat ekstrem suatu fungsi beberapa variabel adalah syarat turunan parsialnya sama dengan nol, maka parameternya a, b, c,… ditentukan dari sistem persamaan:

    ; ; ; … (25)

    Harus diingat bahwa metode kuadrat terkecil digunakan untuk memilih parameter setelah bentuk fungsi y = f(x) didefinisikan.

    Jika dari pertimbangan teoritis tidak mungkin untuk menarik kesimpulan apa pun tentang apa rumus empiris seharusnya, maka seseorang harus dipandu oleh representasi visual, terutama representasi grafis dari data yang diamati.

    Dalam praktiknya, paling sering terbatas pada jenis fungsi berikut:

    1) linier ;

    2) kuadrat a.

    Inti dari metode kuadrat terkecil adalah dalam menemukan parameter model tren yang paling menggambarkan tren perkembangan dari setiap fenomena acak dalam waktu atau ruang (tren adalah garis yang mencirikan tren perkembangan ini). Tugas metode kuadrat terkecil (OLS) adalah untuk menemukan tidak hanya beberapa model tren, tetapi untuk menemukan model terbaik atau optimal. Model ini akan optimal jika jumlah deviasi kuadrat antara nilai aktual yang diamati dan nilai tren yang dihitung terkait minimal (terkecil):

    di mana adalah standar deviasi antara nilai aktual yang diamati

    dan nilai tren terhitung yang sesuai,

    Nilai aktual (yang diamati) dari fenomena yang diteliti,

    Perkiraan nilai model tren,

    Banyaknya pengamatan terhadap fenomena yang diteliti.

    MNC jarang digunakan sendiri. Sebagai aturan, paling sering digunakan hanya sebagai teknik yang diperlukan dalam studi korelasi. Perlu diingat bahwa basis informasi LSM hanya dapat berupa rangkaian statistik yang dapat diandalkan, dan jumlah pengamatan tidak boleh kurang dari 4, jika tidak, prosedur pemulusan LSM dapat kehilangan akal sehatnya.

    Toolkit OLS direduksi menjadi prosedur berikut:

    Prosedur pertama. Ternyata apakah ada kecenderungan sama sekali untuk mengubah atribut yang dihasilkan ketika faktor-argumen yang dipilih berubah, atau dengan kata lain, apakah ada hubungan antara " pada " dan " X ».

    Prosedur kedua. Ditentukan garis (lintasan) mana yang paling mampu menggambarkan atau mencirikan tren ini.

    Prosedur ketiga.

    Contoh. Misalkan kita memiliki informasi tentang hasil rata-rata bunga matahari untuk pertanian yang diteliti (Tabel 9.1).

    Tabel 9.1

    Nomor observasi

    Produktivitas, c/ha

    Karena tingkat teknologi dalam produksi bunga matahari di negara kita tidak banyak berubah selama 10 tahun terakhir, itu berarti, kemungkinan besar, fluktuasi hasil pada periode yang dianalisis sangat bergantung pada fluktuasi cuaca dan kondisi iklim. Apakah itu benar?

    Prosedur MNC pertama. Hipotesis tentang adanya tren perubahan hasil bunga matahari tergantung pada perubahan kondisi cuaca dan iklim selama 10 tahun yang dianalisis sedang diuji.

    Dalam contoh ini, untuk " kamu » disarankan untuk mengambil hasil bunga matahari, dan untuk « x » adalah jumlah tahun yang diamati dalam periode yang dianalisis. Menguji hipotesis tentang adanya hubungan antara “ x " dan " kamu » dapat dilakukan dengan dua cara: secara manual dan dengan bantuan program komputer. Tentunya dengan tersedianya teknologi komputer, masalah ini dapat teratasi dengan sendirinya. Namun, untuk lebih memahami alat OLS, disarankan untuk menguji hipotesis tentang adanya hubungan antara " x " dan " kamu » secara manual, saat hanya ada pena dan kalkulator biasa. Dalam kasus seperti itu, hipotesis keberadaan tren paling baik diperiksa secara visual dengan lokasi gambar grafik dari deret waktu yang dianalisis - bidang korelasi:

    Bidang korelasi dalam contoh kita terletak di sekitar garis yang meningkat perlahan. Hal ini sendiri menunjukkan adanya tren tertentu dalam perubahan hasil bunga matahari. Mustahil untuk berbicara tentang keberadaan tren apa pun hanya ketika bidang korelasi terlihat seperti lingkaran, lingkaran, awan yang benar-benar vertikal atau horizontal, atau terdiri dari titik-titik yang tersebar secara acak. Dalam semua kasus lain, perlu untuk mengkonfirmasi hipotesis adanya hubungan antara " x " dan " kamu dan melanjutkan penelitian.

    Prosedur MNC kedua. Ditentukan garis (lintasan) mana yang paling mampu menggambarkan atau mengkarakterisasi tren perubahan hasil bunga matahari untuk periode yang dianalisis.

    Dengan tersedianya teknologi komputer, pemilihan trend yang optimal terjadi secara otomatis. Dengan pemrosesan "manual", pilihan fungsi optimal dilakukan, sebagai suatu peraturan, secara visual - berdasarkan lokasi bidang korelasi. Artinya, menurut jenis bagan, persamaan garis dipilih, yang paling sesuai dengan tren empiris (ke lintasan sebenarnya).

    Seperti yang Anda ketahui, di alam ada berbagai macam dependensi fungsional, sehingga sangat sulit untuk menganalisis secara visual bahkan sebagian kecil darinya. Untungnya, dalam praktik ekonomi nyata, sebagian besar hubungan dapat digambarkan secara akurat baik dengan parabola, atau hiperbola, atau garis lurus. Dalam hal ini, dengan opsi "manual" untuk memilih fungsi terbaik, Anda dapat membatasi diri hanya pada tiga model ini.

    Hiperbola:

    Parabola orde kedua: :

    Sangat mudah untuk melihat bahwa dalam contoh kita, tren perubahan hasil bunga matahari selama 10 tahun yang dianalisis paling baik dicirikan oleh garis lurus, sehingga persamaan regresi akan menjadi persamaan garis lurus.

    Prosedur ketiga. Parameter persamaan regresi yang mencirikan garis ini dihitung, atau dengan kata lain, ditentukan formula analitik yang menggambarkan model tren terbaik.

    Menemukan nilai parameter persamaan regresi, dalam kasus kami, parameter dan , adalah inti dari kuadrat terkecil. Proses ini direduksi menjadi penyelesaian sistem persamaan normal.

    (9.2)

    Sistem persamaan ini cukup mudah diselesaikan dengan metode Gauss. Ingatlah bahwa sebagai hasil dari solusi, dalam contoh kami, nilai parameter dan ditemukan. Dengan demikian, persamaan regresi yang ditemukan akan memiliki bentuk sebagai berikut:

    KATEGORI

    ARTIKEL POPULER

    2022 "kingad.ru" - pemeriksaan ultrasonografi organ manusia