Критерій кореляції Пірсона – це метод параметричної статистики, що дозволяє визначити наявність або відсутність лінійного зв'язку між двома кількісними показниками, а також оцінити її тісноту та статистичну значимість. Іншими словами, критерій кореляції Пірсона дозволяє визначити, чи є лінійний зв'язок між змінами значень двох змінних. У статистичних розрахунках та висновках коефіцієнт кореляції зазвичай позначається як r xyабо R xy.

1. Історія розробки критерію кореляції

Критерій кореляції Пірсона був розроблений командою британських учених на чолі з Карлом Пірсоном(1857-1936) у 90-х роках 19-го століття, для спрощення аналізу коваріації двох випадкових величин. Крім Карла Пірсона, над критерієм кореляції Пірсона працювали також Френсіс Еджуорті Рафаель Велдон.

2. Навіщо використовується критерій кореляції Пірсона?

Критерій кореляції Пірсона дозволяє визначити, яка тіснота (або сила) кореляційного зв'язку між двома показниками, виміряними у кількісній шкалі. За допомогою додаткових розрахунків можна також визначити, наскільки статистично значущий виявлений зв'язок.

Наприклад, за допомогою критерію кореляції Пірсона можна відповісти на питання про наявність зв'язку між температурою тіла та вмістом лейкоцитів у крові при гострих респіраторних інфекціях, між зростанням та вагою пацієнта, між вмістом у питній воді фтору та захворюваністю населення на карієс.

3. Умови та обмеження застосування критерію хі-квадрат Пірсона

  1. Порівняні показники повинні бути виміряні в кількісній шкалі(Наприклад, частота серцевих скорочень, температура тіла, вміст лейкоцитів в 1 мл крові, систолічний артеріальний тиск).
  2. За допомогою критерію кореляції Пірсона можна визначити лише наявність та силу лінійного взаємозв'язкуміж величинами. Інші характеристики зв'язку, у тому числі напрямок (прямий або зворотний), характер змін (прямолінійний або криволінійний), а також наявність залежності однієї змінної від іншої - визначаються за допомогою регресійного аналізу.
  3. Кількість зіставлюваних величин має дорівнювати двом. У разі аналізу взаємозв'язку трьох і більше параметрів слід скористатися методом факторного аналізу.
  4. Критерій кореляції Пірсона є параметричним, у зв'язку з чим умовою його застосування служить нормальний розподілзіставлюваних змінних. У разі потреби кореляційного аналізу показників, розподіл яких відрізняється від нормального, у тому числі виміряних у порядковій шкалі, слід використовувати коефіцієнт рангової кореляції Спірмена.
  5. Слід чітко розрізняти поняття залежності та кореляції. Залежність величин зумовлює наявність кореляційного зв'язку з-поміж них, але з навпаки.

Наприклад, зростання дитини залежить від її віку, тобто чим старша дитина, тим вона вища. Якщо ми візьмемо двох дітей різного віку, то з високою ймовірністю зростання старшої дитини буде більшим, ніж у молодшого. Дане явище і називається залежністю, що передбачає причинно-наслідковий зв'язок між показниками Зрозуміло, між ними є і кореляційний зв'язок, Що означає, що зміни одного показника супроводжуються змінами іншого показника

В іншій ситуації розглянемо зв'язок зростання дитини та частоти серцевих скорочень (ЧСС). Як відомо, обидві ці величини безпосередньо залежать від віку, тому в більшості випадків діти більшого зростання (а значить і старшого віку) матимуть менші значення ЧСС. Тобто, кореляційний зв'язокспостерігатиметься і може мати досить високу тісноту. Однак якщо ми візьмемо дітей одного віку, але різного зростання, то, швидше за все, ЧСС у них буде відрізнятися несуттєво, у зв'язку з чим можна зробити висновок незалежностіЧСС від зростання.

Наведений приклад показує, як важливо розрізняти фундаментальні у статистиці поняття зв'язкуі залежностіпоказників для побудови правильних висновків.

4. Як розрахувати коефіцієнт кореляції Пірсона?

Розрахунок коефіцієнта кореляції Пірсона здійснюється за такою формулою:

5. Як інтерпретувати значення коефіцієнта кореляції Пірсона?

Значення коефіцієнта кореляції Пірсона інтерпретуються з його абсолютних значень. Можливі значення коефіцієнта кореляції варіюють від 0 до ±1. Чим більше абсолютне значення r xy – тим вища тіснота зв'язку між двома величинами. r xy = 0 говорить про повну відсутність зв'язку. r xy = 1 – свідчить про наявність абсолютного (функціонального) зв'язку. Якщо значення критерію кореляції Пірсона виявилося більшим за 1 або менше -1 – у розрахунках допущена помилка.

Для оцінки тісноти або сили кореляційного зв'язку зазвичай використовують загальноприйняті критерії, згідно з якими абсолютні значення r xy< 0.3 свидетельствуют о слабкоюзв'язку, значення r xy від 0.3 до 0.7 - про зв'язок середньоїтісноти, значення r xy > 0.7 - о сильноюзв'язку.

Точнішу оцінку сили кореляційного зв'язку можна отримати, якщо скористатися таблицею Чеддока:

Оцінка статистичної значимостікоефіцієнта кореляції r xy здійснюється за допомогою t-критерію, що розраховується за такою формулою:

Отримане значення t r порівнюється з критичним значенням за певного рівня значущості та числа ступенів свободи n-2. Якщо t r перевищує t крит, робиться висновок про статистичній значущості виявленого кореляційного зв'язку.

6. Приклад розрахунку коефіцієнта кореляції Пірсона

Метою дослідження було виявлення, визначення тісноти та статистичної значущості кореляційного зв'язку між двома кількісними показниками: рівнем тестостерону в крові (X) та відсотком м'язової маси в тілі (Y). Вихідні дані для вибірки, що складається з 5 досліджуваних (n = 5), зведені у таблиці.

У наукових дослідженнях часто виникає необхідність у знаходженні зв'язку між результативними та факторними змінними (урожайністю будь-якої культури та кількістю опадів, зростанням та вагою людини в однорідних групах за статтю та віком, частотою пульсу та температурою тіла тощо).

Другі є ознаки, сприяють зміні таких, що з ними (першими).

Поняття про кореляційний аналіз

Існує безліч Виходячи з вищевикладеного, можна сказати, що кореляційний аналіз - це метод, що застосовується з метою перевірки гіпотези про статистичну значущість двох і більше змінних, якщо дослідник їх може вимірювати, але не змінювати.

Є й інші визначення поняття, що розглядається. Кореляційний аналіз - це метод обробки полягає у вивченні коефіцієнтів кореляції між змінними. При цьому порівнюються коефіцієнти кореляції між однією парою або безліччю пар ознак для встановлення між ними статистичних взаємозв'язків. Кореляційний аналіз - це метод вивчення статистичної залежності між випадковими величинами з необов'язковою наявністю суворого функціонального характеру, при якій динаміка однієї випадкової величини призводить до динаміки математичного очікування іншої.

Поняття про хибність кореляції

При проведенні кореляційного аналізу необхідно враховувати, що його можна провести по відношенню до будь-якої сукупності ознак, часто абсурдних один до одного. Часом вони не мають жодного причинного зв'язку один з одним.

У цьому випадку говорять про хибну кореляцію.

Завдання кореляційного аналізу

Виходячи з наведених вище визначень, можна сформулювати такі завдання описуваного методу: отримати інформацію про одну з змінних, що шукаються, за допомогою іншої; визначити тісноту зв'язку між досліджуваними змінними.

Кореляційний аналіз передбачає визначення залежності між ознаками, що досліджуються, у зв'язку з чим завдання кореляційного аналізу можна доповнити такими:

  • виявлення факторів, що мають найбільший вплив на результативну ознаку;
  • виявлення невивчених раніше причин зв'язків;
  • побудова кореляційної моделі з її параметричним аналізом;
  • вивчення значимості властивостей зв'язку та його інтервальна оцінка.

Зв'язок кореляційного аналізу з регресійним

Метод кореляційного аналізу часто не обмежується знаходженням тісноти зв'язку між досліджуваними величинами. Іноді він доповнюється складанням рівнянь регресії, які отримують за допомогою однойменного аналізу, і є описом кореляційної залежності між результуючим і факторним (факторними) ознакою (ознаками). Цей метод разом із аналізованим аналізом становить метод

Умови використання методу

Результативні чинники залежить від однієї до кількох чинників. Метод кореляційного аналізу може застосовуватися в тому випадку, якщо є велика кількість спостережень про величину результативних та факторних показників (факторів), при цьому досліджувані фактори мають бути кількісними та відображатись у конкретних джерелах. Перше може визначатися нормальним законом - у цьому випадку результатом кореляційного аналізу виступають коефіцієнти кореляції Пірсона, або, якщо ознаки не підкоряються цьому закону, використовується коефіцієнт рангової кореляції Спірмена.

Правила відбору факторів кореляційного аналізу

При застосуванні даного методу необхідно визначитися з факторами, які впливають на результативні показники. Їх відбирають з урахуванням того, що між показниками мають бути причинно-наслідкові зв'язки. У разі створення багатофакторної кореляційної моделі відбирають ті з них, які істотно впливають на результуючий показник. чи функціональний характер.

Відображення результатів

Результати кореляційного аналізу можуть бути представлені у текстовому та графічному видах. У першому випадку вони видаються як коефіцієнт кореляції, у другому - у вигляді діаграми розкиду.

За відсутності кореляції між параметрами точки на діаграмі розташовані хаотично, середній ступінь зв'язку характеризується більшим ступенем упорядкованості та характеризується більш-менш рівномірною віддаленістю нанесених позначок медіани. Сильна зв'язок прагне прямий і за r=1 точковий графік є рівною лінію. Зворотна кореляція відрізняється спрямованістю графіка з лівого верхнього в правий нижній, пряма — з нижнього лівого у верхній правий кут.

Тривимірне уявлення діаграми розкиду (розсіювання)

Крім традиційного 2D-подання діаграми розкиду, в даний час використовується 3D-відображення графічного представлення кореляційного аналізу.

Також використовується матриця діаграми розсіювання, яка відображає всі парні графіки на одному малюнку в матричному форматі. Для n змінних матриця містить n рядків та n стовпців. Діаграма, розташована на перетині i-го рядка і j-ого стовпця, є графік змінних Xi в порівнянні з Xj. Таким чином, кожен рядок і стовпець є одним виміром, окремий осередок відображає діаграму розсіювання двох вимірів.

Оцінка тісноти зв'язку

Тіснота кореляційного зв'язку визначається за коефіцієнтом кореляції (r): сильна – r = ±0,7 до ±1, середня – r = ±0,3 до ±0,699, слабка – r = 0 до ±0,299. Ця класифікація перестав бути суворої. На малюнку показано дещо іншу схему.

Приклад застосування методу кореляційного аналізу

У Великій Британії було зроблено цікаве дослідження. Воно присвячене зв'язку куріння з раком легенів, та проводилося шляхом кореляційного аналізу. Це спостереження наведено нижче.

Критерій кореляції пірсона. Статистична значимість параметрів регресії та кореляції

Введення. 2

1. Оцінка значущості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента. 3

2. Розрахунок значущості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента. 6

Висновок. 15

Після побудови рівняння регресії необхідно зробити перевірку його значимості: з допомогою спеціальних критеріїв встановити, чи є отримана залежність, виражена рівнянням регресії, випадкової, тобто. чи можна її використовувати у прогнозних цілях і для факторного аналізу. У статистиці розроблено методики суворої перевірки значущості коефіцієнтів регресії за допомогою дисперсійного аналізу та розрахунку спеціальних критеріїв (наприклад, F-критерію). Нестрога перевірка може бути виконана шляхом розрахунку середнього відносного лінійного відхилення (е), що називається середньою помилкою апроксимації:

Перейдемо тепер до оцінки значущості коефіцієнтів регресії bj і побудові довірчого інтервалу параметрів регресійної моделі Ру (J=l,2,..., р).

Блок 5 - оцінка значимості коефіцієнтів регресій за величиною ^-критерію Стьюдента. Розрахункові значення ta порівнюються з допустимим значенням

Блок 5 - оцінка значимості коефіцієнтів регресій за величиною -критерію. Розрахункові значення t0n порівнюються з допустимим значенням 4,/, яке визначається за таблицями t - розподілу для заданої ймовірності помилок (а) та числа ступенів свободи (/).

Крім перевірки значимості всієї моделі, необхідно провести перевірки значущості коефіцієнтів регресії за критерієм Стюдента. Мінімальне значення коефіцієнта регресії Ьг має відповідати умові bifob-^t, де bi - значення коефіцієнта рівняння регресії в натуральному масштабі при i-ц факторною ознакою; аь. - Середня квадратична помилка кожного коефіцієнта. непорівнянність між собою за своєю значимістю коефіцієнтів D;

Подальший статистичний аналіз стосується перевірки важливості коефіцієнтів регресії. Для цього знаходимо значення ^-критерію для коефіцієнтів регресії. В результаті їх порівняння визначається найменший за величиною -критерій. Фактор, коефіцієнту якого відповідає найменший -критерій, виключається з подальшого аналізу.

Для оцінки статистичної значущості коефіцієнтів регресії та кореляції розраховуються t-критерій Ст'юдента та довірчі інтервали кожного з показників. Висувається гіпотеза Але про випадкову природу показників, тобто. про незначне їх відмінність від нуля. Оцінка значущості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента проводиться шляхом зіставлення їх значень із величиною випадкової помилки:

Оцінка значимості коефіцієнтів чистої регресії за допомогою /-критерію Стьюдента зводиться до обчислення значення

Якість праці - характеристика конкретної праці, що відбиває ступінь його складності, напруженості (інтенсивності), умови значимість у розвиток економіки. К.т. вимірюється у вигляді тарифної системи, що дозволяє диференціювати заробітну плату залежно від рівня кваліфікації (складності праці), умов, тяжкості праці та її інтенсивності, і навіть значимості окремих галузей і виробництв, районів, територій у розвиток економіки нашої країни. К.т. знаходить вираз у заробітній платі працівників, що складається на ринку праці під впливом попиту та пропозиції робочої сили (конкретні види праці). К.т. - складна за структурою

Отримані бали відносної значимості окремих економічних, соціальних та екологічних наслідків здійснення проекту дають далі основу для порівняння альтернативних проектів та їх варіантів за допомогою "комплексного бального безрозмірного критерію соціальної та еколого-економічної ефективності" проекту Ек, що розраховується (у усереднених балах значущості)

Внутрішньогалузеве регулювання забезпечує відмінності в оплаті праці працівників цієї галузі промисловості залежно від значущості окремих видів виробництва даної галузі, від складності та умов праці, а також від застосовуваних форм оплати праці.

Отримана рейтингова оцінка підприємства, що аналізується, по відношенню до підприємства-еталону без урахування значимості окремих показників є порівняльною. При порівнянні рейтингових оцінок кількох підприємств найвищий рейтинг має підприємство із мінімальним значенням отриманої порівняльної оцінки.

Розуміння якості товару як міри його корисності ставить практично важливе питання про її вимір. Його рішення досягається вивченням значимості окремих властивостей у задоволенні певної потреби. Значимість навіть однієї й тієї ж якості може бути неоднаковою залежно та умовами споживання товару. Отже, і корисність товару за різних обставин її використання різна.

Другий етап роботи - вивчення статистичних даних та виявлення взаємозв'язку та взаємодії показників, визначення значущості окремих факторів та причин зміни загальних показників.

Всі аналізовані показники зводяться в один такий спосіб, що в результаті виходить комплексна оцінка всіх аналізованих сторін діяльності підприємства з урахуванням умов його діяльності, з урахуванням ступеня значимості окремих показників для різних типів інвесторів:

p align="justify"> Коефіцієнти регресії показують інтенсивність впливу факторів на результативний показник. Якщо проведено попередню стандартизацію факторних показників, то Ь0 дорівнює середньому значенню результативного показника в сукупності. Коефіцієнти Ь, Ь2 ..... Ьл показують, на скільки одиниць рівень результативного показника відхиляється від свого середнього значення, якщо значення факторного показника відхиляються від середнього, що дорівнює нулю, на одне стандартне відхилення. Отже, коефіцієнти регресії характеризують ступінь значимості окремих чинників підвищення рівня результативного показника. Конкретні значення коефіцієнтів регресії визначають за емпіричними даними згідно з методом найменших квадратів (в результаті розв'язання систем нормальних рівнянь).

2. Розрахунок значущості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента

Розглянемо лінійну форму багатофакторних зв'язків як найбільш просту, а й як форму, передбачену пакетами прикладних програм для ПЕОМ. Якщо ж зв'язок окремого фактора з результативною ознакою не є лінійним, то роблять лінеаризацію рівняння шляхом заміни чи перетворення величини факторної ознаки.

Загальний вигляд багатофакторного рівняння регресії має вигляд:


де k – число факторних ознак.

Щоб спростити систему рівнянь МНК, необхідну обчислення параметрів рівняння (8.32), зазвичай вводять величини відхилень індивідуальних значень всіх ознак середніх величин цих ознак.

Отримуємо систему k рівнянь МНК:

Вирішуючи цю систему, отримуємо значення коефіцієнтів умовно чистої регресії b. Вільний член рівняння обчислюється за формулою


Термін «коефіцієнт умовно-чистої регресії» означає, що кожна з величин bj вимірює середнє за сукупністю відхилення результативної ознаки від його середньої величини при відхиленні даного фактора хj від своєї середньої величини на одиницю його вимірювання та за умови, що всі інші фактори, що входять до рівняння регресії, закріплені на середніх значеннях, не змінюються, не змінюються.

Отже, на відміну коефіцієнта парної регресії коефіцієнт умовно-чистої регресії вимірює вплив чинника, абстрагуючись від зв'язку варіації цього з варіацією інших чинників. Якщо було б можливим включити до рівняння регресії всі чинники, що впливають варіацію результативного ознаки, то величини bj. можна було б вважати за заходи чистого впливу факторів. Але оскільки реально неможливо включити всі чинники рівняння, то коефіцієнти bj. не вільні від домішки впливу факторів, що не входять до рівняння.

Включити всі фактори в рівняння регресії неможливо з однієї з трьох причин або відразу з усіх, оскільки:

1) частина факторів може бути невідома сучасній науці, пізнання будь-якого процесу завжди неповне;

2) у відомих теоретичних чинників немає інформації чи така ненадійна;

3) чисельність досліджуваної сукупності (вибірки) обмежена, що дозволяє включити до рівняння регресії обмежену кількість факторів.

Коефіцієнти умовно чистої регресії bj. є іменованими числами, вираженими у різних одиницях виміру, і тому незрівнянні друг з одним. Для перетворення в порівняні відносні показники застосовується те саме перетворення, що й отримання коефіцієнта парної кореляції. Отриману величину називають стандартизованим коефіцієнтом регресії або ?-коефіцієнтом.


Коефіцієнт при факторі хj, визначає міру впливу варіації фактора хj на варіацію результативної ознаки при відволіканні від супутньої варіації інших факторів, що входять до рівняння регресії.

Коефіцієнти умовно-чистої регресії корисно висловити як відносних порівняних показників зв'язку, коефіцієнтів еластичності:

p align="justify"> Коефіцієнт еластичності фактора хj говорить про те, що при відхиленні величини даного фактора від його середньої величини на 1% і при відволіканні від супутнього відхилення інших факторів, що входять до рівняння, результативна ознака відхилиться від свого середнього значення на ej відсотків від у. Найчастіше інтерпретують і застосовують коефіцієнти еластичності в термінах динаміки: зі збільшенням фактора х.на 1% його середньої величини результативна ознака збільшиться на е. відсотків його середньої величини.

Розглянемо розрахунок та інтерпретацію рівняння багатофакторної регресії на прикладі тих самих 16 господарств (табл. 8.1). Результативна ознака – рівень валового доходу та три фактори, що впливають на нього, представлені в табл. 8.7.

Нагадаємо ще раз, що для отримання надійних і досить точних показників кореляційного зв'язку необхідна численніша сукупність.


Таблиця 8.7

Рівень валового доходу та його фактори

Номери господарств

Валовий дохід, руб.

Витрати праці, чол.-дні/га х1

Частка ріллі,

Надій молока на 1 корову,

Таблиця 8.8 Показники рівняння регресії

Dependent variable: у

Regression coefficient

Constant-240,112905

Std. error оf est. = 79,243276


Рішення проведено за програмою Microstat для ПЕОМ. Наведемо таблиці з друку: табл. 8.7 дає середні величини та середні квадратичні відхилення всіх ознак. Табл. 8.8 містить коефіцієнти регресії та їх ймовірнісну оцінку:

перша графа "var" - змінні, тобто фактори; друга графа "regression coefficient" - коефіцієнти умовно-чистої регресії bj; третю графу «std. errror» – середні помилки оцінок коефіцієнтів регресії; четверта графа – значення t-критерію Стьюдента при 12 ступенях свободи варіації; п'ята графа «prob» - ймовірність нульової гіпотези щодо коефіцієнтів регресії;

шоста графа "partial r2" - приватні коефіцієнти детермінації. Зміст та методика розрахунку показників у графах 3-6 розглядаються далі у розділі 8. «Constant» - вільний член рівняння регресії a; «Std. error of est.» - Середня квадратична помилка оцінки результативної ознаки рівняння регресії. Було отримано рівняння множинної регресії:

у = 2,26 x1 - 4,31 х2 + 0,166 х3 - 240.

Це означає, що величина валового доходу на 1 га сільгоспугідь у середньому за сукупністю зростала на 2,26 руб. зі збільшенням витрат праці на 1 год/га; зменшувалась у середньому на 4,31 руб. при зростанні частки ріллі в сільгоспугіддях на 1% і збільшувалася на 0,166 руб. при зростанні надою молока на корову на 1 кг. Негативна величина вільного члена цілком закономірна, і, як уже зазначено у п. 8.2, результативна ознака - валовий дохід стає нульовим задовго до досягнення нульових значень факторів, що у виробництві неможливе.

Негативне значення коефіцієнта при х^ - сигнал про суттєве неблагополуччя в економіці досліджуваних господарств, де рослинництво збиткове, а прибуткове лише тваринництво. При раціональних методах ведення сільського господарства та нормальних цінах (рівноважних чи близьких до них) на продукцію всіх галузей, дохід повинен не зменшуватися, а зростати зі збільшенням найбільш родючої частки у сільгоспугіддях – ріллі.

На основі даних передостанніх двох рядків табл. 8.7 та табл. 8.8 розрахуємо р-коефіцієнти та коефіцієнти еластичності згідно з формулами (8.34) та (8.35).

Як на варіацію рівня доходу, так і на його можливу зміну в динаміці найсильніше впливає фактор х3 – продуктивність корів, а найслабше – х2 – частка ріллі. Значення Р2/ використовуватимуться надалі (табл. 8.9);

Таблиця 8.9 Порівняльний вплив факторів на рівень доходу

Чинники хj


Отже, ми отримали, що?-коефіцієнт фактора хj відноситься до коефіцієнта еластичності цього фактора, як коефіцієнт варіації фактора до коефіцієнта варіації результативної ознаки. Оскільки, як видно з останнього рядка табл. 8.7, коефіцієнти варіації всіх факторів менші за коефіцієнт варіації результативної ознаки; всі?-коефіцієнти менше коефіцієнтів еластичності.

Розглянемо співвідношення між парним і умовно-чистим коефіцієнтом регресії з прикладу чинника -с,. Парне лінійне рівняння зв'язку у с х має вигляд:

y = 3,886x1 - 243,2

Умовно-чистий коефіцієнт регресії при x1 становить лише 58% парного. Інші 42% пов'язані з тим, що варіації x1 супроводжує варіація факторів x2 x3, яка, у свою чергу, впливає на результативну ознаку. Зв'язки всіх ознак та його коефіцієнти парних регресій представлені на графі зв'язків (рис. 8.2).


Якщо скласти оцінки прямого та опосередкованого впливу варіації х1 на у, тобто добутку коефіцієнтів парних регресій по всіх «шляхах» (рис. 8.2), отримаємо: 2,26 + 12,55 · 0,166 + (-0,00128) · (-4,31) + (-0,00128) · 17,00 · 0,166 = 4,344.

Ця величина навіть більша за парний коефіцієнт зв'язку x1 з у. Отже, непрямий вплив варіації x1 через ознаки-фактори, що не входять до рівняння, - зворотне, що дає в сумі:

1 Айвазян С.А., Мхітарян В.С. Прикладна статистика та основи економетрики. Підручник для вишів. - М.: ЮНІТІ, 2008, - 311с.

2 Джонстон Дж. Економетричні методи. - М: Статистика, 1980,. - 282с.

3 Доугерті К. Введення в економетрику. - М: ІНФРА-М, 2004, - 354с.

4 Дрейєр Н., Сміт Р., Прикладний регресійний аналіз. - М.: Фінанси та статистика, 2006, - 191с.

5 Магнус Я.Р., Картишев П.К., Пересецький А.А. Економетрики. Початковий курс.-М.: Справа, 2006, - 259с.

6 Практикум з економетрики / Под ред. І.І.Єлісєєвої.- М.: Фінанси та статистика, 2004, - 248с.

7 Економетрика / Под ред. І.І.Єлісєєвої.- М.: Фінанси та статистика, 2004, - 541с.

8 Кремер Н., Путко Б. Економетрика. - М.: ЮНІТІ-ДАНА, 200, - 281с.


Айвазян С.А., Мхітарян В.С. Прикладна статистика та основи економетрики. Підручник для вишів. - М.: ЮНІТІ, 2008,-с. 23.

Кремер Н., Путко Б. Економетрика. - М.: ЮНІТІ-ДАНА, 200, -с.64

Дрейєр Н., Сміт Р., Прикладний регресійний аналіз. - М.: Фінанси та статистика, 2006, - с57.

Практикум з економетрики / Под ред. І.І.Єлісєєвої.- М.: Фінанси та статистика, 2004, -з 172.

Вихідні дані для кореляційного аналізу

Професійна група

смертність

Фермери, лісники та рибалки

Шахтарі та працівники кар'єрів

Виробники газу, коксу та хімічних речовин

Виробники скла та кераміки

Працівники печей, ковальських, ливарних та прокатних станів

Працівники електротехніки та електроніки

Інженерні та суміжні професії

Деревообробні виробництва

Кожувенники

Текстильні робітники

Виробники робочого одягу

Працівники харчової, питної та тютюнової промисловості

Виробники паперу та друку

Виробники інших продуктів

Будівельники

Художники та декоратори

Водії стаціонарних двигунів, кранів тощо.

Робочі, не включені до інших місць

Працівники транспорту та зв'язку

Складські робітники, комірники, пакувальники та працівники розливальних машин

Канцелярські працівники

Продавці

Працівники служби спорту та відпочинку

Адміністратори та менеджери

Професіонали, технічні працівники та художники

Розпочинаємо кореляційний аналіз. Рішення краще починати для наочності з графічного способу, навіщо побудуємо діаграму розсіювання (розкиду).

Вона показує прямий зв'язок. Однак на підставі лише графічного методу зробити однозначний висновок складно. Тому продовжимо виконувати кореляційний аналіз. Приклад розрахунку коефіцієнта кореляції наведено нижче.

За допомогою програмних засобів (з прикладу MS Excel буде описано далі) визначаємо коефіцієнт кореляції, який становить 0,716, що означає сильний зв'язок між досліджуваними параметрами. Визначимо статистичну достовірність отриманого значення за відповідною таблицею, для чого нам потрібно відняти з 25 пар значень 2, в результаті чого отримаємо 23 і по цьому рядку в таблиці знайдемо r критичне для p=0,01 (оскільки це медичні дані, тут використовується більш строга залежність, в решті випадків достатньо p=0,05), яке становить 0,51 для цього кореляційного аналізу. Приклад продемонстрував, що розрахункове більше r критичного, значення коефіцієнта кореляції вважається статистично достовірним.

Використання ПЗ під час проведення кореляційного аналізу

Вигляд статистичної обробки даних, що описується, може здійснюватися за допомогою програмного забезпечення, зокрема, MS Excel. Кореляційний передбачає обчислення наступних параметрів з використанням функцій:

1. Коефіцієнт кореляції визначається за допомогою функції КОРРЕЛ (масив1; масив2). Масив1,2 - осередок інтервалу значень результативних і факторних змінних.

Лінійний коефіцієнт кореляції також називається коефіцієнтом кореляції Пірсона, у зв'язку з чим, починаючи з Excel 2007 можна використовувати функцію з тими ж масивами.

Графічне відображення кореляційного аналізу в Excel здійснюється за допомогою панелі "Діаграми" з вибором "Точкова діаграма".

Після вказівки вихідних даних отримуємо графік.

2. Оцінка значимості коефіцієнта парної кореляції з допомогою t-критерію Стьюдента. Розраховане значення t-критерію порівнюється з табличною (критичною) величиною даного показника з відповідної таблиці значень аналізованого параметра з урахуванням заданого рівня значущості та числа ступенів свободи. Ця оцінка здійснюється з використанням функції СТЬЮДРАСПОБР (імовірність; ступеня_свободи).

3. Матриця коефіцієнтів парної кореляції. Аналіз здійснюється за допомогою засобу "Аналіз даних", в якому вибирається "Кореляція". Статистичну оцінку коефіцієнтів парної кореляції здійснюють у порівнянні його абсолютної величини з табличним (критичним) значенням. При перевищенні розрахункового коефіцієнта парної кореляції над таким критичним можна говорити, з урахуванням заданого ступеня ймовірності, що нульова гіпотеза про значимість лінійного зв'язку не відкидається.

На закінчення

Використання в наукових дослідженнях методу кореляційного аналізу дозволяє визначити зв'язок між різними факторами та результативними показниками. При цьому необхідно враховувати, що високий коефіцієнт кореляції можна отримати і з абсурдної пари або безлічі даних, у зв'язку з чим даний вид аналізу потрібно здійснювати досить великий масив даних.

Після отримання розрахункового значення r бажано порівняти з r критичним для підтвердження статистичної достовірності певної величини. Кореляційний аналіз може здійснюватися вручну з використанням формул або за допомогою програмних засобів, зокрема MS Excel. Тут же можна побудувати діаграму розкиду (розсіювання) з метою наочного уявлення про зв'язок між факторами кореляційного аналізу, що вивчаються, і результативною ознакою.

Як неодноразово зазначалося, для статистичного висновку про наявність чи відсутність кореляційного зв'язку між досліджуваними змінними необхідно перевірити значущість вибіркового коефіцієнта кореляції. У зв'язку з тим, що надійність статистичних характеристик, у тому числі і коефіцієнта кореляції, залежить від обсягу вибірки, може скластися така ситуація, коли величина коефіцієнта кореляції буде цілком обумовлена ​​випадковими коливаннями у вибірці, на підставі якої він обчислений. При суттєвому зв'язку між змінними коефіцієнт кореляції має істотно відрізнятися від нуля. Якщо кореляційна зв'язок між досліджуваними змінними відсутня, коефіцієнт кореляції генеральної сукупності ρ дорівнює нулю. При практичних дослідженнях, як правило, ґрунтуються на вибіркових спостереженнях. Як будь-яка статистична характеристика, вибірковий коефіцієнт кореляції є випадковою величиною, т. е. його значення випадково розсіюються навколо однойменного параметра генеральної сукупності (справжнього значення коефіцієнта кореляції). За відсутності кореляційного зв'язку між змінними у і хКоефіцієнт кореляції в генеральній сукупності дорівнює нулю. Але через випадковий характер розсіювання принципово можливі ситуації, коли деякі коефіцієнти кореляції, обчислені за вибірками із цієї сукупності, будуть відмінними від нуля.

Чи можуть виявлені відмінності бути приписані до випадкових коливань у вибірці або вони відображають суттєву зміну умов формування відносин між змінними? Якщо значення вибіркового коефіцієнта кореляції потрапляють у зону розсіювання, зумовлену випадковим характером самого показника, це не є доказом відсутності зв'язку. Найбільше, що у своїй можна стверджувати, зводиться до того що, що дані спостережень не заперечують відсутності зв'язок між змінними. Але якщо значення вибіркового коефіцієнта кореляції буде лежати поза згаданою зоною розсіювання, то роблять висновок, що він істотно відрізняється від нуля, і можна вважати, що між змінними у і хІснує статистично значущий зв'язок. Використовуваний на вирішення цього завдання критерій, заснований на розподілі різних статистик, називається критерієм значимості.

Процедура перевірки значущості починається з формулювання нульової гіпотези H0 . У загальному вигляді вона полягає в тому, що між параметром вибірки та параметром генеральної сукупності немає будь-яких суттєвих відмінностей. Альтернативна гіпотеза H1 полягає в тому, що між цими параметрами є суттєві відмінності. Наприклад, під час перевірки наявності кореляції у генеральній сукупності нульова гіпотеза у тому, що справжній коефіцієнт кореляції дорівнює нулю ( Н0: ρ = 0). Якщо результаті перевірки виявиться, що нульова гіпотеза не прийнятна, то вибірковий коефіцієнт кореляції rухзначно відрізняється від нуля (нульова гіпотеза відкидається і приймається альтернативна Н1).Іншими словами, припущення про некорелювання випадкових змінних у генеральній сукупності слід визнати необґрунтованим. І навпаки, якщо основі критерію значимості нульова гіпотеза приймається, тобто. rухлежить у допустимій зоні випадкового розсіювання, то немає підстав вважати сумнівним припущення про некорельованість змінних у генеральній сукупності.

При перевірці значущості дослідник встановлює рівень значущості α, який дає певну практичну впевненість у тому, що помилкові висновки будуть зроблені лише в окремих випадках. Рівень значущості висловлює ймовірність того, що нульова гіпотеза Н0відкидається у той час, коли вона насправді вірна. Зрозуміло, що має сенс вибирати цю ймовірність якнайменшу.

Нехай відомий розподіл вибіркової характеристики, яка є незміщеною оцінкою параметра генеральної сукупності. Вибраному рівню значимості α відповідають під кривою цього розподілу заштриховані площі (див. рис. 24). Незаштрихована площа під кривою розподілу визначає можливість Р = 1 - α . Кордони відрізків на осі абсцис під заштрихованими площами називають критичними значеннями, а самі відрізки утворюють критичну область, чи область відхилення гіпотези.

При процедурі перевірки гіпотези вибіркову характеристику, обчислену за наслідками спостережень, порівнюють із відповідним критичним значенням. При цьому слід розрізняти односторонню та двосторонню критичні області. Форма завдання критичної галузі залежить від постановки завдання під час статистичного дослідження. Двостороння критична область необхідна у разі, коли за порівнянні параметра вибірки і параметра генеральної сукупності потрібно оцінити абсолютну величину розбіжності з-поміж них, т. е. цікаві як позитивні, і негативні різниці між досліджуваними величинами. Коли ж треба переконатися в тому, що одна величина в середньому строго більша або менша за іншу, використовується одностороння критична область (право- або лівостороння). Цілком очевидно, що для того самого критичного значення рівень значущості при використанні односторонньої критичної області менший, ніж при використанні двосторонньої. Якщо розподіл вибіркової характеристики симетричний,

Мал. 24. Перевірка нульової гіпотези H0

рівень значимості двосторонньої критичної області дорівнює α, а односторонньої - (див. рис. 24). Обмежимося лише загальною постановкою проблеми. Докладніше з теоретичним обгрунтуванням перевірки статистичних гіпотез можна ознайомитися у спеціальній літературі. Далі ми лише вкажемо критерії значущості для різних процедур, не зупиняючись з їхньої побудові.

Перевіряючи значущість коефіцієнта парної кореляції, встановлюють наявність або відсутність кореляційного зв'язку між явищами, що досліджуються. За відсутності зв'язку коефіцієнт кореляції генеральної сукупності дорівнює нулю (ρ = 0). Процедура перевірки починається з формулювання нульової та альтернативної гіпотез:

Н0: різницю між вибірковим коефіцієнтом кореляції. r і ρ = 0 незначно,

Н1: різниця між rі ρ = 0 значуще, і отже, між змінними уі хє суттєвий зв'язок. З альтернативної гіпотези випливає, що потрібно скористатися двосторонньою критичною областю.

У розділі 8.1 вже згадувалося, що вибірковий коефіцієнт кореляції за певних передумов пов'язаний із випадковою величиною t, що підпорядковується розподілу Стьюдента з f = п- 2 ступенями свободи. Обчислена за результатами вибірки статистика

порівнюється з критичним значенням, що визначається за таблицею розподілу Стьюдента при заданому рівні значущості α іf = п- 2 степенях свободи. Правило застосування критерію ось у чому: якщо | t| >tf, то нульова гіпотеза на рівні значимості відкидається, т. е. зв'язок між змінними значима; якщо | t| ≤tf, то нульова гіпотеза на рівні значущості приймається. Відхилення значення r від ρ = 0 можна приписати довільної варіації. Дані вибірки характеризують аналізовану гіпотезу як можливу і правдоподібну, т. е. гіпотеза про відсутність зв'язку не викликає заперечень.

Процедура перевірки гіпотези значно спрощується, якщо замість статистики tскористатися критичними значеннями коефіцієнта кореляції, які можуть бути визначені через квантил розподілу Стьюдента шляхом підстановки (8.38) t= tf, а і r= ρ f, а:

(8.39)

Існують докладні таблиці критичних значень, витримка з яких наведена у додатку цієї книги (див. табл. 6). Правило перевірки гіпотези у разі зводиться до такого: якщо r> ρ f, а, то можемо стверджувати, що зв'язок між змінними є суттєвим. Якщо rrf, то результати спостережень вважаємо несуперечливими гіпотезі про відсутність зв'язку.

; ; .

Тепер обчислимо значення вибіркових середніх квадратичних відхилень:

https://pandia.ru/text/78/148/images/image443_0.gif" width="413" height="60 src=">.

Кореляційний зв'язок між рівнем у десятикласників, тим вищий середній рівень успішності з математики, і навпаки.

2. Перевірка важливості коефіцієнта кореляції

Оскільки вибірковий коефіцієнт обчислюється за вибірковими даними, він є випадковою величиною . Якщо , то виникає питання: чи це пояснюється дійсно існуючим лінійним зв'язком між http://www.pandia.ru/text/78/148/images/image301_1.gif" width="29" height="25 src=">.gif" width="27" height="25">: (якщо не відомий знак кореляції); або односторонній https://pandia.ru/text/78/148/images/image448_0.gif" width="43" 23 src=">.gif" > (якщо знак кореляції може бути визначено).

Спосіб 1.Для перевірки гіпотези використовується https://pandia.ru/text/78/148/images/image150_1.gif" width="11" height="17 src=">-критерія Стьюдента за формулою

https://pandia.ru/text/78/148/images/image406_0.gif" width="13" height="15">.gif" width="36 height=25" height="25">.gif " width="17" height="16"> та числі ступенів свободи для двостороннього критерію.

Критична область задається нерівністю .

Якщо https://pandia.ru/text/78/148/images/image455_0.gif" width="99", то нульова гіпотеза відхиляється.

§ для двосторонньої альтернативної гіпотези – коефіцієнт кореляції значно відрізняється від нуля;

§ для односторонньої гіпотези – існує статистично значуща позитивна (або негативна) кореляція.

Спосіб 2.Можна скористатися також таблицею критичних значень коефіцієнта кореляції, З якої знаходимо величину критичного значення коефіцієнта кореляції за кількістю ступенів свободи.

Якщо https://pandia.ru/text/78/148/images/image459_0.gif" width="101", то робиться висновок, що коефіцієнт кореляції значимо відрізняться від 0 і існує статистично значуща кореляція.

Так, одні явища можуть одночасно, але незалежно один від одного (спільні події) відбуватися або змінюватись ( хибнарегресія). Інші - перебувати в причинній залежності не один з одним, а за складнішим причинно-наслідковим зв'язком ( непрямарегресія). Таким чином, при значному коефіцієнті кореляції остаточний висновок про наявність причинно-наслідкового зв'язку можна зробити лише з урахуванням специфіки досліджуваної проблеми.

приклад 2.Визначити значимість вибіркового коефіцієнта кореляції, обчисленого з прикладу 1.

Рішення.

Висунемо гіпотезу: у тому, що у генеральної сукупності відсутня кореляція. Так як знак кореляції в результаті рішення прикладу 1 визначено - кореляція позитивна, то альтернативна гіпотеза є односторонньою . =">.

Знайдемо емпіричне значення-критерію:

https://pandia.ru/text/78/148/images/image461_0.gif" width="167 height=20" height="20">, рівень значущості виберемо рівним . По таблиці «Критичні значення-критерію Стьюдента при різних рівнях значущості» знаходимо критичне значення .

Так як і середнім рівнем успішності з математики існує статистично значуща кореляція.

Тестові завдання

1. Позначте щонайменше дві правильні відповіді. Перевірка значущості вибіркового коефіцієнта кореляції полягає в статистичної перевірці гіпотези у тому, що …

1) у генеральній сукупності відсутня кореляція

2) відмінність від нуля вибіркового коефіцієнта кореляції пояснюється лише випадковістю вибірки

3) коефіцієнт кореляції значно відрізняється від 0

4) відмінність від нуля вибіркового коефіцієнта кореляції невипадково

2. Якщо вибірковий коефіцієнт лінійної кореляції, то більшому значенню однієї ознаки відповідає більше значення іншого ознаки.

1) у середньому

3) у більшості спостережень

4) зрідка

3. Вибірковий коефіцієнт кореляції (для обсягу вибірки та рівні значущості 0,05). казати, що є статистично значуща позитивна кореляція між психологічними ознаками?

5. Нехай у задачі виявлення сили лінійного зв'язку між психологічними ознаками знайдено вибірковий коефіцієнт кореляції width="52 та рівні значущості 0,05). Чи можна говорити, що відмінність від нуля вибіркового коефіцієнта кореляції пояснюється лише випадковістю вибірки?

Тема 3. коефіцієнти рангової кореляції та асоціації

1. Коефіцієнт рангової кореляції https://pandia.ru/text/78/148/images/image130_3.gif" width="21 height=19" height="19">і. будь-яким, але їх кількість має бути однаковою.

Випробувані

Ранги ознаки

Ранги ознаки

Позначимо різницю між рангами за двома змінними для кожного випробуваного через https://pandia.ru/text/78/148/images/image470_0.gif" width="319" height="66">,

де – кількість значень ранжованих ознак, показників.

Коефіцієнт кореляції рангів набуває значень у межах від –1 до +1і розглядається як засіб швидкої оцінки коефіцієнта кореляції Пірсона.

Для перевірки значущості коефіцієнта кореляції рангів Спірмена (якщо число значень залежить від числа і рівня значущості. Якщо емпіричне значення більше, то на рівні Значимості можна стверджувати, що ознаки пов'язані з кореляційною залежністю.

приклад 1.Психолог з'ясовує, як пов'язані результати успішності учнів з математики та фізики, результати яких наведені у вигляді ранжованого ряду на прізвища.

Учень

Сума

Успішність

з математики

Успішність

з фізики

Квадрат різниці між рангами

Обчислимо суму, тоді коефіцієнт кореляції рангів Спірмена дорівнює:

Перевіримо значимість знайденого рангового коефіцієнта кореляції. Знайдемо критичні значення коефіцієнта рангової кореляції Спірмена за таблицею (див. Додатки) для:

https://pandia.ru/text/78/148/images/image480_0.gif" width="72" height="25"> більше значення = 0,64 і значення 0,79. Це говорить про те, що значення потрапило в область значущості коефіцієнта кореляції Тому можна стверджувати, що коефіцієнт кореляції рангів Спірмена значимо відрізняється від 0; пов'язані позитивною кореляційною залежністю . Існує значуща позитивна кореляція між успішністю з математики та успішністю з фізики: чим краще успішність з математики, тим у середньому кращі результати з фізики, і навпаки.

Порівнюючи коефіцієнти кореляції Пірсона та Спірмена, зазначимо, що коефіцієнт кореляції Пірсона співвідносить значення величин, а коефіцієнт кореляції Спірмена – значення рангівцих величин, тому значення коефіцієнтів Пірсона та Спірмена часто виявляються несхожими.

Для повнішого осмислення експериментального матеріалу, одержуваного в психологічних дослідженнях, доцільно здійснювати підрахунок коефіцієнтів і за Пірсоном, і за Спірменом.

Зауваження. За наявності однакових рангіву рангових рядах та в чисельник формули обчислення коефіцієнта кореляції рангів додаються доданки – «поправки на ранги»: ; ,

де https://pandia.ru/text/78/148/images/image130_3.gif" width="21" height="19">;

https://pandia.ru/text/78/148/images/image165_1.gif" width="16" height="19">.

У цьому випадку формула для обчислення коефіцієнта рангової кореляції набирає вигляду.

Умови застосування коефіцієнта асоціації.

1. Порівнювані ознаки виміряні у дихотомічній шкалі.

2..gif" width="21" height="19">, , позначені символами 0 і 1, наведені в таблиці.

Номер спостереження



КАТЕГОРІЇ

ПОПУЛЯРНІ СТАТТІ

2024 «kingad.ru» - УЗД дослідження органів людини