Корелационният анализ установява. Корелационен анализ на Спирман

Изследвайки природата, обществото, икономиката, е необходимо да се вземе предвид връзката на наблюдаваните процеси и явления. В същото време пълнотата на описанието по някакъв начин се определя от количествените характеристики на причинно-следствените връзки между тях. Оценката на най-значимите от тях, както и влиянието на едни фактори върху други, е една от основните задачи на статистиката.

Формите на проявление на взаимовръзките са много разнообразни. Като двата най-често срещани вида разпределете функционални(пълен) и корелация(непълна) връзка. В първия случай стойността на факторния атрибут стриктно съответства на една или повече стойности на функцията. Доста често функционалната връзка се проявява във физиката, химията. В икономиката пример е правопропорционалната връзка между производителността на труда и нарастването на производството.

Корелацията (която също се нарича непълна или статистическа) се появява средно за масови наблюдения, когато дадените стойности на зависимата променлива съответстват на определен брой вероятни стойности на независимата променлива. Обяснението за това е сложността на връзките между анализираните фактори, чието взаимодействие се влияе от неотчетени случайни величини. Следователно връзката между знаците се проявява само средно, в масата на случаите. С корелация всяка стойност на аргумента съответства на произволно разпределени стойности на функцията в определен интервал.

Например, известно увеличение на аргумента ще доведе само до средно увеличение или намаление (в зависимост от посоката) на функцията, докато специфичните стойности за отделните единици на наблюдение ще се различават от средните. Тези зависимости са повсеместни. Например в селското стопанство това може да е връзката между добива и количеството на внесения тор. Очевидно последните участват във формирането на реколтата. Но за всяко конкретно поле, парцел, едно и също количество внесени торове ще доведе до различно увеличение на добива, тъй като има редица други фактори (време, почвени условия и др.) във взаимодействие, които формират крайния резултат. Средно обаче се наблюдава такава връзка - увеличаването на масата на внесените торове води до увеличаване на добива.

По посока на комуникацията има направо,когато зависимата променлива се увеличава с увеличаването на факторната характеристика и обратен,при което растежът на последния е съпроводен с намаляване на функцията. Такива взаимоотношения също могат да бъдат наречени съответно положителни и отрицателни.

По отношение на тяхната аналитична форма на комуникация има линеени нелинейни.В първия случай средно се появяват линейни зависимости между знаците. Нелинейната връзка се изразява чрез нелинейна функция и променливите са средно свързани помежду си нелинейно.

Има още една доста важна характеристика на връзките от гледна точка на взаимодействащи фактори. Ако се характеризира връзка между две характеристики, тогава тя се нарича парна баня. Ако се изследват повече от две променливи − многократни.

Горните класификационни характеристики най-често се срещат в статистическия анализ. Но освен горните има и такива директен, косвени невярновръзки. Всъщност същността на всеки от тях е очевидна от името. В първия случай факторите взаимодействат пряко един с друг. Непряката връзка се характеризира с участието на трета променлива, която опосредства връзката между изследваните признаци. Фалшива връзка е връзка, установена формално и като правило потвърдена само от количествени оценки. Тя няма качествена основа или е безсмислена.

Те се различават по сила слаби силенвръзки. Тази формална характеристика се изразява с конкретни стойности и се интерпретира в съответствие с общоприетите критерии за силата на връзката за конкретни показатели.

В най-общ вид задачата на статистиката в областта на изучаването на връзките е да определи количествено тяхното присъствие и посока, както и да характеризира силата и формата на влияние на едни фактори върху други. За решаването му се използват две групи методи, едната от които включва методите на корелационния анализ, а другата - регресионния анализ. В същото време редица изследователи комбинират тези методи в корелационно-регресионен анализ, който има някои основания: наличието на редица общи изчислителни процедури, взаимно допълване при интерпретиране на резултатите и др.

Следователно в този контекст можем да говорим за корелационен анализ в широк смисъл – когато връзката се характеризира всестранно. В същото време има корелационен анализ в тесен смисъл - когато се изследва силата на връзката - и регресионен анализ, по време на който се оценява неговата форма и въздействието на някои фактори върху други.

Правилни задачи корелационен анализсе свеждат до измерване на близостта на връзката между различни черти, идентифициране на неизвестни причинно-следствени връзки и оценка на факторите, които имат най-голямо въздействие върху получената черта.

Задачи регресионен анализлежат в областта на установяване на формата на зависимост, определяне на регресионната функция, използване на уравнение за оценка на неизвестни стойности на зависимата променлива.

Решаването на тези проблеми се основава на подходящи техники, алгоритми, показатели, чието използване дава основание да се говори за статистическо изследване на връзките.

Трябва да се отбележи, че традиционните методи на корелация и регресия са широко представени в различни статистически софтуерни пакети за компютри. Единственото, което остава на изследователя, е правилно да подготви информацията, да избере софтуерен пакет, който да отговаря на изискванията на анализа, и да е готов да интерпретира получените резултати. Има много алгоритми за изчисляване на комуникационните параметри и в момента едва ли е препоръчително да се извършва такъв сложен тип анализ ръчно. Изчислителните процедури са от самостоятелен интерес, но познаването на принципите на изследване на връзките, възможностите и ограниченията на определени методи за интерпретиране на резултатите е предпоставка за изследване.

Методите за оценка на плътността на връзката се разделят на корелационни (параметрични) и непараметрични. Параметричните методи се основават на използването, като правило, на нормални оценки на разпределението и се използват в случаите, когато изследваната популация се състои от количества, които се подчиняват на нормалния закон за разпределение. В практиката тази позиция най-често се приема a priori. Всъщност тези методи са параметрични и обикновено се наричат ​​корелационни методи.

Непараметричните методи не налагат ограничения върху закона за разпределение на изследваните величини. Предимството им е и простотата на изчисленията.

Използването на статистически методи при обработката на материали от психологически изследвания дава чудесна възможност за извличане на полезна информация от експериментални данни. Един от най-разпространените статистически методи е корелационният анализ.

Терминът "корелация" е използван за първи път от френския палеонтолог Ж. Кювие, който извежда "закона за корелация на частите и органите на животните" (този закон ви позволява да възстановите външния вид на цялото животно от намерените части на тялото ). Този термин е въведен в статистиката от английския биолог и статистик Ф. Галтън (не само „връзка“ - отношение, и "сякаш връзка" - корелация).

Корелационният анализ е проверка на хипотези за връзки между променливи с помощта на коефициенти на корелация, двумерна описателна статистика, количествена мярка на връзката (съвместна променливост) на две променливи. Следователно това е набор от методи за откриване на корелации между случайни променливи или характеристики.

Корелационният анализ за две случайни променливи включва:

  • изграждане на корелационно поле и съставяне на корелационна таблица;
  • изчисляване на извадкови коефициенти на корелация и корелационни отношения;
  • тестване на статистическата хипотеза за значимостта на връзката.

Основната цел на корелационния анализ е да се идентифицира връзката между две или повече изследвани променливи, която се разглежда като съвместна координирана промяна в двете изследвани характеристики. Тази променливост има три основни характеристики: форма, посока и сила.

Формата на корелацията може да бъде линейна или нелинейна. Линейната форма е по-удобна за идентифициране и тълкуване на корелация. За линейна корелация могат да се разграничат две основни посоки: положителна („правна връзка“) и отрицателна („обратна връзка“).

Силата на връзката пряко показва колко изразена е съвместната променливост на изследваните променливи. В психологията функционалната взаимовръзка на явленията може да бъде емпирично разкрита само като вероятностна връзка на съответните характеристики. Визуално представяне на естеството на вероятностната връзка се дава от диаграма на разсейване - графика, чиито оси съответстват на стойностите на две променливи, а всеки субект е точка.

Корелационните коефициенти се използват като числена характеристика на вероятностна връзка, чиито стойности варират в диапазона от –1 до +1. След изчисленията изследователят, като правило, избира само най-силните корелации, които се интерпретират допълнително (Таблица 1).

Критерият за избор на "достатъчно силни" корелации може да бъде както абсолютната стойност на самия коефициент на корелация (от 0,7 до 1), така и относителната стойност на този коефициент, определена от нивото на статистическа значимост (от 0,01 до 0,1), в зависимост от размер на извадката. В малки извадки, за по-нататъшна интерпретация, е по-правилно да се изберат силни корелации въз основа на нивото на статистическа значимост. За проучвания, които се провеждат върху големи проби, е по-добре да се използват абсолютните стойности на коефициентите на корелация.

По този начин задачата на корелационния анализ се свежда до установяване на посоката (положителна или отрицателна) и формата (линейна, нелинейна) на връзката между различни характеристики, измерване на нейната плътност и накрая проверка на нивото на значимост на получените коефициенти на корелация.

В момента са разработени много различни коефициенти на корелация. Най-използваните са r- Пиърсън, r- Копиеносец и τ - Кендъл. Съвременните компютърни статистически програми в менюто "Корелации" предлагат точно тези три коефициента, а за решаване на други изследователски задачи се предлагат методи за сравняване на групи.

Изборът на метод за изчисляване на коефициента на корелация зависи от вида на скалата, към която принадлежат променливите (Таблица 2).

За променливи с интервал и с номинална скала се използва корелационният коефициент на Pearson (корелация на продуктовите моменти). Ако поне една от двете променливи има порядъчна скала или не е нормално разпределена, се използва ранговата корелация на Spearman, или

т-Кендъл. Ако една от двете променливи е дихотомична, може да се използва точкова двусерийна корелация (тази опция не е налична в статистическата компютърна програма SPSS и вместо това може да се използва изчисление на ранговата корелация). В случай, че и двете променливи са дихотомични, се използва корелация с четири полета (този тип корелация се изчислява от SPSS въз основа на определението за мерки за разстояние и мерки за сходство). Изчисляването на коефициента на корелация между две недихотомни променливи е възможно само ако връзката между тях е линейна (еднопосочна). Ако връзката напр. U-образен (двусмислен), коефициентът на корелация не е подходящ за използване като мярка за силата на връзката: стойността му клони към нула.

По този начин условията за прилагане на коефициентите на корелация ще бъдат както следва:

  • променливи, измерени в количествена (рангова, метрична) скала върху една и съща извадка от обекти;
  • връзката между променливите е монотонна.

Основната статистическа хипотеза, която се тества чрез корелационен анализ, е ненасочена и съдържа твърдението, че корелацията е равна на нула в общата съвкупност H 0: r xy= 0. Ако бъде отхвърлена, алтернативната хипотеза се приема H 1: r xy≠ 0 за наличието на положителна или отрицателна корелация - в зависимост от знака на изчисления коефициент на корелация.

Въз основа на приемането или отхвърлянето на хипотези се правят смислени заключения. Ако според резултатите от статистическото изследване H 0: r xy= 0 не се отклонява на ниво a, тогава смисленото заключение ще бъде следното: връзката между хи Yне е намерено. Ако при H 0 r xy= 0 се отклонява на ниво a, което означава, че е установена положителна (отрицателна) връзка между хи Y. Въпреки това, към тълкуването на разкритите корелации трябва да се подхожда предпазливо. От научна гледна точка простото установяване на връзка между две променливи не предполага наличието на причинно-следствена връзка. Освен това наличието на корелация не установява последователна връзка между причина и следствие. Това просто показва, че две променливи са по-свързани една с друга, отколкото би се очаквало при съвпадение. Въпреки това, с повишено внимание, използването на корелационни методи при изследване на причинно-следствените връзки е напълно оправдано. Трябва да се избягват категорични фрази като "променлива X е причината за увеличението на показателя". Y". Такива твърдения трябва да бъдат формулирани като предположения, които трябва да бъдат строго теоретично обосновани.

Подробно описание на математическата процедура за всеки коефициент на корелация е дадено в учебниците по математическа статистика; ; ; и др.. Ще се ограничим да опишем възможността за използване на тези коефициенти в зависимост от вида на измервателната скала.

Корелация на метричните променливи

За да изследваме връзката на две метрични променливи, измерени на една и съща проба, използваме коефициент на корелация r-Пиърсън. Самият коефициент характеризира наличието само на линейна зависимост между признаците, обикновено обозначени със символите хи Y. Коефициентът на линейна корелация е параметричен метод и правилното му прилагане е възможно само ако резултатите от измерването са представени в скала от интервали, а самото разпределение на стойностите в анализираните променливи се различава в малка степен от нормалното. Има много ситуации, в които използването му е подходящо. Например: установяване на връзка между интелекта на ученика и неговото академично представяне; между настроението и успеха при излизане от проблемна ситуация; между нивото на доходите и темперамента и т.н.

Коефициентът на Пиърсън се използва широко в психологията и педагогиката. Например, в трудовете на И. Я. Каплунович и П. Д. Рабинович, М. П. Нуждина, изчисляването на линейния корелационен коефициент на Пиърсън е използвано за потвърждаване на изложените хипотези.

При обработка на данни "ръчно" е необходимо да се изчисли коефициентът на корелация и след това да се определи стр- ниво на значимост (за да се опрости проверката на данните, се използват таблици с критични стойности rxy, които са съставени с помощта на този критерий). Стойността на коефициента на линейна корелация на Pearson не може да надвишава +1 и да бъде по-малка от -1. Тези две числа +1 и -1 са границите за коефициента на корелация. Когато изчислението доведе до стойност, по-голяма от +1 или по-малка от -1, това показва, че е възникнала грешка в изчислението.

Когато се изчислява на компютър, статистическата програма (SPSS, Statistica) придружава изчисления коефициент на корелация с по-точна стойност стр- ниво.

За статистическо решение за приемане или отхвърляне H0обикновено настроен α = 0,05 и за голям обем наблюдения (100 или повече) α = 0,01. Ако p ≤ α, H 0се отхвърля и се прави смислено заключение, че е открита статистически значима (сигнификантна) връзка между изследваните променливи (положителна или отрицателна, в зависимост от знака на корелацията). Кога p > α, H0не се отхвърля, смисленото заключение е ограничено до твърдението, че връзката (статистически значима) не е открита.

Ако връзката не е намерена, но има причина да се смята, че връзката действително съществува, трябва да проверите възможните причини за ненадеждността на връзката.

Комуникационна нелинейност– За да направите това, анализирайте двумерната точкова диаграма. Ако връзката е нелинейна, но монотонна, преминете към ранг корелации. Ако връзката не е монотонна, тогава разделете извадката на части, в които връзката е монотонна, и изчислете корелациите отделно за всяка част от извадката или разделете извадката на контрастиращи групи и след това ги сравнете според нивото на изразяване на чертата.

Наличие на отклонения и изразена асиметрия в разпределението на единия или и на двата признака.За да направите това, трябва да разгледате хистограмите на честотното разпределение на двете характеристики. Ако има отклонения или асиметрии, изключете отклоненията или превключете към ранг корелации.

Хетерогенност на пробата(анализирайте 2D диаграмата на разсейване). Опитайте се да разделите извадката на части, в които връзката може да има различни посоки.

Ако връзката е статистически значима, тогава преди да се направи смислено заключение, е необходимо да се изключи възможността за фалшива корелация:

  • връзка поради отклонения. Ако има извънредни стойности, преминете към класиране на корелациите или изключете извънредните стойности;
  • връзката се дължи на влиянието на третата променлива. Ако има подобно явление, е необходимо да се изчисли корелацията не само за цялата извадка, но и за всяка група поотделно. Ако "третата" променлива е метрична, изчислете частичната корелация.

Частичен коефициент на корелация rxy-zсе изчислява, ако е необходимо да се провери предположението, че връзката между две променливи хи Yне зависи от влиянието на третата променлива З. Много често две променливи корелират една с друга само поради факта, че и двете се променят съвместно под влияние на трета променлива. С други думи, всъщност няма връзка между съответните свойства, а тя се появява в статистическа връзка под влияние на обща причина. Например, обща причина за променливостта на две променливи може да бъде възрастта, когато се изучава връзката на различни психологически характеристики в група от различни възрасти. Когато се интерпретира частичната корелация от гледна точка на причинно-следствената връзка, трябва да се внимава, защото ако Зкорелира с хи със Y, и частичната корелация rxy-zблизо до нула, това не следва непременно Зе често срещана причина за хи Y.

Корелация на ранговите променливи

Ако коефициентът на корелация е неприемлив за количествените данни r-Пиърсън, тогава за да се тества хипотезата за връзката на две променливи след предварително класиране, могат да се приложат корелации r-копиеносецили τ -Кендала. Например, при изследване на психофизичните характеристики на музикално надарени юноши от И. А. Лавочкин е използван критерият на Спирман.

За правилното изчисляване на двата коефициента (Spearman и Kendall) резултатите от измерванията трябва да бъдат представени в скала от рангове или интервали. Няма фундаментални разлики между тези критерии, но общоприето е, че коефициентът на Кендъл е по-„смислен“, тъй като анализира връзките между променливите по-пълно и подробно, сортирайки всички възможни съответствия между двойки стойности. Коефициентът на Спирман по-точно отчита количествената степен на връзка между променливите.

Коефициент на рангова корелация на Спирмане непараметричен аналог на класическия коефициент на корелация на Пиърсън, но неговото изчисляване взема предвид не показатели, свързани с разпределението на сравняваните променливи (средно аритметично и дисперсия), а рангове. Например, необходимо е да се определи връзката между ранговите оценки на личностните черти, които са включени в представата на човек за неговото „Аз съм истински“ и „Аз съм идеален“.

Коефициентът на Спирман се използва широко в психологическите изследвания. Например, в работата на Ю. В. Бушов и Н. Н. Несмелова: именно той беше използван за изследване на зависимостта на точността на оценка и възпроизвеждане на продължителността на звуковите сигнали от индивидуалните характеристики на човек.

Тъй като този коефициент е аналогичен r-Пиърсън, тогава използването му за тестване на хипотези е подобно на използването на коефициента r-Пиърсън. Тоест тестваната статистическа хипотеза, процедурата за вземане на статистическо решение и формулирането на смислено заключение са едни и същи. В компютърни програми (SPSS, Statistica) нива на значимост за същите коефициенти r- Пиърсън и r-Spearman винаги съвпадат.

Предимство в съотношението r-Spearman срещу ratio r-Пиърсън – в по-голяма чувствителност към общуване. Използваме го в следните случаи:

  • наличието на значително отклонение в разпределението на поне една променлива от нормалната форма (изкривяване, отклонения);
  • появата на криволинейна (монотонна) връзка.

Ограничение за прилагане на коеф r- Spearman са:

  • за всяка променлива най-малко 5 наблюдения;
  • коефициентът с голям брой еднакви рангове в една или и в двете променливи дава груба стойност.

Ранг коефициент на корелация τ -Кендалае независим оригинален метод, базиран на изчисляването на съотношението на двойки стойности на две проби, които имат еднакви или различни тенденции (увеличаване или намаляване на стойностите). Това съотношение се нарича още фактор на съгласуване. По този начин основната идея на този метод е, че посоката на връзката може да се прецени чрез сравняване на субектите по двойки: ако двойка субекти има промяна в хсъвпада по посока с промяната в Y, това показва положителна връзка, ако не същата - отрицателна връзка, например при изследване на лични качества, които са от решаващо значение за семейното благополучие. При този метод една променлива се представя като монотонна последователност (например данни на съпруга) във възходящ ред на величина; на друга променлива (например данни на съпругата) се присвояват съответните места за класиране. Във формулата за корелационните коефициенти се използва броят на инверсиите (нарушенията на монотонността спрямо първия ред).

При броене τ- Kendall "ръчно" данните първо се подреждат по променлива х. След това за всеки предмет се изчислява колко пъти е ранга му Yсе оказва по-малък от ранга на субектите по-долу. Резултатът се записва в колоната Съвпадения. Сумата от всички стойности в колоната "Съвпадение" е П- общият брой съвпадения се замества във формулата за изчисляване на коефициента на Кендъл, която е по-опростена от изчислителна гледна точка, но с увеличаване на извадката, за разлика от r- Спирман, обемът на изчисленията не нараства пропорционално, а експоненциално. Така например, когато н= 12 е необходимо да сортирате 66 двойки субекти и кога н= 489 - вече 1128 двойки, т.е. количеството на изчисленията се увеличава повече от 17 пъти. Когато се изчислява на компютър в статистическа програма (SPSS, Statistica), коефициентът на Кендъл се изчислява подобно на коефициентите r- Копиеносец и r-Пиърсън. Изчислен коефициент на корелация τ -Kendall се характеризира с по-точна стойност стр- ниво.

Прилагането на коефициента на Kendall е за предпочитане, ако има отклонения в оригиналните данни.

Характеристика на коефициентите на рангова корелация е, че максималните корелационни рангове (+1, –1) не отговарят непременно на строги преки или обратно пропорционални връзки между оригиналните променливи хи Y: достатъчна е само монотонна функционална връзка между тях. Ранговите корелации достигат своята максимална модулна стойност, ако по-голямата стойност на една променлива винаги съответства на по-голяма стойност на друга променлива (+1) или по-голямата стойност на една променлива винаги съответства на по-малка стойност на друга променлива и обратно (–1 ).

Статистическата хипотеза, която трябва да бъде тествана, процедурата за вземане на статистическо решение и формулирането на смислено заключение са същите като за случая r- Копиеносец или r-Пиърсън.

Ако не е намерена статистически значима връзка, но има причина да се смята, че наистина има връзка, първо трябва да преминете от коеф.

r- Копиеносец към отношение τ -Kendall (или обратно) и след това проверете възможните причини за ненадеждността на връзката:

  • нелинейност на комуникацията: За да направите това, погледнете 2D диаграмата на разсейване. Ако връзката не е монотонна, тогава разделете пробата на части, в които връзката е монотонна, или разделете извадката на контрастни групи и след това ги сравнете според нивото на изразяване на симптомите;
  • хетерогенност на пробата: погледнете двуизмерна точкова диаграма, опитайте се да разделите извадката на части, в които връзката може да има различни посоки.

Ако връзката е статистически значима, тогава преди да се направи смислено заключение, е необходимо да се изключи възможността за фалшива корелация (по аналогия с метричните коефициенти на корелация).

Корелация на дихотомни променливи

Когато сравнявате две променливи, измерени в дихотомна скала, мярката за корелация е така нареченият j-фактор, който е коефициентът на корелация за дихотомни данни.

Стойност коефициент φсе намира между +1 и -1. Тя може да бъде както положителна, така и отрицателна, като характеризира посоката на връзката между два дихотомно измерени признака. Въпреки това, тълкуването на φ може да предизвика специфични проблеми. Дихотомичните данни, включени в схемата за изчисляване на коефициента φ, не изглеждат като двумерна нормална повърхност, следователно е неправилно да се приеме, че интерпретираните стойности rxy\u003d 0,60 и φ \u003d 0,60 са еднакви. Коефициентът φ може да се изчисли чрез метода на кодиране, както и с помощта на така наречената таблица с четири полета или таблица за непредвидени обстоятелства.

За да се приложи коефициентът на корелация φ, трябва да бъдат изпълнени следните условия:

  • чертите, които се сравняват, трябва да се измерват в дихотомна скала;
  • хи Yтрябва да е същото.

Този тип корелация се изчислява в компютърната програма SPSS въз основа на дефиницията на мерки за разстояние и мерки за сходство. Някои статистически процедури, като факторен анализ, клъстерен анализ, многовариантно скалиране, са изградени върху прилагането на тези мерки и понякога самите те предоставят допълнителни възможности за изчисляване на мерки за сходство.

Когато една променлива се измерва в дихотомна скала (променлива х), а другият в скала от интервали или съотношения (променлива Y), се използва бисериален коефициент на корелация, например при тестване на хипотези за ефекта на пола на детето върху височината и теглото. Този коефициент варира в диапазона от -1 до +1, но знакът му няма значение за интерпретацията на резултатите. За използването му трябва да бъдат изпълнени следните условия:

  • сравняваните знаци трябва да се измерват в различни скали: един х- в дихотомна скала; друг Y– в скала от интервали или съотношения;
  • променлива Yима нормален закон на разпределение;
  • броят на вариращите характеристики в сравняваните променливи хи Yтрябва да е същото.

Ако променливата хизмерено в дихотомична скала, и променливата Yв ранговата скала (променлива Y), може да се използва коефициент на рангова бисериална корелация, което е тясно свързано с τ на Кендъл и използва понятията за съвпадение и инверсия в своята дефиниция. Тълкуването на резултатите е същото.

Провеждането на корелационен анализ с помощта на компютърни програми SPSS и Statistica е проста и удобна операция. За да направите това, след като извикате диалоговия прозорец Bivariate Correlations (Analyze> Correlate> Bivariate ...), трябва да преместите изследваните променливи в полето Variables и да изберете метода, чрез който ще бъде открита корелацията между променливите. Файлът с резултат съдържа квадратна таблица (Корелации) за всеки изчислен критерий. Всяка клетка от таблицата съдържа: самата стойност на коефициента на корелация (Correlation Coefficient), статистическата значимост на изчисления коефициент Sig, броя на изследваните лица.

Заглавието и страничните колони на получената корелационна таблица съдържат имената на променливите. Диагоналът (горен ляв - долен десен ъгъл) на таблицата се състои от единици, тъй като корелацията на всяка променлива със себе си е максимална. Масата е симетрична спрямо този диагонал. Ако в програмата е поставена отметка в квадратчето „Маркиране на значими корелации“, тогава статистически значимите коефициенти ще бъдат отбелязани в крайната корелационна таблица: на ниво 0,05 и по-малко - с една звездичка (*), а на ниво 0,01 - с две звездички (**).

И така, за да обобщим: основната цел на корелационния анализ е да идентифицира връзката между променливите. Мярката за връзка са коефициентите на корелация, изборът на които пряко зависи от вида на скалата, в която се измерват променливите, броя на вариращите характеристики в сравняваните променливи и разпределението на променливите. Наличието на корелация между две променливи не означава, че има причинно-следствена връзка между тях. Въпреки че корелацията не показва директно причинно-следствената връзка, тя може да бъде ключ към причините. На негова основа могат да се формират хипотези. В някои случаи липсата на корелация има по-дълбок ефект върху хипотезата за причинно-следствената връзка. Нулевата корелация на две променливи може да означава, че няма влияние на едната променлива върху другата.

Английските биометристи Ф. Галтън (1822-1911) и К. Пиърсън (1857-1936) се считат за основатели на теорията на корелацията. Терминът "корелация" означава съотношение, съответствие. Идеята за корелация като взаимозависимост на случайни променливи е в основата на статистическата теория на корелацията - изследването на зависимостта на вариацията на характеристиката от условията на околната среда. Някои признаци действат като въздействащи (факториални), други - които са повлияни, ефективни. Връзките между характеристиките могат да бъдат функционални и корелационни. Функционалните връзки се характеризират с пълно съответствие между изменението на факторния атрибут и изменението на ефективната стойност. Всяка стойност на атрибута-фактор съответства на определена стойност на ефективния атрибут. Няма пълно съответствие в корелациите между изменението на фактора и резултатния знак. В едно сложно взаимодействие е самата ефективна характеристика. Следователно резултатите от корелационния анализ са важни в това отношение и тълкуването на тези резултати в общи линии изисква изграждането на система от корелации. Те се характеризират с множество причини и следствия и с тяхна помощ се установява тенденция за промяна на резултатния признак при промяна на стойността на факторния признак. Например производителността на труда се влияе от фактори като степента на усъвършенстване на технологиите и технологиите, нивото на механизация и автоматизация на труда, специализацията на производството, текучеството на персонала и др.

В природата и обществото явленията и събитията протичат според естеството на корелацията, когато при промяна на стойността на един атрибут има тенденция да се промени другият атрибут. Корелацията е специален случай на статистическа зависимост. Корелационният анализ се използва за установяване на тясността на връзката между явления, процеси, обекти.

Целта на изследването често е да се установи връзката (корелацията) между признаците. Познаването на зависимостта позволява да се реши кардиналната задача на всяко изследване - способността да се предвиди и прогнозира развитието на ситуацията при промяна на влияещия фактор. Корелацията може да даде само формална оценка на връзката. Ето защо, преди да се пристъпи към изчисляване на коефициентите на корелация между характеристиките, трябва да се установи теоретично дали има връзка между тези характеристики. Наистина, формално статистиката може да докаже несъществуващи зависимости, например между височината на една сграда в града и добива на пшеница във фермите.

Връзката между явленията (корелация) се определя чрез поставяне на експерименти, статистически анализ. Корелацията не трябва да се отъждествява с причинно-следствената връзка. Трябва обаче да се има предвид, че доказателството за математическа връзка трябва да се основава на реална връзка между явленията. Например, минерализацията на водата намалява от север на юг на Беларус, а съдържанието на хранителни вещества в почвата намалява в същата посока. Между разглежданите показатели може да се получи положителна значима връзка. Но степента на минерализация на водата не определя оптималното съдържание на хранителни вещества в почвата. В противен случай в пустинните пейзажи плодородието би било максимално, тъй като тук има максимална минерализация на водата (почвата и подземните води са солени), а това противоречи на истината. Следователно такава връзка в пустинни пейзажи е безсмислена. Можете да намерите най-добрия дневен наем на апартаменти с различни нива на комфорт от собствениците без комисионна на уебсайта piter.stay24.ru. Удобното търсене ще ви позволи лесно и бързо да намерите подходящия апартамент за вашите изисквания, като същевременно отделяте минимално време.

Всеки показател за връзка служи като приблизителна оценка на разглежданата зависимост и не е гаранция за наличието на твърда (функционална) подчиненост. Липсата на твърда зависимост в природата и обществото допринася за саморегулирането на процеси, явления, системи

По посока комуникацията може да бъде директна и обратна; по характер - функционална или статистическа (корелация); по размер - слаб, среден или силен; по форма - линейни и нелинейни; по броя на корелираните признаци - сдвоени и множествени.

Функционалната зависимост е характерна за геометрични форми, технически системи, когато всяка стойност на един атрибут съответства на точната стойност на друг. Това е пример за връзката между площта на правоъгълник и дължината на една от страните му. Такава зависимост е пълна или изчерпателна.

Има няколко вида корелация по двойки:

Паралелно-корелативен или асоциативен, когато и двата знака се променят във връзка, отчасти под влиянието на общи причини и последици (ограничаването на растителността и почвите до определени форми на релефа; индустриалното развитие и нарастването на населението до суровините);

субкаузален, когато един фактор действа като отделна причина за свързана промяна в признак (връзка между биомаса и валежи; растеж на населението и плодовитост);

взаимно предупреждаващи, когато причината и следствието, намирайки се в стабилна взаимна връзка, си влияят последователно (влажност на въздуха и валежи).

Ако една черта е повлияна от няколко фактора, тогава трябва да се оценят множество корелации. Множествената корелация служи като основа за идентифициране на връзки между характеристиките, но изисква стриктна нормалност и праволинейност на разпределението, така че използването й може да бъде трудно. С нарастването на броя на променливите, обемът на изчислителната работа се увеличава пропорционално на квадрата на броя на променливите. В този случай е по-трудно да се оцени значимостта на резултатите, тъй като грешките в корелационните коефициенти нарастват. На практика в такива случаи те се ограничават до изучаване само на основните фактори. По-подробно и прецизно обаче чрез факторния анализ се изучава характерът на влиянието на основните фактори върху признака.

В практическата работа по установяване на връзка между признаци и явления е необходимо да се придържате към следната последователност:

въз основа на проведените изследвания се установява предварително дали има връзка между разглежданите признаци;

Ако между тях съществува връзка, установете нейната форма, посока и стегнатост с помощта на графика.

В началото се съставят спрегнати вариационни редове, в които трябва да се определят аргументът x и функцията y:

Графика е изградена за конюгирани опции, която помага да се установи вида на връзката между аргумента и функцията. По-нататъшната обработка на експериментални или статистически данни зависи от формата на корелацията. Линейната зависимост включва изчисляването на коефициента на корелация r, а нелинейната - корелационното отношение η (фиг. 5.1). Степента на разсейване на честотата или вариантът спрямо линията на регресия на графиката показва приблизително стегнатостта на връзката: колкото по-малко е разсейването, толкова по-силна е връзката (фиг. 5.2).

Корелационният анализ решава следните задачи:

Създаване на посока и форма на комуникация,

оценка на плътността на връзката,

оценка на представителността на статистическите оценки на връзката,

· определяне на големината на детерминация (дял на взаимно влияние) на корелирани фактори.

Ориз. 5.1. Форма на корелация:

а - права линия; b - обратен линеен; в - парабаличен; g - хиперболичен

За оценка на връзката се използват следните числени критерии (коефициенти) на корелация:

коефициент на корелация (r) с линейна зависимост,

съотношение на корелация (η) с нелинейна зависимост,

множествени регресионни коефициенти,

· ранговите коефициенти на линейна корелация на Pearson или Kendal.

Концепцията за връзка е доста често срещана в психологическите изследвания. Психологът трябва да работи с него, когато стане необходимо да се сравнят измерванията на два или повече показателя на признаци или явления, за да се направят някакви заключения.

Характерът на връзката между изследваните явления може да бъде недвусмислен, т.е. когато определена стойност на един атрибут съответства на ясна и определена стойност на друг. Така например в подтеста за търсене на модели на тестове за умствени функции броят на "суровите" точки се определя по формулата:
Xi \u003d Stz - Soz / Stz + Spz * Sbc,
където Xi е стойността на вариантите, Sтз е броят на априорно определени модели (съвпадения) в подтеста, Soz е броят на погрешно посочените съвпадения на тестовите субекти, Soz е броят на непосочените (липсващи) съвпадения на тестовите субекти, Sbс е броят на всички думи, прегледани от тестовите субекти в теста.

Такава връзка се нарича функционална: тук един показател е функция на друг, който е аргумент по отношение на първия.

Въпреки това не винаги се намира ясна връзка. По-често човек трябва да се справя със ситуация, при която една стойност на дадена характеристика може да съответства на няколко стойности на друга. Тези стойности варират в повече или по-малко определени граници. Този тип връзка се нарича корелация или корелация.

Използват се няколко вида корелационни изрази. Така че, за да се изрази връзката между характеристиките, които имат количествен характер на вариацията на техните стойности, се използват мерки на централната тенденция: таблично представяне, последвано от изчисляване на коефициента на двойна корелация, коефициент на множествена и частична корелация, коефициент на множествено определяне, съотношението на корелация.

Ако е необходимо да се изследва връзката между характеристиките, чиято вариация е от качествен характер (резултатите от проективни методи за изследване на личността, изследвания, използващи метода на семантичния диференциал, изследвания, използващи отворени скали и т.н.), тогава използвайте качествени алтернативен коефициент на корелация (тетрахоричен показател), критерий на Пиърсън х2, показатели за контингентност (контингентност) на Пиърсън и Чупров.

За определяне на качествено-количествената корелация, т.е. такава корелация, когато единият признак има качествена вариация, а другият - количествена.Използват се специални методи.

Коефициентът на корелация (терминът е въведен за първи път от Ф. Галтън през 1888 г.) е индикатор за силата на връзката между две сравнени опции за извадка(и). Каквато и формула да се използва за изчисляване на коефициента на корелация, стойността му варира от -1 до +1. В случай на пълна положителна корелация този коефициент е равен на плюс 1, а в случай на пълна отрицателна корелация е минус 1. Това обикновено е права линия, минаваща през точките на пресичане на стойностите на всяка двойка данни.

Ако стойностите на варианта не се подредят на права линия, а образуват „облак“, тогава абсолютната стойност на коефициента на корелация става по-малка от единица и, тъй като „облакът“ е закръглен, се доближава до нула. Ако коефициентът на корелация е 0, и двете опции са напълно независими една от друга.

Всяка изчислена (емпирична) стойност на коефициента на корелация трябва да бъде проверена за надеждност (статистическа значимост) съгласно съответните таблици на критичните стойности на коефициента на корелация. Ако емпиричната стойност е по-малка или равна на табличната стойност за 5-процентното ниво (P = 0,05), корелацията не е значима. Ако изчислената стойност на коефициента на корелация е по-голяма от табличната стойност за P = 0,01, тогава корелацията е статистически значима (сигнификантна).

В случай, че стойността на коефициента е между 0,05 > P > 0,01, на практика се говори за значимост на корелацията за P = 0,05.

Коефициентът на корелация на Bravais-Pearson (r) е параметричен индикатор, предложен през 1896 г., за изчисляването на който се сравняват средните аритметични и средните квадратни стойности на варианта. За изчисляване на този коефициент се използва следната формула (може да изглежда различно за различните автори):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

където E Xi Xi1 - сумата от продуктите на стойностите на двойно сравними опции, n е броят на сравнените двойки, NXap, X1ap - средноаритметични опции Xi, Xi; съответно Qx, Qx, - стандартни отклонения на разпределенията x и x.

Коефициентът на рангова корелация на Спирман Rs (коефициент на рангова корелация, коефициент на Спирман) е най-простата форма на коефициента на корелация и измерва връзката между ранговете (местата) на даден вариант по различни признаци, без да отчита собствената му стойност. Тук връзката е по-скоро качествена, отколкото количествена.

Обикновено този непараметричен тест се използва в случаите, когато е необходимо да се направят изводи не толкова за интервалите между данните, колкото за техните рангове, а също и когато кривите на разпределение са изключително асиметрични и не позволяват използването на такива параметрични тестове като корелационния коефициент на Bravais-Pearson (в тези случаи може да се наложи количествените данни да се преобразуват в редови данни). Ако коефициентът Rs е близо до +1, това означава, че двата реда на извадката, класирани по определени признаци, практически съвпадат, а ако този коефициент е близо до -1, можем да говорим за пълна обратна връзка.

Подобно на изчислението на коефициента на корелация на Bravais-Pearson, по-удобно е да се представят изчисленията на коефициента Rs в таблична форма.

Регресията обобщава концепцията за функционална връзка в случай на стохастичен (вероятностен) характер на връзката между стойностите на варианта. Целта на решаването на категорията регресионни проблеми е да се оцени стойността на непрекъснатата дисперсия на изхода от стойностите на входните варианти.

МИНИСТЕРСТВО НА ОБРАЗОВАНИЕТО И НАУКАТА

РУСКА ФЕДЕРАЦИЯ

Федерална държавна бюджетна образователна институция за висше професионално образование

„МОСКОВСКИЯ ДЪРЖАВЕН УНИВЕРСИТЕТ

ТЕХНОЛОГИИ И УПРАВЛЕНИЕ НА ИМЕТО НА К.Г. РАЗУМОВСКИ"

(FGBOU VPO MGUTU на името на K.G. Razumovsky)

Институт по текстилна и лека промишленост

Катедра Технология на кожи, кожи и кожени изделия


ТЕСТ

по дисциплина "Методи и средства на изследването"


Попълнено от ученик

курс Strazdin S.Yu.


Москва, 2013 г

Упражнение 1.

Корелационен анализ


Корелационният анализ е набор от методи за откриване на така наречената корелационна зависимост между случайни величини.

Задачите на корелационния анализ се свеждат до измерване на близостта на известна връзка между различни черти, идентифициране на неизвестни причинно-следствени връзки (чийто причинно-следствен характер трябва да бъде изяснен с помощта на теоретичен анализ) и оценка на факторите, които имат най-голямо влияние върху получената черта.

Етапи на корелационния анализ

Многовариантният корелационен анализ ви позволява да установите наличието, близостта и формата на връзката между факторите и изследвания показател. Състои се от няколко етапа, чието разделяне е произволно, тъй като отделните етапи са тясно свързани.

На първия етап се определят целите и задачите на изследването и въз основа на качествен анализ се избират фактори, които вероятно влияят върху изследвания показател.

При избора им е необходимо да се вземат предвид:

наличието на причинно-следствени връзки между показателите;

значимостта на факторите, т.е. степента на тяхното влияние върху показателя за ефективност;

възможността за количествено измерване на фактора.

На втория етап се извършва събирането и първичната обработка на първоначалната информация.

Наборът от данни трябва да е достатъчно голям. Информацията трябва да отговаря на нормалния закон за разпределение, според който по-голямата част от наблюденията за всеки показател трябва да се групират около неговата средна стойност.

Изходните данни трябва да бъдат качествено и количествено хомогенни. Качествената хомогенност предполага приблизително еднакви условия и специфика на формиране на факторни и резултатни характеристики. Количествената хомогенност се състои в липсата на такива наблюдения, които се различават значително (аномално) от по-голямата част от данните.

Критерият за хомогенност на информацията е стандартното отклонение и коефициентът на вариация, които се изчисляват за всеки фактор и резултатен показател. Стандартното отклонение показва абсолютното отклонение на отделните стойности от средната аритметична стойност, а коефициентът на вариация характеризира относителната степен на отклонение на отделните стойности от средната аритметична стойност. Освен това, колкото по-голям е коефициентът на вариация, толкова по-голямо е разсейването на данните в съвкупността.

Счита се, че променливостта на вариационните серии е:

незначително, ако вариацията не надвишава 10%;

средна, ако вариацията е 10-20%;

значителен, ако е повече от 20%, но не надвишава 33%. Ако вариацията е по-голяма от 33%, тогава нетипичните наблюдения трябва да бъдат изключени от извадката.

На третия етап се моделират връзките между факторите и резултантния признак, т.е. решава се въпросът за избор на форма на комуникация.

Въз основа на икономическия и логически анализ на природата и същността на изследваното явление се избира такъв вид математическо уравнение, което най-добре отразява характера на изследваните зависимости.

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2022 "kingad.ru" - ултразвуково изследване на човешки органи