У этого термина существуют и другие значения см Корреляция значения Запрос Коэффициент корреляции Пирсона d перенаправля
Корреляция

Корреля́ция (от лат. correlatio «соотношение»), или корреляцио́нная зави́симость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми), при этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Математической мерой корреляции двух случайных величин служит корреляционное отношение либо коэффициент корреляции (или ). В случае если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.
Впервые в научный оборот термин корреляция ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.
Корреляция и взаимосвязь величин
Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад. Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую не взаимодействуют. Например, обледенение становится причиной как роста травматизма из-за падений, так и увеличения аварийности среди автотранспорта. В этом случае две величины (травматизм из-за падений пешеходов и аварийность автотранспорта) будут коррелировать, хотя они не связаны причинно-следственно друг с другом, а лишь имеют стороннюю общую причину — гололедицу.
В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.
Показатели корреляции
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или (тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими — четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).
Параметрические показатели корреляции
Ковариация
Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация является совместным центральным моментом второго порядка. Ковариация определяется как математическое ожидание произведения отклонений случайных величин:
где — математическое ожидание (от expected value).
Свойства ковариации:
- Ковариация двух независимых случайных величин
и
равна нулю.
Так как и
— независимые случайные величины, то и их отклонения
и
также независимы. Пользуясь тем, что математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей, а математическое ожидание отклонения равно нулю, имеем
- Абсолютная величина ковариации двух случайных величин
и
не превышает среднего геометрического их дисперсий:
.
Введём в рассмотрение случайную величину (где
— среднеквадратическое отклонение) и найдём её дисперсию
. Выполнив выкладки получим:
Любая дисперсия неотрицательна, поэтому
Отсюда
Введя случайную величину , аналогично
Объединив полученные неравенства имеем
Или
Итак,
- Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет её использование в целях корреляционного анализа.
Ковариационная статистика
Ковариационная статистика - информация, полученная из различных источников, позволяющая идентифицировать объект (событие, факт, предмет обсуждения) на основе воображения и зрительных образов. Возможность изменения ковариационной статистики:
- количество просмотров
- комментарии
- среднее время просмотра/прочтения
Пример ковариационной статистики на основе сокращенной ссылки /Admin.Facebo0k.c0m где идентификатор (admin) не образует административных прав и является уникальным идентификатором.
Линейный коэффициент корреляции
Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:
где ,
— среднее значение выборок.
Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы.
Разделив обе части двойного неравенства на
получим
Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости: где
— коэффициент регрессии,
— среднеквадратическое отклонение соответствующего факторного признака. Отношение коэффициента регрессии к среднеквадратичному отклонению Y не зависит от единиц измерения Y. При линейной трансформации набора данных
и
линейный коэффициент корреляции будет равен
.
Непараметрические показатели корреляции
Коэффициент ранговой корреляции Кендалла
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
,
где .
— суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.
— суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)
Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:
— число связанных рангов в ряду X и Y соответственно.
Коэффициент ранговой корреляции Спирмена
Степень зависимости двух случайных величин (признаков) и
может характеризоваться на основе анализа получаемых результатов
. Каждому показателю
и
присваивается ранг. Ранги значений
расположены в естественном порядке
. Ранг
записывается как
и соответствует рангу той пары
, для которой ранг
равен
. На основе полученных рангов
и
рассчитываются их разности
и вычисляется коэффициент корреляции Спирмена:
Значение коэффициента меняется от −1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.
Коэффициент корреляции знаков Фехнера
Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.
C — число пар, у которых знаки отклонений значений от их средних совпадают.
H — число пар, у которых знаки отклонений значений от их средних не совпадают.
Множественный коэффициент корреляции
Коэффициент множественной ранговой корреляции (конкордации)
— число групп, которые ранжируются.
— число переменных.
— ранг
-фактора у
-единицы.
Значимость:
, то гипотеза об отсутствии связи отвергается.
В случае наличия связанных рангов:
Свойства коэффициента корреляции
- Неравенство Коши — Буняковского:
- если принять в качестве скалярного произведения двух случайных величин ковариацию
, то норма случайной величины будет равна
, и следствием неравенства Коши — Буняковского будет:
.
- Коэффициент корреляции равен
тогда и только тогда, когда
и
линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):
,
- где
. Более того в этом случае знаки
и
совпадают:
.
Рассмотрим случайные величины X и Y c нулевыми средними, и дисперсиями, равными, соответственно, и
. Подсчитаем дисперсию случайной величины
:
Если предположить, что коэффициент корреляции
то предыдущее выражение перепишется в виде
Поскольку всегда можно выбрать числа a и b так, чтобы (например, если
, то берём произвольное a и
), то при этих a и b дисперсия
, и значит
почти наверное. Но это и означает линейную зависимость между X и Y. Доказательство очевидным образом обобщается на случай величин X и Y с ненулевыми средними, только в вышеприведённых выкладках надо будет X заменить на
, и Y — на
.
- Пусть случайные величины
такие, что
,
. Тогда:
, где
- условное математическое ожидание.
- Если
независимые случайные величины, то
. Обратное в общем случае неверно.
Корреляционный анализ
Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).
Ограничения корреляционного анализа

- Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.
- Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.
- Исходная совокупность значений должна быть качественно однородной.
- Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.
Область применения
Данный метод обработки статистических данных весьма популярен в экономике, астрофизике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
См. также
- Автокорреляционная функция
- Взаимнокорреляционная функция
- Ковариация
- Коэффициент детерминации
Примечания
- Шмойлова, 2002, с. 272.
- Елисеева, Юзбашев, 2002, с. 232.
- Елисеева, Юзбашев, 2002, с. 228.
- Елисеева, Юзбашев, 2002, с. 228—229.
- Елисеева, Юзбашев, 2002, с. 229.
- Суслов, Ибрагимов, Талышева, Цыплаков, 2005, с. 141.
- Гмурман, 2004, с. 176—177.
- Гмурман, 2004, с. 177.
- Гмурман, 2004, с. 178—179.
- https://www.youtube.com/watch?v=x9Dqx0kn47c
- Шмойлова, 2002, с. 300.
- Гмурман, 2004, с. 179.
- Шмойлова, 2002, с. 301.
- Елисеева, Юзбашев, 2002, с. 230.
- Шмойлова, 2002, с. 275.
Литература
- [укр.]. Теория вероятностей и математическая статистика: Учебное пособие для вузов. — 10-е издание, стереотипное. — Москва: Высшая школа, 2004. — 479 с. — ISBN 5-06-004214-6.
- Елисеева И. И., Общая теория статистики: Учебник / Под ред. И. И. Елисеевой. — 4-е издание, переработанное и дополненное. — Москва: Финансы и Статистика, 2002. — 480 с. — ISBN 5-279-01956-9.
- Корреляционный анализ : [арх. 17 октября 2022] / А. В. Прохоров // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
- Общая теория статистики: Учебник / Под ред. . — 3-е издание, переработанное. — Москва: Финансы и Статистика, 2002. — 560 с. — ISBN 5-279-01951-8.
- Суслов В. И., Ибрагимов Н. М., Талышева Л. П., Цыплаков А. А. Эконометрия. — Новосибирск: СО РАН, 2005. — 744 с. — ISBN 5-7692-0755-8.
Ссылки
- Калькулятор для расчета коэффициента корреляции по Пирсону
- Границы значений коэффициента корреляции
- Иллюстрация: зависимые случайные величины с нулевой корреляцией
- Корреляция между временными рядами: что может быть проще? // habr.com
Автор: www.NiNa.Az
Дата публикации:
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер
U etogo termina sushestvuyut i drugie znacheniya sm Korrelyaciya znacheniya Zapros Koefficient korrelyacii Pirsona d perenapravlyaetsya syuda Na etu temu nuzhno sozdat otdelnuyu statyu Korrelya ciya ot lat correlatio sootnoshenie ili korrelyacio nnaya zavi simost statisticheskaya vzaimosvyaz dvuh ili bolee sluchajnyh velichin libo velichin kotorye mozhno s nekotoroj dopustimoj stepenyu tochnosti schitat takovymi pri etom izmeneniya znachenij odnoj ili neskolkih iz etih velichin soputstvuyut sistematicheskomu izmeneniyu znachenij drugoj ili drugih velichin Dlya graficheskogo predstavleniya korrelyacionnoj svyazi mozhno ispolzovat pryamougolnuyu sistemu koordinat s osyami kotorye sootvetstvuyut obeim peremennym Kazhdaya para znachenij markiruetsya pri pomoshi opredelyonnogo simvola Takoj grafik nazyvaetsya diagrammoj rasseyaniya Matematicheskoj meroj korrelyacii dvuh sluchajnyh velichin sluzhit korrelyacionnoe otnoshenie h displaystyle mathbf eta libo koefficient korrelyacii R displaystyle mathbf R ili r displaystyle mathbf r V sluchae esli izmenenie odnoj sluchajnoj velichiny ne vedyot k zakonomernomu izmeneniyu drugoj sluchajnoj velichiny no privodit k izmeneniyu drugoj statisticheskoj harakteristiki dannoj sluchajnoj velichiny to podobnaya svyaz ne schitaetsya korrelyacionnoj hotya i yavlyaetsya statisticheskoj Vpervye v nauchnyj oborot termin korrelyaciya vvyol francuzskij paleontolog Zhorzh Kyuve v XVIII veke On razrabotal zakon korrelyacii chastej i organov zhivyh sushestv s pomoshyu kotorogo mozhno vosstanovit oblik iskopaemogo zhivotnogo imeya v rasporyazhenii lish chast ego ostankov V statistike slovo korrelyaciya pervym stal ispolzovat anglijskij biolog i statistik Frensis Galton v konce XIX veka Korrelyaciya i vzaimosvyaz velichinZnachitelnaya korrelyaciya mezhdu dvumya sluchajnymi velichinami vsegda yavlyaetsya svidetelstvom sushestvovaniya nekotoroj statisticheskoj svyazi v dannoj vyborke no eta svyaz ne obyazatelno dolzhna nablyudatsya dlya drugoj vyborki i imet prichinno sledstvennyj harakter Chasto zamanchivaya prostota korrelyacionnogo issledovaniya podtalkivaet issledovatelya delat lozhnye intuitivnye vyvody o nalichii prichinno sledstvennoj svyazi mezhdu parami priznakov v to vremya kak koefficienty korrelyacii ustanavlivayut lish statisticheskie vzaimosvyazi Naprimer rassmatrivaya pozhary v konkretnom gorode mozhno vyyavit vesma vysokuyu korrelyaciyu mezhdu usherbom kotoryj nanyos pozhar i kolichestvom pozharnyh uchastvovavshih v likvidacii pozhara prichyom eta korrelyaciya budet polozhitelnoj Iz etogo odnako ne sleduet vyvod uvelichenie kolichestva pozharnyh privodit k uvelicheniyu prichinyonnogo usherba i tem bolee ne budet uspeshnoj popytka minimizirovat usherb ot pozharov putyom likvidacii pozharnyh brigad Korrelyaciya dvuh velichin mozhet svidetelstvovat o sushestvovanii obshej prichiny hotya sami yavleniya napryamuyu ne vzaimodejstvuyut Naprimer obledenenie stanovitsya prichinoj kak rosta travmatizma iz za padenij tak i uvelicheniya avarijnosti sredi avtotransporta V etom sluchae dve velichiny travmatizm iz za padenij peshehodov i avarijnost avtotransporta budut korrelirovat hotya oni ne svyazany prichinno sledstvenno drug s drugom a lish imeyut storonnyuyu obshuyu prichinu gololedicu V to zhe vremya otsutstvie korrelyacii mezhdu dvumya velichinami eshyo ne znachit chto mezhdu nimi net nikakoj svyazi Naprimer zavisimost mozhet imet slozhnyj nelinejnyj harakter kotoryj korrelyaciya ne vyyavlyaet Nekotorye vidy koefficientov korrelyacii mogut byt polozhitelnymi ili otricatelnymi V pervom sluchae predpolagaetsya chto my mozhem opredelit tolko nalichie ili otsutstvie svyazi a vo vtorom takzhe i eyo napravlenie Esli predpolagaetsya chto na znacheniyah peremennyh zadano otnoshenie strogogo poryadka to otricatelnaya korrelyaciya korrelyaciya pri kotoroj uvelichenie odnoj peremennoj svyazano s umensheniem drugoj Pri etom koefficient korrelyacii budet otricatelnym Polozhitelnaya korrelyaciya v takih usloviyah eto takaya svyaz pri kotoroj uvelichenie odnoj peremennoj svyazano s uvelicheniem drugoj peremennoj Vozmozhna takzhe situaciya otsutstviya statisticheskoj vzaimosvyazi naprimer dlya nezavisimyh sluchajnyh velichin Pokazateli korrelyaciiMetod vychisleniya koefficienta korrelyacii zavisit ot vida shkaly k kotoroj otnosyatsya peremennye Tak dlya izmereniya peremennyh s intervalnoj i kolichestvennoj shkalami neobhodimo ispolzovat koefficient korrelyacii Pirsona korrelyaciya momentov proizvedenij Esli po menshej mere odna iz dvuh peremennyh imeet poryadkovuyu shkalu libo ne yavlyaetsya normalno raspredelyonnoj neobhodimo ispolzovat rangovuyu korrelyaciyu Spirmena ili t displaystyle mathbf tau tau Kendalla V sluchae kogda odna iz dvuh peremennyh yavlyaetsya dihotomicheskoj ispolzuetsya tochechnaya dvuhryadnaya korrelyaciya a esli obe peremennye yavlyayutsya dihotomicheskimi chetyryohpolevaya korrelyaciya Raschyot koefficienta korrelyacii mezhdu dvumya nedihotomicheskimi peremennymi ne lishyon smysla tolko togda kogda svyaz mezhdu nimi linejna odnonapravlena Parametricheskie pokazateli korrelyacii Kovariaciya Osnovnye stati Kovariaciya i Neravenstvo Koshi Bunyakovskogo Vazhnoj harakteristikoj sovmestnogo raspredeleniya dvuh sluchajnyh velichin yavlyaetsya kovariaciya ili korrelyacionnyj moment Kovariaciya yavlyaetsya sovmestnym centralnym momentom vtorogo poryadka Kovariaciya opredelyaetsya kak matematicheskoe ozhidanie proizvedeniya otklonenij sluchajnyh velichin covXY E X E X Y E Y E XY E X E Y displaystyle mathrm cov XY mathbf E left X mathbf E X Y mathbf E Y right mathbf E XY mathbf E X mathbf E Y gde E displaystyle mathbf E matematicheskoe ozhidanie ot expected value Svojstva kovariacii Kovariaciya dvuh nezavisimyh sluchajnyh velichin X displaystyle mathbf X i Y displaystyle mathbf Y ravna nulyu DokazatelstvoTak kak X displaystyle mathbf X i Y displaystyle mathbf Y nezavisimye sluchajnye velichiny to i ih otkloneniya X E X displaystyle mathbf X mathbf E X i Y E Y displaystyle mathbf Y mathbf E Y takzhe nezavisimy Polzuyas tem chto matematicheskoe ozhidanie proizvedeniya nezavisimyh sluchajnyh velichin ravno proizvedeniyu matematicheskih ozhidanij somnozhitelej a matematicheskoe ozhidanie otkloneniya ravno nulyu imeem covXY E X E X Y E Y E X E X E Y E Y 0 displaystyle mathrm cov XY mathbf E left X mathbf E X Y mathbf E Y right mathbf E X mathbf E X mathbf E Y mathbf E Y 0 Absolyutnaya velichina kovariacii dvuh sluchajnyh velichin X displaystyle mathbf X i Y displaystyle mathbf Y ne prevyshaet srednego geometricheskogo ih dispersij covXY DXDY displaystyle mathrm cov XY leqslant sqrt mathrm D X mathrm D Y DokazatelstvoVvedyom v rassmotrenie sluchajnuyu velichinu Z1 sYX sXY displaystyle mathbf Z 1 mathbf sigma Y mathbf X mathbf sigma X mathbf Y gde s displaystyle mathbf sigma srednekvadraticheskoe otklonenie i najdyom eyo dispersiyu D Z1 E Z mZ1 2 displaystyle mathbf D Z 1 mathbf E mathbf Z m Z1 2 Vypolniv vykladki poluchim D Z1 2s2Xs2Y 2sXsYcovXY displaystyle mathbf D Z 1 2 mathbf sigma 2 X mathbf sigma 2 Y 2 mathbf sigma X mathbf sigma Y mathrm cov XY Lyubaya dispersiya neotricatelna poetomu 2s2Xs2Y 2sXsYcovXY 0 displaystyle 2 mathbf sigma 2 X mathbf sigma 2 Y 2 mathbf sigma X mathbf sigma Y mathrm cov XY geqslant 0 Otsyuda covXY sXsY displaystyle mathrm cov XY leqslant mathrm sigma X mathrm sigma Y Vvedya sluchajnuyu velichinu Z2 sYX sXY displaystyle mathbf Z 2 mathbf sigma Y mathbf X mathbf sigma X mathbf Y analogichno covXY sXsY displaystyle mathrm cov XY geqslant mathrm sigma X mathrm sigma Y Obediniv poluchennye neravenstva imeem sXsY covXY sXsY displaystyle mathrm sigma X mathrm sigma Y leqslant mathrm cov XY leqslant mathrm sigma X mathrm sigma Y Ili covXY sXsY displaystyle mathrm cov XY leqslant mathrm sigma X mathrm sigma Y Itak covXY DXDY displaystyle mathrm cov XY leqslant sqrt mathrm D X mathrm D Y Kovariaciya imeet razmernost ravnuyu proizvedeniyu razmernosti sluchajnyh velichin to est velichina kovariacii zavisit ot edinic izmereniya nezavisimyh velichin Dannaya osobennost kovariacii zatrudnyaet eyo ispolzovanie v celyah korrelyacionnogo analiza Kovariacionnaya statistikaKovariacionnaya statistika informaciya poluchennaya iz razlichnyh istochnikov pozvolyayushaya identificirovat obekt sobytie fakt predmet obsuzhdeniya na osnove voobrazheniya i zritelnyh obrazov Vozmozhnost izmeneniya kovariacionnoj statistiki kolichestvo prosmotrov kommentarii srednee vremya prosmotra prochteniya Primer kovariacionnoj statistiki na osnove sokrashennoj ssylki Admin Facebo0k c0m gde identifikator admin ne obrazuet administrativnyh prav i yavlyaetsya unikalnym identifikatorom Linejnyj koefficient korrelyacii Dlya ustraneniya nedostatka kovariacii byl vvedyon linejnyj koefficient korrelyacii ili koefficient korrelyacii Pirsona kotoryj razrabotali Karl Pirson Frensis Edzhuort i Rafael Ueldon v 90 h godah XIX veka Koefficient korrelyacii rasschityvaetsya po formule rXY covXYsXsY X X Y Y X X 2 Y Y 2 displaystyle mathbf r XY frac mathbf cov XY mathbf sigma X sigma Y frac sum X bar X Y bar Y sqrt sum X bar X 2 sum Y bar Y 2 gde X 1n t 1nXt displaystyle overline X frac 1 n sum t 1 n X t Y 1n t 1nYt displaystyle overline Y frac 1 n sum t 1 n Y t srednee znachenie vyborok Koefficient korrelyacii izmenyaetsya v predelah ot minus edinicy do plyus edinicy DokazatelstvoRazdeliv obe chasti dvojnogo neravenstva sXsY covXY sXsY displaystyle mathrm sigma X mathrm sigma Y leqslant mathrm cov XY leqslant mathrm sigma X mathrm sigma Y na sXsY displaystyle mathbf sigma X mathbf sigma Y poluchim 1 rXY 1 displaystyle 1 leqslant mathbf r XY leqslant 1 Linejnyj koefficient korrelyacii svyazan s koefficientom regressii v vide sleduyushej zavisimosti rXY aisXisY displaystyle mathbf r XY mathbf a i frac sigma Xi sigma Y gde ai displaystyle mathbf a i koefficient regressii sXi displaystyle mathbf sigma Xi srednekvadraticheskoe otklonenie sootvetstvuyushego faktornogo priznaka Otnoshenie koefficienta regressii k srednekvadratichnomu otkloneniyu Y ne zavisit ot edinic izmereniya Y Pri linejnoj transformacii nabora dannyh xi a bxi a R b 0 displaystyle x i a bx i a in mathbb R b neq 0 i yi c dyi c R d 0 displaystyle y i c dy i c in mathbb R d neq 0 linejnyj koefficient korrelyacii budet raven rX Y bd bd rXY displaystyle r X Y frac bd left bd right r XY Neparametricheskie pokazateli korrelyacii Koefficient rangovoj korrelyacii Kendalla Primenyaetsya dlya vyyavleniya vzaimosvyazi mezhdu kolichestvennymi ili kachestvennymi pokazatelyami esli ih mozhno ranzhirovat Znacheniya pokazatelya X vystavlyayut v poryadke vozrastaniya i prisvaivayut im rangi Ranzhiruyut znacheniya pokazatelya Y i rasschityvayut koefficient korrelyacii Kendalla t 2Sn n 1 displaystyle tau frac 2S n n 1 gde S P Q displaystyle S P Q P displaystyle P summarnoe chislo nablyudenij sleduyushih za tekushimi nablyudeniyami s bolshim znacheniem rangov Y Q displaystyle Q summarnoe chislo nablyudenij sleduyushih za tekushimi nablyudeniyami s menshim znacheniem rangov Y ravnye rangi ne uchityvayutsya t 1 1 displaystyle tau in 1 1 Esli issleduemye dannye povtoryayutsya imeyut odinakovye rangi to v raschetah ispolzuetsya skorrektirovannyj koefficient korrelyacii Kendalla t S n n 1 2 Ux n n 1 2 Uy displaystyle tau frac S sqrt frac n n 1 2 U x frac n n 1 2 U y Ux t t 1 2 displaystyle U x frac sum t t 1 2 Uy t t 1 2 displaystyle U y frac sum t t 1 2 t displaystyle t chislo svyazannyh rangov v ryadu X i Y sootvetstvenno Koefficient rangovoj korrelyacii Spirmena Stepen zavisimosti dvuh sluchajnyh velichin priznakov X displaystyle X i Y displaystyle Y mozhet harakterizovatsya na osnove analiza poluchaemyh rezultatov X1 Y1 Xn Yn displaystyle X 1 Y 1 ldots X n Y n Kazhdomu pokazatelyu X displaystyle X i Y displaystyle Y prisvaivaetsya rang Rangi znachenij X displaystyle X raspolozheny v estestvennom poryadke i 1 2 n displaystyle i 1 2 ldots n Rang Y displaystyle Y zapisyvaetsya kak Ri displaystyle R i i sootvetstvuet rangu toj pary X Y displaystyle X Y dlya kotoroj rang X displaystyle X raven i displaystyle i Na osnove poluchennyh rangov Xi displaystyle X i i Yi displaystyle Y i rasschityvayutsya ih raznosti di displaystyle d i i vychislyaetsya koefficient korrelyacii Spirmena r 1 6 di2n n2 1 displaystyle rho 1 frac 6 sum d i 2 n n 2 1 Znachenie koefficienta menyaetsya ot 1 posledovatelnosti rangov polnostyu protivopolozhny do 1 posledovatelnosti rangov polnostyu sovpadayut Nulevoe znachenie pokazyvaet chto priznaki nezavisimy Koefficient korrelyacii znakov Fehnera Podschityvaetsya kolichestvo sovpadenij i nesovpadenij znakov otklonenij znachenij pokazatelej ot ih srednego znacheniya i C HC H displaystyle i frac C H C H C chislo par u kotoryh znaki otklonenij znachenij ot ih srednih sovpadayut H chislo par u kotoryh znaki otklonenij znachenij ot ih srednih ne sovpadayut Mnozhestvennyj koefficient korrelyacii Osnovnaya statya Mnozhestvennyj koefficient korrelyacii Koefficient mnozhestvennoj rangovoj korrelyacii konkordacii W 12Sm2 n3 n displaystyle W frac 12S m 2 n 3 n S i 1n j 1mRij 2 i 1n j 1mRij 2n displaystyle S sum i 1 n sum j 1 m R ij 2 frac sum i 1 n sum j 1 m R ij 2 n m displaystyle m chislo grupp kotorye ranzhiruyutsya n displaystyle n chislo peremennyh Rij displaystyle R ij rang i displaystyle i faktora u j displaystyle j edinicy Znachimost x2 m n 1 W displaystyle chi 2 m n 1 W x2kp a n 1 m 1 displaystyle chi 2 kp alpha n 1 m 1 x2 gt x2kp displaystyle chi 2 gt chi 2 kp to gipoteza ob otsutstvii svyazi otvergaetsya V sluchae nalichiya svyazannyh rangov W 12Sm2 n3 n m j 1m t3j tj displaystyle W frac 12S m 2 n 3 n m sum j 1 m t 3 j t j x2 12Smn n 1 j 1m t3j tj n 1 displaystyle chi 2 frac 12S mn n 1 frac sum j 1 m t 3 j t j n 1 Svojstva koefficienta korrelyacii Neravenstvo Koshi Bunyakovskogo esli prinyat v kachestve skalyarnogo proizvedeniya dvuh sluchajnyh velichin kovariaciyu X Y cov X Y displaystyle langle X Y rangle mathrm cov X Y to norma sluchajnoj velichiny budet ravna X D X displaystyle X sqrt mathrm D X i sledstviem neravenstva Koshi Bunyakovskogo budet 1 RX Y 1 displaystyle 1 leqslant mathbb R X Y leqslant 1 Koefficient korrelyacii raven 1 displaystyle pm 1 togda i tolko togda kogda X displaystyle X i Y displaystyle Y linejno zavisimy isklyuchaya sobytiya nulevoj veroyatnosti kogda neskolko tochek vybivayutsya iz pryamoj otrazhayushej linejnuyu zavisimost sluchajnyh velichin RX Y 1 Y kX b k 0 displaystyle mathbb R X Y pm 1 Leftrightarrow Y kX b k neq 0 gde k b R displaystyle k b in mathbb R Bolee togo v etom sluchae znaki RX Y displaystyle mathbb R X Y i k displaystyle k sovpadayut sgn RX Y sgn k displaystyle operatorname sgn mathbb R X Y operatorname sgn k DokazatelstvoRassmotrim sluchajnye velichiny X i Y c nulevymi srednimi i dispersiyami ravnymi sootvetstvenno X2 sX2 displaystyle overline X 2 sigma X 2 i Y2 sY2 displaystyle overline Y 2 sigma Y 2 Podschitaem dispersiyu sluchajnoj velichiny 3 aX bY displaystyle xi aX bY s32 aX bY 2 a2X2 b2Y2 2abXY displaystyle sigma xi 2 overline aX bY 2 a 2 overline X 2 b 2 overline Y 2 2ab overline XY Esli predpolozhit chto koefficient korrelyacii RX Y XY sXsY 1 displaystyle mathbb R X Y frac overline XY sigma X sigma Y pm 1 to predydushee vyrazhenie perepishetsya v vide s32 a2sX2 b2sY2 2absXsY asX bsY 2 displaystyle sigma xi 2 a 2 sigma X 2 b 2 sigma Y 2 pm 2ab sigma X sigma Y a sigma X pm b sigma Y 2 Poskolku vsegda mozhno vybrat chisla a i b tak chtoby asX bsY 0 displaystyle a sigma X pm b sigma Y 0 naprimer esli sY 0 displaystyle sigma Y neq 0 to beryom proizvolnoe a i b sXsYa displaystyle b mp frac sigma X sigma Y a to pri etih a i b dispersiya s32 0 displaystyle sigma xi 2 0 i znachit 3 aX bY 0 displaystyle xi aX bY 0 pochti navernoe No eto i oznachaet linejnuyu zavisimost mezhdu X i Y Dokazatelstvo ochevidnym obrazom obobshaetsya na sluchaj velichin X i Y s nenulevymi srednimi tolko v vysheprivedyonnyh vykladkah nado budet X zamenit na X X displaystyle X overline X i Y na Y Y displaystyle Y overline Y Pust sluchajnye velichiny X Y displaystyle X Y takie chto D X gt 0 displaystyle D X gt 0 D Y gt 0 displaystyle D Y gt 0 Togda RX Y RX E X Y RE X Y Y displaystyle mathbb R X Y mathbb R X E X Y mathbb R E X Y Y gde E X Y displaystyle E X Y uslovnoe matematicheskoe ozhidanie Esli X Y displaystyle X Y nezavisimye sluchajnye velichiny to RX Y 0 displaystyle mathbb R X Y 0 Obratnoe v obshem sluchae neverno Korrelyacionnyj analizKorrelyacionnyj analiz metod obrabotki statisticheskih dannyh s pomoshyu kotorogo izmeryaetsya tesnota svyazi mezhdu dvumya ili bolee peremennymi Korrelyacionnyj analiz tesno svyazan s regressionnym analizom takzhe chasto vstrechaetsya termin korrelyacionno regressionnyj analiz kotoryj yavlyaetsya bolee obshim statisticheskim ponyatiem s ego pomoshyu opredelyayut neobhodimost vklyucheniya teh ili inyh faktorov v uravnenie mnozhestvennoj regressii a takzhe ocenivayut poluchennoe uravnenie regressii na sootvetstvie vyyavlennym svyazyam ispolzuya koefficient determinacii Ogranicheniya korrelyacionnogo analiza Mnozhestvo korrelyacionnyh polej Raspredeleniya znachenij x y displaystyle x y s sootvetstvuyushimi koefficientami korrelyacij dlya kazhdogo iz nih Koefficient korrelyacii otrazhaet zashumlyonnost linejnoj zavisimosti verhnyaya stroka no ne opisyvaet naklon linejnoj zavisimosti srednyaya stroka i sovsem ne podhodit dlya opisaniya slozhnyh nelinejnyh zavisimostej nizhnyaya stroka Dlya raspredeleniya pokazannogo v centre risunka koefficient korrelyacii ne opredelen tak kak dispersiya y ravna nulyu Primenenie vozmozhno pri nalichii dostatochnogo kolichestva nablyudenij dlya izucheniya Na praktike schitaetsya chto chislo nablyudenij dolzhno ne menee chem v 5 6 raz prevyshat chislo faktorov takzhe vstrechaetsya rekomendaciya ispolzovat proporciyu ne menee chem v 10 raz prevyshayushuyu kolichestvo faktorov V sluchae esli chislo nablyudenij prevyshaet kolichestvo faktorov v desyatki raz v dejstvie vstupaet zakon bolshih chisel kotoryj obespechivaet vzaimopogashenie sluchajnyh kolebanij Neobhodimo chtoby sovokupnost znachenij vseh faktornyh i rezultativnogo priznakov podchinyalas mnogomernomu normalnomu raspredeleniyu V sluchae esli obyom sovokupnosti nedostatochen dlya provedeniya formalnogo testirovaniya na normalnost raspredeleniya to zakon raspredeleniya opredelyaetsya vizualno na osnove korrelyacionnogo polya Esli v raspolozhenii tochek na etom pole nablyudaetsya linejnaya tendenciya to mozhno predpolozhit chto sovokupnost ishodnyh dannyh podchinyaetsya normalnomu zakonu raspredeleniya Ishodnaya sovokupnost znachenij dolzhna byt kachestvenno odnorodnoj Sam po sebe fakt korrelyacionnoj zavisimosti ne dayot osnovaniya utverzhdat chto odna iz peremennyh predshestvuet ili yavlyaetsya prichinoj izmenenij ili to chto peremennye voobshe prichinno svyazany mezhdu soboj a ne nablyudaetsya dejstvie tretego faktora Oblast primeneniya Dannyj metod obrabotki statisticheskih dannyh vesma populyaren v ekonomike astrofizike i socialnyh naukah v chastnosti v psihologii i sociologii hotya sfera primeneniya koefficientov korrelyacii obshirna kontrol kachestva promyshlennoj produkcii metallovedenie agrohimiya gidrobiologiya biometriya i prochie V razlichnyh prikladnyh otraslyah prinyaty raznye granicy intervalov dlya ocenki tesnoty i znachimosti svyazi Populyarnost metoda obuslovlena dvumya momentami koefficienty korrelyacii otnositelno prosty v podschete ih primenenie ne trebuet specialnoj matematicheskoj podgotovki V sochetanii s prostotoj interpretacii prostota primeneniya koefficienta privela k ego shirokomu rasprostraneniyu v sfere analiza statisticheskih dannyh Sm takzheV Vikislovare est statya korrelyaciya Avtokorrelyacionnaya funkciya Vzaimnokorrelyacionnaya funkciya Kovariaciya Koefficient determinaciiPrimechaniyaShmojlova 2002 s 272 Eliseeva Yuzbashev 2002 s 232 Eliseeva Yuzbashev 2002 s 228 Eliseeva Yuzbashev 2002 s 228 229 Eliseeva Yuzbashev 2002 s 229 Suslov Ibragimov Talysheva Cyplakov 2005 s 141 Gmurman 2004 s 176 177 Gmurman 2004 s 177 Gmurman 2004 s 178 179 https www youtube com watch v x9Dqx0kn47c Shmojlova 2002 s 300 Gmurman 2004 s 179 Shmojlova 2002 s 301 Eliseeva Yuzbashev 2002 s 230 Shmojlova 2002 s 275 Literatura ukr Teoriya veroyatnostej i matematicheskaya statistika Uchebnoe posobie dlya vuzov 10 e izdanie stereotipnoe Moskva Vysshaya shkola 2004 479 s ISBN 5 06 004214 6 Eliseeva I I Obshaya teoriya statistiki Uchebnik Pod red I I Eliseevoj 4 e izdanie pererabotannoe i dopolnennoe Moskva Finansy i Statistika 2002 480 s ISBN 5 279 01956 9 Korrelyacionnyj analiz arh 17 oktyabrya 2022 A V Prohorov Bolshaya rossijskaya enciklopediya v 35 t gl red Yu S Osipov M Bolshaya rossijskaya enciklopediya 2004 2017 Obshaya teoriya statistiki Uchebnik Pod red 3 e izdanie pererabotannoe Moskva Finansy i Statistika 2002 560 s ISBN 5 279 01951 8 Suslov V I Ibragimov N M Talysheva L P Cyplakov A A Ekonometriya Novosibirsk SO RAN 2005 744 s ISBN 5 7692 0755 8 SsylkiKalkulyator dlya rascheta koefficienta korrelyacii po Pirsonu Granicy znachenij koefficienta korrelyacii Illyustraciya zavisimye sluchajnye velichiny s nulevoj korrelyaciej Korrelyaciya mezhdu vremennymi ryadami chto mozhet byt proshe habr com