Кореляція


Кореляція – це статистичний зв’язок між двома біваріантними чи випадковими змінними.

Біваріантні дані (bivariate data), також двовимірні дані – це дані з двох змінних, де кожне значення однієї змінної пов’язане зі значенням іншої змінної.

Визначення міри асоціативності таких змінних залежить від природи даних. Так, наприклад, для категорійних даних  використовують таблиці спряженості. Натомість для аналізу кількісних даних використовують коефіцієнт кореляції який ми розглянемо далі більш детально, графічні методи, наприклад, графік розсіювання (scatter plot) чи регресійний аналіз.

Слід зауважити, що коефіцієнт кореляції також може бути застосований до  кількісних даних, але за умови, що ці дані піддаються впорядкуванню.

Кількісні дані (quantitative data) – це числові дані які виражають кількісні властивості об’єктів.

Категорійні дані (іноді зустрічається як якісні дані, qualitative data) – це нечислові дані які використовують словесні описи, категорії або мітки для представлення властивостей об’єктів.

Розрізняють кореляцію трбох видів: позитивна, негативна та відсутня. За типом: лінійна, нелінійна.

Позитивна кореляція

Позитивна кореляція вказує на тенденцію двох змінних рости разом. Якщо значення однієї змінної збільшується, то й значення іншої змінної також схильні збільшуватися.

Рис.1. Позитивна лінійна кореляція

 Графічно це може бути виражено підняттям лінії тренду.

Негативна кореляція

Негативна кореляція вказує на тенденцію коли значення однієї змінної збільшуються, а значення іншої змінної схильні зменшуватися. Графічно це може бути виражено спуском лінії тренду.

Рис.2. Негативна лінійна кореляція

Відсутня кореляція

Відсутність кореляції за лінійною моделлю (як приклад) вказує на те, що між змінними немає лінійного зв’язку. Це не обов’язково означає, що між змінними взагалі немає взаємозв’язку. Інші типи взаємозв’язків (наприклад, не лінійні) можуть залишатися непоміченими при обчисленні степеня кореляції за допомогою методів, що працюють з лінійними даними.

Рис.3. Відсутня лінійна кореляція

Під кореляцією лінійних даних розуміють взаємозв’язок між двома змінними які можна описати або апроксимувати лінійною моделлю. Лінійна модель використовує пряму лінію для представлення взаємозв’язку між змінними.  Графічно це може бути виражено горизонтальною лінією тренду.

Нелінійна кореляція

Нелінійна кореляція вказує на те, що взаємозв’язок між двома змінними не може бути ефективно виражений або апроксимований лінійною моделлю чи прямою лінією. Графічно це може бути виражено довільною кривою.

Коефіцієнт кореляції Пірсона

Для квантування міри (ступеня) кореляції використовують коефіцієнт кореляції. Коефіцієнт кореляції Пірсона r (іноді просто “кореляція”) – це статистичний показник, який вимірює силу та напрямок лінійної залежності між двома змінними. Припускається, що залежність між змінними можна виразити лінійною функцією.

Значення близьке до 1 вказує на те, що існує пряма асоціація між змінними, близьке до -1 – на зворотну асоціацію, а 0 – на відсутність лінійної залежності.

\[r_p\ =\frac{\sum_{\ i=1}^{\ n}\left(x_i-\overline{x}\right)\cdot\left(y_i-\overline{y}\right)\ }{\sqrt{\sum_{i=1\ }^{n\ }\left(x_i-\overline{x}\right)^2\cdot\sum_{\ i=1}^{\ n}\left(y_i-\overline{y}\right)^2}}\ ,\ де:\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left(1\right)\]

\[x_i,\ y_i\ -\ значення\ біваріантних\ змінних\ x\ \ та\ y\ \ для\ спостереження\ i;\]

\[\overline{x},\ \overline{y}\ -\ середнє\ значення\ змінних\ для\ множин\ x\ \ та\ y\ відповіно;\]

Розглянемо обчислення коефіцієнта кореляції Пірсона на прикладі.

Нехай дано чотири біваріантні пари: (25, 30), (30,35), (36, 52), та (45, 71). Розрахуємо основні значення та запишемо результати у таблицю 1.

xiyixi-x̄yi-ȳ(xi-x̄)2(yi-ȳ)2(xi-x̄)(yi-ȳ)
2530-9-1781289153
3035-4-121614448
36522542510
45711124121576264
mean3447
sum2221034475
Таб.2. Значення біваріантних пар, сума різниць та сума квадратів різниць спостережень і середніх значень

\[r_p\ =\frac{\sum_{\ i=1}^{\ n}\left(x_i-\overline{x}\right)\cdot\left(y_i-\overline{y}\right)\ }{\sqrt{\sum_{i=1\ }^{n\ }\left(x_i-\overline{x}\right)^2\cdot\sum_{\ i=1}^{\ n}\left(y_i-\overline{y}\right)^2}}\ =\frac{475}{\sqrt{222\cdot1034}\ }=\frac{475}{479.11}=\sim0.99\]

Отримане значення вказує на те, що існує стійка позитивна кореляція між змінними x та y: коли x зростає – зростає й y.

Коефіцієнт кореляції Спірмена

Коефіцієнт кореляції Спірмена rs, запропонований англійським психологом Чарльзом Спірменом, дозволяє визначити силу та напрямок монотонної залежності між двома змінними: оцінює ступінь монотонного взаємозв’язку, тобто, чи одна змінна загалом зростає або зменшується, коли інша змінюється.

\[r_s\ =1-\frac{6\cdot\sum_{i=1}^nd_i^2}{n\left(n^2-1\right)}\ ,\ де:\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left(2\right)\]

\[n\ -\ кількість\ біваріантних\ пар;\]

\[d^2\ -\ квадрат\ різниці\ рангів\ біваріантних\ пар;\]

Коефіцієнт кореляції Спірмена – це число у діапазоні −1 ≤ rs ≤ 1. Значення, близькі до -1 чи 1, вказують на сильну монотонну залежність, а 0 – на відсутність монотонної залежності. Розглянемо обчислення коефіцієнту rs для кількісних даних на прикладі.

Нехай дано три біваріантні пари: (2, -3), (5,4), (-6, 1).

Обчислимо ранги для множин змінних і запишемо результат у таблиці 2.

Ранг – порядковий номер позиції значення змінної у впорядкованому масиві. Для набору спостережень ранги присвоюються кожному значенню відповідно до його порядку у відповідному впорядкованому масиві.

Наприклад, наша множина змінних xi = {2, 5, -6} після сортування виглядає таким чином: xi = {-6, 2, 5}. Ранги будуть відповідати позиціям у цьому відсортованому ряді: для -6 ранг буде 1, для 2 – 2, для 5 – 3.  Для множини yi = {-3, 4, 1} впорядкований масив виглядає так: yi = {-3, 1, 4}, де: для -3 ранг буде 1, для 1 – 2, для 4 – 3. Отже:

xRxyRydd2
22-3111
534300
-6112-11
Таб.2. Значення змінних біваріантних пар, відповідні ранги, різниця рангів, та квадрат різниці рангів

\[r_s=1-\frac{6\cdot\sum_{i=1}^nd_i^2}{n\left(n^2-1\right)}=1-\frac{6\cdot\left(1+0+1\right)}{3\left(3^2-1\right)}=1-\ \frac{12}{27-1}=1-\frac{12}{26}=\sim0.54\]

Зауважте, що на відміну від кореляції Пірсона, коефіцієнт кореляції Спірмена ранжує дані, а не ґрунтується на їхніх фактичних значеннях, що робить його придатним для порядкових даних чи даних які розподілені ненормально.  Кореляція Спірмена є цінним інструментом для виявлення та вимірювання асоціацій, коли не припускаються лінійні залежності чи коли ми маємо справу з рангованими чи порядковими даними.

Кореляція Пірсона vs. Спірмена

Підсумуємо основні властивості обох методів у таблиці 3.

Властивістькоефіцієнт Пірсонакоефіцієнт Спірмена
Діпазон[1,-1][1,-1]
Тип ассоціативності данихлінійниймонотонний
Тип розподілу данихнормальний розподілтакож ненормальний або порядковий
Чутливість до аномальних данихчутливийменш чутливий
Метод обчисленнястандартне відхилення, коваріативністьранжування
Таб.3. Порівняльна таблиця властивостей обох методів

Кореляція – не причина

Часто кореляцію плутають із причиною. Це доволі поширена логічна хиба про причинно-наслідковий зв’язок. Розглянемо можливі типи причинно-наслідкового зв’язку та кореляції.

Рис.4. A зпричиняє B
Рис.5. B зпричиняє A

Між змінними A та B  існує кореляція, одна із змінних зпричиняє іншу. Між ними існує причинно-наслідковий зв’язок.

Рис.6. C зпричиняє A і B

Між змінними A та B  існує кореляція, проте обоє зпричинені іншою змінною (фактором). Між  A  і B не існує прямого причинно-наслідкового зв’язку, але існує між С та  A  і С та B.

Рис.7. С зпричиняє A, а D – B

Між змінними A та B  існує кореляція, A зпричинене С, а  B – D. A  та  B  непов’язані змінні, наявність кореляції – збіг.

Cum hoc ergo propter hoc (лат. «разом із цим, отже, внаслідок цього») – логічна хиба сумнівної причинності, в якій збіг обставин або кореляція між певними ознаками приймається за доказ причиново-наслідкового зв’язку без додаткової перевірки причинності.

wikipedia.org

Слід зауважити, що в статті ми розглянули методи обчислення коефіцієнта кореляції для лінійних біваріантних даних. Для нелінійних даних можуть використовувати інші методи такі як:  коефіцієнт кореляції Кендала, кореляція відстаней тощо.