Определите коэффициент корреляции

Автор: Morris Wright
Дата создания: 28 Апрель 2021
Дата обновления: 19 Июнь 2024
Anonim
Расчет коэффициента корреляции в Excel
Видео: Расчет коэффициента корреляции в Excel

Содержание

Коэффициент корреляции, обозначаемый r или ρ, является мерой линейной корреляции (отношения, как по силе, так и по направлению) между двумя переменными. Он варьируется от -1 до +1, используя знаки плюс и минус для обозначения положительной и отрицательной корреляции. Если коэффициент корреляции равен точно -1, то связь между двумя переменными полностью отрицательная; если коэффициент корреляции ровно +1, то связь полностью положительная. Две переменные могут иметь положительную корреляцию, отрицательную корреляцию или вообще не иметь корреляции. Вы можете рассчитать корреляцию вручную, используя некоторые бесплатные вычисления корреляции, доступные в Интернете, или используя статистические функции хорошего графического калькулятора.

Шагать

Метод 1 из 4. Рассчитайте коэффициент корреляции вручную

  1. Сначала соберите свои данные. Чтобы начать вычисление эффективной корреляции, сначала изучите пары данных. Их полезно класть в таблицу как по вертикали, так и по горизонтали. Обозначьте каждую строку или столбец x и y.
    • Например, предположим, что у вас есть четыре пары данных для Икс а также y. Тогда таблица может выглядеть так:
      • х || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  2. Рассчитайте среднее значение Икс. Для вычисления среднего вам нужны все значения Икс сложите, а затем разделите на количество значений.
    • Используя приведенный выше пример, обратите внимание, что у вас есть четыре значения для Икс. Чтобы вычислить среднее значение, вы складываете все значения Икс и разделите на 4. Расчет выглядит так:
    • μИкс=(1+2+4+5)/4{ Displaystyle му _ {х} = (1 + 2 + 4 + 5) / 4}Найдите среднее значение y. В среднем y Чтобы найти его, выполните те же действия, сложив все значения y вместе и затем разделив на количество значений.
      • В приведенном выше примере у вас также есть четыре значения для y. Сложите все эти значения вместе и затем разделите их на 4. Расчеты будут выглядеть следующим образом:
      • μy=(1+3+5+7)/4{ Displaystyle му _ {у} = (1 + 3 + 5 + 7) / 4}Определите стандартное отклонение Икс. Когда у вас будут средства, вы можете рассчитать стандартное отклонение. Для этого воспользуйтесь формулой:
        • σИкс=1п1Σ(ИксμИкс)2{ displaystyle sigma _ {x} = { sqrt {{ frac {1} {n-1}} Sigma (x- mu _ {x}) ^ {2}}}}Рассчитайте стандартное отклонение y. Используя те же основные шаги, найдите стандартное отклонение y. Вы собираетесь использовать ту же формулу, используя точки данных для y.
          • С образцами данных ваши расчеты будут выглядеть следующим образом:
          • σy=141((14)2+(34)2+(54)2+(74)2){ displaystyle sigma _ {y} = { sqrt {{ frac {1} {4-1}} * ((1-4) ^ {2} + (3-4) ^ {2} + ( 5-4) ^ {2} + (7-4) ^ {2})}}}Просмотрите основную формулу для определения коэффициента корреляции. Формула для расчета коэффициента корреляции использует средние значения, стандартные отклонения и количество пар в наборе данных (представленное как п). Сам коэффициент корреляции представлен строчной буквой r или греческой буквой ρ (ро). В этой статье мы будем использовать формулу, известную как коэффициент корреляции Пирсона, как показано ниже:
            • ρ=(1п1)Σ(ИксμИксσИкс)(yμyσy){ displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } right) * left ({ frac {y- mu _ {y}} { sigma _ {y}}} right)}Определите коэффициент корреляции. Теперь у вас есть средние значения и стандартные отклонения для ваших переменных, поэтому вы можете перейти к формуле коэффициента корреляции. Помни это п представляет количество имеющихся у вас значений. Вы уже определили другую важную информацию, описанную выше.
              • Используя образцы данных, вы можете ввести данные в формулу коэффициента корреляции и рассчитать ее следующим образом:
              • ρ=(1п1)Σ(ИксμИксσИкс)(yμyσy){ Displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } right) * left ({ frac {y- mu _ {y}} { sigma _ {y}}} right)}Интерпретируйте результат. Для этого набора данных коэффициент корреляции составляет 0,988. Это число говорит вам о двух вещах. Посмотрите на знак числа и размер числа.
                • Поскольку коэффициент корреляции положительный, можно сказать, что существует положительная корреляция между данными x и данными y. Это означает, что если значения x увеличиваются, вы ожидаете, что значения y также увеличатся.
                • Поскольку коэффициент корреляции очень близок к +1, данные x и данные y очень тесно связаны. Если бы вы изобразили эти точки на графике, вы бы увидели, что они очень хорошо аппроксимируют прямую линию.

Метод 2 из 4. Использование онлайн-калькуляторов корреляции

  1. Найдите в Интернете калькуляторы корреляции. Измерение корреляции - довольно стандартный расчет для статистиков. Для больших наборов данных расчет может стать очень утомительным, если он выполняется вручную. Поэтому многие источники сделали общие расчеты корреляции доступными в Интернете. Воспользуйтесь любой поисковой системой и введите поисковый запрос «калькулятор корреляции».
  2. Введите данные. Внимательно прочтите инструкции на веб-сайте, чтобы правильно ввести данные. Важно, чтобы пары данных были в порядке, иначе вы получите неверный результат корреляции. Разные веб-сайты используют разные форматы для ввода данных.
    • Например, на веб-сайте http://ncalculators.com/statistics/correlation-coefficient-calculator.htm вы найдете горизонтальное поле для ввода значений x и второе горизонтальное поле для ввода значений y. Вы вводите условия через запятую. Таким образом, набор данных x, рассчитанный ранее в этой статье, следует ввести как 1,2,4,5. Набор данных y вводится как 1,3,5,7.
    • На другом сайте http://www.alcula.com/calculators/statistics/correlation-coefficient/ вы можете вводить данные по горизонтали или вертикали, если вы сохраняете точки данных в порядке.
  3. Подсчитайте результаты. Эти сайты расчета популярны, потому что после ввода данных вам обычно нужно только нажать кнопку «Рассчитать» - результат появится автоматически.

Метод 3 из 4: использование графического калькулятора

  1. Введите свои данные. На графическом калькуляторе включите функцию статистики и затем выберите команду «Редактировать».
    • У каждого калькулятора есть немного разные ключевые команды. В этой статье представлены конкретные инструкции для Texas Instruments TI-86.
    • Чтобы получить доступ к функции Stat, нажмите [2nd] -Stat (над клавишей «+»), а затем нажмите F2-Edit.
  2. Удалите все старые сохраненные данные. Большинство калькуляторов сохраняют статистические данные до тех пор, пока они не будут очищены. Чтобы убедиться, что вы не путаете старые данные с новыми данными, вам следует сначала стереть всю ранее сохраненную информацию.
    • Используйте клавиши со стрелками, чтобы переместить курсор, чтобы выделить категорию «xStat». Затем нажмите «Очистить» и «Ввод». Это должно очистить все значения в столбце xStat.
    • С помощью клавиш со стрелками выделите категорию «yStat». Нажмите «Очистить» и «Ввод», чтобы также очистить данные для этого столбца.
  3. Введите ваши значения данных. С помощью клавиш со стрелками переместите курсор в первое место под заголовком xStat. Введите первое значение данных и нажмите Enter. Вы должны увидеть пространство внизу экрана «xStat (1) = __», где ваше значение заполняет пустое пространство. Когда вы нажмете Enter, данные заполнят таблицу, курсор переместится на следующую строку, а строка внизу экрана должна теперь читать «xStat (2) = __».
    • Продолжайте вводить все значения x.
    • После ввода значений x используйте клавиши со стрелками для перехода к столбцу yStat и введите значения y.
    • Когда все данные будут введены, нажмите Exit, чтобы очистить экран и выйти из меню Stat.
  4. Рассчитайте статистику линейной регрессии. Коэффициент корреляции - это показатель того, насколько близко данные аппроксимируются прямой линией. Графический калькулятор со статистическими функциями может очень быстро вычислить наиболее подходящую линию и коэффициент корреляции.
    • Войдите в функцию Stat и затем нажмите кнопку Calc. На TI-86 это [2nd] [Stat] [F1].
    • Выберите «Расчеты линейной регрессии». На TI-86 это [F3] с надписью «LinR». Затем на графическом дисплее отобразится строка «LinR _» с мигающим курсором.
    • Теперь вы должны ввести имена двух переменных, которые вы хотите вычислить. Это xStat и yStat.
      • На TI-86 выберите список имен («Имена»), нажав [2nd] [List] [F3].
      • В нижней строке экрана теперь должны отображаться доступные переменные. Выберите [xStat] (вероятно, это кнопка F1 или F2), затем введите запятую и затем [yStat].
      • Нажмите Enter, чтобы вычислить данные
  5. Интерпретируйте результаты. Когда вы нажимаете Enter, калькулятор немедленно вычисляет следующую информацию для введенных вами данных:
    • y=а+бИкс{ displaystyle y = a + bx}Разберитесь в концепции корреляции. Корреляция - это статистическая взаимосвязь между двумя величинами. Коэффициент корреляции - это одно число, которое можно вычислить для двух наборов точек данных. Число всегда находится в диапазоне от -1 до +1 и указывает, насколько близки два набора данных.
      • Например, если вы измерили рост и возраст детей примерно до 12 лет, вы ожидаете найти сильную положительную корреляцию. Когда дети становятся старше, они, как правило, становятся выше.
      • Пример отрицательной корреляции - сравнение времени, которое кто-то проводит за игрой в гольф, с его результатом. По мере того, как практика прогрессирует, оценка должна падать.
      • В конечном счете, вы ожидаете небольшой корреляции, положительной или отрицательной, между размером обуви человека, например, и его оценками на экзамене.
    • Рассчитайте среднее значение. Среднее арифметическое или «среднее» набора данных вычисляется путем сложения всех значений данных и последующего деления на количество значений в наборе. Чтобы определить коэффициент корреляции для ваших данных, вам необходимо вычислить среднее значение для каждого набора данных.
      • Среднее значение переменной обозначается переменной с горизонтальной линией над ней. Это часто называют «полосой по оси x» или «полосой по оси y» для наборов данных x и y. В качестве альтернативы среднее значение может быть обозначено строчной греческой буквой μ (мю). Например, чтобы указать среднее значение точек данных x, вы можете использовать μИкс или μ (x).
      • Например, если у вас есть набор x (1,2,5,6,9,10), среднее значение этих данных рассчитывается следующим образом:
        • μИкс=(1+2+5+6+9+10)/6{ Displaystyle му _ {х} = (1 + 2 + 5 + 6 + 9 + 10) / 6}Знайте важность стандартного отклонения. В статистике стандартное отклонение измеряет вариацию, показывая отклонение чисел от среднего. Группа чисел с низким стандартным отклонением довольно близка друг к другу. Группа чисел с высоким стандартным отклонением более разбросана.
          • В качестве символа стандартное отклонение выражается строчной буквой s или греческой буквой σ (сигма). Таким образом, стандартное отклонение данных x записывается как sИкс или σИкс.
        • Ознакомьтесь с обозначениями суммирования. Оператор суммирования - один из наиболее распространенных операторов в математике, он указывает сумму значений. Он представлен греческой заглавной буквой, сигмой или ∑.
          • Например, если у вас есть набор точек данных x (1,2,5,6,9,10), то ∑x означает:
            • 1+2+5+6+9+10 = 33

Советы

  • Коэффициент корреляции иногда называют «коэффициентом корреляции произведение-момент Пирсона» в честь Карла Пирсона, его разработчика.
  • Как правило, коэффициент корреляции выше 0,8 (положительный или отрицательный) представляет собой сильную корреляцию; коэффициент корреляции ниже 0,5 (снова положительный или отрицательный) представляет собой слабый коэффициент корреляции.

Предупреждения

  • Корреляция показывает, что два набора данных каким-то образом связаны. Однако будьте осторожны, чтобы не интерпретировать это как причинно-следственную связь. Например, если вы сравните размеры обуви людей и их рост, вы, вероятно, обнаружите сильную положительную корреляцию. У более крупных людей обычно больше ступни. Однако это не означает, что рост заставит ваши ноги расти, или что большие ноги заставят вас вырасти. Они просто случаются вместе.