Вычислить ковариацию

Автор: Judy Howell
Дата создания: 2 Июль 2021
Дата обновления: 1 Июль 2024
Anonim
Ковариация. Тема
Видео: Ковариация. Тема

Содержание

Ковариация - это статистический расчет, позволяющий сделать взаимосвязь между двумя наборами данных более прозрачной. Например, предположим, что антропологи изучают рост и вес населения в пределах определенной культуры. Для каждого человека, участвующего в исследовании, рост и вес могут отображаться с помощью пары данных (x, y). Эти значения можно использовать в стандартной формуле для расчета ковариационного отношения. В этой статье сначала объясняются расчеты для определения ковариации набора данных. Далее будут рассмотрены два других автоматизированных способа определения результата.

Шагать

Метод 1 из 4. Рассчитайте ковариацию вручную по стандартной формуле.

  1. Изучите стандартную формулу ковариации и ее части. Стандартная формула для вычисления ковариации: Σ(ИксяИксв среднем)(yяyв среднем)/(п1){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}}) / (n-1)}Создайте свою таблицу данных. Прежде чем начать, полезно собрать свои данные. Создайте таблицу, состоящую из пяти столбцов. Вы должны объявить каждый столбец следующим образом:
    • Икс{ displaystyle x}Вычислите среднее значение x точек данных. Этот образец данных содержит 9 чисел. Чтобы найти среднее, сложите их и разделите сумму на 9. Это даст результат 1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Когда вы разделите это на 9, вы получите среднее значение. 4.89. Это значение, которое вы будете использовать как x (среднее) для следующих расчетов.
    • Вычислите среднее значение y точек данных. Этот столбец y также должен состоять из 9 точек данных, которые совпадают с точками данных x. Определите среднее из них. Для этого образца данных это становится 8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49. Разделите эту сумму на 9, чтобы получить среднее значение 5,44. Вы собираетесь использовать 5,44 в качестве значения y (avg) для следующих вычислений.
    • Рассчитать значения (ИксяИксв среднем){ displaystyle (x_ {i} -x _ { text {avg}})}Рассчитать значения (yяyв среднем){ displaystyle (y_ {i} -y _ { text {avg}})}Рассчитайте продукты для каждой строки данных. Вы заполняете строки последнего столбца, умножая числа, вычисленные в двух предыдущих столбцах таблицы. (ИксяИксв среднем){ displaystyle (x_ {i} -x _ { text {avg}})}Найдите сумму значений в последнем столбце. Здесь появляется символ Σ. После выполнения всех расчетов сложите результаты. Для этого примера набора данных у вас должно быть девять значений в последнем столбце. Сложите эти девять чисел. Обратите особое внимание на то, является ли число положительным или отрицательным.
      • Сумма этого набора данных должна составлять -64,57. Запишите эту сумму в поле внизу столбца. Это значение числителя стандартной формулы ковариации.
    • Вычислите знаменатель формулы ковариации. Числитель стандартной формулы ковариации - это только что вычисленное значение. Знаменатель представлен (n-1) и на единицу меньше количества пар данных в вашем наборе данных.
      • В этом примере задачи девять пар данных, поэтому n равно 9. Следовательно, значение (n-1) равно 8.
    • Разделите числитель на знаменатель. Последний шаг в вычислении ковариации - разделение числителя, Σ(ИксяИксв среднем)(yяyв среднем){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}})}Обратите внимание на повторяющиеся вычисления. Ковариация - это расчет, который вам нужно проделать несколько раз вручную, чтобы понять значение результата. Однако, если вы собираетесь регулярно использовать ковариацию для интерпретации данных, вам понадобится более быстрый и автоматизированный способ получения результатов. К настоящему времени вы, возможно, заметили, что с нашим относительно небольшим набором данных, состоящим всего из девяти пар данных, вычисления состояли из двух средних, восемнадцати отдельных вычитаний, девяти умножений, одного сложения и, наконец, еще одного деления. Это 31 относительно небольшой расчет, чтобы найти решение. Попутно вы рискуете пропустить отрицательные знаки или неправильно скопировать результаты, так что ответ перестанет быть правильным.
    • Создайте рабочий лист для расчета ковариации. Если вы знакомы с Excel (или другой программой расчета), вы можете легко создать таблицу для определения ковариации. Обозначьте заголовки пяти столбцов, как вы делали вычисления вручную: x, y, (x (i) -x (avg)), (y (i) -y (avg)) и Product.
      • Чтобы упростить именование, назовите третий столбец чем-то вроде «разность x», а четвертый столбец - «разницей y», если вы помните значение данных.
      • Если таблица начинается в верхнем левом углу листа, ячейка A1 будет помечена как x, а другие метки продолжаются до ячейки E1.
    • Введите точки данных. Введите значения данных в два столбца x и y. Помните, что порядок точек данных имеет значение, поэтому вы должны сопоставить каждый y с соответствующим значением x.
      • Значения x начинаются с ячейки A2 и продолжаются до необходимого количества точек данных.
      • Значения y начинаются с ячейки B2 и продолжаются до необходимого количества точек данных.
    • Определите средние значения x и y. Excel очень быстро вычисляет для вас средние значения. В первой пустой ячейке под каждым столбцом данных введите формулу = СРЕДНЕЕ (A2: A ___). Заполните пустое пространство номером ячейки, соответствующей вашей последней точке данных.
      • Например, если у вас 100 точек данных, ячейки с A2 по A101 заполнены, поэтому в ячейке вы вводите = СРЕДНЕЕ (A2: A101).
      • Для данных y введите формулу = СРЕДНЕЕ (B2: B101).
      • Помните, что формула в Excel начинается со знака «=».
    • Введите формулу для столбца (x (i) -x (avg)). В ячейке C2 введите формулу для вычисления первого вычитания. Эта формула принимает следующий вид: = A2 -___. Заполните пустое пространство адресом ячейки, содержащим среднее значение x данных.
      • Например, из 100 точек данных среднее значение будет в ячейке A103, поэтому ваша формула будет иметь следующий вид: = A2-A103.
    • Повторите формулу для точек данных (y (i) -y (avg)). По тому же примеру он попадает в ячейку D2. Формула принимает следующий вид: = B2-B103.
    • Введите формулу для столбца «Продукт». В пятом столбце введите в ячейку E2 формулу для вычисления произведения двух предыдущих ячеек. Тогда это становится: = C2 * D2.
    • Скопируйте формулы, чтобы заполнить таблицу. До сих пор вы запрограммировали только первые несколько точек данных в строке 2. С помощью мыши отметьте ячейки C2, D2 и E2. Наведите курсор на маленькую рамку в правом нижнем углу, пока не появится знак плюса. Щелкните и удерживайте кнопку мыши и перетащите мышь вниз, чтобы расширить выделение и заполнить всю таблицу данных. Этот шаг автоматически скопирует три формулы из ячеек C2, D2 и E2 во всю таблицу. Таблица должна автоматически заполняться всеми расчетами.
    • Запрограммируйте сумму последнего столбца. Вам нужна сумма позиций в столбце «Товар». В пустой ячейке непосредственно под последней точкой данных в этом столбце введите формулу: = СУММ (E2: E ___). Заполните пустое пространство адресом ячейки последней точки данных.
      • В примере со 100 точками данных эта формула переходит в ячейку E103. Введите: = СУММ (E2: E102).
    • Определите ковариацию. Вы также можете попросить Excel выполнить окончательный расчет за вас. Последнее вычисление в ячейке E103 в нашем примере представляет числитель формулы ковариации. Сразу под этой ячейкой введите формулу: = E103 / ___. Заполните пустое пространство количеством имеющихся у вас точек данных. В нашем примере это 100. Результат - ковариация ваших данных.

Метод 3 из 4. Использование онлайн-калькуляторов ковариации

  1. Найдите в Интернете калькуляторы ковариации. У различных школ, компаний или других источников есть веб-сайты, которые очень легко вычисляют значения ковариации. Используйте поисковый запрос «калькулятор ковариации» в поисковой системе.
  2. Введите свои данные. Внимательно прочтите инструкции на веб-сайте, чтобы убедиться, что вы правильно ввели информацию. Важно, чтобы ваши пары данных были в порядке, иначе сгенерированный результат будет неправильной ковариацией. На веб-сайтах используются разные стили ввода данных.
    • Например, на веб-сайте http://ncalculators.com/statistics/covariance-calculator.htm есть горизонтальное поле для ввода значений x и второе горизонтальное поле для ввода значений y. Вы должны ввести свои данные через запятую. Таким образом, набор данных x, рассчитанный ранее в этой статье, следует ввести как 1,3,2,5,8,7,12,2,4. Данные y как 8,6,9,4,3,3,2,7,7.
    • На другом сайте https://www.thecalculator.co/math/Covariance-Calculator-705.html вам будет предложено ввести данные x в первое поле. Данные вводятся вертикально, по одному элементу в строке. Поэтому запись на этом сайте выглядит так:
    • 1
    • 3
    • 2
    • 5
    • 8
    • 7
    • 12
    • 2
    • 4
  3. Подсчитайте свои результаты. Привлекательность этих онлайн-расчетов заключается в том, что после ввода данных вам обычно достаточно нажать кнопку «Рассчитать», и результаты появятся автоматически. Большинство сайтов предоставят вам промежуточные вычисления x (avg), y (avg) и n.

Метод 4 из 4: Интерпретация результатов ковариации

  1. Ищите положительные или отрицательные отношения. Ковариация - это единое статистическое число, которое указывает связь между одним набором данных и другим. В примере, упомянутом во введении, измеряются рост и вес. Можно ожидать, что по мере роста людей их вес также будет увеличиваться, что приведет к положительному мнению о ковариации. Другой пример: предположим, что собраны данные, которые показывают количество часов, в течение которых кто-то занимается гольфом, и набранные им очки. В этом случае вы ожидаете отрицательной ковариации, что означает, что по мере увеличения количества тренировочных часов оценка игры в гольф будет уменьшаться. (В гольфе чем меньше балл, тем лучше).
    • Рассмотрим примерный набор данных, рассчитанный выше. Результирующая ковариация составляет -8,07. Знак минус означает, что по мере увеличения значений x значения y имеют тенденцию к уменьшению. Вы можете убедиться, что это правда, посмотрев на некоторые значения. Например, значения x 1 и 2 соответствуют значениям y 7, 8 и 9. Значения x 8 и 12 связаны со значениями y 3 и 2 соответственно. .
  2. Интерпретируйте величину ковариации. Если число ковариационной оценки велико, либо большое положительное число, либо большое отрицательное число, то вы можете интерпретировать это как два элемента данных, которые сильно связаны, положительно или отрицательно.
    • Ковариация выборки данных -8,07 довольно велика. Обратите внимание, что данные варьируются от 1 до 12. Так что 8 - довольно большое число. Это указывает на довольно сильную взаимосвязь между наборами данных x и y.
  3. Поймите отсутствие отношений. Если ваш результат представляет собой ковариацию, равную или очень близкую к 0, вы можете сделать вывод, что точки данных не связаны. То есть увеличение одного значения может, но не обязательно, приводить к увеличению другого. Эти два термина связаны почти случайным образом.
    • Предположим, вы связали размер обуви с оценками на экзаменах. Поскольку на оценки учащегося на экзамене влияет так много факторов, можно ожидать, что оценка ковариации близка к 0. Это указывает на то, что между двумя значениями почти нет связи.
  4. Просмотрите отношения графически. Чтобы визуально понять ковариацию, вы можете нанести точки данных на график x, y. Когда вы это сделаете, вы должны довольно легко увидеть, что точки, хотя и не находятся точно на прямой линии, имеют тенденцию приближаться к кластеру по диагональной линии от верхнего левого угла до нижнего правого. Это описание отрицательной ковариации. Вы также можете видеть, что значение ковариации равно -8,07. Это довольно много по сравнению с точками данных. Большое число указывает на то, что ковариация довольно сильна, что вы можете сделать вывод из линейной формы точек данных.
    • Чтобы повторить это снова, прочтите статьи о точках рисования в системе координат на wikiHow.

Предупреждения

  • Ковариация имеет ограниченное применение в статистике. Часто это шаг к вычислению коэффициентов корреляции или других концепций. Будьте осторожны с излишне смелыми интерпретациями, основанными на оценке ковариации.