Способы вычисления дисперсии

Автор: Robert Simon
Дата создания: 21 Июнь 2021
Дата обновления: 1 Июль 2024
Anonim
Элементы статистики. Дисперсия. Стандартное отклонение
Видео: Элементы статистики. Дисперсия. Стандартное отклонение

Содержание

Дисперсия измеряет дисперсию набора данных. Это очень полезно при построении статистических моделей: низкая дисперсия может указывать на то, что вы описываете случайную ошибку или шум, а не основную связь в данных. В этой статье wikiHow научит вас вычислять дисперсию.

Шаги

Метод 1 из 2: вычислить дисперсию выборки

  1. Напишите свой образец набора данных. В большинстве случаев у статистиков есть информация только о выборке или подгруппе населения, которое они изучают. Например, вместо общего анализа «стоимости всех автомобилей в Германии» статистик может найти стоимость случайной выборки из нескольких тысяч автомобилей. Этот статистик может использовать эту выборку, чтобы получить точную оценку стоимости автомобиля в Германии. Однако более вероятно, что это не будет точно совпадать с реальными цифрами.
    • Например: При анализе количества кексов, проданных в день в кофейне, вы взяли случайную шестидневную выборку и получили следующие результаты: 38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9. Это образец, а не совокупность, потому что у вас нет данных за каждый день открытия магазина.
    • Если каждый Точки данных в мастере, перейдите к способу ниже.

  2. Запишите примерную формулу дисперсии. Дисперсия набора данных указывает на разброс точек данных. Чем ближе дисперсия к нулю, тем точнее сгруппированы точки данных. При работе с образцами наборов данных используйте следующую формулу для расчета дисперсии:
    • = /(п - 1)
    • это дисперсия. Дисперсия всегда рассчитывается в квадрате.
    • представляет значение в вашем наборе данных.
    • ∑, означающее «сумма», говорит вам вычислить следующие параметры для каждого значения, а затем сложить их вместе.
    • x̅ - среднее значение выборки.
    • n - количество точек данных.

  3. Рассчитайте среднее значение выборки. Символ x̅ или "x-горизонтальный" используется для обозначения среднего значения выборки. Вычисляйте как любое среднее значение: сложите все точки данных и разделите их на количество точек.
    • Например: Сначала сложите свои точки данных: 17 + 15 + 23 + 7 + 9 + 13 = 84
      Затем разделите результат на количество точек данных, в данном случае шесть: 84 ÷ 6 = 14.
      Среднее значение выборки = x̅ = 14.
    • Вы можете рассматривать среднее значение как «центральную точку» данных. Если данные сосредоточены вокруг среднего, дисперсия низкая. Если они разбросаны далеко от среднего, дисперсия велика.

  4. Вычтите среднее значение из каждой точки данных. Пришло время вычислить - x̅, где находится каждая точка в вашем наборе данных. Каждый результат будет указывать отклонение от среднего значения каждой соответствующей точки, или, проще говоря, расстояние от нее до среднего.
    • Например:
      - х̅ = 17 - 14 = 3
      - х̅ = 15 - 14 = 1
      - x̅ = 23 - 14 = 9
      - x̅ = 7 - 14 = -7
      - x̅ = 9 - 14 = -5
      - х̅ = 13 - 14 = -1
    • Проверить свои расчеты очень легко, потому что сумма результатов должна равняться нулю. Это потому, что, по определению среднего, отрицательные результаты (расстояние от среднего до малых чисел положительные результаты (расстояние от среднего до большего числа) полностью исключаются.
  5. Возведите все результаты в квадрат. Как отмечалось выше, текущий список отклонений (- x̅) имеет сумму, равную нулю. Это означает, что «среднее отклонение» всегда будет равно нулю, и ничего нельзя сказать о разбросе данных. Чтобы решить эту проблему, мы находим квадрат каждого отклонения. Благодаря этому все числа являются положительными, отрицательные значения и положительные значения больше не отменяют друг друга и дают нулевую сумму.
    • Например:
      (- Икс)
      - Икс)
      9 = 81
      (-7) = 49
      (-5) = 25
      (-1) = 1
    • Теперь у вас есть (- x̅) для каждой точки данных в выборке.
  6. Найдите сумму квадратов значений. Пришло время вычислить весь числитель формулы: ∑. Большой цикл требует, чтобы вы добавляли следующее значение элемента для каждого значения. Вы рассчитали (- x̅) для каждого значения в выборке, поэтому все, что вам нужно сделать, это просто сложить результаты вместе.
    • Например: 9 + 1 + 81 + 49 + 25 + 1 = 166.
  7. Разделите на n - 1, где n - количество точек данных. Давным-давно при расчете дисперсии выборки статистики делили только на n. Это деление даст вам среднее квадратичное отклонение, которое точно соответствует дисперсии этой выборки. Однако имейте в виду, что выборка - это только оценка большей совокупности. Если вы возьмете другую случайную выборку и произведете такой же расчет, вы получите другой результат. Оказывается, деление на n -1 вместо n дает вам лучшую оценку дисперсии более крупной совокупности, которая вас действительно волнует. Эта поправка настолько распространена, что теперь является общепринятым определением выборочной дисперсии.
    • Например: В выборке шесть точек данных, поэтому n = 6.
      Вариант выборки = 33,2
  8. Понять дисперсию и стандартное отклонение. Обратите внимание: поскольку в формуле указаны степени, дисперсия измеряется в квадрате единиц исходных данных. Это сбивает с толку. Вместо этого часто бывает полезно стандартное отклонение. Но нет смысла тратить усилия, поскольку стандартное отклонение определяется квадратным корнем из дисперсии. Вот почему дисперсия выборки записывается в терминах, а стандартное отклонение выборки -.
    • Например, стандартное отклонение приведенного выше образца = s = √33,2 = 5,76.
    рекламное объявление

Метод 2 из 2: вычислить дисперсию генеральной совокупности

  1. Начиная с набора основных данных. Термин «популяция» используется для обозначения всех соответствующих наблюдений. Например, если вы изучаете возраст жителей Ханоя, ваше общее население будет включать возраст всех людей, живущих в Ханое. Обычно вы создаете электронную таблицу для такого большого набора данных, но вот небольшой пример набора данных:
    • Например: В помещении аквариума ровно шесть аквариумов. В этих шести резервуарах содержится следующее количество рыб:





  2. Запишите формулу общей дисперсии. Поскольку совокупность содержит все необходимые данные, эта формула дает нам точную дисперсию совокупности. Чтобы отличить его от дисперсии выборки (которая является только оценкой), статистики используют другие переменные:
    • σ = /п
    • σ = выборочная дисперсия. Это обычная колбаса квадратной формы. Дисперсия измеряется в квадратах.
    • представляет элемент в вашем наборе данных.
    • Элемент в ∑ вычисляется для каждого значения, а затем складывается.
    • μ - общее среднее значение.
    • n - количество точек данных в генеральной совокупности.
  3. Найдите среднее значение населения. При анализе популяции символ μ («мю») представляет собой среднее арифметическое. Чтобы найти среднее значение, сложите все точки данных, а затем разделите их на количество точек.
    • Вы можете думать о значении как о «среднем», но будьте осторожны, потому что это слово имеет множество математических определений.
    • Например: среднее значение = μ = = 10,5
  4. Вычтите среднее значение из каждой точки данных. Точки данных, близкие к среднему, имеют разницу ближе к нулю. Повторите задачу вычитания для всех точек данных, и вы, вероятно, начнете чувствовать разброс данных.
    • Например:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. Квадрат каждый знак. На этом этапе некоторые результаты, полученные на предыдущем шаге, будут отрицательными, а некоторые - положительными.Если вы визуализируете данные на изоморфной линии, эти два элемента представляют числа слева и справа от среднего. Это было бы бесполезно при вычислении дисперсии, поскольку эти две группы уравновешивали бы друг друга. Вместо этого возьмите их все в квадрат, чтобы все они были положительными.
    • Например:
      (- μ) для каждого значения я работает от 1 до 6:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2,25
      (4,5) = 20,25
      (7,5) = 56,25
  6. Найдите среднее значение ваших результатов. Теперь у вас есть значение для каждой точки данных, связанное (не напрямую) с тем, насколько далеко эта точка данных находится от среднего значения. Среднее значение, сложив их вместе и разделив на количество имеющихся у вас значений.
    • Например:
      Общая дисперсия = 24,25
  7. Контактный рецепт. Если вы не уверены, насколько это соответствует формуле, изложенной в начале метода, запишите всю проблему от руки и не сокращайте:
    • После нахождения разницы от среднего и возведения в квадрат у вас есть (- μ), (- μ) и так далее до (- μ), где это последняя точка данных. в наборе данных.
    • Чтобы найти среднее значение этих значений, сложите их и разделите на n: ((- μ) + (- μ) + ... + (- μ)) / n
    • Переписав числитель с сигмоидной записью, вы получите /п, дисперсия формулы.
    рекламное объявление

Совет

  • Поскольку дисперсию трудно интерпретировать, это значение часто вычисляется как отправная точка для определения стандартного отклонения.
  • Использование «n-1» вместо «n» в знаменателе - это метод, называемый коррекцией Бесселя. Выборка является только оценкой всей совокупности, и среднее значение выборки имеет определенную систематическую ошибку, чтобы соответствовать этой оценке. Эта поправка устраняет указанное выше смещение. Это касается того факта, что после того, как n - 1 точка данных была пронумерована, последняя точка п была константой, потому что только определенные значения использовались для вычисления среднего значения выборки (x̅) в формуле дисперсии.