Достигаемый уровень значимости

P-значение и z-оценка выражают статистическую значимость.

Как найти p-value?

Источник.

1. Определите ожидаемые в вашем эксперименте результаты

Обычно когда ученые проводят эксперимент, у них уже есть идея того, какие результаты считать «нормальными» или «типичными». Это может быть основано на экспериментальных результатах прошлых опытов, на достоверных наборах данных, на данных из научной литературы, либо ученый может основываться на каких-либо других источниках. Для вашего эксперимента определите ожидаемые результаты, и выразите их в виде чисел.

Пример: Например, более ранние исследования показали, что в вашей стране красные машины чаще получают штрафы за превышение скорости, чем синие машины. Например, средние результаты показывают предпочтение 2:1 красных машин перед синими. Мы хотим определить, относится ли полиция точно так же предвзято к цвету машин в вашем городе. Для этого мы будем анализировать штрафы, выданные за превышение скорости. Если мы возьмем случайный набор из 150 штрафов за превышение скорости, выданных либо красным, либо синим автомобилям, мы ожидаем, что 100 штрафов будет выписано красным автомобилям, а 50 синим, если полиция в нашем городе так же предвзято относится к цвету машин, как это наблюдается по всей стране.

2. Определите наблюдаемые результаты вашего эксперимента

Теперь, когда вы опредили ожидаемые результаты, необходимо провести эксперимент, и найти действительные (или «наблюдаемые») значения. Вам снова необходимо представить эти результаты в виде чисел. Если мы создаем экспериментальные условия, и наблюдаемые результаты отличаются от ожидаемых, то у нас есть две возможности – либо это произошло случайно, либо это вызвано именно нашим экспериментом. Цель нахождения p-значения как раз и состоит в том, чтобы определить, отличаются ли наблюдаемые результаты от ожидаемых настолько, чтобы можно было не отвергать «нулевую гипотезу» – гипотезу о том, что между экспериментальными переменными и наблюдаемыми результатами нет никакой связи.

Пример: Например, в нашем городе мы случайно выбрали 150 штрафов за превышение скорости, которые были выданы либо красным, либо синим автомобилям. Мы определили, что 90 штрафов были выписаны красным автомобилям, и 60 синим. Это отличается от ожидаемых результатов, которые равны 100 и 50, соответственно. Действительно ли наш эксперимент (в данном случае, изменение источника данных с национального на городской) привел к данному изменению в результатах, или наша городская полиция относится предвзято точно так же, как и в среднем по стране, а мы видим просто случайное отклонение? P-значение поможет нам это определить.

3. Определите число степеней свободы вашего эксперимента

Число степеней свободы — это степень изменяемости вашего эксперимента, которая определяется числом категорий, которые вы исследуете. Уравнение для числа степеней свободы – Число степеней свободы = n-1, где «n» это число категорий или переменных, которые вы анализируете в своем эксперименте.

Пример: В нашем эксперименте две категории результатов: одна категория для красных машин, и одна для синих машин. Поэтому в нашем эксперименте у нас 2-1 = 1 степень свободы. Если бы мы сравнивали красные, синие и зеленые машины, у нас было бы 2 степени свободы, и так далее.

4. Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат

Хи-квадрат (пишется «x2») это числовое значение, которое измеряет разницу между ожидаемыми и наблюдаемыми значениями эксперимента. Уравнение для хи-квадрата следующее x2 = Σ((o-e)2/e), где «o» это наблюдаемое значение, а «e» это ожидаемое значение. Суммируйте результаты данного уравнения для всех возможных результатов (смотри ниже).

Заметьте, что данное уравнение включает оператор суммирования Σ (сигма). Другими словами, вам необходимо подсчитать ((|o-e|-.05)2/e) для каждого возможного результата, и сложить полученные числа, чтобы получить значение критерия хи-квадрат. В нашем примере у нас два возможных результата – либо машина, получившая штраф красная, либо синяя. Поэтому мы должны посчитать ((o-e)2/e) дважды – один раз для красных машин, и один раз для синих машин.

Пример: Давайте подставим наши ожидаемые и наблюдаемые значения в уравнение x2 = Σ((o-e)2/e). Помните, что из-за оператора суммирования нам необходимо посчитать ((o-e)2/e) дважды – один раз для красных автомобилей, и один раз для синих автомобилей. Мы выполним эту работу следующим образом:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Выберите уровень значимости

Теперь, когда мы знаем число степеней свободы нашего эксперимента, и узнали значение критерия хи-квадрат, нам нужно сделать еще одну вещь перед тем, как мы найдем наше p-значение. Нам нужно определить уровень значимости. Говоря простым языком, уровень значимости показывает, насколько мы уверены в наших результатах. Низкое значение для значимости соответствует низкой вероятности того, что экспериментальные результаты получились случайно, и наоборот. Уровни значимости записываются в виде десятичных дробей (таких как 0.01), что соответствует вероятности того, что экспериментальные результаты мы получили случайно (в данном случае вероятность этого 1%).

По соглашению, ученые обычно устанавливают уровень значимости своих экспериментов равным 0.05, или 5%.[2] Это означает, что экспериментальные результаты, которые соответствуют такому критерию значимости, только с вероятностью 5% могли получиться чисто случайно. Другими словами, существует 95% вероятность, что результаты были вызваны тем, как ученый манипулировал экспериментальными переменными, а не случайно. Для большинства экспериментов 95% уверенности наличия связи между двумя переменными достаточно, чтобы считать, что они «действительно» связаны друг с другом.

Пример: для нашего примера с красными и синими машинами, давайте последуем соглашению между учеными, и установим уровень значимости в 0.05.

6. Используйте таблицу с данными распределения хи-квадрат, чтобы найти ваше p-значение

Ученые и статисты используют большие таблицы для вычисления p-значения своих экспериментов. Данные таблицы обычно имеют вертикальную ось слева, соответствующую числу степеней свободы, и горизонтальную ось сверху, соответствующую p-значению. Используйте данные таблицы, чтобы сначала найти число ваших степеней свободы, затем посмотрите на ваш ряд слева направо, пока не найдете первое значение, большее вашего значения хи-квадрат. Посмотрите на соответствующее p-значение вверху вашего столбца. Ваше p-значение находится между этим числом и следующим за ним (тем, которое находится левее вашего).

Таблицы с распределением хи-квадрат можно получить из множества источников (вот по этой ссылке можно найти одну из них).

Пример: Наше значение критерия хи-квадрат было равно 3. Так как мы знаем, что в нашем эксперименте всего 1 степень свободы, выберем самую первую строку. Идем слева направо по данной строке, пока не встретим значение, большее 3, нашего значения критерия хи-квадрат. Первое, которое мы находим это 3.84. Смотрим вверх нашего столбца, и видим, что соответствующее p-значение равно 0.05. Это означает, что наше p-значение между 0.05 и 0.1 (следующее p-значение в таблице по возрастанию).

7. Решите, отклонить или оставить вашу нулевую гипотезу

Так как вы определили приблизительное p-значение для вашего эксперимента, вам необходимо решить, отклонять ли нулевую гипотезу вашего эксперимента или нет (напоминаем, это гипотеза о том, что экспериментальные переменные, которыми вы манипулировали не повлияли на наблюдаемые вами результаты). Если ваше p-значение меньше, чем ваш уровень значимости – поздравляем, вы доказали, что очень вероятна связь между переменными, которыми вы манипулировали и результатами, которые вы наблюдали. Если ваше p-значение выше, чем ваш уровень значимости, вы не можете с уверенностью сказать, были ли наблюдаемые вами результаты результатом чистой случайности или манипуляцией вашими переменными.

Пример: Наше p-значение находится между 0,05 и 0,1. Это явно не меньше, чем 0,05, поэтому, к сожалению, мы не можем отклонить нашу нулевую гипотезу. Это означает, что мы не достигли минимум 95% вероятности того, чтобы сказать, что полиция в нашем городе выдает штрафы красным и синим автомобилям с такой вероятностью, которая достаточно сильно отличается от средней по стране.

Другими словами, существует 5-10% шанс, что наблюдаемые нами результаты – это не последствия смены места (анализа города, а не всей страны), а просто случайность. Так как мы потребовали точности меньше чем 5%, мы не можем сказать что мы уверены в том, что полиция нашего города менее предвзято относится к красным автомобилям – существует небольшая (но статистически значимая) вероятность, что это не так.

Критическое значение p-value?

Связь между p-значением, критическим значением и статистикой теста. Как мы знаем, критическое значение точка, за которой мы отвергаем нулевую гипотезу. С другой стороны, P-значение определяется как вероятность справа от соответствующей статистики (Z, T или chi).

P-значение в Excel

  • P-значения в Excel можно назвать значениями вероятности, они используются для понимания статической значимости результатов.
  • Значение P используется для проверки правильности нулевой гипотезы. Если нулевая гипотеза считается неправдоподобной согласно P-значению, то это приводит нас к мысли, что альтернативная гипотеза может быть верной. По сути, это позволяет нам выяснить, были ли предоставленные результаты случайными или они демонстрируют, что мы тестируем две несвязанные вещи. Таким образом, P-Value – это следователь, а не судья.
  • P-значение – это число от 0 до 1, но о них проще думать в процентах (т. Е. Для Pvalue 0, 05 – 5%. Меньшее Pvalue приводит к отклонению нулевой гипотезы).
  • Поиск P-значения для корреляции в Excel – это относительно простой процесс, но для этой задачи не существует ни одной функции, мы также увидим пример для этой же задачи.
  • Формула для вычисления P-значения: TDIST (x, deg_freedom, tails)

excel-p-value-2.png.webp

Нулевая гипотеза:

  • Когда мы сравниваем две вещи друг с другом, то нулевая гипотеза – это предположение, что между двумя вещами нет никакой связи.
  • Прежде чем сравнивать две вещи друг с другом, мы должны доказать, что существует какая-то связь между этими двумя.
  • Когда значение P отвергает нулевую гипотезу, мы можем сказать, что оно имеет хорошие шансы на то, что обе вещи, которые мы сравниваем, имеют некоторую связь друг с другом.

Как рассчитать P-значение в Excel?

Давайте разберемся, как рассчитать P-Value в Excel, используя несколько примеров.

Вы можете скачать этот шаблон Excel P-Value здесь – Шаблон Excel P-Value

P-значение в Excel – пример № 1

В этом примере мы рассчитаем P-значение в Excel для заданных данных.

  • Что касается скриншота, мы можем видеть ниже, мы собрали данные некоторых игроков в крикет против прогонов, которые они сделали в определенной серии.

excel-p-value-3.png.webp

  • Теперь, для этого нам нужен еще один хвост, мы должны получить ожидаемые пробеги, которые должен был забить каждый игрок с битой.
  • Для столбца ожидаемых пробегов мы найдем средние пробеги для каждого игрока, разделив нашу сумму подсчетов на сумму пробегов следующим образом.

excel-p-value-4.png.webp

  • Здесь мы нашли ожидаемое значение, разделив нашу сумму отсчетов на сумму прогонов. В основном средний и в нашем случае это 63, 57 .
  • Как видно из таблицы, мы добавили столбец для ожидаемых прогонов, перетащив формулу, использованную в ячейке C3.

excel-p-value.gif

Теперь, чтобы найти P-значение для этого конкретного выражения, формулой для этого является TDIST (x, deg_freedom, tails).

Так вот,

  • х = диапазон наших данных, которые запускаются
  • deg_freedom = диапазон данных наших ожидаемых значений.
  • tails = 2, так как мы хотим получить ответ для двух хвостов.

excel-p-value-5.png.webp

  • На изображении выше мы видим, что полученные результаты составляют почти 0.
  • Таким образом, для этого примера мы можем сказать, что у нас есть веские доказательства в пользу нулевой гипотезы.

P-значение в Excel – пример № 2

  • Здесь для давайте предположим некоторые значения, чтобы определить поддержку против квалификации доказательств.
  • Для нашей формулы = TDIST (x, deg_freedom, tails).
  • Здесь, если мы возьмем x = t (тестовая статистика), deg_freedom = n, tail = 1 или 2.

excel-p-value-6.png.webp

  • Здесь, как мы можем видеть результаты, если мы видим в процентах, это 27, 2%.

Точно так же вы можете найти P-значения для этого метода, когда предоставляются значения x, n и tails.

P-значение в Excel – пример № 3

Здесь мы увидим, как рассчитать P-значение в Excel для корреляции.

  • В то время как в Excel нет формулы, которая дает прямое значение P-значения, связанного с корреляцией.
  • Таким образом, мы должны получить P-значение из корреляции, корреляция – это r для P-значения, как мы уже обсуждали ранее, чтобы найти P-Valuepvalue, которое мы должны найти после получения корреляции для заданных значений.
  • Чтобы найти корреляцию, формула является CORREL (массив1, массив2)

excel-p-value-7.png.webp

  • Из уравнения корреляции мы найдем тестовую статистику r. Мы можем найти т для P-значения.
  • Чтобы вывести t из r, формула t = (r * sqrt (n-2)) / (sqrt (1-r ^ 2)
  • Теперь предположим, что n (№ наблюдения) равно 10 и r = 0, 5

excel-p-value-8.png.webp

  • На изображении выше мы нашли t = 1.6329…
  • Теперь, чтобы оценить значение значимости, связанное с t, просто используйте функцию TDIST.

= t.dist.2t (т, степень_свободы)

excel-p-value-9.png.webp

  • Таким образом, P-значение, которое мы нашли для данной корреляции, составляет 0, 1411.
  • С помощью этого метода мы можем найти P-значение из корреляции, но после нахождения корреляции мы должны найти t и затем после того, как мы сможем найти P-значение.

A / B тестирование:

  • A / B-тестирование – это скорее обычный пример, чем превосходный пример P-Value.
  • Здесь мы рассмотрим пример запуска продукта, организованного телекоммуникационной компанией:
  • Мы собираемся классифицировать данные или привлекать людей с историческими данными и данными наблюдений. Исторические данные в смысле ожидаемых людей согласно прошлым событиям запуска.

Тест: 1 Ожидаемые данные :

Всего посетителей: 5000

Помолвлено: 4500

Слева: 500

Тест: 2 Наблюдаемые данные :

Всего посетителей: 7000

Занято: 6000

Слева: 1000

  • Теперь, чтобы найти х 2, мы должны использовать формулу хи-квадрат, в математическом отношении ее сложение (наблюдаемые данные – ожидаемые) 2 / ожидаемые
  • Для наших наблюдений его х 2 = 1000

excel-p-value-10.png.webp

  • Теперь, если мы проверим наш результат с помощью диаграммы хи-квадрат и просто пробежимся, наш счет хи-квадрат 1000 со степенью свободы 1.
  • В соответствии с приведенной выше таблицей хи-квадрат, и идея в том, что мы будем двигаться слева направо, пока не найдем счет, соответствующий нашим оценкам. Наше приблизительное значение P – это значение P в верхней части таблицы, выровненное по столбцу.
  • Для нашего теста оценка очень высока, чем самое высокое значение в данной таблице 10, 827. Таким образом, мы можем предположить, что значение P для нашего теста составляет не менее 0, 001.
  • Если мы проведем наш счет через GraphPad, мы увидим, что его значение составляет менее 0, 00001.

Что нужно помнить о P-Value в Excel

  • P-Value включает в себя измерение, сравнение, тестирование всего, что составляет исследование.
  • P-значения – это далеко не все исследования, они только помогают вам понять вероятность того, что ваши результаты окажутся случайными и измененными условиями.
  • Это на самом деле не говорит вам о причинах, величине или для определения переменных.

Рекомендуемые статьи

Это было руководство по P-Value в Excel. Здесь мы обсудили, как рассчитать P-Value в Excel вместе с практическими примерами и загружаемым шаблоном Excel. Вы также можете просмотреть наши другие предлагаемые статьи –

  1. Как использовать SUM в Excel?
  2. MS Excel: СРЕДНЯЯ функция
  3. Лучшие примеры функции SUMIF
  4. Руководство к Excel БОЛЬШАЯ функция

Что означает p-значение 1?

Популярные ответы (1)

Когда данные идеально описываются рестриктированной моделью, вероятность получить менее хорошо описанные данные 1. Например, если выборочные средние в двух группах идентичны, p-значения t-критерия равны 1.

Как рассчитывается P-Value?

P-значения обычно находятся с помощью таблиц p-значений или электронных таблиц / статистического программного обеспечения. Эти расчеты основаны на предполагаемом или известном распределении вероятностей конкретной проверяемой статистики. P-значения рассчитываются из отклонения между наблюдаемым значением и выбранным эталонным значением, учитывая распределение вероятностей статистики, с большей разницей между двумя значениями, соответствующими более низкому p-значению.

Математически p-значение рассчитывается с использованием интегрального исчисления из площади под кривой распределения вероятностей для всех статистических значений, которые по крайней мере так же далеки от эталонного значения, как и наблюдаемое значение, относительно общей площади под кривой распределения вероятностей. . Вкратце, чем больше разница между двумя наблюдаемыми значениями, тем меньше вероятность того, что разница вызвана простой случайной случайностью, и это отражается более низким значением p.

Нахождение п-Значение в Excel

Вы можете найти п-значение набора данных в MS Excel с помощью функции T-Test или с помощью инструмента анализа данных. Сначала рассмотрим функцию T-Test. Мы рассмотрим пять студентов колледжа, которые придерживались 30-дневной диеты. Мы сравним их вес до и после диеты.

ПРИМЕЧАНИЕ. Для целей этой статьи мы будем использовать MS Excel 2010. Хотя это и не самая последняя версия, эти действия обычно должны применяться и к более новым версиям.

Функция Т-теста

Выполните следующие шаги для расчета п-значение с функцией T-Test.

  1. Создайте и заполните таблицу. Наш стол выглядит так:
    T Test Стартовый стол
  2. Нажмите на любую ячейку за пределами вашего стола.
  3. Введите: = T.Test (.
  4. После открытой скобки введите первый аргумент. В этом примере это столбец «Перед диетой». Диапазон должен быть B2: B6. Пока что функция выглядит так: T.Test (B2: B6.
  5. Далее мы введем второй аргумент. Столбец «После диеты» и его результаты являются нашим вторым аргументом, и нам нужен диапазон C2: C6. Давайте добавим это к формуле: T.Test (B2: B6, C2: C6.
  6. Введите запятую после второго аргумента, и параметры одностороннего и двухстороннего распространения автоматически появятся в раскрывающемся меню. Давайте выберем первый — односторонний дистрибутив. Дважды щелкните по нему.
  7. Введите другую запятую.
  8. Дважды щелкните по паре в следующем раскрывающемся меню.
  9. Теперь, когда у вас есть все необходимые элементы, закройте скобку. Формула для этого примера выглядит следующим образом: = T.Test (B2: B6, C2: C6,1,1)
    T Test Окончательная формула
  10. Нажмите Ввод. Ячейка будет отображать п-значение сразу. В нашем случае значение составляет 0,133906 или 13,3906%.

Будучи выше 5%, это п-value не дает убедительных доказательств против нулевой гипотезы. В нашем примере, исследование не доказало, что диета помогла испытуемым потерять значительное количество веса. Это не обязательно означает, что нулевая гипотеза верна, только то, что она еще не опровергнута.

Маршрут анализа данных

Инструмент анализа данных позволяет делать много интересных вещей, в том числе п-значение расчетов. Чтобы упростить ситуацию, мы будем использовать ту же таблицу, что и в предыдущем методе.

Вот как это делается.

  1. Поскольку у нас уже есть разница в весе в столбце D, мы пропустим вычисление разницы. Для будущих таблиц используйте эту формулу: = «Ячейка 1» — «Ячейка 2».
  2. Далее нажмите на вкладку «Данные» в главном меню.
  3. Выберите инструмент анализа данных.
  4. Прокрутите список вниз и выберите опцию t-Test: Парные два образца для средств.
  5. Нажмите ОК.
  6. Появится всплывающее окно. Это выглядит так:
    Окно T Test Test для анализа данных
  7. Введите первый диапазон / аргумент. В нашем примере это B2: B6.
  8. Введите второй диапазон / аргумент. В данном случае это C2: C6.
  9. Оставьте значение по умолчанию в текстовом поле Альфа (это 0,05).
  10. Нажмите на переключатель «Выходной диапазон» и выберите, где вы хотите получить результат. Если это ячейка A8, введите: $ A $ 8.
  11. Нажмите ОК.
  12. Excel рассчитает п-значение и ряд других параметров. Финальная таблица может выглядеть так:
    Финальная таблица анализа данных

Как видите, один хвост п-значение такое же, как и в первом случае — 0,133905569. Поскольку он выше 0,05, для этой таблицы применима нулевая гипотеза, и доказательства против нее слабы.

Советы

  • Научный калькулятор позволяет облегчить вычисления. Вы также можете использовать калькуляторы онлайн.
  • Вы можете подсчитать p-значение с использованием некоторых компьютерных программ, включая как часто используемые программы электронных таблиц, так и более специализированное программное обеспечение.

Что такое формула Т-балла?

Формула для оценки t: среднее значение выборки минус среднее значение генеральной совокупности, стандартное отклонение по всей выборке, деленное на квадратный корень из числа наблюдений. Среднее значение выборки, стандартное отклонение выборки и количество наблюдений доступны в данных из вашей выборки.

Дополнительные источники

  • Ebdon, David. Statistics in Geography. Blackwell, 1985.
  • Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.
  • Goodchild, Michael F. Spatial Autocorrelation. Catmog 47, Geo Books, 1986
  • Caldas de Castro, Marcia, and Burton H. Singer. “Controlling the False Discovery Rate: A New Application to Account for Multiple and Dependent Test in Local Statistics of Spatial Association.” Geographical Analysis 38, pp 180-208, 2006.

Об этой статье

Эту страницу просматривали 94 218 раз.

Ошибка типа I

Ошибка типа I – ложное отклонение нулевой гипотезы. Вероятность возникновения ошибки типа I или отклонения нулевой гипотезы, когда она истинна, эквивалентна критическому значению. Наоборот, вероятность принятия нулевой гипотезы, когда она истинна, эквивалентна 1 минус критическое значение.

Где скачать Office 2007 или Office 2010 после того, как вы уже приобрели его

Где скачать Office 2007 или Office 2010 после того, как вы уже приобрели его

Как манекен, я купил Office 2007, прямо перед выходом Office 2010. И, как манекен, я провожу свое свободное время, переделывая свой компьютер, чтобы он

Связанные разделы

  • Кластеризация в высокими/низкими значениями
  • Пространственная автокорреляция (Глобальный индекс Морана I)
  • Анализ кластеров и выбросов (Anselin Локальный индекс Морана I)
  • Анализ горячих точек (Getis-Ord Gi*)
  • Метод наименьших квадратов (МНК)
  • Оптимизированный анализ горячих точек
  • Анализ возникновения горячих точек

Какое значение T для доверительного интервала 95?

Размер выборки n = 10, степени свободы (df) = n-1 = 9. Значение t для 95% достоверности при df = 9 равно т = 2.262.

Рейтинг
( 1 оценка, среднее 5 из 5 )
Загрузка ...