Проверка гипотезы независимости: критерий хи-квадрат Пирсона

В одном из предыдущих постов мы обсудили, пожалуй, центральное понятие в анализе данных и проверке гипотез — p-уровень значимости. Если мы не применяем байесовский подход, то именно значение p-value…

8.5.   : –

$({mathbf X},{mathbf Y})=bigl((X_1,Y_1),ldots,(X_n,Y_n)bigr)$ $X$ $Y$ $n$ . $H_1={X textrm{.

$k$ $Delta_1, ldots, Delta_k$ $X$ $m$ $nabla_1, ldots, nabla_m$ $Y$.

:

$ nu_{i,j}={textrm{

$ nu_{cdot,j}={textrm{ $ nu_{i,cdot}={textrm{

${mathbf Y}$

${mathbf X}$

$nabla_1$
 
$nabla_2$
 
$ldots$
 
$nabla_m$
 
$sumlimits_{j=1}^m$
 
$Delta_1$ $nu_{11}$ $nu_{12}$ $ldots$ $nu_{1m}$ $nu_{1cdot}$
$vdots$     $ldots$   $vdots$
$Delta_k$ $nu_{k1}$ $nu_{k2}$ $ldots$ $nu_{km}$ $nu_{kcdot}$
$sum_{i=1}^k$ $nu_{cdot 1}$ $nu_{cdot 2}$ $ldots$ $nu_{cdot m}$ $n$

$H_1$ , $(X,Y)$ $Delta_itimesnabla_j$ : $i$ $j$

begin{displaymath} p_{i,j}={mathsf P},bigl((X,Y)inDelta_itimesnabla_jbi...  ...igr)cdot{mathsf P},bigl(Yinnabla_jbigr)=p_i^xcdot p_j^yend{displaymath}.

( $H_1'$) .

begin{displaymath} dfrac{nu_{i,cdot}}{n} buildrel {p} over longrightarrow...  ...frac{nu_{i,j}}{n} buildrel {p} over longrightarrow p_{i,j}.end{displaymath}

$dfrac{nu_{i,j}}{n}$ $dfrac{nu_{i,cdot}}{n},dfrac{nu_{cdot,j}}{n}$ ( $nu_{i,j}$ $dfrac{nu_{i,cdot},nu_{cdot,j}}{n}$) .

begin{equation} rho({mathbf X},{mathbf Y})=nsum_{i=1}^ksum_{j=1}^m dfrac{...  ...u_{i,cdot}nu_{cdot,j})/nbigr)^2} {nu_{i,cdot}nu_{cdot,j}}.end{equation} (26)
10.

$H_1$ , $rho({mathbf X},{mathbf Y})Rightarrow {mathsf H}_{(k-1)(m-1)}$ $ntoinfty$.

$varepsilon$ .

$rho$ 10

, ,  

$H_1'$ $(p_1^x,ldots,p_{k-1}^x, p_1^y,ldots,p_{m-1}^y)$ $l{=}k{+}m{-}2$

.

${nu_{i,cdot}}/{n}$ $p_i^x$     ${nu_{cdot,j}}/{n}$ $p_j^y$

begin{displaymath} % latex2html id marker 9857 rho=sum_{i,j}dfrac{bigl(nu_...  ...j^ybigr)^2}{np_i^xp_j^y} end{displaymath}   (. (24))

(26). $kcdot m$ , 8 $H_1'$ $chi^2$$k{cdot}m{-}1{-}(k{+}m{-}2)=(k{-}1)(m{-}1)$ .

19 20 $kcdot m$ .

N.I.Chernova
9 2002

Определение

Пусть дана случайная величина X .

Гипотеза H_0: с. в. X подчиняется закону распределения F(x).

Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: X^n = left( x_1, cdots x_n right), ; x_i in left[ a, b right], ; forall i=1 dots n. По выборке построим эмпирическое распределение F^*(x) с.в X. Сравнение эмпирического F^*(x) и теоретического распределения F(x) (предполагаемого в гипотезе) производится с помощью специально подобранной функции — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий chi^2):

Гипотеза H_0^*: Хn порождается функцией F^*(x).

Разделим [a,b] на k непересекающихся интервалов (a_i, b_i], ; i=1 dots k;

Пусть n_j – количество наблюдений в j-м интервале: n_j = sum_{i=1}^n left[ a_j <x_i leq b_j right];

p_j = F(b_j)-F(a_j) – вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы H_0^*;

E_j = np_j – ожидаемое число попаданий в j-ый интервал;

Статистика: chi^2 = sum_{j=1}^k frac{ left( n_j-E_j right)^2}{E_j} sim chi_{k-1}^2 – Распределение хи-квадрат с k-1 степенью свободы.

Основы описательной статистики для аспирантов по науке о данных

Прикладная статистика фундаментальная для аспирантов Data Science

towardsdatascience.com

Первым делом мы визуализируем данные с использованием различных методов визуализации данных, чтобы на ранних этапах осознать любую асимметрию или несоответствие данных, чтобы идентифицировать любые виды взаимосвязей между переменными набора данных.

Данные имеют так много, чтобы сказать, и мы, инженер данных, даем им право высказывать и описывать себя, используя описательные статистические методы.

Но для того, чтобы делать какие-либо прогнозы или делать какие-то выводы, помимо данных, чтобы найти скрытую вероятность, мы полагаемся на методы логической статистики.

Инференциальная статистика касается выводов, основанных на отношениях, найденных в выборке, на отношениях в популяции. Инференциальная статистика помогает нам, например, решить, достаточно ли сильны различия между группами, которые мы видим в наших данных, чтобы поддержать нашу гипотезу о том, что групповые различия существуют в целом по всему населению.

Сегодня мы рассмотрим один из логически выведенных статистических механизмов для понимания концепции проверки гипотез с использованием популярного теста хи-квадрат.

Помни об этом,

Это логический статистический тест, который работает с категориальными данными.

Тест хи-квадрат представляет собой статистический тест гипотезы, который предполагает (нулевая гипотеза), что наблюдаемые частоты для категориальной переменной соответствуют ожидаемым частотам для категориальной переменной. Тест вычисляет статистику, которая имеет распределение хи-квадрат, названное в честь греческой заглавной буквы Chi (X), произносится как «ки», как в кайте.

Мы пытаемся проверить вероятность тестовых данных (данных выборки), чтобы выяснить, является ли наблюдаемое распределение набора данных статистической случайностью (случайно) или нет.Статистика доброты соответствияв тесте хи-квадрат измеряет, насколько хорошо наблюдаемое распределение данных соответствует распределению, которое ожидается, если переменные являются независимыми.

Качественный

Измеренный в дискретной -номинальной или ранговой – шкале.

Описание

Возвращает распределение хи-квадрат.

Функция распределения хи-квадрат обычно используется для изучения вариации в процентах какой-либо величины между выборками — например, части дня, которую люди проводят у телевизора.

Качество подгонки распределения

Мера соответствия между наблюдаемымраспределением и либо теоретическим распределением выбранным a priori, либо подобранным по результатам наблюдений

Как работает Chi-Square?

Как правило, мы пытаемся установить связь между данной категориальной переменной в этом тесте. Хи-квадрат оценивает, являются ли данные переменные в наборе данных (выборке) независимыми, называемымиТест Независимости.Критерии хи-квадрат используются для проверки гипотез об одной или двух категориальных переменных иуместно, когда данные могут быть обобщены путем подсчета в таблице, Переменные могут иметь несколько категорий.

Квантиль

Число xp, p  [0,1], удовлетворяющеесоотношению Pr(X<xp)  p  Pr(Xxp), называется p-квантилью (или квантилем – мненияграмотеев расходятся).

Процентиль определяетсясоответственно при значении p, выраженном в процентах.

Примечание. Если функция распределения  F(x) равна p во всем интервале между двумяпоследовательными значениями случайной величины, то любое значение в этоминтервале можно рассматривать как p-квантиль. Если же у F(x) нет интервалов постоянства, то p-квантиль xp – это корень уравнения F(x) = p.

Примерами квантилей являются квартили и процентили.  

Квартиль

Квартили – это набор квантилей для p=0.25, 0.5, 0.75. Их оценками (квартилями эмпирического распределения)являются величины, делящие выборку данных на четыре группы, содержащие (повозможности) одинаковые количества наблюдений.

Когда говорят о квартилях, обычноимеют в виду верхний q3 и нижний q1квартили; второй квартиль q2 равен медиане. Нижний квартиль q1 -это значение, ниже которого в упорядоченном множестве данных находится четвертьданных, а верхний квартиль q3 – это значение, выше которого вупорядоченном множестве данных находится четверть значений. Разность q3 – q1, интерквартильная широта, является робастной мерой рассеяния.

Клетка;ячейка

В результате кросс-табуляции появляетсясовокупность подвыборок, каждая из которых задается уникальной комбинациейградаций факторов. Когда кросс-табуляцию представляют в виде (многомерной)матрицы, уникальную комбинацию градаций факторов называют клеткой или ячейкой.

Например, два фактора, пол со значениями мужской и женский и риск, со значениями низкий, средний и высокий, образуютшесть ячеек: мужчины с низким риском, мужчины со  средним риском, мужчины с высоким риском,женщины с низким риском, женщины со средним риском и женщины с высоким риском.        

Сложная гипотеза

Гипотеза H_0^*: Хn порождается функцией F(x,theta),; theta in R^d,;  theta – неизвестный параметр. Найдем приближенное значение параметра hat{theta} с помощью метода максимального правдоподобия, основанного на частотах (фиксируем интервалы left(a_j,b_j right] для j=1 dots k).

n_j = sum_{i=1}^n left[ a_j <x_i leq b_j right] – число попаданий значений элементов выборки в j-ый интервал.

p_j(theta)=F(b_j,theta)-F(a_j,theta),

hat{theta} = arg max_{theta} sum n_j ln p_j(theta)

Теорема Фишера Для проверки сложной гипотезы критерий chi^2 представляется в виде:

chi^2 = sum_{j=1}^k frac{ left( n_j-E_j right)^2}{E_j} sim chi_{k-d-1}^2, где E_j=n p_jleft(hat{theta}right)

Ковариация

Недовычисленный коэффициент корреляции. 

В практической статистике практически не используется. Имеется, правда,ковариационный анализ.

Приведу, все-таки, его определениедля любителей теории. Совместный центральный момент порядков 1 и 1:. Выборочная несмещенная оценка  вычисляется согласно формуле , где n – число наблюдений,  и  – средниеарифметические.

Количественный

Антоним к слову qualitative, которое здесь переведено как качественный (не имеет отношения к каким бы то ни былопотребительским свойствам).

Степень свободы в распределении Чи в квадрате:

Степени свободы в распределении хи-квадрат равны числу суммируемых стандартных нормальных отклонений. Среднее значение распределения хи-квадрат – это его степени свободы. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат единственного стандартного нормального распределения, имеет 1 степень свободы

степени свободы(Д.Ф.илиd) скажу, сколько чисел в вашей сеткена самом деленезависимый. Для сетки хи-квадрат можно сказать, что степенью свободы является количество ячеек, которые необходимо заполнить до этого, учитывая итоги в полях, вы можете заполнить оставшуюся часть сетки, используя формулу.

Степени свободы для сетки хи-квадрат равны числу строк минус один раз, а число столбцов минус один: то есть (R-1) * (C-1).

Помнить!

По мере того как степень свободы (df) увеличивается, распределение хи-квадрат приближается к нормальному распределению

Формула для статистики хи-квадрат, используемая в тесте хи-квадрат:

Индекс «сВот степени свободы. «ОЭто ваша наблюдаемая ценность иЕваше ожидаемое значение Символ суммирования означает, что вам придется выполнять вычисления для каждого отдельного элемента данных в вашем наборе данных.

E = (общее количество строк × общее количество столбцов) / размер выборки

Статистика хи-квадрат может использоваться только для чисел. Они не могут быть использованы для процентов, пропорций, средних или аналогичных статистических значений. Например, если у вас 10 процентов из 200 человек, вам нужно преобразовать это число (20), прежде чем вы сможете запустить тестовую статистику.

Тест хи-квадрат включает в себя вычисление метрики, называемой статистикой хи-квадрат, упомянутой выше, которая следует за распределением хи-квадрат.

Давайте рассмотрим пример, чтобы получить ясность по всем вышеупомянутым темам, связанным с хи-квадрат:

Корреляция

Когда говорят, что две случайныепеременные коррелированны, имеют в виду, как правило, что они друг с другомкак-то связаны.

Стандартной мерой связи переменныхявляется коэффициент корреляции.  Следует, однако, помнить, что он измеряет лишь силулинейной связи и лишь в случае, когда обе переменные числовые.

См. тж. мерасвязи.

Ссылки

  • Weisstein, Eric W. Chi-Squared Test (англ.) на сайте Wolfram MathWorld.
modif.png Эта страница в последний раз была отредактирована 3 октября 2021 в 06:37.

Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.

Шаг 3: Давайте сделаем анализ образца:

Здесь мы проанализируем данные образца для вычисления

  • Степень свободы
  • Ожидаемая частота отсчета переменной образца
  • Рассчитать статическое значение критерия хи-квадрат

Все вышеперечисленные значения помогут нам найтиР-значение,

Степень свободы расчета:Давайте вычислим df = (r – 1) * (c – 1), поэтому в данной таблице r (строки) = 2 и c (столбец) = 3

df = (2–1) * (3–1) = 1 * 2 = 2;

Расчет ожидаемой частоты:

Пусть Eij, представляет ожидаемые значения двух переменных, не зависящих друг от друга.

Eij = ih (итоговая строка X итоговая сумма в столбце) / итоговая сумма

Давайте вычислим ожидаемое значение для каждой данной строки и значения столбца, используя вышеупомянутую формулу. Позвольте мне снова скопировать изображение таблицы ниже, чтобы помочь вам сделать расчет легко,

Здесь общее значение строки 1 = 400, общее значение для column1 = 450, общий размер выборки = 1000,

Так ,

E1,1 = (400 * 450) / 1000 = 180000/1000 = 180

Аналогично, давайте рассчитаем другие ожидаемые значения, как показано ниже,

E1,2 = (400 * 450) / 1000 = 180000/1000 = 180
E1,3 = (400 * 100) / 1000 = 40000/1000 = 40
E2,1 = (600 * 450) / 1000 = 270000/1000 = 270
E2,2 = (600 * 450) / 1000 = 270000/1000 = 270
E2,3 = (600 * 100) / 1000 = 60000/1000 = 60

Время для вычисления хи-квадратов для каждого вычисленного ожидаемого значения выше по формуле:

Коэффициент сопряженности

Термин относится к анализу таблиц сопряженности.

Является мерой связимежду переменными строк и столбцов. Изменяется между 0 и 1, значениеосновывается на статистике хи-квадрат. На некоторых таблицах не достигает значения 1.

Спасибо, что всегда были там и вдохновляли меня писать больше …

Оригинальная статья

Круговая диаграмма

Круговая диаграмма – это один изспособов визуализации дискретныхданных. Представляет собой круг, разделенныйна  сегменты, каждый из которыхсоответствует определенной категории. Площадь каждого сегмента пропорциональначислу наблюдений в этой категории.

Является аналогом гистограммы.

© 2000-NIV

Рейтинг
( 1 оценка, среднее 5 из 5 )
Загрузка ...