Распределение Стьюдента (t-распределение). Расчет критерия Стьюдента в Excell

Проверка гипотез о среднем значении разности используется для парного сравнения средних значений доходности и других финансовых показателей. Рассмотрим эту концепцию и пример ее использования, – в рамках изучения количественных методов по программе CFA.

Р-значение

При проверке гипотез, помимо t -теста, большое распространение получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value).

Если p-значение меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α, то нулевая гипотеза не отвергается.

В случае двусторонней гипотезы p-значение равно суммарной вероятности, что t -статистика примет значение больше |t 0 | и меньше -|t 0 |.

Подробнее про p -значение см., например, статью про двухвыборочный z-тест .

В MS EXCEL p -значение для двухсторонней гипотезы в случае парного t -теста вычисляется по формуле: =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0 ); n-1;ИСТИНА))

Примечание : Вычисления приведены в файле примера на листе Парный тест .

Для односторонней гипотезы μ 1 -μ 2 >Δ 0 p -значение вычисляется по формуле: =1-СТЬЮДЕНТ.РАСП(t 0 ; n-1;ИСТИНА) В этом случае p-значение равно вероятности, что t -статистика примет значение больше t 0 .

Для односторонней гипотезы μ 1 -μ 2 0 p -значение вычисляется по формуле: = СТЬЮДЕНТ.РАСП(t 0 ; n-1;ИСТИНА) В этом случае p-значение равно вероятности, что t -статистика примет значение меньше t 0 .

В файле примера на листе Парный тест показана эквивалентность проверки гипотезы через доверительный интервал , статистику t 0 ( t -тест) и p -значение .

В MS EXCEL есть функция СТЬЮДЕНТ.TEСT() , которая вычисляет p-значение для 3-х различных двухвыборочных t -тестов (см. следующий раздел статьи) . К сожалению, эта функция может быть использована только для проверки гипотез с Δ 0 =0, то есть для проверки гипотез о равенстве средних μ 1 =μ 2 . Об этом легко догадаться, т.к. среди ее параметров отсутствует параметр Гипотетическая разность средних , т.е. Δ 0 .

Пример (6) сравнения двух портфелей.

Вы выясняете, отличается ли эффективность портфеля акций компаний со всего мира от эффективности портфеля только акций американских компаний.

Для анализа всемирного портфеля, вы решили сосредоточиться на индексе биржевого инвестиционного фонда Vanguard Total World Index Stock ETF.

Фонд ETF (биржевой инвестиционный фонд, от англ. ‘exchange-traded fund’) стремится отслеживать эффективность индекса FTSE Global All Cap Index, который является взвешенным индексом рыночной капитализации, предназначенным для оценки рыночной эффективности акций компаний из развитых и развивающихся рынков.

Для анализа портфеля США, вы решили сосредоточиться на SPDR S&P 500, фонда ETF, который стремится отслеживать эффективность индекса S&P 500.

Вы проанализировали месячные данные по обоим ETF с августа 2013 года по июль 2018 года и подготовили следующую сводную таблицу.

Таблица 8. Месячная общая доходность для фондов Vanguard Total World Index Stock ETF и
SPDR S&P 500 ETF:
с августа 2013 года по июль 2018 года ((n = 60)).

Стратегия

Средняя доходность

Стандартное
отклонение

Мировая

0.79%

2.93%

США

1.06

2.81

Разность

-0.27

1.00 *

* Выборочное стандартное отклонение разности.

Источник данных о доходности: finance.yahoo.com, по состоянию на 18 августа 2018 г.

В Таблице 8 мы имеем (overline d) = -0.27% и (s_d) = 1.00%.

  1. Сформулируйте нулевую и альтернативную гипотезы для двухсторонней проверки того, средняя разность между мировой стратегией и стратегией акций США равна 0.
  2. Определите тестовую статистику для проведения проверки гипотез из части 1.
  3. Определите критическое значение или значения для проверенных гипотез из части 1 на уровне значимости 0.01.
  4. Определите, отвергается или нет нулевая гипотеза на уровне значимости 0.01. (используйте таблицы t-распределения)
  5. Обоснуйте выбор теста парного сравнения.

Решение для части 1:

Приняв (mu_d) в качестве средней разности между стратегиями, мы имеем пару гипотез:

(H_0: mu_d = 0) против (H_a:mu_d neq 0)

Решение для части 2:

Поскольку дисперсия генеральной совокупности неизвестна, тестовой статистикой является t-тест с 60 – 1 = 59 степенями свободы.

Решение для части 3:

В таблице t-распределения, ближайшим значением к df = 59 будет df = 60. Критическим значением, при 60 степенях свободы и уровне значимости 0.005, будет 2.66. Мы отвергаем нуль, если находим, что (t> 2.66) или (t

Решение для части 4:

(t_{59} = {-0.27 over 1.00 big / sqrt{60}} = {-0.27 over 0.129099} = -2.09)

Поскольку (-2.09 > -2.66), мы не можем отвергнуть нулевую гипотезу. Соответственно, мы приходим к выводу, что разница в средней доходности двух стратегий не является статистически значимой.

Решение для части 5:

Несколько американских акций, которые являются частью индекса S&P 500, также включены в ETF Vanguard Total World Index Stock. Профиль мирового фонда ETF показывает, что девять из десяти крупнейших холдингов в ETF являются американскими акциями.

В результате, выборки двух портфелей не являются независимыми. В целом, корреляция доходности фондов Vanguard Total World Index Stock ETF и SPDR S&P 500 ETF должна быть положительной.

Поскольку выборки зависимые, парный тест был обоснованным.

См. далее:

  • CFA – Проверка статистических гипотез о значении дисперсии
  • CFA – Проверка гипотез о равенстве (неравенстве) двух дисперсий
  • CFA – Проверка гипотез о значении коэффициента корреляции
  • CFA – Непараметрические методы проверки гипотез

Задача 1

Проверка гипотезы о согласии выборочныхданных с нормальным законом распределения.Имеется выборка объема nизнепрерывно распределеннойгенеральной совокупности.

Требуется проверить гипотезу, состоящуюв том, что выборочные данные полученыиз нормально распределенной генеральнойсовокупности.

Вариантызаданий взять из лабораторной работы№ 3.

Решениезадачи 1 приведено выше (см. пример4.2) .

Распределение Стьюдента

Общий подход в проверке гипотез описан здесь, поэтому сразу к делу. Предположим для начала, что выборка извлечена из нормальной совокупности случайных величин X с генеральной средней μ и дисперсией σ2. Средняя арифметическая из этой выборки, очевидно, сама является случайной величиной. Если извлечь много таких выборок и посчитать по ним средние, то они также будут иметь нормальное распределение с математическим ожиданием μ и дисперсией

Генеральная дисперсия средней

Тогда случайная величина

Нормированное отклонение выборочное средней

имеет стандартное нормальное распределение со всеми вытекающими отсюда последствиями. Например, с вероятностью 95% ее значение не выйдет за пределы ±1,96.

Однако такой подход будет корректным, если известна генеральная дисперсия. В реальности, как правило, она не известна. Вместо нее берут оценку – несмещенную выборочную дисперсию:

Оценка дисперсии средней

где

Выборочная несмещенная дисперсия

Возникает вопрос: будет ли генеральная средняя c вероятностью 95% находиться в пределах ±1,96sx̅. Другими словами, являются ли распределения случайных величин

Нормированное отклонение выборочное средней

и

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

эквивалентными.

Впервые этот вопрос был поставлен (и решен) одним химиком, который трудился на пивной фабрике Гиннесса в г. Дублин (Ирландия). Химика звали Уильям Сили Госсет и он брал пробы пива для проведения химического анализа. В какой-то момент, видимо, Уильяма стали терзать смутные сомнения на счет распределения средних. Оно получалось немного более размазанным, чем должно быть у нормального распределения.

Собрав математическое обоснование и рассчитав значения функции обнаруженного им распределения, химик из Дублина Уильям Госсет написал заметку, которая была опубликована в мартовском выпуске 1908 года журнала «Биометрика» (главред – Карл Пирсон). Гиннесс строго-настрого запретил выдавать секреты пивоварения, и Госсет подписался псевдонимом Стьюдент.

Несмотря на то что, К. Пирсон уже изобрел распределение Хи-квадрат, все-таки всеобщее представление о нормальности еще доминировало. Никто не собирался думать, что распределение выборочных оценок может быть не нормальным. Поэтому статья У. Госсета осталась практически не замеченной и забытой. И только Рональд Фишер по достоинству оценил открытие Госсета. Фишер использовал новое распределение в своих работах и дал ему название t-распределение Стьюдента. Критерий для проверки гипотез, соответственно, стал t-критерием Стьюдента. Так произошла «революция» в статистике, которая шагнула в эру анализа выборочных данных. Это был краткий экскурс в историю.

Посмотрим, что же мог увидеть У. Госсет. Сгенерируем 20 тысяч нормальных выборок из 6-ти наблюдений со средней (X̅) 50 и среднеквадратичным отклонением (σ) 10. Затем нормируем выборочные средние, используя генеральную дисперсию:

Нормирование средней с использование генеральной дисперсии

Получившиеся 20 тысяч средних сгруппируем в интервалы длинной 0,1 и подсчитаем частоты. Изобразим на диаграмме фактическое (Norm) и теоретическое (ENorm) распределение частот выборочных средних.

Распределение средней арифметической

Точки (наблюдаемые частоты) практически совпадают с линией (теоретическими частотами). Оно и понятно, ведь данные взяты из одной и то же генеральной совокупности, а отличия – это лишь ошибки выборки.

Проведем новый эксперимент. Нормируем средние, используя выборочную дисперсию.

Нормирование средней с использование выборочной дисперсии

Снова подсчитаем частоты и нанесем их на диаграмму в виде точек, оставив для сравнения линию стандартного нормального распределения. Обозначим эмпирическое частоты средних, скажем, через букву t.

Отличие распределения средних от нормального закона

Видно, что распределения на этот раз не очень-то и совпадают. Близки, да, но не одинаковы. Хвосты стали более «тяжелыми».

У Госсета-Стьюдента не было последней версии MS Excel, но именно этот эффект он и заметил. Почему так получается? Объяснение заключается в том, что случайная величина

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

зависит не только от ошибки выборки (числителя), но и от стандартной ошибки средней (знаменателя), которая также является случайной величиной.

Давайте немного разберемся, какое распределение должно быть у такой случайной величины. Вначале придется кое-что вспомнить (или узнать) из математической статистики. Есть такая теорема Фишера, которая гласит, что в выборке из нормального распределения:

1. средняя X̅ и выборочная дисперсия s2 являются независимыми величинами;

2. соотношение выборочной и генеральной дисперсии, умноженное на количество степеней свободы, имеет распределение χ2(хи-квадрат) с таким же количеством степеней свободы, т.е.

Теорема Фишера

где k – количество степеней свободы (на английском degrees of freedom (d.f.))

Вернемся к распределению средней. Разделим числитель и знаменатель выражения

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

на σX̅. Получим

Вывод t-критерия

Числитель – это стандартная нормальная случайная величина (обозначим ξ (кси)). Знаменатель выразим из теоремы Фишера.

Вывод t-критерия 2

Тогда исходное выражение примет вид

t-критерий Стьюдента

Это и есть t-критерий Стьюдента в общем виде (стьюдентово отношение). Вывести функцию его распределения можно уже непосредственно, т.к. распределения обеих случайных величин в данном выражении известны. Оставим это удовольствие математикам.

Функция t-распределения Стьюдента имеет довольно сложную для понимания формулу, поэтому не имеет смысла ее разбирать. Вероятности и квантили t-критерия приведены в специальных таблицах распределения Стьюдента и забиты в функции разных ПО вроде Excel.

Итак, вооружившись новыми знаниями, вы сможете понять официальное определение распределения Стьюдента.
Случайной величиной, подчиняющейся распределению Стьюдента с k степенями свободы, называется отношение независимых случайных величин

t-критерий Стьюдента

где ξ распределена по стандартному нормальному закону, а χ2k подчиняется распределению χ2 c k степенями свободы.

Таким образом, формула критерия Стьюдента для средней арифметической

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

есть частный случай стьюдентова отношения

t-критерий Стьюдента

Из формулы и определения следует, что распределение т-критерия Стьюдента зависит лишь от количества степеней свободы.

Зависимость t-распределения Стьюдента от количества степеней свободы

При k > 30 t-критерий практически не отличается от стандартного нормального распределения.

В отличие от хи-квадрат, t-критерий может быть одно- и двусторонним. Обычно пользуются двусторонним, предполагая, что отклонение может происходить в обе стороны от средней. Но если условие задачи допускает отклонение только в одну сторону, то разумно применять односторонний критерий. От этого немного увеличивается мощность критерия.

Синтаксис

ТТЕСТ(массив1;массив2;хвосты;тип)

Аргументы функции ТТЕСТ описаны ниже.

  • Массив1     Обязательный. Первый набор данных.

  • Массив2     Обязательный. Второй набор данных.

  • Хвосты     Обязательный. Число хвостов распределения. Если значение “хвосты” = 1, функция ТТЕСТ возвращает одностороннее распределение. Если значение “хвосты” = 2, функция ТТЕСТ возвращает двустороннее распределение.

  • Тип     Обязательный. Вид выполняемого t-теста.

Тип

Выполняемый тест

1

Парный

2

Двухвыборочный с равными дисперсиями (гомоскедастический)

3

Двухвыборочный с неравными дисперсиями (гетероскедастический)

Расчет t-критерия Стьюдента

Для того, чтобы выполнить соответствующие расчеты, понадобится функция “СТЬЮДЕНТ.ТЕСТ”, в ранних версиях Excel (2007 и старше) – “ТТЕСТ”, которая есть и в современных редакциях для сохранения совместимости со старыми документам.

Использовать функцию можно по-разному. Давайте разберем каждый вариант отдельно на примере таблицы с двумя рядами-столбцами числовых значений.

Таблица в Экселе с двумя рядами чисел

Метод 1: пользуемся Мастером функций

Этот способ хорош тем, что не нужно запоминать формулу функции (список ее аргументов). Итак, алгоритм действий следующий:

  1. Встаем в любую свободную ячейку, затем щелкаем по значку “Вставить функцию” слева от строки формул.Вставка функции в таблице Эксель
  2. В открывшемся окне Мастера функций выбираем категорию “Полный алфавитный перечень”, в списке ниже находим оператор “СТЬЮДЕНТ.ТЕСТ”, отмечаем его и щелкаем OK.Вставка функции СТЬЮДЕНТ.ТЕСТ в таблице Excel
  3. На экране отобразится окно, в котором заполняем аргументы функции, после чего нажимаем OK:
    • “Массив1” и “Массив2” – указываем диапазоны ячеек, содержащие ряды чисел (в нашем случае это “A2:A7” и “B2:B7”). Мы можем сделать это вручную, введя координаты с клавиатуры, или просто выделяем нужные элементы в самой таблице.
    • “Хвосты” – пишем цифру “1”, если требуется выполнить расчет методом одностороннего распределения, или “2” – для двухстороннего.
    • “Тип” – в этом поле указываем: “1” – если выборка состоит из зависимых величин; “2” – из независимых; “3” – из независимых величин с неравным отклонением.Заполнение аргументов функции СТЬЮДЕНТ.ТЕСТ в Excel
  4. В результате в нашей ячейке с функцией появится рассчитанное значение критерия.Результат расчета критерия Стьюдента в Excel

Метод 2: вставляем функцию через “Формулы”

  1. Переключаемся во вкладку “Формулы”, где также представлена кнопка “Вставить функцию”, которая нам и нужна.Вставка функции в ячейку таблицы Excel
  2. В результате откроется Мастер функций, дальнейшие действия в котором аналогичны описанным выше.

Через вкладку “Формулы” функцию “СТЬЮДЕНТ.ТЕСТ” можно запустить по-другому:

  1. В группе инструментов “Библиотека функций” жмем по значку “Другие функции”, после чего раскроется список, в котором выбираем раздел “Статистические”. Пролистав предложенный перечень мы сможем найти нужный нам оператор.Вставка функции СТЬЮДЕНТ.ТЕСТ в Excel через вкладку Формулы
  2. На экране отобразится окно для заполнения аргументов, с которым мы уже познакомились ранее.

Метод 3: ручной ввод формулы

Опытные пользователи могут обходиться без Мастера функций и в требуемой ячейке сразу вводить формулу со ссылками на нужные диапазоны данных и прочими параметрами. Синтаксис функции в общем виде выглядит так:

= СТЬЮДЕНТ.ТЕСТ(Массив1;Массив2;Хвосты;Тип)

Формула функции СТЬЮДЕНТ.ТЕСТ в Excel

Каждый из аргументов мы разобрали в первом разделе публикации. Все, что остается сделать после набора формулы – нажать Enter для выполнения расчета.

Определение термина

Но, для начала давайте все-таки выясним, что представляет собой критерий Стьюдента в общем. Данный показатель применяется для проверки равенства средних значений двух выборок. То есть, он определяет достоверность различий между двумя группами данных. При этом, для определения этого критерия используется целый набор методов. Показатель можно рассчитывать с учетом одностороннего или двухстороннего распределения.

Install the Data Analysis ToolPak in Excel

The Data Analysis ToolPak must be installed on your copy of Excel to perform t-tests. To determine whether you have this ToolPak installed, click Data in Excel’s menu across the top and look for Data Analysis in the Analyze section. If you don’t see Data Analysis, you need to install it. Don’t worry. It’s free!

To install Excel’s Analysis Tookpak, click the File tab on the top-left and then click Options on the bottom-left. Then, click Add-Ins. On the Manage drop-down list, choose Excel Add-ins, and click Go. On the popup that appears, check Analysis ToolPak and click OK.

After you enable it, click Data Analysis in the Data menu to display the analyses you can perform. Among other options, the popup presents three types of t-test, which we’ll cover next.

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Данные 1

Данные 2

3

6

4

19

5

3

8

2

9

14

1

4

2

5

4

17

5

1

Формула

Описание (результат)

Результат

=ТТЕСТ(A2:A10;B2:B10;2;1)

Вероятность, соответствующая парному критерию Стьюдента, с двусторонним распределением. Используются значения в диапазонах А2:А10 и В2:В10

0,19602

Нужна дополнительная помощь?

Дата и время

За любой датой в Excel скрывается целое число. Датой его делает формат.

Аналогично со временем: одна единица — это день, а часть единицы (число от 0 до 1) — время, то есть часть дня.

Это не значит, что так имеет смысл вводить даты и время в ячейки, вводите их в любом из стандартных форматов — Excel сразу отформатирует их как даты:

ДД.ММ.ГГГГ

ДД/ММ/ГГГГ

ГГГГ-ММ-ДД

С датами можно производить операции вычитания и сложения.

Вычесть из одной даты другую, чтобы получить разницу в днях (результатом вычитания будет число — количество дней.

Прибавить к дате число — и получить дату, которая наступит через соответствующее количество дней.

Критические точки распределения Стьюдента

Число степеней свободы
k
Уровень значимости α (двусторонняя критическая область)
0.10 0.05 0.02 0.01 0.002 0.001
1 6.31 12.7 31.82 63.7 318.3 637.0
2 2.92 4.30 6.97 9.92 22.33 31.6
3 2.35 3.18 4.54 5.84 10.22 12.9
4 2.13 2.78 3.75 4.60 7.17 8.61
5 2.01 2.57 3.37 4.03 5.89 6.86
6 1.94 2.45 3.14 3.71 5.21 5.96
7 1.89 2.36 3.00 3.50 4.79 5.40
8 1.86 2.31 2.90 3.36 4.50 5.04
9 1.83 2.26 2.82 3.25 4.30 4.78
10 1.81 2.23 2.76 3.17 4.14 4.59
11 1.80 2.20 2.72 3.11 4.03 4.44
12 1.78 2.18 2.68 3.05 3.93 4.32
13 1.77 2.16 2.65 3.01 3.85 4.22
14 1.76 2.14 2.62 2.98 3.79 4.14
15 1.75 2.13 2.60 2.95 3.73 4.07
16 1.75 2.12 2.58 2.92 3.69 4.01
17 1.74 2.11 2.57 2.90 3.65 3.95
18 1.73 2.10 2.55 2.88 3.61 3.92
19 1.73 2.09 2.54 2.86 3.58 3.88
20 1.73 2.09 2.53 2.85 3.55 3.85
21 1.72 2.08 2.52 2.83 3.53 3.82
22 1.72 2.07 2.51 2.82 3.51 3.79
23 1.71 2.07 2.50 2.81 3.59 3.77
24 1.71 2.06 2.49 2.80 3.47 3.74
25 1.71 2.06 2.49 2.79 3.45 3.72
26 1.71 2.06 2.48 2.78 3.44 3.71
27 1.71 2.05 2.47 2.77 3.42 3.69
28 1.70 2.05 2.46 2.76 3.40 3.66
29 1.70 2.05 2.46 2.76 3.40 3.66
30 1.70 2.04 2.46 2.75 3.39 3.65
40 1.68 2.02 2.42 2.70 3.31 3.55
60 1.67 2.00 2.39 2.66 3.23 3.46
120 1.66 1.98 2.36 2.62 3.17 3.37
1.64 1.96 2.33 2.58 3.09 3.29
0.05 0.025 0.01 0.005 0.001 0.0005
Уровень значимости α (односторонняя критическая область)

Поиск и подстановка значений

Функция ВПР / VLOOKUP

Функция ВПР / VLOOKUP (вертикальный просмотр) нужна, чтобы связать несколько таблиц — «подтянуть» данные из одной в другую по какому-то ключу (например, названию товара или бренда, фамилии сотрудника или клиента, номеру транзакции).

=ВПР (что ищем; таблица с данными, где «что ищем» должно быть в первом столбце; номер столбца таблицы, из которого нужны данные; [интервальный просмотр])

У нее есть два режима работы: интервальный просмотр и точный поиск.

Интервальный просмотр — это поиск интервала, в который попадает число. Если у вас прогрессивная шкала налога или скидок, нужно конвертировать оценку из одной системы в другую и так далее — используется именно этот режим. Для интервального просмотра нужно пропустить последний аргумент ВПР или задать его равным единице (или ИСТИНА).

В большинстве случаев мы связываем таблицы по текстовым ключам — в таком случае нужно обязательно явным образом указывать последний аргумент «интервальный_просмотр» равным нулю (или ЛОЖЬ). Только тогда функция будет корректно работать с текстовыми значениями.

Функции ПОИСКПОЗ / MATCH и ИНДЕКС / INDEX

У ВПР есть существенный недостаток: ключ (искомое значение) обязан быть в первом столбце таблицы с данными. Все, что левее этого столбца, через ВПР «подтянуть» невозможно.

В реальных условиях структура таблиц бывает разной и не всегда возможно изменить порядок столбцов. Поэтому важно уметь работать с любой структурой.

Функция ПОИСКПОЗ / MATCH определяет порядковый номер значения в диапазоне. Ее синтаксис:

=ПОИСКПОЗ (что ищем; где ищем ; 0)

На выходе — число (номер строки или столбца в рамках диапазона, в котором находится искомое значение).

ИНДЕКС / INDEX выполняет другую задачу — возвращает элемент по его номеру.

=ИНДЕКС(диапазон, из которого нужны данные; порядковый номер элемента)

Соответственно, мы можем определить номер строки, в котором находится искомое значение, с помощью ПОИСКПОЗ. А затем подставить этот номер в ИНДЕКС на место второго аргумента, чтобы получить данные из любого нужного нам столбца.

Получается следующая конструкция:

=ИНДЕКС(диапазон, из которого нужны данные; ПОИСКПОЗ (что ищем; где ищем ; 0))

Рейтинг
( 1 оценка, среднее 5 из 5 )
Загрузка ...