Описательная статистика

Понятие выборки

Математическая статистика – наука о математических методах, позволяющих по статистическим данным сформулировать выводы о свойствах изучаемого массового явления.

На практике редко доступна полная информация о модели изучаемого явления, описываемого в терминах некоторой случайной величины X. Чаще о законе распределения X имеется лишь частичная информация либо никакой априорной информации о распределении X вообще нет. В этом случае возникают задачи восстановления параметров или вида неизвестного распределения FX или определения его свойств.

Задачи математической статистики являются, в некотором смысле, обратными к задачам теории вероятностей. Если теория вероятностей позволяет при заданной вероятностной модели вычислить вероятности тех или иных случайных событий, то математическая статистика по результатам проводимых наблюдений (по исходам эксперимента) уточняет структуру вероятностной модели изучаемого явления.

Математическая статистика решает следующие задачи:

1) систематизация полученного статистического материала (этап описания массового явления);

2) выявление свойств и закономерностей изучаемого явления (этап анализа и прогноза).

Первой задачей занимается раздел математической статистики, называемый описательной (дескриптивной) статистикой. Описательная статистика предоставляет методы первичной обработки эмпирических данных, их наглядного представления в форме графиков и таблиц, а также их количественного описания посредством основных статистических показателей. Методы описательной статистики, как правило, не требуют предположений о вероятностной природе данных.

Решению второй задачи посвящены теория оценивания и теория проверки статистических гипотез. В основе этих теорий лежат методы построения математических моделей наблюдений и статистических закономерностей.

Точечное оценивание – вычисление приближённых значений характеристик статистических закономерностей по результатам наблюдений.

Интервальное оценивание – построение случайных множеств, называемых доверительными, которые с заданной вероятностью содержат оцениваемые характеристики.

Проверка статистических гипотез – принятие или отклонение по реализации наблюдений априорного предположения о неизвестных характеристиках статистических закономерностей.

С особенностями различных постановок задач оценивания связаны и различия соответствующих статистических исследований.

Центральным понятием математической статистики является выборка. Выборка понимается следующим образом. Пусть случайная величина X наблюдается в эксперименте с комплексом условий G. Результатом этого эксперимента будет некоторое случайное число x – реализация случайной величины X. Повторим эксперимент n раз с неизменным комплексом условий. Результатом такого эксперимента будет случайный вектор (x1,…,xn), где xj – реализация случайной величины X в j-м эксперименте. С другой стороны, вектор (x1,…,xn) можно рассматривать как единственную реализацию случайного вектора (X1,…,Xn), где случайные величины X1,…,Xn независимы в совокупности и каждая из которых имеет тот же закон распределения, что и случайная величина X.

Совокупность всех наблюдений случайной величины X, которые могли бы быть сделаны при данном комплексе условий, называется генеральной совокупностью случайной величины X, или просто генеральной совокупностью X. Распределение случайной величины X называется распределением генеральной совокупности. Число элементов, входящих в генеральную совокупность, называют объёмом генеральной совокупности. Объём генеральной совокупности может быть как конечным, так и бесконечным.

Совокупность независимых случайных величин X1,…,Xn, каждая из которых имеет то же распределение, что и наблюдаемая случайная величина X, называется случайной выборкой из генеральной совокупности X. При этом число n называют объёмом случайной выборки, а случайные величины X1,…,Xn – элементами случайной выборки. Любую реализацию x1,…,xn случайной выборки X1,…,Xn будем называть выборкой из генеральной совокупности X, или выборочной совокупностью. Выборка из генеральной совокупности X представляет собой некоторое подмножество этой генеральной совокупности.

Пример 1. Эксперимент состоит в подбрасывании правильной игральной кости. Случайная величина X – число очков, выпавшее на верхней грани, возможные значения случайной величины X: 1,…,6. В результате эксперимента получаем случайное число x – реализацию случайной величины X, x{1,...,6}x\in\{1,...,6\}. При повторении эксперимента n раз получаем выборку x1,…,xn наблюдений случайной величины X, xi{1,...,6}x_i \in \{1,...,6\}, i=1,ni=\overline{1,n}, или, что то же самое, единственное наблюдение случайной выборки X1,…,Xn объёма n. Генеральная совокупность случайной величины X содержит бесконечное число значений 1,…,6 в равных пропорциях.

Пример 2. Исследуется качество партии выпущенных предприятием изделий. Случайная величина X – индикатор брака в изделии – принимает значение 1, если изделие оказалось бракованным, и 0 – в противном случае. В результате наблюдения случайной величины X (выбирая случайным образом изделие) получаем её реализацию x (0 или 1). Обследуя n изделий, получаем выборку наблюдений x1,…,xn, xi{0,1}x_i \in \{0,1\}, i=1,ni=\overline{1,n}. Объём генеральной совокупности определяется объёмом партии выпущенных изделий. Объём выборки n не может превышать объём генеральной совокупности.

Понятие выборки может быть обобщено на случай, когда в результате эксперимента с некоторым комплексом условий G наблюдается несколько случайных величин. Например, пусть (x, y) – наблюдение двумерного случайного вектора (X, Y). Тогда случайная выборка объёма n представляет собой последовательность (X1, Y1),…,(Xn, Yn) случайных векторов, а её реализация – последовательность векторов (x1, y1),…,(xn, yn).

Способы представления выборки

Результаты наблюдений x1,…,xn генеральной совокупности X, записанные в порядке их регистрации, обычно труднообозримы и неудобны для дальнейшего анализа. Одной из задач описательной статистики является получение такого представления выборки, которое позволит выявить характерные особенности совокупности исходных данных.

Одним из самых простых преобразований статистических данных является их упорядочивание по величине. Вариационным рядом выборки x1,…,xn называется способ её записи, при котором элементы упорядочиваются по возрастанию, т.е. вариационный ряд выборки – это последовательность чисел

x(1),...,x(i),...,x(n){{x}_{(1)}},...,{{x}_{(i)}},...,{{x}_{(n)}},

удовлетворяющих условию x(1)...x(i)...x(n){{x}_{(1)}}\le ...\le {{x}_{(i)}}\le ...\le {{x}_{(n)}}.

Вариационный ряд x(1),...,x(i),...,x(n){{x}_{(1)}},...,{{x}_{(i)}},...,{{x}_{(n)}} выборки x1,…,xn можно рассматривать как реализацию вариационного ряда X(1),...,X(i),...,X(n){{X}_{(1)}},...,{{X}_{(i)}},...,{{X}_{(n)}} случайной выборки X1,…,Xn. Случайную величину X(i) называют i-й порядковой статистикой (ith order statistic). Число x(i) называют i-м членом вариационного ряда, или реализацией i-й порядковой статистики. Крайние члены X(1) и X (n) вариационного ряда называются экстремальными порядковыми статистиками. Для любой выборки реализации экстремальных порядковых статистик – это её минимальное и максимальное значения.

Можно показать, что функции распределения экстремальных порядковых статистик имеют вид:

P(X(1)<x)=1(1FX(x))nP({{X}_{(1)}}<x)=1-{{\left( 1-{{F}_{X}}(x) \right)}^{n}},

(1)

P(X(n)<x)=FXn(x)P({{X}_{(n)}}<x)=F_{X}^{n}(x).

(2)

Эти соотношения позволяют оценить неизвестную функцию распределения FX(x) генеральной совокупности X, имея в эксперименте лишь минимальные и максимальные значения выборок.

Разность между максимальным и минимальным элементами выборки x(n)x(1) называется размахом выборки (range of a sample).

Различные значения случайной величины X называются вариантами.

Пусть выборка x1,…, xn случайной величины X содержит k вариантов z1,…,zk, причём вариант zi встречается ni раз (i = 1,…,k). Число ni называется частотой варианта zi. Очевидно, что сумма частот всех вариантов равна объёму выборки, i=1kni=n\sum\limits_{i=1}^{k}{{{n}_{i}}=n}.

Статистическим рядом называется последовательность пар (zi, ni), i = 1,…,k. Обычно статистический ряд записывается в виде таблицы, первая строка которой содержит варианты zi, а вторая – частоты ni (табл. 1.1), при этом варианты записываются в порядке возрастания.

Таблица 1.1

Статистический ряд выборки

Варианты, zi

z1

...

zi

...

zk

Частоты, ni

n1

...

ni

...

nk

В частном случае, если все элементы выборки различны, то k = n, а частоты всех вариантов равны единице.

Пример 1

При большом числе вариантов (например, при наблюдении случайной величины непрерывного типа с высокой точностью измерений) выборка может быть представлена в виде группированного статистического ряда. Для этого отрезок [x(1); x(n)], содержащий все элементы выборки, разбивается на k непересекающихся интервалов J1 = [α0 = x(1); α1), J2 = [α1; α2),…, Jk = [αk-1; αk = x(n)], как правило, одинаковой ширины h. Правые границы всех интервалов, за исключением последнего, задаются открытыми, чтобы исключить попадание граничных точек в соседний интервал.

Число интервалов k выбирают, как правило, в зависимости от объёма выборки. Для ориентировочной оценки числа k можно воспользоваться формулой Стерджесса (Herbert Sturges, 1926):

k[1+log2n]k\approx [1+{{\log }_{2}}n],

где оператор [][\cdot] означает взятие целой части.

Например, при n = 100 оценка числа интервалов по формуле Стерджесса даёт k &approx; 7, при n = 1000: k &approx; 10.

Ширина группировочных интервалов и число групп связаны формулой

h=x(n)x(1)kh=\frac{{{x}_{(n)}}-{{x}_{(1)}}}{k}.

(3)

Более теоретически обоснованный подход к выбору ширины группировочных интервалов дают формула Скотта (David Scott, 1979):

h3.5sn1/3h\approx 3.5s{{n}^{-1/3}},

и формула Фридмана (David Freedman, 1981):

h2Δn1/3h\approx 2\Delta {{n}^{-1/3}},

где s – среднеквадратичное отклонение выборки, Δ – интерквартильный размах выборки. Число группировочных интервалов k определяется из (3).

В случае если распределение генеральной совокупности существенно отличается от нормального, число интервалов может быть увеличено. С уменьшением числа интервалов k происходит потеря статистической информации, содержащейся в исходной выборке.

Группированным статистическим рядом называется последовательность пар (Ji, ni), i = 1,…,k. Группированный статистический ряд записывается в виде таблицы, первая строка которой содержит интервалы Ji, а вторая – частоты ni. Иногда в группированном статистическом ряде в первой строке таблицы вместо интервалов J1,…,Jk записывают середины интервалов c1,…,ck, где ci=(αi1+αi)/2{{c}_{i}}=({{\alpha }_{i-1}}+{{\alpha }_{i}})/2 – середина i-го интервала.

Наряду с частотами ni, i = 1,…,k, попадания выборочных значений в группировочные интервалы рассматриваются также:

– относительные частоты ni / n;

– накопленные (cumulative) частоты mi=j=1inj{{m}_{i}}=\sum\limits_{j=1}^{i}{{{n}_{j}}};

– относительные накопленные частоты mi / n.

Полученные результаты сводятся в таблицу, называемую таблицей частот группированной выборки (табл. 1.2).

Таблица 1.2

Таблица частот группированной выборки

Номер интервала, i

Границы интервала

Середина интервала, ci

Частота, ni

Накопленная частота, mi

Относительная частота, ni / n

Накопленная относительная частота, mi / n

1

0; α1)

c1

n1

m1

n1/n

m1/n

...

...

...

...

...

...

...

k

k-1; αk]

ck

nk

mk = n

nk/n

mk/n = 1

Визуально таблица частот может быть представлена с помощью гистограмм и полигонов частот. Выделяют 4 типа гистограмм (полигонов) частот:

1) гистограмма (полигон) абсолютных частот;

2) гистограмма (полигон) относительных частот;

3) гистограмма (полигон) накопленных частот;

4) гистограмма (полигон) относительных накопленных частот.

Гистограмма частот представляет собой кусочно-постоянную функцию, принимающую постоянные значения внутри интервалов группировки. В зависимости от типа гистограммы это значение может быть абсолютной частотой, относительной частотой, накопленной частотой или относительной накопленной частотой.

Полигоны абсолютных и относительных частот строятся следующим образом: если построена соответствующая гистограмма частот, то ординаты, соответствующие средним точкам интервалов, последовательно соединяются отрезками прямых.

Полигоны накопленных частот и относительных накопленных частот строятся так: если построена соответствующая гистограмма частот, то ординаты, соответствующие правым точкам интервалов, последовательно соединяются отрезками прямых.

Пример 2

Эмпирическая функция распределения. Числовые характеристики выборки

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей распределение FX(x). Пусть выборка содержит k вариантов z1,…,zk, причём вариант zi встречается с частотой ni, i=1,ki=\overline{1,k}.

Введём случайную величину дискретного типа XnX_{n}^{*}, принимающую значения z1,…,zk с вероятностями, равными соответствующим относительным частотам n1/n,…,nk/n, т.е. P(Xn=xi)=ni/nP(X_{n}^{*}={{x}_{i}})={{n}_{i}}/n, i=1,ki=\overline{1,k}. Относительные частоты принадлежат отрезку [0; 1], причём их сумма равна единице, т.е. для относительных частот выполнены все требования, предъявляемые к вероятности распределения. Распределение случайной величины XnX_{n}^{*} называется распределением выборки x1,…,xn (табл. 1.3).

Таблица 1.3

Распределение выборки

Значения, zi

z1

...

zi

...

zk

Вероятности, pi

nj / n

...

ni / n

...

nk / n

В связи с тем, что в выборке может присутствовать лишь конечное (или счётное) число вариантов наблюдаемой случайной величины X, распределение случайной величины XnX_{n}^{*} всегда является дискретным.

Функция распределения случайной величины XnX_{n}^{*} называется эмпирической (выборочной) функцией распределения (ЭФР ) и обозначается Fn(x)F_{n}^{*}(x):

Fn(x)=FXn(x)=P(Xn<x)=zi<xnin=1nzi<xniF_{n}^{*}(x)={{F}_{X_{n}^{*}}}(x)=P(X_{n}^{*}<x)=\sum\limits_{{{z}_{i}}<x}{\frac{{{n}_{i}}}{n}}=\frac{1}{n}\sum\limits_{{{z}_{i}}<x}{{{n}_{i}}}.

Как известно, функция распределения случайной величины дискретного типа представляет собой кусочно-постоянную функцию. График ЭФР для выборки x1,…,xn с вариантами z1,…,zk приведён на рисунке ниже. Несложно показать, что ЭФР может принимать лишь значения, равные накопленным относительным частотам вариантов z1,…,zk либо равняться нулю:

Fn(x)={0,    xz1,n1/n=m1/n,    z1<xz2,(n1+n2)/n=m2/n,    z2<xz3,...1=mk,    x>zk.F_{n}^{*}(x)= \begin{cases} 0,\ \ \ \ x\le {{z}_{1}}, \\ {{n}_{1}}/n={{m}_{1}}/n,\ \ \ \ {{z}_{1}}<x\le {{z}_{2}}, \\ ({{n}_{1}}+{{n}_{2}})/n={{m}_{2}}/n,\ \ \ \ {{z}_{2}}<x\le {{z}_{3}}, \\ ... \\ 1={{m}_{k}},\ \ \ \ x>{{z}_{k}}. \end{cases}

(1)

В точках z1,…,zk ЭФР претерпевает разрыв непрерывности и является, как и любая функция распределения, непрерывной слева.

Эмпирическая функция распределения

Поскольку ЭФР выборки x1,…,xn является функцией распределения дискретной случайной величины XnX_{n}^{*}, то для неё справедливы все свойства функции распределения дискретной случайной величины.

Эмпирическую функцию распределения Fn(x)F_{n}^{*}(x) выборки x1,…,xn можно рассматривать как реализацию случайной эмпирической функции распределения Fn(x)\mathcal{F}_{n}^{*}(x) соответствующей случайной выборки X1,…,Xn. При каждой конкретной реализации случайной выборки получаем соответствующую ей реализацию случайной ЭФР.

Пример 1

Выборочными (эмпирическими) числовыми характеристиками называются числовые характеристики случайной величины XnX_{n}^{*}. К таким характеристикам относятся, например, моменты случайной величины. Напомним, что зная функцию распределения fX(x) случайной величины X (или распределение вероятностей p1,…,pk для случайной величины дискретного типа), математическое ожидание элементарной действительной функции ξ(X) случайной величины X рассчитывается по формулам:

M[ξ(X)]=ξ(x)f(x)dx\text{M}[\xi (X)]=\int\limits_{-\infty }^{\infty }{\xi (x)f(x)dx}

и

M[ξ(X)]=i=1kξ(xi)pi\text{M}[\xi (X)]=\sum\limits_{i=1}^{k}{\xi ({{x}_{i}}){{p}_{i}}}

(2)

для непрерывного и дискретного случаев соответственно.

Учитывая (2), запишем выражение для расчёта выборочного начального момента r-го порядка. Все выборочные числовые характеристики будем обозначать с верхним знаком «звёздочки»:

αr=M[(Xn)r]=i=1kzirpi=i=1kzirnin=1ni=1kzirni\alpha _{r}^{*}=\text{M}\left[ {{(X_{n}^{*})}^{r}}\right]=\sum\limits_{i=1}^{k}{z_{i}^{r}{{p}_{i}}}=\sum\limits_{i=1}^{k}{z_{i}^{r}\frac{{{n}_{i}}}{n}}=\frac{1}{n}\sum\limits_{i=1}^{k}{z_{i}^{r}{{n}_{i}}}.

(3)

В связи с тем, что каждый вариант zi встречается в выборке x1,…,xn с соответствующей частотой ni, i=1,ki=\overline{1,k}, каждое произведение zirniz_{i}^{r}{{n}_{i}} может быть записано как сумма ni одинаковых элементов выборки, равных варианту zi. Таким образом, выражение (3) примет вид:

αr=1ni=1nxir\alpha _{r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{x_{i}^{r}}.

(4)

Выражение (3) называется взвешенной формой записи выборочного начального момента r-го порядка, а выражение (4) – невзвешенной.

Взвешенная форма записи выборочного начального момента r-го порядка представляет собой среднее арифметическое различных элементов (вариантов) выборки, возведённых в r-ю степень и взвешенных их частотами. Из невзвешенной формы записи видно, что выборочный начальный момент r-го порядка представляет собой простое среднее арифметическое элементов выборки, возведённых в r-ю степень. В связи с этим нередко выборочный начальный момент r-го порядка обозначается через xr\overline{{{x}^{r}}}.

Выборочный начальный момент первого порядка α1\alpha _{1}^{*} называется выборочным математическим ожиданием и представляет собой простое среднее арифметическое элементов выборки, в связи с чем нередко обозначается через xˉ\bar{x}:

mX=α1=M[Xn]=1ni=1kzini=1ni=1nxi=xˉm_{X}^{*}=\alpha _{1}^{*}=\text{M}[X_{n}^{*}]=\frac{1}{n}\sum\limits_{i=1}^{k}{{{z}_{i}}{{n}_{i}}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{x}_{i}}}=\bar{x}.

(5)

Нижний индекс ‘X’ в обозначении выборочного математического ожидания и других выборочных характеристик определяется случайной величиной, наблюдениями которой являются рассматриваемые выборочные значения x1,…,xn.

Операция центрирования выборки состоит в смещении её значений на xˉ\bar{x}:

εi=xixˉ,   i=1,n{{\varepsilon }_{i}}={{x}_{i}}-\bar{x},\ \ \ i=\overline{1,n}.

Выборочное математическое ожидание (среднее) центрированной выборки ε1,…,εn равно нулю:

εˉ=1ni=1nεi=1ni=1n(xixˉ)=1ni=1nxixˉ=0\bar{\varepsilon }=\frac{1}{n}\sum\limits_{i=1}^{n}{{{\varepsilon}_{i}}}=\frac{1}{n}\sum\limits_{i=1}^{n}{({{x}_{i}}-\bar{x})}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{x}_{i}}}-\bar{x}=0.

Учитывая определение центрального момента r-го порядка случайной величины дискретного типа, запишем выражение для расчёта выборочного центрального момента r-го порядка:

μr=M[(Xnxˉ)r]=i=1k(zixˉ)rnin=1ni=1k(zixˉ)rni\mu _{r}^{*}=\text{M}\left[ {{(X_{n}^{*}-\bar{x})}^{r}}\right]=\sum\limits_{i=1}^{k}{{{({{z}_{i}}-\bar{x})}^{r}}\frac{{{n}_{i}}}{n}}=\frac{1}{n}\sum\limits_{i=1}^{k}{{{({{z}_{i}}-\bar{x})}^{r}}{{n}_{i}}}.

(6)

Выражение (6) является взвешенной формой записи. Невзвешенная форма получается из взвешенной заменой произведений (zixˉ)rni{{({{z}_{i}}-\bar{x})}^{r}}{{n}_{i}}, i=1,ki=\overline{1,k}, на сумму ni одинаковых слагаемых:

μr=1ni=1n(xixˉ)r\mu _{r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{({{x}_{i}}-\bar{x})}^{r}}}.

Выборочный центральный момент второго порядка μ2\mu _{2}^{*} называется выборочной дисперсией:

dX=μ2=1ni=1k(zixˉ)2ni=1ni=1n(xixˉ)2d_{X}^{*}=\mu_{2}^{*}=\frac{1}{n}\sum\limits_{i=1}^{k}{{{({{z}_{i}}-\bar{x})}^{2}}{{n}_{i}}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{({{x}_{i}}-\bar{x})}^{2}}}.

(7)

Выборочная дисперсия является мерой рассеяния выборочных значений x1,…,xn относительно их среднего арифметического xˉ\bar{x}.

Выборочное среднеквадратичное отклонение (с.к.о.) σX\sigma _{X}^{*} выборки x1,…,xn определяется как квадратный корень из выборочной дисперсии dXd_{X}^{*}:

σX=dX\sigma _{X}^{*}=\sqrt{d_{X}^{*}}.

Для выборочных начального и центрального моментов применимы все тождества, справедливые для начального и центрального моментов случайной величины дискретного типа. В частности, полезное на практике соотношение между выборочной дисперсией и выборочным начальным моментом второго порядка:

dX=x2xˉ2d_{X}^{*}=\overline{{{x}^{2}}}-{{\bar{x}}^{2}}.

(8)

Это равенство следует читать как «выборочная дисперсия равна разности между средним квадратом и квадратом среднего».

Выборочный коэффициент асимметрии γX\gamma _{X}^{*} (skewness) и выборочный эксцесс εX\varepsilon _{X}^{*} (kurtosis) – это коэффициент асимметрии и эксцесс случайной величины XnX_{n}^{*}:

γX=μ3(σX)3\gamma _{X}^{*}=\frac{\mu _{3}^{*}}{{{(\sigma _{X}^{*})}^{3}}},

εX=μ4(σX)43\varepsilon _{X}^{*}=\frac{\mu _{4}^{*}}{{{(\sigma _{X}^{*})}^{4}}}-3,

Выборочный коэффициент асимметрии характеризует степень асимметрии, а эксцесс – степень «плосковершинности» распределения выборки.

Пример 2

Выборочные характеристики могут быть рассчитаны для группированной выборки. Пусть проведена группировка выборочных данных x1,…,xn на k интервалов [α0; α1), [α1; α2),…, [αk-1; αk]; ni – частота попадания выборочных значений в i-й интервал, ci = (αi1+αi) /2{{c}_{i}}~=~({{\alpha}_{i}}_{-\text{1}}+{{\alpha }_{i}})~/2 – середина i-го интервала, i=1,ki=\overline{1,k}.

При расчёте выборочных характеристик группированной выборки предполагается, что все элементы выборки, попавшие в i-й интервал, находятся в середине интервала. Таким образом, выборочный начальный момент r-го порядка рассчитывается как среднее арифметическое взвешенное середин интервалов, возведённых в r-ю степень, а выборочный центральный момент r-го порядка – как среднее арифметическое взвешенное центрированных середин интервалов, возведённых в r-ю степень. В обоих случаях взвешивание проводится частотами попадания в интервалы:

αr=1ni=1kcirni\alpha _{r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{k}{c_{i}^{r}{{n}_{i}}}.

(9)

μr=1ni=1k(cixˉ)rni\mu _{r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{k}{{{({{c}_{i}}-\bar{x})}^{r}}{{n}_{i}}}.

(10)

Пример 3

Выборочной квантилью на уровне вероятности p (или порядка p) выборки x1,…, xn называется квантиль случайной величины XnX_{n}^{*} на уровне вероятности p. Напомним, квантилью случайной величины X называется точная верхняя граница xp множества значений x, для которых выполнено условие:

F(x)=P(X<x)=pF(x)=P(X<x)=p.

Для дискретной случайной величины, в частности, для случайной величины XnX_{n}^{*}, точная верхняя граница этого множества не может быть определена однозначно. В связи с этим для расчёта выборочной квантили xpx_{p}^{*} на практике используются следующие правила.

1. Значение i-го элемента вариационного ряда x(i) является выборочной квантилью порядка pi = (i – 0,5) / n. Таким образом, соответствие между элементами вариационного ряда и порядком квантилей устанавливается таблицей

Выборочная квантиль, xpx_{p}^{*}

x(1)

...

x(i)

...

x(n)

Порядок, p

0,5 / n

..

(i – 0,5) / n

..

(n – 0,5) / n

2. Для расчёта квантили произвольного порядка p, 0 ≤ p ≤ 1 используется линейная интерполяция значений, приведённых в таблице выше.

Выборочной медианой выборки x1,…, xn называется выборочная квантиль x0,5x_{0,5}^{*} на уровне p = 0,5. Из правил расчёта выборочных квантилей следуют правила расчёта выборочной медианы.

1. Если объём выборки n – нечётный, то, разрешая уравнение (i – 0,5) / n = 0,5 относительно i, получаем номер i=n+12i=\frac{n+1}{2} элемента вариационного ряда, являющегося медианой, т.е.

x0,5=x((n+1)/2)x_{0,5}^{*}={{x}_{((n+1)/2)}}.

2. Если объём выборки n – чётный, то выборочная медиана определяется путём линейной интерполяции элементов вариационного ряда с номерами n2\frac{n}{2} и n2+1\frac{n}{2}+1, имеющих порядки квантилей 0,51n 0,5-\frac{1}{n} и 0,5+1n 0,5+\frac{1}{n} соответственно. Результатом этой интерполяции будет среднее значение

x0,5=x(n/2)+x(n/2+1)2x_{0,5}^{*}=\frac{{{x}_{(n/2)}}+{{x}_{(n/2+1)}}}{2}.

(11)

Выборочные квантили x0,25x_{0,25}^{*} и x0,75x_{0,75}^{*} на уровнях 0,25 и 0,75 называют выборочными нижней и верней квартилями соответственно. Разность Δ между верней и нижней квартилями называется интерквартильным интервалом:

Δ=x0,75x0,25\Delta =x_{0,75}^{*}-x_{0,25}^{*}.

Интерквартильный интервал является характеристикой разброса выборочных значений и является, в некотором смысле, аналогом дисперсии.

Выборочные квантили x0,1x_{0,1}^{*},…,x0,9x_{0,9}^{*} на уровнях, кратных 0,1, называются выборочными децилями, а выборочные квантили x0,01x_{0,01}^{*},…,x0,99x_{0,99}^{*} на уровнях, кратных 0,01, – выборочными процентилями.

Выборочной модой выборки x1,…, xn с вариантами z1,…,zk называется вариант zi, i{1,...,k}i\in \{1,...,k\}, частота ni которого максимальна.

Пример 4

Выборочные характеристики двумерного случайного вектора

Выборочные характеристики можно ввести и для выборок из многомерных генеральных совокупностей. Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y). Пусть выборка содержит k различных пар наблюдений (вариантов) z1,…,zk, zi=(xi,yi){{z}_{i}}=({{x}_{i}},{{y}_{i}}), причём вариант zi встречается с частотой ni, i=1,ki=\overline{1,k}.

По аналогии с одномерным случаем введём случайный вектор дискретного типа (Xn,Yn)(X_{n}^{*},Y_{n}^{*}), принимающий значения z1,…,zk с вероятностями, равными соответствующим относительным частотам, n1 / n,…, nk / n, т.е. P((Xn=xi)(Yn=yi))=ni/nP\left( (X_{n}^{*}={{x}_{i}})\bigcap (Y_{n}^{*}={{y}_{i}}) \right)={{n}_{i}}/n, i=1,ki=\overline{1,k}.

Распределение случайного вектора (Xn,Yn)(X_{n}^{*},Y_{n}^{*}) называется распределением двумерной выборки. Предварительное представление о распределении выборки можно получить, изображая элементы выборки точками на плоскости координат xOy. Это представление выборки называется диаграммой рассеяния (scatter plot).

Выборочными числовыми характеристиками двумерной выборки (x1, y1),…, (xn, yn) называются числовые характеристики случайного вектора (Xn,Yn)(X_{n}^{*},Y_{n}^{*}). К таким характеристикам относятся, например, моменты случайного вектора.

Выборочный смешанный начальный момент порядка (q + r) равен:

αq,r=M[(Xn)q(Yn)r]=i=1kxiqyirpi\alpha _{q,r}^{*}=\text{M}\left[ {{(X_{n}^{*})}^{q}}{{(Y_{n}^{*})}^{r}} \right]=\sum\limits_{i=1}^{k}{x_{i}^{q}y_{i}^{r}{{p}_{i}}},

(1)

где pi=P((Xn=xi)(Yn=yi)){{p}_{i}}=P\left( (X_{n}^{*}={{x}_{i}})\bigcap (Y_{n}^{*}={{y}_{i}}) \right), а суммирование проводится по всем вариантам случайного вектора (Xn,Yn)(X_{n}^{*},Y_{n}^{*}).

Учитывая, что случайный вектор (Xn,Yn)(X_{n}^{*},Y_{n}^{*}) принимает вариант (xi, yi) с вероятностью, равной относительной частоте ni этого наблюдения в выборке, и, представляя произведения xiqyirnix_{i}^{q}y_{i}^{r}{{n}_{i}} как суммы ni одинаковых слагаемых xiqyirx_{i}^{q}y_{i}^{r}, i=1,ki=\overline{1,k}, формула (1) может быть записана в виде:

αq,r=1ni=1nxiqyir\alpha _{q,r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{x_{i}^{q}y_{i}^{r}}.

Аналогично, выборочный смешанный центральный момент порядка (q + r) определяется формулой:

μq,r=1ni=1n(xixˉ)q(yiyˉ)r\mu _{q,r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{({{x}_{i}}-\bar{x})}^{q}}{{({{y}_{i}}-\bar{y})}^{r}}}.

Наиболее часто используемой числовой характеристикой двумерного вектора является коэффициент корреляции. Напомним, что для случайного вектора дискретного типа (X, Y) коэффициент корреляции rXY определяется следующим образом:

rXY=kXYσXσY{{r}_{XY}}=\frac{{{k}_{XY}}}{{{\sigma }_{X}}{{\sigma }_{Y}}},

(2)

где kXY – ковариационный момент, по определению kXY=μ1,1(X,Y){{k}_{XY}}=\mu _{1,1}^{(X,Y)}.

Учитывая (2), определим выражение для выборочного коэффициента корреляции ρXY\rho _{XY}^{*}:

ρXY=kXYσXσY\rho _{XY}^{*}=\frac{k_{XY}^{*}}{\sigma _{X}^{*}\sigma _{Y}^{*}},

где kXYk_{XY}^{*} – выборочный ковариационный момент:

kXY=1ni=1n(xixˉ)(yiyˉ)k_{XY}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}.

Для выборочных ковариационного момента и коэффициента корреляции применимы все тождества, справедливые для ковариационного момента и коэффициента корреляции случайного вектора дискретного типа. В частности, полезное на практике соотношение между выборочным ковариационным моментом и выборочным смешанным начальным моментом второго порядка:

kXY=1ni=1nxiyixˉyˉ=xyxˉyˉk_{XY}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}-\bar{x}\cdot \bar{y}}=\overline{xy}-\bar{x}\cdot \bar{y}.

(3)

Это равенство следует читать как «выборочный ковариационный момент равен разности между средним произведением и произведением средних».

Пример 1

Двумерная выборка может быть представлена в виде корреляционной таблицы. Корреляционная таблица (табл. 1.4) является аналогом группированного статистического ряда для одномерной выборки.

Для построения корреляционной таблицы отрезок [x(1); x(n)], содержащий все наблюдения случайной величины X, разбивается на l непересекающихся интервалов [α0 = x(1); α1), [α1; α2),…, [αl-1; αl = x(n)], как правило, одинаковой ширины h1. Аналогично отрезок [y(1); y(n)], содержащий все наблюдения случайной величины Y, разбивается на m непересекающихся интервалов [β0 = β(1); β1), [β1; β2),…, [βm-1; βm = y(n)], как правило, одинаковой ширины h2. Правые границы всех интервалов, за исключением последнего, задаются открытыми, чтобы исключить попадание граничных точек в соседний интервал.

Процедуру группировки двумерных выборочных наблюдений можно выполнить непосредственно по диаграмме рассеяния, нанеся на неё сетку горизонтальных и вертикальных прямых, взятых с постоянными шагами h1 и h2 и рассчитав частоты nij попадания выборочных точек в каждый прямоугольник.

Gij={(x,y)αi1x<αi;βj1y<βj}{{G}_{ij}}=\{(x,y)|{{\alpha }_{i-1}}\le x<{{\alpha }_{i}};{{\beta }_{j-1}}\le y<{{\beta }_{j}}\}, i=1,li=\overline{1,l}, j=1,mj=\overline{1,m}.

Таблица 1.4

Корреляционная таблица

0; β1)

...

j-1; βj)

...

m-1; βm]

0; α1)

n11

...

n1j

...

n1l

...

...

...

...

...

...

i-1; αi)

ni1

...

nij

...

nil

...

...

...

...

...

...

l-1; αl]

nl1

...

nlj

...

nlm

Очевидно, что сумма всех частот в корреляционной таблице равна объёму выборки iljmnij=n\sum\limits_{i}^{l}{\sum\limits_{j}^{m}{{{n}_{ij}}}}=n.

Точечные оценки

Свойства точечных оценок

Пусть x1,...,xn – выборка наблюдений случайной величины X, имеющей распределение FX(x). При проведении ряда статистических исследований вид функции распределения наблюдаемой случайной величины зачастую предполагается известным (например, случайная величина имеет нормальное или биномиальное распределение). Неизвестными же являются параметры этого распределения.

Одной из задач математической статистики является оценка неизвестных параметров распределения наблюдаемой случайной величины X по выборке x1,..., xn её наблюдений.

Параметром θ&in;Θ распределения FX(x) случайной величины X называется любая числовая характеристика этой случайной величины (математическое ожидание, дисперсия и т.п.) или любая константа, явно входящая в выражение для функции распределения FX(x).

В общем случае будем считать, что распределение FX(x) характеризуется вектором параметров θ=(θ1,...,θk)\theta =({{\theta}_{1}},...,{{\theta }_{k}}).

Например, пусть масса деталей, изготавливаемых станком, в силу присутствия неточности работы станка является случайной величиной X, имеющей нормальное распределение, но его параметры θ1=mX{{\theta }_{1}}={{m}_{X}} и θ2=σX{{\theta }_{2}}={{\sigma }_{X}} неизвестны. Требуется найти приближённое значение этих параметров по выборке наблюдений x1,..., xn масс n изготовленных станком деталей.

Напомним, что любая выборка наблюдений x1,...,xn является реализацией случайной выборки X1,...,Xn. Статистикой Z в математической статистике называется произвольная функция случайной выборки, не зависящая от неизвестных параметров распределения:

Z=φ(X1,...,Xn)Z=\varphi ({{X}_{1}},...,{{X}_{n}}).

В связи с тем, что статистика Z является функцией случайных аргументов, Z является случайной величиной. Для каждой реализации x1,...,xn случайной выборки X1,...,Xn получим соответствующую ей реализацию z статистики Z:

z=φ(x1,...,xn)z=\varphi ({{x}_{1}},...,{{x}_{n}}),

называемую выборочным значением статистики Z.

Точечной оценкой θ~n{{\tilde{\theta }}_{n}} неизвестного параметра θ&in;Θ (или вектора параметров) распределения FX(x) называется произвольная статистика θ~n{{\tilde{\theta }}_{n}}, построенная по случайной выборке X1,...,Xn из генеральной совокупности X и принимающая значения из множества Θ:

θ~n=θ~(X1,...,Xn){{\tilde{\theta }}_{n}}=\tilde{\theta }({{X}_{1}},...,{{X}_{n}}).

(1)

Точечная оценка θ~n{{\tilde{\theta }}_{n}} является случайной величиной. Для выборки x1,..., xn может быть рассчитана реализация точечной оценки, или выборочное значение точечной оценки, неизвестного параметра θ&in;Θ. Далее точечную оценку и её выборочное значение будем обозначать одинаково через θ~n{{\tilde{\theta }}_{n}}, при необходимости дополнительно оговаривая, является ли θ~n{{\tilde{\theta}}_{n}} случайной величиной или её реализацией.

В соответствии с определением (1) существует бесконечно много точечных оценок неизвестного параметра θ. Формально точечная оценка θ~n{{\tilde{\theta }}_{n}} может не иметь ничего общего с интересующим нас параметром θ. Её полезность для получения практически приемлемых оценок вытекает из статистических свойств, которыми она обладает.

Основные свойства точечных оценок.

1. Состоятельность (Consistency)

Точечная оценка θ~n=θ~(X1,...,Xn){{\tilde{\theta }}_{n}}=\tilde{\theta }({{X}_{1}},...,{{X}_{n}}) называется состоятельной оценкой параметра θ, если последовательность случайных величин θ~1,θ~2,...,θ~n,...{{\tilde{\theta }}_{1}},{{\tilde{\theta }}_{2}},...,{{\tilde{\theta }}_{n}},... сходится по вероятности к оцениваемому параметру θ при nn\to \infty , т.е.

ε>0   P(θ~nθ<ε)1\forall \varepsilon >0\ \ \ P\left( \left| {{{\tilde{\theta }}}_{n}}-\theta \right|<\varepsilon \right)\to 1.

Иными словами, для состоятельной оценки вероятность её отклонения от оцениваемого параметра θ на любую малую величину e при увеличении объёма выборки стремится к нулю. Это свойство оценки является очень важным, ибо несостоятельная оценка практически бесполезна. Для несостоятельной оценки её значение, рассчитанное даже для выборки очень большого объёма, может существенно отличаться от значения параметра θ, а увеличение объёма выборки может не улучшать её качество.

Состоятельность оценки может быть проверена, используя достаточное условие состоятельности: если M[θ~n]θ\text{M}[{{\tilde{\theta }}_{n}}]\to \theta и D[θ~n]0\text{D}[{{\tilde{\theta }}_{n}}]\to 0 при nn\to \infty , то оценка θ~n{{\tilde{\theta }}_{n}} является состоятельной.

Доказательство этого утверждения следует из второго неравенства Чебышева, согласно которому

ε>0   P(θ~nM[θ~n]ε)D[θ~n]ε2\forall \varepsilon >0\ \ \ P\left( \left| {{{\tilde{\theta }}}_{n}}-\text{M}[{{{\tilde{\theta }}}_{n}}] \right|\ge \varepsilon \right)\le\frac{\text{D}[{{{\tilde{\theta }}}_{n}}]}{{{\varepsilon }^{2}}}.

Переходя к пределу при nn\to \infty получаем

ε>0   P(θ~nθε)0\forall \varepsilon >0\ \ \ P\left( \left| {{{\tilde{\theta }}}_{n}}-\theta \right|\ge \varepsilon \right)\to 0,

из чего следует состоятельность оценки θ~n{{\tilde{\theta }}_{n}}.

2. Несмещённость (Bias)

Точечная оценка θ~n=θ~(X1,...,Xn){{\tilde{\theta }}_{n}}=\tilde{\theta }({{X}_{1}},...,{{X}_{n}}) называется несмещённой оценкой параметра θ&in;Θ, если её математическое ожидание равно оцениваемому параметру θ, т.е.

M[θ~n]=θ\text{M}[{{\tilde{\theta }}_{n}}]=\theta .

(2)

Разность bn(θ)=M[θ~n]θ{{b}_{n}}\text{(}\theta \text{)=M}[{{\tilde{\theta }}_{n}}]-\theta называется смещением точечной оценки θ~n{{\tilde{\theta }}_{n}}.

Статистика θ~\tilde{\theta } называется несмещённой оценкой параметра θ, если условие (2) выполнено для любого фиксированного объёма выборки n.

Статистика θ~\tilde{\theta } называется асимптотически несмещённой оценкой параметра θ&in;Θ, если числовая последовательность математических ожиданий M[θ~1],M[θ~2],...,M[θ~n],...\text{M}[{{\tilde{\theta }}_{1}}],\text{M}[{{\tilde{\theta }}_{2}}],...,\text{M}[{{\tilde{\theta }}_{n}}],... сходится к оцениваемому параметру θ при nn\to \infty , т.е.

M[θ~n]θ\text{M}[{{\tilde{\theta }}_{n}}]\to \theta .

Несмещённость оценки θ~n{{\tilde{\theta }}_{n}} означает, что реализации этой оценки, рассчитанные для различных реализаций случайной выборки X1,...,Xn объёма n, будут группироваться в среднем около оцениваемого параметра θ.

Иллюстрация понятия несмещённости точечной оценки

Реализации несмещённой точечной оценки θ~\tilde{\theta } группируются около оцениваемого параметра θ, а реализации смещённой оценки θ^\hat{\theta } – около величины θ + bn(θ).

3. Эффективность (Efficiency)

Для оценки параметра θ может быть предложено несколько несмещённых оценок. Вследствие несмещённости различные реализации этих оценок будут группироваться относительно их математического ожидания, равного θ, однако разброс этих значений может быть различным. Как известно, мерой разброса значений случайной величины относительно математического ожидания является её дисперсия.

Пусть θ~n=θ~(X1,...,Xn){{\tilde{\theta }}_{n}}=\tilde{\theta }({{X}_{1}},...,{{X}_{n}}) и θ^n=θ^(X1,...,Xn){{\hat{\theta }}_{n}}=\hat{\theta }({{X}_{1}},...,{{X}_{n}}) – две несмещённые оценки параметра q по выборке объёма n. Оценка θ~n{{\tilde{\theta }}_{n}} называется более эффективной, чем оценка θ^n{{\hat{\theta }}_{n}}, если её дисперсия меньше, т.е.

D[θ~n]<D[θ^n]\text{D}[{{\tilde{\theta }}_{n}}]<\text{D}[{{\hat{\theta }}_{n}}].

(3)

Статистика θ~\tilde{\theta } называется более эффективной оценкой параметра θ&in;Θ, чем статистика θ^\hat{\theta }, если условие (3) выполнено для любого фиксированного объёма выборки n.

Если оценка θ~n{{\tilde{\theta }}_{n}} более эффективна, чем оценка θ^n{{\hat{\theta }}_{n}}, то это означает, что реализации оценки θ~n{{\tilde{\theta}}_{n}}, рассчитанные для различных реализаций случайной выборки X1,...,Xn объёма n, будут иметь меньший разброс около оцениваемого параметра θ, чем реализации менее эффективной оценки θ^n{{\hat{\theta }}_{n}}.

Иллюстрация понятия эффективности точечных оценок

Оценка параметра θ, имеющая минимально возможную дисперсию среди всех оценок, называется эффективной оценкой параметра θ. В математической статистике наряду с термином «эффективная оценка» используют и другие: «несмещённая оценка с минимальной дисперсией», «оптимальная оценка».

Для того чтобы ответить на вопрос, является ли статистика θ~\tilde{\theta } эффективной оценкой параметра θ, используется неравенство Рао-Крамера (Calyampudi Radhakrishna Rao, Harald Cramer, 1945):

D[θ~]1In(θ)\text{D}[\tilde{\theta }]\ge \frac{1}{{{I}_{n}}(\theta )},

согласно которому любая оценка θ~\tilde{\theta } параметра θ ограничена снизу величиной 1In(θ)\frac{1}{{{I}_{n}}(\theta )} при выполнении некоторых условий регулярности (выполнены практически для всех используемых на практике оценок), где In(θ) – количество информации по Фишеру о параметре θ, содержащееся в выборке объёма n.

Таким образом, критерием эффективности оценки θ~\tilde{\theta } является обращение для неё в равенство неравенства Рао-Крамера.

Эффективностью оценки θ~\tilde{\theta } параметра θ называется отношение

e(θ~)=1/In(θ)D[θ~]e({\tilde{\theta }})=\frac{1/{{I}_{n}}(\theta )}{\text{D}[\tilde{\theta }]}.

Согласно неравенству Рао-Крамера эффективность любой точечной оценки ограничена сверху единицей, а для эффективных оценок e(θ~)=1e({\tilde{\theta }})=1.

При выполнении условий регулярности каждый элемент независимой случайной выборки X1,...,Xn вносит равный вклад в информацию Фишера In(θ), т.е.

In(θ)=nI(θ){{I}_{n}}(\theta )=nI(\theta ),

(4)

где I(θ) – количество информации по Фишеру о параметре θ, содержащееся в одном выборочном наблюдении.

Величина информации по Фишеру зависит от вида распределения генеральной совокупности X. Так, выборки, полученные из генеральных совокупностей с разными распределениями (например, нормальным и биномиальным) будут содержать различное количество информации о неизвестных математическом ожидании или дисперсии.

Чем больше информации по Фишеру о параметре θ содержится в выборочных наблюдениях, тем меньший разброс имеют реализации эффективной оценки этого параметра, а следовательно, являются более точными.

Формально информация по Фишеру о параметре θ, содержащаяся в одном выборочном наблюдении из генеральной совокупности с функцией плотности распределения fX(x, θ), рассчитывается по формуле

I(θ)=M[U(X,θ)2]I(\theta )=\text{M}\left[ U{{(X,\theta )}^{2}} \right],

(5)

где функция

U(x,θ)=θlnfX(x,θ)U(x,\theta )=\frac{\partial }{\partial \theta }\ln {{f}_{X}}(x,\theta )

называется вкладом выборки.

В случае дискретной генеральной совокупности с распределением вероятностей P(x, θ), xP(x,θ)=1\sum\limits_{x}{P(x,\theta )}=1, вклад выборки определяется как

U(x,θ)=θlnP(x,θ)U(x,\theta )=\frac{\partial }{\partial \theta }\ln P(x,\theta ).

(6)

Статистика θ~\tilde{\theta } является асимптотически эффективной оценкой параметра θ, если последовательность дисперсий D[θ~1],D[θ~2],...,D[θ~n],...\text{D}[{{\tilde{\theta }}_{1}}],\text{D}[{{\tilde{\theta }}_{2}}],...,\text{D}[{{\tilde{\theta }}_{n}}],... сходится к величине, обратной информации Фишера при nn\to \infty , т.е.

D[θ~n]1In(θ)\text{D}[{{\tilde{\theta }}_{n}}]\to \frac{1}{{{I}_{n}}(\theta )}.

Пример 1

Пример 2

Пример 3

Пример 4

Методы получения точечных оценок

Точечной оценкой неизвестного параметра θ, вообще говоря, может являться любая статистика. Однако на практике интерес представляют лишь наиболее «качественные» оценки, для которых вероятность того, что при реализации случайной выборки они примут значение максимально близкое к неизвестному значению θ наибольшая. Такие оценки должны быть несмещёнными, состоятельными и эффективными. Возникает вопрос, как получить качественную оценку для произвольного параметра θ наблюдаемой случайной величины X?

1. Метод подстановки

Метод подстановки является наиболее простым методом получения точечных оценок. Метод состоит в том, что в качестве оценки θ~\tilde{\theta } неизвестного параметра θ выбирается соответствующая выборочная числовая характеристика:

θ~=θ\tilde{\theta }={{\theta }^{*}}.

Например, согласно методу подстановки оценкой математического ожидания будет выборочное среднее, а оценкой дисперсии – выборочная дисперсия.

Все оценки, рассчитанные по методу подстановки, являются состоятельными, однако их несмещённость и эффективность не гарантированы. Примером смещённой оценки, рассмотренной ранее, является выборочная дисперсия.

2. Метод моментов

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей распределение FX(x, θ) с вектором неизвестных параметров θ=(θ1,...,θk)\theta =({{\theta }_{1}},...,{{\theta }_{k}}). Предположим, что для этого распределения могут быть рассчитаны начальные αr=αr(θ1,...,θk){{\alpha }_{r}}={{\alpha }_{r}}({{\theta }_{1}},...,{{\theta }_{k}}) и центральные μr=μr(θ1,...,θk){{\mu }_{r}}={{\mu }_{r}}({{\theta}_{1}},...,{{\theta }_{k}}) моменты некоторых порядков r. Эти моменты являются функциями неизвестных параметров θ1,…,θk. С другой стороны, для выборки могут быть рассчитаны выборочные начальные αr\alpha _{r}^{*} и центральные μr\mu _{r}^{*} моменты тех же порядков r.

Метод моментов состоит нахождении такого вектора параметров θ, при котором теоретические моменты равны выборочным моментам, т.е. в разрешении системы уравнений вида:

{αri(θ1,...,θk)=αri,   i=1,2,...μrj(θ1,...,θk)=μrj,   j=1,2,...\begin{cases} {{\alpha }_{{{r}_{i}}}}({{\theta }_{1}},...,{{\theta }_{k}})=\alpha _{{{r}_{i}}}^{*},\ \ \ i=1,2,... \\ {{\mu }_{{{r}_{j}}}}({{\theta }_{1}},...,{{\theta }_{k}})=\mu _{{{r}_{j}}}^{*},\ \ \ j=1,2,... \end{cases}

(1)

Число уравнений в системе (1) равно числу неизвестных параметров k. Для получения оценок по методу моментов, вообще говоря, могут быть выбраны любые моменты произвольных порядков, однако, как правило, на практике используют лишь моменты низших порядков.

Все оценки, рассчитанные по методу моментов, являются состоятельными, однако их несмещённость и эффективность, так же, как и в случае метода подстановки, не гарантированы.

Точечные оценки, полученные по методу моментов, называются ММ-оценками.

Пример 1

3. Метод максимального правдоподобия

Метод максимального правдоподобия (maximum likelihood estimation, MLE) является наиболее популярным методом оценивания неизвестных параметров распределений.

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей распределение FX(x, θ) с вектором неизвестных параметров θ=(θ1,...,θk)\theta =({{\theta }_{1}},...,{{\theta }_{k}}). Функцией правдоподобия выборки x1,…, xn из генеральной совокупности X называется совместная функция плотности распределения случайного вектора X=(X1,...,Xn)X=({{X}_{1}},...,{{X}_{n}}) при условии, что его реализация x=(x1,...,xn)x=({{x}_{1}},...,{{x}_{n}}):

L(x1,...,xn;θ)=fX1...Xn(x1,...,xn;θ)L({{x}_{1}},...,{{x}_{n}};\theta )={{f}_{{{X}_{1}}...{{X}_{n}}}}({{x}_{1}},...,{{x}_{n}};\theta ).

Учитывая, что компоненты X1,…, Xn случайной выборки, реализациями которых являются выборочные значения x 1,…,xn, независимы, многомерная функция плотности есть произведение одномерных функций плотностей:

L(x1,...,xn;θ)=i=1nfXi(xi;θ)=i=1nfX(xi;θ)L({{x}_{1}},...,{{x}_{n}};\theta )=\prod\limits_{i=1}^{n}{{{f}_{{{X}_{i}}}}({{x}_{i}};\theta )}=\prod\limits_{i=1}^{n}{{{f}_{X}}({{x}_{i}};\theta )}.

(2)

В (2) учтено, что все компоненты X1,…, Xn имеют одинаковое распределение, совпадающее с распределением генеральной совокупности X.

Функция правдоподобия выборки x1,…, xn является функцией только вектора неизвестных параметров θ.

Аналогично определяется функция правдоподобия для случая дискретной генеральной совокупности с распределением вероятностей P(x, θ), xP(x,θ)=1\sum\limits_{x}{P(x,\theta )}=1:

L(x1,...,xn;θ)=i=1nP(Xi=xi;θ)=i=1nP(xi;θ)L({{x}_{1}},...,{{x}_{n}};\theta )=\prod\limits_{i=1}^{n}{P({{X}_{i}}={{x}_{i}};\theta )}=\prod\limits_{i=1}^{n}{P({{x}_{i}};\theta )}.

Метод максимального правдоподобия состоит в том, что в качестве оценки вектора неизвестных параметров θ=(θ1,...,θk)\theta =({{\theta }_{1}},...,{{\theta }_{k}}) принимается вектор θ~=(θ~1,...,θ~k)\tilde{\theta }=({{\tilde{\theta }}_{1}},...,{{\tilde{\theta }}_{k}}), доставляющий максимум функции правдоподобия, т.е.

θ~=argmaxθL(x1,...,xn;θ)\tilde{\theta }=\arg \underset{\theta }{\mathop{\max }}\,L({{x}_{1}},...,{{x}_{n}};\theta ).

Иными словами, метод максимального правдоподобия состоит в отыскании такого вектора параметров θ~\tilde{\theta }, при котором данная реализация x1,…, xn случайной выборки X1,…,Xn была бы наиболее вероятной.

Запишем необходимое условие экстремума функции правдоподобия:

L(x1,...,xn;θ)θi=0,   i=1,k\frac{\partial L({{x}_{1}},...,{{x}_{n}};\theta )}{\partial {{\theta }_{i}}}=0,\ \ \ i=\overline{1,k}.

(3)

Это система k уравнений с k неизвестными θ1,…,θk, решая которую, получаем оценки θ~1,...,θ~k{{\tilde{\theta}}_{1}},...,{{\tilde{\theta }}_{k}} неизвестных параметров распределения.

На практике бывает удобно вместо системы уравнений (3) составить систему уравнений

lnL(x1,...,xn;θ)θi=0,   i=1,k\frac{\partial \ln L({{x}_{1}},...,{{x}_{n}};\theta )}{\partial {{\theta }_{i}}}=0,\ \ \ i=\overline{1,k},

которая имеет те же решения. Функция lnL(x1,...,xn;θ)\ln L({{x}_{1}},...,{{x}_{n}};\theta ) называется логарифмической функцией правдоподобия.

Все оценки, рассчитанные по методу максимального правдоподобия, являются состоятельными и, по крайней мере, асимптотически несмещёнными и асимптотически эффективными. Если для неизвестного параметра существует эффективная оценка, то метод максимального правдоподобия даёт именно эту оценку.

Точечные оценки, полученные по методу максимального правдоподобия, называются МП-оценками.

Пример 2

Точечные оценки математического ожидания и дисперсии

1. Оценки математического ожидания

1) Оптимальной оценкой математического ожидания является выборочное среднее

m~=Xˉ\tilde{m}=\bar{X}.

Оценка является несмещённой, состоятельной, эффективной.

2) На практике нередко возникает необходимость быстрой оценки математического ожидания. Такой оценкой может быть

m~=Xmin+Xmax2\tilde{m}=\frac{{{X}_{\min }}+{{X}_{\max }}}{2}.

Оценка является состоятельной и, по крайней мере, асимптотически несмещённой и асимптотически эффективной.

3) В качестве оценки математического ожидания симметричного распределения может быть использована выборочная медиана

m~=x0,5\tilde{m}=x_{0,5}^{*}.

Можно показать, что при больших объёмах выборки распределение статистики X0,5X_{0,5}^{*} аппроксимируется нормальным распределением N(m,σπ2n)N\left( m,\sigma\sqrt{\frac{\pi }{2n}} \right). Таким образом, эффективность выборочной медианы как оценки математического ожидания равна

e(X0,5)=1/In(m)πσ2/2n=σ2/nπσ2/2n=2π64%e(X_{0,5}^{*})=\frac{1/{{I}_{n}}(m)}{\pi {{\sigma }^{2}}/2n}=\frac{{{\sigma }^{2}}/n}{\pi {{\sigma }^{2}}/2n}=\frac{2}{\pi }\approx 64 \%.

Оценка является состоятельной, несмещённой, но неэффективной.

4) Рассмотрим две выборки объёмов n1 и n2 из одной генеральной совокупности. Пусть Xˉ1{{\bar{X}}_{1}} и Xˉ2{{\bar{X}}_{2}} – выборочные средние. Тогда агрегированная оценка математического ожидания генеральной совокупности:

m~=n1Xˉ1+n2Xˉ2n1+n2\tilde{m}=\frac{{{n}_{1}}{{{\bar{X}}}_{1}}+{{n}_{2}}{{{\bar{X}}}_{2}}}{{{n}_{1}}+{{n}_{2}}}

является несмещённой, состоятельной, эффективной.

2. Оценки дисперсии

1) Оптимальной оценкой дисперсии является исправленная выборочная дисперсия:

σ~2=1n1i=1n(XiXˉ)2{{\tilde{\sigma }}^{2}}=\frac{1}{n-1}\sum\limits_{i=1}^{n}{{{({{X}_{i}}-\bar{X})}^{2}}}.

Оценка является несмещённой, состоятельной, эффективной.

2) Выборочная дисперсия

σ~2=1ni=1n(XiXˉ)2{{\tilde{\sigma }}^{2}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{({{X}_{i}}-\bar{X})}^{2}}}.

Оценка является асимптотически несмещённой, состоятельной, асимптотически эффективной.

3) На практике нередко возникает необходимость быстрой оценки дисперсии. Такой оценкой может быть

σ~2=(XmaxXmin5)2{{\tilde{\sigma }}^{2}}={{\left( \frac{{{X}_{\max }}-{{X}_{\min }}}{5} \right)}^{2}}.

Оценка является грубой, для большинства распределений смещённой и неэффективной.

4) В случае если известно математическое ожидание m генеральной совокупности, оптимальной оценкой дисперсии является статистика:

σ~2=1ni=1n(Xim)2{{\tilde{\sigma }}^{2}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{({{X}_{i}}-m)}^{2}}}.

Оценка является несмещённой, состоятельной, эффективной.

5) Рассмотрим две выборки объёмов n1 и n2 из одной генеральной совокупности. Пусть S12S_{1}^{2} и S22S_{2}^{2} – исправленные выборочные дисперсии. Тогда агрегированная оценка дисперсии генеральной совокупности

σ~2=(n11)S12+(n21)S22n1+n22{{\tilde{\sigma }}^{2}}=\frac{({{n}_{1}}-1)S_{1}^{2}+({{n}_{2}}-1)S_{2}^{2}}{{{n}_{1}}+{{n}_{2}}-2}

является несмещённой, состоятельной, эффективной.

Интервальные оценки

Понятие доверительного интервала

Точечная оценка θ~\tilde{\theta } неизвестного параметра θ является случайной величиной, определяемой как некоторая функция случайной выборки X1,…,Xn. Это означает, что для каждой новой реализации x1,…,xn этой выборки точечная оценка θ~\tilde{\theta } каждый раз будет иметь новое значение. Использование точечных оценок не даёт ответа на вопрос, насколько для данной выборки x1,…, xn рассчитанная реализация точечной оценки θ~\tilde{\theta } близка к значению оцениваемого параметра θ. Ответ на этот вопрос могут дать интервальные оценки. Интервальная оценка позволяет получить вероятностную характеристику точности оценивания неизвестного параметра θ.

Пусть X1,…,Xn – случайная выборка объёма n из генеральной совокупности X с функцией распределения FX(x; θ), зависящей от параметра θ, значение которого неизвестно. Доверительным интервалом для параметра θ называется интервал (θ1; θ2), содержащий (накрывающий) истинное значение θ с заданной вероятностью γ, т.е.

P(θ1<θ<θ2)=γP({{\theta }_{1}}<\theta <{{\theta }_{2}})=\gamma ,

(1)

где θ1=θ1(X1,...,Xn){{\theta }_{1}}={{\theta }_{1}}({{X}_{1}},...,{{X}_{n}}) и θ2=θ2(X1,...,Xn){{\theta }_{2}}={{\theta }_{2}}({{X}_{1}},...,{{X}_{n}}) – некоторые статистики. Вероятность γ называется доверительной вероятностью, а вероятность α=1γ\alpha =1-\gamma уровнем значимости. Доверительный интервал с доверительной вероятностью γ называют также γ-доверительным интервалом, или γ-доверительной интервальной оценкой параметра θ. Статистики θ1 и θ2 называются нижней и верхней границами доверительного интервала соответственно.

Доверительный интервал – это интервал со случайными границами θ1 и θ2. Для каждой новой реализации x1,…,xn случайной выборки X1,…,Xn эти случайные величины, а следовательно, и случайные величины θ1, θ2 будут принимать новые значения. Однако, согласно определению, для данной реализации x1,…,xn рассчитанная реализация доверительного интервала (θ1; θ2) накроет истинное значение неизвестного параметра θ с заданной вероятностью γ. Это означает, что доля реализаций случайной выборки X1,…,Xn, для которых доверительный интервал (θ1; θ2) накроет θ, в среднем равна доверительной вероятности γ.

Пример. Исследуется качество партии выпускаемых предприятием изделий. Пусть θ – доля бракованных изделий в партии, которую оценивают независимо друг от друга в N различных лабораториях по результатам обследования нескольких случайно выбранных деталей из партии. Иначе говоря, долю бракованных изделий в партии в каждой лаборатории оценивают по «своей» выборке деталей из партии, и в каждой лаборатории получают свои значения верхней и нижней границ γ-доверительного интервала.

Возможны случаи, когда γ-доверительный интервал не накрывает истинного значения θ. Если M – число таких случаев, то их доля будет стремиться к уровню значимости α при увеличении N, т.е. MNα\frac{M}{N}\to \alpha при NN\to \infty .

Ширина доверительного интервала, характеризующая точность интервального оценивания, зависит от объёма выборки n и доверительной вероятности γ: при увеличении объёма выборки ширина доверительного интервала уменьшается. Причина этого состоит в том, что в выборке большего объёма содержится больше информации об оцениваемом параметре, что позволяет более точно определить область, в которой он находится. При увеличении доверительной вероятности предъявляется более «жёсткое» требование к вероятности нахождения неизвестного параметра внутри доверительного интервала, вследствие чего его ширина увеличивается.

Границы доверительного интервала θ1 и θ2 могут быть выбраны множеством способов. Единственное требование, предъявляемое к этим статистикам – это выполнение условия (1). Однако на практике, как правило, эти статистики выбирают, исходя из некоторых соображений симметрии, которые будут рассмотрены далее.

Иногда требуется оценить параметр θ только снизу или только сверху. При этом, если

P(θ1<θ)=γP({{\theta }_{1}}<\theta )=\gamma ,

то доверительный интервал (θ1; ∞) называется правосторонним, а статистика θ1=θ1(X1,...,Xn){{\theta }_{1}}={{\theta }_{1}}({{X}_{1}},...,{{X}_{n}})односторонней нижней границей доверительного интервала.

Если же

P(θ<θ2)=γP(\theta <{{\theta }_{2}})=\gamma ,

то доверительный интервал (-∞; θ2) называется левосторонним, а статистика θ2=θ2(X1,...,Xn){{\theta }_{2}}={{\theta }_{2}}({{X}_{1}},...,{{X}_{n}})односторонней верхней границей доверительного интервала.

Метод построения доверительных интервалов

Пусть X1,…,Xn – случайная выборка объёма n из генеральной совокупности X с функцией распределения FX(x; θ), зависящей от параметра θ, значение которого неизвестно. Наиболее простым и популярным методом построения доверительного интервала (θ1; θ2) для неизвестного параметра θ является метод, основанный на использовании так называемой центральной статистики.

Центральной статистикой случайной выборки X1,…,Xn называется любая статистика Z=Z(X1,...,Xn;θ)Z=Z({{X}_{1}},...,{{X}_{n}};\theta ), зависящая от неизвестного параметра θ, удовлетворяющая следующим свойствам:

1. закон распределения FZ(z) статистики Z известен и не зависит от θ;

2. статистика Z непрерывна и строго монотонна по θ.

Из определения квантиля следует, что для любой случайной величины, в том числе, и для статистики Z=Z(X1,...,Xn;θ)Z=Z({{X}_{1}},...,{{X}_{n}};\theta ) справедливо равенство:

P(zα/2<Z(X1,...,Xn;θ)<z1α/2)=1αP\left( {{z}_{\alpha /2}}<Z({{X}_{1}},...,{{X}_{n}};\theta )<{{z}_{1-\alpha /2}} \right)=1-\alpha ,

(1)

где zα/2{{z}_{\alpha /2}} и z1α/2{{z}_{1-\alpha /2}} – квантили случайной величины Z на уровнях α/2 и (1­–α/2) соответственно.

При построении односторонних доверительных интервалов рассматриваются другие равенства:

P(zα<Z(X1,...,Xn;θ))=1αP\left( {{z}_{\alpha }}<Z({{X}_{1}},...,{{X}_{n}};\theta ) \right)=1-\alpha ,

(2)

P(Z(X1,...,Xn;θ)<z1α)=1αP\left( Z({{X}_{1}},...,{{X}_{n}};\theta )<{{z}_{1-\alpha }} \right)=1-\alpha .

(3)

Задача нахождения доверительного интервала состоит в разрешении неравенства, стоящего под знаком вероятности в выражении (1) (или выражениях (2), (3)), относительно неизвестного параметра θ. В результате получим эквивалентное выражение:

P(θ1(X1,...,Xn)<θ<θ2(X1,...,Xn))=1αP\left( {{\theta }_{1}}({{X}_{1}},...,{{X}_{n}})<\theta <{{\theta }_{2}}({{X}_{1}},...,{{X}_{n}}) \right)=1-\alpha ,

из которого следует, что интервал (θ1(X1,...,Xn);θ2(X1,...,Xn))\left( {{\theta }_{1}}({{X}_{1}},...,{{X}_{n}});{{\theta }_{2}}({{X}_{1}},...,{{X}_{n}}) \right) является доверительным.

Таким образом, алгоритм построения доверительного интервала для неизвестного параметра θ на основе случайной выборки X1,…,Xn состоит в следующем.

1. Выбор центральной статистики Z=Z(X1,...,Xn;θ)Z=Z({{X}_{1}},...,{{X}_{n}};\theta ) и определение её закона распределения FZ(z). Знание закона распределения необходимо для расчёта квантилей zα/2{{z}_{\alpha /2}} и z1α/2{{z}_{1-\alpha /2}} (или zα и z1-α).

2. Разрешение неравенства под знаком вероятности в выражении (1) (или выражениях (2), (3)) относительно θ.

Очевидно, что для случайной выборки X1,…, Xn в общем случае может быть построено бесконечно много центральных статистик Z. Возникает вопрос, какую центральную статистику выбрать, чтобы полученный с её помощью доверительный интервал был бы наиболее узким, а следовательно, наиболее точным, при фиксированной доверительной вероятности γ=1α\gamma =1-\alpha ?

Как правило, центральные статистики связывают с некоторой точечной оценкой θ~\tilde{\theta } неизвестного параметра θ. Чем меньше дисперсия точечной оценки θ~\tilde{\theta }, тем меньшей дисперсией будет обладать и центральная статистика Z, построенная на основе θ~\tilde{\theta }. А для случайной величины с меньшей дисперсией интервал (zα/2;z1α/2)({{z}_{\alpha /2}};{{z}_{1-\alpha /2}}) будет ýже при прочих равных условиях. Учитывая монотонность зависимости центральной статистики Z от параметра θ, заключаем, что чем ýже интервал (zα/2;z1α/2)({{z}_{\alpha /2}};{{z}_{1-\alpha /2}}), тем ýже доверительный интервал (θ1; θ2). Таким образом, из вышесказанного следует, что центральную статистику Z(X1,...,Xn;θ)Z({{X}_{1}},...,{{X}_{n}};\theta ) целесообразно выбирать связанной с эффективной оценкой θ~(X1,...,Xn)\tilde{\theta}({{X}_{1}},...,{{X}_{n}}) неизвестного параметра θ.

Распределения центральных статистик с различными дисперсиями

Пример 1

Законы распределения некоторых статистик нормальной выборки

Пусть X1,…,Xn – случайная выборка объёма n из нормально распределённой генеральной совокупности N(m, σ). Для вывода выражений для доверительных интервалов найдём законы распределения некоторых статистик, которые могут быть выбраны как центральные.

1. Статистика Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{X}_{i}}} (среднее арифметическое).

В силу композиционной устойчивости нормального распределения статистика Xˉ\bar{X} имеет распределение N(m,σn)N\left( m,\frac{\sigma }{\sqrt{n}} \right).

2. Статистика U=Xˉmσ/n  U=\frac{\bar{X}-m}{{\sigma }/{\sqrt{n}}\;} (стандартизованное среднее арифметическое при известной дисперсии).

Статистика имеет распределение U N(0,1)U\sim{\ }N\left( 0,1 \right).

3. Статистика S02=1ni=1n(Xim)2S_{0}^{2}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{({{X}_{i}}-m)}^{2}}} (оценка дисперсии при известном математическом ожидании).

Для вывода закона распределения домножим и разделим каждое слагаемое на σ2:

S02=1nσ2i=1n(Ximσ)2=1nσ2i=1nUi2S_0^2=\frac{1}{n}{\sigma^2}\sum\limits_{i=1}^n{{{\left( \frac{X_i-m}{\sigma } \right)}^2}}=\frac{1}{n}{{\sigma}^{2}}\sum\limits_{i=1}^n{U_i^2},

где случайные величины Ui, i=1,ni=\overline{1,n}, независимы и имеют стандартизованное нормальное распределение N(0, 1). По определению закона распределения хи-квадрат, случайная величина nσ2S02 χ2(n)\frac{n}{{{\sigma }^{2}}}S_{0}^{2}\sim{\ }{{\chi }^{2}}(n). Далее будем записывать, что статистика S02 σ2nχ2(n)S_{0}^{2}\sim{\ }\frac{{{\sigma }^{2}}}{n}{{\chi }^{2}}(n).

4. Статистика S2=1n1i=1n(XiXˉ)2{{S}^{2}}=\frac{1}{n-1}\sum\limits_{i=1}^{n}{{{({{X}_{i}}-\bar{X})}^{2}}} (оценка дисперсии при неизвестном математическом ожидании).

Теорема Фишера. Пусть X1,…, Xn – независимые случайные величины, имеющие нормальное распределение N(m, σ). Тогда случайные величины Xˉ\bar{X} и S2 независимы, и случайная величина S2 σ2n1χ2(n1){{S}^{2}}\sim{\ }\frac{{{\sigma }^{2}}}{n-1}{{\chi}^{2}}(n-1).

5. Статистика T=XˉmS/n  T=\frac{\bar{X}-m}{{S}/{\sqrt{n}}\;} (стандартизованное среднее арифметическое при неизвестной дисперсии).

Применяя выражение для статистики U, запишем

T=σSXˉmσ/n  =σUS=σUσχ2(n1)/n1=Uχ2(n1)/n1T=\frac{\sigma }{S}\frac{\bar{X}-m}{{\sigma }/{\sqrt{n}}\;}=\frac{\sigma U}{S}=\frac{\sigma U}{\sigma \sqrt{{}^{{{\chi}^{2}}(n-1)}/{}_{n-1}}}=\frac{U}{\sqrt{{}^{{{\chi }^{2}}(n-1)}/{}_{n-1}}}.

По определению закона распределения Стьюдента статистика T T(n1)T\sim{\ }T(n-1).

Запишем теперь законы распределения некоторых статистик, связанных с двумя случайными выборками. Пусть X11,...,X1,n1{{X}_{11}},...,{{X}_{1,{{n}_{1}}}} и X21,...,X2,n2{{X}_{21}},...,{{X}_{2,{{n}_{2}}}} – случайные выборки объёмов n1 и n2 из нормально распределённых генеральных совокупностей N(m1, σ1) и N(m2, σ2) соответственно.

6. Статистика Xˉ=n1Xˉ1+n2Xˉ2n1+n2\bar{X}=\frac{{{n}_{1}}{{{\bar{X}}}_{1}}+{{n}_{2}}{{{\bar{X}}}_{2}}}{{{n}_{1}}+{{n}_{2}}} (агрегированное среднее).

Средние арифметические выборок имеют нормальные распределения Xˉ1 N(m1,σ1n1){{\bar{X}}_{1}}\sim{\ }N\left( {{m}_{1}},\frac{{{\sigma }_{1}}}{\sqrt{{{n}_{1}}}} \right) и Xˉ2 N(m2,σ2n2){{\bar{X}}_{2}}\sim{\ }N\left( {{m}_{2}},\frac{{{\sigma }_{2}}}{\sqrt{{{n}_{2}}}} \right). В связи с композиционной устойчивостью нормального распределения статистика Xˉ\bar{X} также будет иметь нормальное распределение. Применяя свойства операторов математического ожидания и дисперсии, находим его параметры:

M[Xˉ]=1n1+n2(n1M[Xˉ1]+n2M[Xˉ2])=n1m1+n2m2n1+n2\text{M}[\bar{X}]=\frac{1}{{{n}_{1}}+{{n}_{2}}}\left( {{n}_{1}}\text{M}[{{{\bar{X}}}_{1}}]+{{n}_{2}}\text{M}[{{{\bar{X}}}_{2}}]\right)=\frac{{{n}_{1}}{{m}_{1}}+{{n}_{2}}{{m}_{2}}}{{{n}_{1}}+{{n}_{2}}},

D[Xˉ]=1(n1+n2)2(n12D[Xˉ1]+n22D[Xˉ2])=n1σ12+n2σ22(n1+n2)2\text{D}[\bar{X}]=\frac{1}{{{({{n}_{1}}+{{n}_{2}})}^{2}}}\left( n_{1}^{2}\text{D}[{{{\bar{X}}}_{1}}]+n_{2}^{2}\text{D}[{{{\bar{X}}}_{2}}]\right)=\frac{{{n}_{1}}\sigma _{1}^{2}+{{n}_{2}}\sigma _{2}^{2}}{{{({{n}_{1}}+{{n}_{2}})}^{2}}}.

7. Статистика U=n1(Xˉ1m1)+n2(Xˉ2m2)n1σ12+n2σ22U=\frac{{{n}_{1}}({{{\bar{X}}}_{1}}-{{m}_{1}})+{{n}_{2}}({{{\bar{X}}}_{2}}-{{m}_{2}})}{\sqrt{{{n}_{1}}\sigma _{1}^{2}+{{n}_{2}}\sigma_{2}^{2}}} (стандартизованное агрегированное среднее арифметическое при известной дисперсии).

Статистика имеет распределение U N(0,1)U\sim{\ }N\left( 0,1 \right).

8. Статистика S02=n1S012+n2S022n1+n2S_{0}^{2}=\frac{{{n}_{1}}S_{01}^{2}+{{n}_{2}}S_{02}^{2}}{{{n}_{1}}+{{n}_{2}}} (агрегированная оценка дисперсии при известном математическом ожидании).

Если σ1=σ2=σ{{\sigma }_{1}}={{\sigma }_{2}}=\sigma , то статистика имеет распределение S02 σ2n1+n2χ2(n1+n2)S_{0}^{2}\sim{\ }\frac{{{\sigma }^{2}}}{{{n}_{1}}+{{n}_{2}}}{{\chi}^{2}}({{n}_{1}}+{{n}_{2}}).

9. Статистика S2=(n11)S12+(n21)S22n1+n22{{S}^{2}}=\frac{({{n}_{1}}-1)S_{1}^{2}+({{n}_{2}}-1)S_{2}^{2}}{{{n}_{1}}+{{n}_{2}}-2} (агрегированная оценка дисперсии при неизвестном математическом ожидании).

Если σ1=σ2=σ{{\sigma }_{1}}={{\sigma }_{2}}=\sigma , то статистика имеет распределение S2 σ2n1+n22χ2(n1+n22){{S}^{2}}\sim{\ }\frac{{{\sigma}^{2}}}{{{n}_{1}}+{{n}_{2}}-2}{{\chi }^{2}}({{n}_{1}}+{{n}_{2}}-2).

10. Статистика Δ=Xˉ1Xˉ2\Delta ={{\bar{X}}_{1}}-{{\bar{X}}_{2}} (разность средних при известных дисперсиях).

В связи с композиционной устойчивостью нормального распределения статистика Δ будет иметь нормальное распределение. Применяя свойства операторов математического ожидания и дисперсии, находим его параметры:

M[Δ]=M[Xˉ1]M[Xˉ2]=m1m2\text{M}[\Delta ]=\text{M}[{{\bar{X}}_{1}}]-\text{M}[{{\bar{X}}_{2}}]={{m}_{1}}-{{m}_{2}},

D[Δ]=D[Xˉ1]+D[Xˉ2]=σ12n1+σ22n2\text{D}[\Delta ]=\text{D}[{{\bar{X}}_{1}}]+\text{D}[{{\bar{X}}_{2}}]=\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma _{2}^{2}}{{{n}_{2}}}.

11. Статистика U=(Xˉ1Xˉ2)(m1m2)σ12n1+σ22n2U=\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{\sqrt{\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma_{2}^{2}}{{{n}_{2}}}}} (стандартизованная разность средних при известных дисперсиях).

Статистика имеет распределение U N(0,1)U\sim{\ }N\left( 0,1 \right).

В частном случае, если σ1=σ2=σ{{\sigma }_{1}}={{\sigma }_{2}}=\sigma , то

U=(Xˉ1Xˉ2)(m1m2)σ1n1+1n2U=\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{\sigma \sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}}}.

12. Статистика T=(Xˉ1Xˉ2)(m1m2)S1n1+1n2T=\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{S\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}}} (стандартизованная разность средних при неизвестных дисперсиях).

Если σ1=σ2=σ{{\sigma }_{1}}={{\sigma }_{2}}=\sigma , то

T=σS(Xˉ1Xˉ2)(m1m2)σ1n1+1n2=σUS=T=\frac{\sigma }{S}\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{\sigma\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}}}=\frac{\sigma U}{S}=

=σUσ2n1+n22χ2(n1+n22)=Uχ2(n1+n22)n1+n22=\frac{\sigma U}{\sqrt{\frac{\sigma^2}{n_1+n_2-2}\chi^2(n_1+n_2-2)}}=\frac{U}{\sqrt{\frac{\chi^2(n_1+n_2-2)}{n_1+n_2-2}}}.

По определению закона распределения Стьюдента статистика T T(n1+n22)T\sim{\ }T({{n}_{1}}+{{n}_{2}}-2).

13. Статистика F0=S012/σ12S022/σ22{{F}_{0}}=\frac{S_{01}^{2}/\sigma _{1}^{2}}{S_{02}^{2}/\sigma _{2}^{2}} (стандартизованное отношение дисперсий при известном математическом ожидании).

Применяя выражение для статистики S02S_{0}^{2}, запишем:

F0=σ12n1χ2(n1)/σ12σ22n2χ2(n2)/σ22=χ2(n1)/n1χ2(n2)/n2{{F}_{0}}=\frac{\frac{\sigma _{1}^{2}}{{{n}_{1}}}{{\chi }^{2}}({{n}_{1}})/\sigma _{1}^{2}}{\frac{\sigma _{2}^{2}}{{{n}_{2}}}{{\chi}^{2}}({{n}_{2}})/\sigma _{2}^{2}}=\frac{{{\chi }^{2}}({{n}_{1}})/{{n}_{1}}}{{{\chi }^{2}}({{n}_{2}})/{{n}_{2}}} .

По определению закона распределения Фишера статистика F0 F(n1,n2){{F}_{0}}\sim{\ }F({{n}_{1}},{{n}_{2}}).

14. Статистика F=S12/σ12S22/σ22F=\frac{S_{1}^{2}/\sigma _{1}^{2}}{S_{2}^{2}/\sigma _{2}^{2}} (стандартизованное отношение дисперсий при не известном математическом ожидании).

Применяя выражение для статистики S2S_{{}}^{2} (см. п.4), запишем:

F=σ12n11χ2(n11)/σ12σ22n21χ2(n21)/σ22=χ2(n11)/(n11)χ2(n21)/(n21)F=\frac{\frac{\sigma _{1}^{2}}{{{n}_{1}}-1}{{\chi }^{2}}({{n}_{1}}-1)/\sigma _{1}^{2}}{\frac{\sigma _{2}^{2}}{{{n}_{2}}-1}{{\chi}^{2}}({{n}_{2}}-1)/\sigma _{2}^{2}}=\frac{{{\chi }^{2}}({{n}_{1}}-1)/({{n}_{1}}-1)}{{{\chi }^{2}}({{n}_{2}}-1)/({{n}_{2}}-1)} .

По определению закона распределения Фишера статистика F F(n11,n21)F\sim{\ }F({{n}_{1}}-1,{{n}_{2}}-1).

Построение интервальных оценок параметров нормального распределения

Пусть X1,…,Xn – случайная выборка объёма n из нормально распределённой генеральной совокупности N(m, σ). Рассмотрим варианты построения доверительных интервалов для математического ожидания m и дисперсии σ2.

1. Доверительный интервал для математического ожидания m при известной дисперсии σ2.

В качестве центральной статистики выберем стандартизованное среднее U=Xˉmσ/n   N(0,1)U=\frac{\bar{X}-m}{{\sigma }/{\sqrt{n}}\;}\sim{\ }N(0,1). При таком выборе центральной статистики доверительный интервал для математического ожидания на уровне значимости α имеет вид:

(Xˉσnu1α/2;Xˉ+σnu1α/2)\left( \bar{X}-\frac{\sigma }{\sqrt{n}}{{u}_{1-\alpha /2}};\bar{X}+\frac{\sigma }{\sqrt{n}}{{u}_{1-\alpha /2}} \right).

2. Доверительный интервал для математического ожидания m при неизвестной дисперсии σ2.

В качестве центральной статистики выберем стандартизованное среднее T=XˉmS/n   T(n1)T=\frac{\bar{X}-m}{{S}/{\sqrt{n}}\;}\sim{\ }T(n-1). Запишем тождество (1*) для статистики T:

P(tα/2(n1)<XˉmS/n  <t1α/2(n1))=1αP\left( {{t}_{\alpha /2}}(n-1)<\frac{\bar{X}-m}{{S}/{\sqrt{n}}\;}<{{t}_{1-\alpha /2}}(n-1) \right)=1-\alpha ,

где tα/2(n1){{t}_{\alpha /2}}(n-1) и t1α/2(n1){{t}_{1-\alpha /2}}(n-1) – квантили распределения Стьюдента с n–1 степенями свободы на уровнях α/2 и 1­–α/2 соответственно.

Разрешая неравенство под знаком вероятности относительно m и учитывая симметричность распределения Стьюдента, получим:

P(XˉSnt1α/2(n1)<m<Xˉ+Snt1α/2(n1))=1αP\left( \bar{X}-\frac{S}{\sqrt{n}}{{t}_{1-\alpha /2}}(n-1)<m<\bar{X}+\frac{S}{\sqrt{n}}{{t}_{1-\alpha /2}}(n-1) \right)=1-\alpha ,

откуда следует, что интервал

(XˉSnt1α/2(n1);Xˉ+Snt1α/2(n1))\left( \bar{X}-\frac{S}{\sqrt{n}}{{t}_{1-\alpha /2}}(n-1);\bar{X}+\frac{S}{\sqrt{n}}{{t}_{1-\alpha /2}}(n-1) \right)

является доверительным для m на уровне значимости α.

3. Доверительный интервал для дисперсии σ2 при известном математическом ожидании m.

В качестве центральной статистики выберем статистику nσ2S02 χ2(n)\frac{n}{{{\sigma }^{2}}}S_{0}^{2}\sim{\ }{{\chi }^{2}}(n). Запишем тождество (1*):

P(χα/22(n)<nσ2S02<χ1α/22(n))=1αP\left( \chi _{\alpha /2}^{2}(n)<\frac{n}{{{\sigma }^{2}}}S_{0}^{2}<\chi _{1-\alpha /2}^{2}(n) \right)=1-\alpha ,

где χα/22(n)\chi _{\alpha /2}^{2}(n) и χ1α/22(n)\chi _{1-\alpha /2}^{2}(n) – квантили распределения хи-квадрат с n степенями свободы на уровнях α/2 и 1­–α/2 соответственно.

Разрешая неравенство под знаком вероятности относительно σ2, получим:

P(nS02χ1α/22(n)<σ2<nS02χα/22(n))=1αP\left( \frac{nS_{0}^{2}}{\chi _{1-\alpha /2}^{2}(n)}<{{\sigma }^{2}}<\frac{nS_{0}^{2}}{\chi _{\alpha /2}^{2}(n)} \right)=1-\alpha ,

откуда следует, что интервал (nS02χ1α/22(n);nS02χα/22(n))\left( \frac{nS_{0}^{2}}{\chi _{1-\alpha /2}^{2}(n)};\frac{nS_{0}^{2}}{\chi _{\alpha /2}^{2}(n)} \right) является доверительным для σ2 на уровне значимости α.

4. Доверительный интервал для дисперсии σ2 при неизвестном математическом ожидании m.

В качестве центральной статистики выберем статистику n1σ2S2 χ2(n1)\frac{n-1}{{{\sigma }^{2}}}{{S}^{2}}\sim{\ }{{\chi }^{2}}(n-1). Запишем тождество (1*):

P(χα/22(n1)<n1σ2S2<χ1α/22(n1))=1αP\left( \chi _{\alpha /2}^{2}(n-1)<\frac{n-1}{{{\sigma }^{2}}}{{S}^{2}}<\chi _{1-\alpha /2}^{2}(n-1) \right)=1-\alpha ,

где χα/22(n1)\chi _{\alpha /2}^{2}(n-1) и χ1α/22(n1)\chi _{1-\alpha /2}^{2}(n-1) – квантили распределения хи-квадрат с n-1 степенями свободы на уровнях α/2 и 1­–α/2 соответственно.

Разрешая неравенство под знаком вероятности относительно σ2, получим:

P((n1)S2χ1α/22(n1)<σ2<(n1)S2χα/22(n1))=1αP\left( \frac{(n-1)S_{{}}^{2}}{\chi _{1-\alpha /2}^{2}(n-1)}<{{\sigma }^{2}}<\frac{(n-1)S_{{}}^{2}}{\chi _{\alpha /2}^{2}(n-1)} \right)=1-\alpha,

откуда следует, что интервал ((n1)S2χ1α/22(n1);(n1)S2χα/22(n1))\left( \frac{(n-1)S_{{}}^{2}}{\chi _{1-\alpha /2}^{2}(n-1)};\frac{(n-1)S_{{}}^{2}}{\chi _{\alpha /2}^{2}(n-1)} \right) является доверительным для σ2 на уровне значимости α.

Рассмотрим теперь варианты построения доверительных интервалов, связанных с двумя выборками. Пусть X11,...,X1,n1{{X}_{11}},...,{{X}_{1,{{n}_{1}}}} и X21,...,X2,n2{{X}_{21}},...,{{X}_{2,{{n}_{2}}}} – случайные выборки объёмов n1 и n2 из нормально распределённых генеральных совокупностей N(m1, σ1) и N(m2, σ2) соответственно.

5. Доверительный интервал для разности математических ожиданий m1m2 при известных дисперсиях σ12\sigma _{1}^{2} и σ22\sigma _{2}^{2}.

В качестве центральной статистики выберем стандартизованную разность средних при известных дисперсиях:

U=(Xˉ1Xˉ2)(m1m2)σ12n1+σ22n2N(0,1)U=\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{\sqrt{\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma _{2}^{2}}{{{n}_{2}}}}}\sim N(0,1).

Запишем тождество (1*):

P(uα/2<(Xˉ1Xˉ2)(m1m2)σ12n1+σ22n2<u1α/2)=1αP\left( {{u}_{\alpha /2}}<\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{\sqrt{\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma_{2}^{2}}{{{n}_{2}}}}}<{{u}_{1-\alpha /2}} \right)=1-\alpha ,

где uα/2{{u}_{\alpha /2}} и u1α/2{{u}_{1-\alpha /2}} – квантили стандартизованного нормального распределения на уровнях α/2 и 1­–α/2 соответственно.

Разрешая неравенство под знаком вероятности относительно m1m2 и учитывая симметричность нормального распределения, получим:

P((Xˉ1Xˉ2)u1α/2σ12n1+σ22n2<m1m2<P\left( ({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-{{u}_{1-\alpha /2}}\sqrt{\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma_{2}^{2}}{{{n}_{2}}}}<{{m}_{1}}-{{m}_{2}}< \right.

<(Xˉ1Xˉ2)+u1α/2σ12n1+σ22n2)=1α<\left.({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})+{{u}_{1-\alpha/2}}\sqrt{\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma _{2}^{2}}{{{n}_{2}}}} \right)=1-\alpha,

откуда следует, что интервал

((Xˉ1Xˉ2)u1α/2σ12n1+σ22n2;(Xˉ1Xˉ2)+u1α/2σ12n1+σ22n2)\left( ({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-{{u}_{1-\alpha /2}}\sqrt{\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma_{2}^{2}}{{{n}_{2}}}};({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})+{{u}_{1-\alpha /2}}\sqrt{\frac{\sigma _{1}^{2}}{{{n}_{1}}}+\frac{\sigma _{2}^{2}}{{{n}_{2}}}}\right)

является доверительным для m1m2 на уровне значимости α.

6. Доверительный интервал для разности математических ожиданий m1 m2 при неизвестных равных дисперсиях σ=σ12=σ22\sigma =\sigma _{1}^{2}=\sigma _{2}^{2}.

В качестве центральной статистики выберем стандартизованную разность средних при неизвестных равных дисперсиях

T=(Xˉ1Xˉ2)(m1m2)S1n1+1n2T(n1+n22)T=\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{S\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}}}\sim T({{n}_{1}}+{{n}_{2}}-2).

Запишем тождество (1*):

P(tα/2(n1+n22)<(Xˉ1Xˉ2)(m1m2)S1n1+1n2<P\left( {{t}_{\alpha /2}}({{n}_{1}}+{{n}_{2}}-2)<\right.\frac{({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-({{m}_{1}}-{{m}_{2}})}{S\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}}}<

<t1α/2(n1+n22))=1α\left.<{{t}_{1-\alpha/2}}({{n}_{1}}+{{n}_{2}}-2) \right)=1-\alpha,

где tα/2(n1+n22){{t}_{\alpha /2}}({{n}_{1}}+{{n}_{2}}-2) и t1α/2(n1+n22){{t}_{1-\alpha /2}}({{n}_{1}}+{{n}_{2}}-2) – квантили распределения Стьюдента с n1+n2–2 степенями свободы на уровнях α/2 и 1­–α/2 соответственно.

Разрешая неравенство под знаком вероятности относительно m1m2 и учитывая симметричность распределения Стьюдента, получим:

P((Xˉ1Xˉ2)t1α/2(n1+n22)S1n1+1n2<m1m2<P\left( ({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-{{t}_{1-\alpha/2}}({{n}_{1}}+{{n}_{2}}-2)S\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}}<{{m}_{1}}-{{m}_{2}}< \right.

<(Xˉ1Xˉ2)+t1α/2(n1+n22)S1n1+1n2)=1α\left. <({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})+{{t}_{1-\alpha /2}}({{n}_{1}}+{{n}_{2}}-2)S\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}}\right)=1-\alpha,

откуда следует, что интервал

((Xˉ1Xˉ2)t1α/2(n1+n22)S1n1+1n2\left( ({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})-{{t}_{1-\alpha /2}}({{n}_{1}}+{{n}_{2}}-2)S\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}} \right.;

(Xˉ1Xˉ2)+t1α/2(n1+n22)S1n1+1n2)\left. ({{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}})+{{t}_{1-\alpha/2}}({{n}_{1}}+{{n}_{2}}-2)S\sqrt{\frac{1}{{{n}_{1}}}+\frac{1}{{{n}_{2}}}} \right)

является доверительным для m1m2 на уровне значимости α.

7. Доверительный интервал для отношения дисперсий σ12/σ22\sigma _{1}^{2}/\sigma _{2}^{2} при известных математических ожиданиях m1 и m2.

В качестве центральной статистики выберем статистику F0=S012/σ12S022/σ22F(n1,n2){{F}_{0}}=\frac{S_{01}^{2}/\sigma _{1}^{2}}{S_{02}^{2}/\sigma _{2}^{2}}\sim F({{n}_{1}},{{n}_{2}}).

Запишем тождество (1*):

P(fα/2(n1,n2)<S012/σ12S022/σ22<f1α/2(n1,n2))=1αP\left( {{f}_{\alpha /2}}({{n}_{1}},{{n}_{2}})<\frac{S_{01}^{2}/\sigma _{1}^{2}}{S_{02}^{2}/\sigma _{2}^{2}}<{{f}_{1-\alpha/2}}({{n}_{1}},{{n}_{2}}) \right)=1-\alpha ,

где fα/2(n1,n2){{f}_{\alpha /2}}({{n}_{1}},{{n}_{2}}) и f1α/2(n1,n2){{f}_{1-\alpha /2}}({{n}_{1}},{{n}_{2}}) – квантили распределения Фишера с n1 и n2 степенями свободы в числителе и в знаменателе на уровнях α/2 и 1­–α/2 соответственно.

Разрешая неравенство под знаком вероятности относительно σ12/σ22\sigma _{1}^{2}/\sigma _{2}^{2} и учитывая, что fα/2(n1,n2)=1f1α/2(n2,n1){{f}_{\alpha/2}}({{n}_{1}},{{n}_{2}})=\frac{1}{{{f}_{1-\alpha /2}}({{n}_{2}},{{n}_{1}})}, получим:

P(S012S022fα/2(n2,n1)<σ12σ22<S012S022f1α/2(n2,n1))=1αP\left( \frac{S_{01}^{2}}{S_{02}^{2}}f_{\alpha /2}^{{}}({{n}_{2}},{{n}_{1}})<\frac{\sigma _{1}^{2}}{\sigma_{2}^{2}}<\frac{S_{01}^{2}}{S_{02}^{2}}f_{1-\alpha /2}^{{}}({{n}_{2}},{{n}_{1}}) \right)=1-\alpha ,

откуда следует, что интервал

(S012S022fα/2(n2,n1);S012S022f1α/2(n2,n1))\left( \frac{S_{01}^{2}}{S_{02}^{2}}f_{\alpha /2}^{{}}({{n}_{2}},{{n}_{1}});\frac{S_{01}^{2}}{S_{02}^{2}}f_{1-\alpha /2}^{{}}({{n}_{2}},{{n}_{1}})\right)

является доверительным для σ12/σ22\sigma _{1}^{2}/\sigma _{2}^{2} на уровне значимости α.

8. Доверительный интервал для отношения дисперсий σ12/σ22\sigma _{1}^{2}/\sigma _{2}^{2} при неизвестных математических ожиданиях m1 и m2.

В качестве центральной статистики выберем статистику F0=S12/σ12S22/σ22F(n11,n21){{F}_{0}}=\frac{S_{1}^{2}/\sigma _{1}^{2}}{S_{2}^{2}/\sigma _{2}^{2}}\sim F({{n}_{1}}-1,{{n}_{2}}-1).

Запишем тождество (1*):

P(fα/2(n11,n21)<S12/σ12S22/σ22<f1α/2(n11,n21))=1αP\left( {{f}_{\alpha /2}}({{n}_{1}}-1,{{n}_{2}}-1)<\frac{S_{1}^{2}/\sigma _{1}^{2}}{S_{2}^{2}/\sigma _{2}^{2}}<{{f}_{1-\alpha/2}}({{n}_{1}}-1,{{n}_{2}}-1) \right)=1-\alpha ,

где fα/2(n11,n21){{f}_{\alpha /2}}({{n}_{1}}-1,{{n}_{2}}-1) и f1α/2(n11,n21){{f}_{1-\alpha /2}}({{n}_{1}}-1,{{n}_{2}}-1) – квантили распределения Фишера с n1–1 и n2–1 степенями свободы в числителе и в знаменателе на уровнях α/2 и 1­–α/2 соответственно.

Разрешая неравенство под знаком вероятности относительно σ12/σ22\sigma _{1}^{2}/\sigma _{2}^{2} и учитывая, что fα/2(n1,n2)=1f1α/2(n2,n1){{f}_{\alpha/2}}({{n}_{1}},{{n}_{2}})=\frac{1}{{{f}_{1-\alpha /2}}({{n}_{2}},{{n}_{1}})}, получим:

P(S12S22fα/2(n21,n11)<σ12σ22<S12S22f1α/2(n21,n11))=1αP\left( \frac{S_{1}^{2}}{S_{2}^{2}}f_{\alpha /2}^{{}}({{n}_{2}}-1,{{n}_{1}}-1)<\frac{\sigma _{1}^{2}}{\sigma_{2}^{2}}<\frac{S_{1}^{2}}{S_{2}^{2}}f_{1-\alpha /2}^{{}}({{n}_{2}}-1,{{n}_{1}}-1) \right)=1-\alpha ,

откуда следует, что интервал

(S12S22fα/2(n21,n11);S12S22f1α/2(n21,n11))\left( \frac{S_{1}^{2}}{S_{2}^{2}}f_{\alpha /2}^{{}}({{n}_{2}}-1,{{n}_{1}}-1);\frac{S_{1}^{2}}{S_{2}^{2}}f_{1-\alpha /2}^{{}}({{n}_{2}}-1,{{n}_{1}}-1)\right)

является доверительным для σ12/σ22\sigma _{1}^{2}/\sigma _{2}^{2} на уровне значимости α.

Пример 1

Пример 2

Интервальная оценка вероятности «успеха» в схеме Бернулли

Пусть проводится серия из n испытаний по схеме Бернулли, и Xi, i=1,ni=\overline{1,n}, – исход i-го испытания (Xi = 1, если «успех», и Xi = 0, если «отказ»). По данным случайной выборки X1,…,Xn построим доверительный интервал для вероятности p успеха в каждом отдельном испытании.

Рассмотрим число «успехов» в серии из n испытаний, т.е. введём случайную величину

K=X1+...+XnK={{X}_{1}}+...+{{X}_{n}},

которая имеет биномиальное распределение K B(n,p)K\sim{\ }B(n,p). Математическое ожидание mK=np{{m}_{K}}=np и дисперсия dK=np(1p){{d}_{K}}=np(1-p).

В соответствии с предельной теоремой Муавра-Лапласа при больших объёмах n случайной выборки статистика K имеет закон распределения, близкий к нормальному: K N(np,np(1p))K\sim{\ }N\left( np,\sqrt{np(1-p)} \right).

Для построения доверительного интервала введём центральную статистику:

U=Knpnp(1p)U=\frac{K-np}{\sqrt{np(1-p)}}.

Статистика представляет собой стандартизованное число «успехов» в серии из n испытаний и при больших n имеет распределение, близкое к N(0, 1).

Запишем тождество (1*) для статистики U:

P(uα/2<Knpnp(1p)<u1α/2)=1αP\left( {{u}_{\alpha /2}}<\frac{K-np}{\sqrt{np(1-p)}}<{{u}_{1-\alpha /2}} \right)=1-\alpha ,

где uα/2{{u}_{\alpha /2}} и u1α/2{{u}_{1-\alpha /2}} – квантили стандартизованного нормального распределения на уровнях α/2 и 1­–α/2 соответственно. Преобразуя неравенство под знаком вероятности, запишем:

P(Knu1α/2p(1p)n<p<Kn+u1α/2p(1p)n)=1αP\left( \frac{K}{n}-{{u}_{1-\alpha /2}}\sqrt{\frac{p(1-p)}{n}}<p<\frac{K}{n}+{{u}_{1-\alpha /2}}\sqrt{\frac{p(1-p)}{n}} \right)=1-\alpha .

Это выражение ещё не даёт интервальной оценки параметра p, так как левая и правая части неравенства под знаком вероятности содержат этот параметр. На практике в указанные части неравенства подставляют вместо неизвестного точного значения p его эффективную оценку H=KnH=\frac{K}{n}. В результате получают следующий интервал для вероятности p:

(Hu1α/2H(1H)n;H+u1α/2H(1H)n)\left( H-{{u}_{1-\alpha /2}}\sqrt{\frac{H(1-H)}{n}};H+{{u}_{1-\alpha /2}}\sqrt{\frac{H(1-H)}{n}} \right),

являющийся доверительным на уровне значимости α.

Указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах наблюдений n.

Пример 1

Пусть теперь проводятся две серии испытаний по схеме Бернулли, и требуется построить доверительный интервал для разности вероятностей «успехов» p1 и p2 в этих сериях. Случайные величины K1=X1+...+Xn1{{K}_{1}}={{X}_{1}}+...+{{X}_{{{n}_{1}}}} и K2=Y1+...+Yn2{{K}_{2}}={{Y}_{1}}+...+{{Y}_{{{n}_{2}}}}, означающие число «успехов» в первой и второй сериях соответственно, имеют биномиальные распределения K1 B(n1,p1){{K}_{1}}\sim{\ }B({{n}_{1}},{{p}_{1}}), K2 B(n2,p2){{K}_{2}}\sim{\ }B({{n}_{2}},{{p}_{2}}), где n1 и n2 – число испытаний в сериях.

В соответствии с предельной теоремой Муавра-Лапласа при больших объёмах n1 и n2 случайных выборок статистики K1 и K2 имеют законы распределения, близкие к нормальному: K1 N(n1p1,n1p1(1p1)){{K}_{1}}\sim{\ }N\left({{n}_{1}}{{p}_{1}},\sqrt{{{n}_{1}}{{p}_{1}}(1-{{p}_{1}})} \right), K2 N(n2p2,n2p2(1p2)){{K}_{2}}\sim{\ }N\left( {{n}_{2}}{{p}_{2}},\sqrt{{{n}_{2}}{{p}_{2}}(1-{{p}_{2}})}\right). Перейдём от числа «успехов» K1 и K2 к относительным частотам «успехов» H1 и H2:

H1=K1n1 N(p1,p1(1p1)n1){{H}_{1}}=\frac{{{K}_{1}}}{{{n}_{1}}}\sim{\ }N\left( {{p}_{1}},\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}} \right) ,

H2=K2n2 N(p2,p2(1p2)n2){{H}_{2}}=\frac{{{K}_{2}}}{{{n}_{2}}}\sim{\ }N\left( {{p}_{2}},\sqrt{\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right) .

В силу композиционной устойчивости нормального распределения, разность относительных частот H=H1H2H={{H}_{1}}-{{H}_{2}} также будет иметь нормальное распределение:

H N(p1p2,p1(1p1)n1+p2(1p2)n2)H\sim{\ }N\left( {{p}_{1}}-{{p}_{2}},\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right).

Для построения доверительного интервала введём центральную статистику:

U=H(p1p2)p1(1p1)n1+p2(1p2)n2U=\frac{H-\left( {{p}_{1}}-{{p}_{2}} \right)}{\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}}.

Статистика представляет собой стандартизованную разность числа «успехов» в двух сериях испытаний и при больших n1 и n2 имеет распределение, близкое к N(0, 1).

Запишем тождество (1*) для статистики U:

P(uα/2<H(p1p2)p1(1p1)n1+p2(1p2)n2<u1α/2)=1αP\left( {{u}_{\alpha /2}}<\frac{H-\left( {{p}_{1}}-{{p}_{2}}\right)}{\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}}<{{u}_{1-\alpha /2}} \right)=1-\alpha ,

где uα/2{{u}_{\alpha /2}} и u1α/2{{u}_{1-\alpha /2}} – квантили стандартизованного нормального распределения на уровнях α/2 и 1­–α/2 соответственно. Преобразуя неравенство под знаком вероятности, запишем:

P(Hu1α/2p1(1p1)n1+p2(1p2)n2<p1p2<P\left( H-{{u}_{1-\alpha /2}}\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}<{{p}_{1}}-{{p}_{2}}<\right.

<H+u1α/2p1(1p1)n1+p2(1p2)n2)=1α<\left. H+{{u}_{1-\alpha/2}}\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right)=1-\alpha.

Это выражение ещё не даёт интервальной оценки разности вероятностей p1p2, так как левая и правая части неравенства под знаком вероятности содержат эти параметры. На практике в указанные части неравенства подставляют вместо неизвестных точных значений p1 и p2 их эффективные оценки H1=K1n1{{H}_{1}}=\frac{{{K}_{1}}}{{{n}_{1}}} и H2=K2n2{{H}_{2}}=\frac{{{K}_{2}}}{{{n}_{2}}}. В результате получают следующий интервал для разности вероятностей p1p 2:

(H1H2u1α/2H1(1H1)n1+H2(1H2)n2;\left( {{H}_{1}}-{{H}_{2}}-{{u}_{1-\alpha /2}}\sqrt{\frac{{{H}_{1}}(1-{{H}_{1}})}{{{n}_{1}}}+\frac{{{H}_{2}}(1-{{H}_{2}})}{{{n}_{2}}}}; \right.

H1H2+u1α/2H1(1H1)n1+H2(1H2)n2)\left. {{H}_{1}}-{{H}_{2}}+{{u}_{1-\alpha/2}}\sqrt{\frac{{{H}_{1}}(1-{{H}_{1}})}{{{n}_{1}}}+\frac{{{H}_{2}}(1-{{H}_{2}})}{{{n}_{2}}}} \right),

являющийся доверительным на уровне значимости α.

Указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах наблюдений n1 и n2.

Проверка статистических гипотез

Основные понятия и определения

В практических задачах часто требуется проверить то или иное предположение относительно каких-нибудь свойств закона распределения наблюдаемой случайной величины X. Для проверки этого предположения исследователь проводит эксперимент, в результате которого получает реализацию x1,...,xn случайной выборки X1,...,Xn из генеральной совокупности X. По этим данным ему нужно дать ответ на вопрос: согласуется ли его гипотеза с результатами эксперимента или нет? Другими словами, исследователю нужно решить, можно ли принять выдвинутую гипотезу или её нужно отклонить как противоречащую результатам эксперимента.

Любое предположение относительно параметров или закона распределения наблюдаемой случайной величины (или нескольких величин) называется статистической гипотезой. Проверяемую статистическую гипотезу также называют основной, или нулевой, статистической гипотезой и, как правило, обозначают H0.

Наряду с проверяемой статистической гипотезой H0 выдвигают также конкурирующую гипотезу, противоречащую H0. Конкурирующая гипотеза называется альтернативной и, как правило, обозначается H1 или H’. Если в результате статистического анализа делается вывод, что основная гипотеза H0 должна быть отвергнута, то решение принимается в пользу альтернативной гипотезы H’. В простейшем случае альтернативная гипотеза – это отрицание основной гипотезы.

Статистическая гипотеза H0 называется простой, если она однозначно определяет параметр или распределение наблюдаемой случайной величины X. В противном случае гипотеза H0 называется сложной.

Если статистическая гипотеза H0 представляет собой утверждение о некотором параметре q известного распределения случайной величины X, то гипотеза называется параметрической. В противном случае гипотеза называется непараметрической.

Пример 1

Пример 2

Статистическое решение, т.е. решение о принятии или отклонении основной гипотезы H0, проводится в соответствии с некоторым критерием.

Статистическим критерием, или решающим правилом, при проверке статистической гипотезы H0 называется правило, в соответствии с которым гипотеза H0 принимается или отвергается.

Статистическая гипотеза – это всегда утверждение о свойствах наблюдаемой генеральной совокупности, а задача проверки статистической гипотезы состоит в проверке соответствия результатов эксперимента x1,...,xn выдвинутой гипотезе. Иными словами, задача проверки статистической гипотезы состоит в ответе на вопрос: могло ли случиться так, что выборка x1,..., xn была получена из генеральной совокупности с указанными в гипотезе свойствами?

Как правило, статистический критерий связывают с некоторой статистикой Z, являющейся функцией случайной выборки X1,...,Xn. Эта статистика служит мерой, насколько наблюдаемые выборочные значения могли быть получены из генеральной совокупности с указанными в основной гипотезе свойствами. Вопрос о том, какую статистику Z следует взять для проверки той или иной статистической гипотезы, не имеет однозначного ответа. Это может быть любая статистика, удовлетворяющая следующим требованиям:

1) закон распределения FZ(z | H0) при условии истинности основной гипотезы H0 должен быть известен;

2) закон распределения должен быть чувствителен к факту справедливости основной или альтернативной гипотезы, т.е. законы распределения FZ(z | H0) и FZ(z | H’) должны существенно различаться.

Для реализации x1,...,xn случайной выборки X1,...,Xn, статистика Z примет реализацию z. Предположим, что гипотеза H0 верна. В связи с тем, что закон распределения статистики Z при условии истинности основной гипотезы H0 известен, то возможно рассчитать вероятность её попадания в некоторую окрестность точки z. Если эта вероятность высока, это означает, что ничто не противоречит предположению об истинности гипотезы H0. Если же эта вероятность мала или близка к нулю, то это может означать один из двух вариантов:

1) в условиях основной гипотезы H0 произошло практически невозможное событие;

2) статистика Z на самом деле имеет некоторый другой закон распределения, отличный от FZ(z | H0), при котором вероятность её попадания в окрестность точки z много больше нуля. Это означает, что предположение об истинности гипотезы H0 сделано неверно.

Статистика Z=Z(X1,...,Xn) Z=Z({{X}_{1}},...,{{X}_{n}}) , на основе реализации которой z=Z(x1,...,xn)z=Z({{x}_{1}},...,{{x}_{n}}) выдвигается статистическое решение, называется статистикой критерия (test statistics). Реализация статистики критерия z=Z(x1,...,xn)z=Z({{x}_{1}},...,{{x}_{n}}), рассчитанная для выборки x1,...,xn, называется выборочным значением статистики критерия.

Проверка статистических гипотез основывается на принципе, в соответствии с которым маловероятные события относительно статистики критерия Z считаются невозможными. В соответствии с этим принципом, если вероятность попадания статистики критерия Z в окрестность рассчитанного выборочного значения z мала, то должен выбираться вариант 2), т.е. основная гипотеза H0 отклоняется.

Область Ω0 наиболее вероятных значений статистики критерия Z, при попадании выборочных значений z в которую основная гипотеза H0 принимается, называется областью допустимых значений статистики критерия Z.

Область Ω’ маловероятных значений статистики критерия Z, при попадании выборочных значений z которую основная гипотеза H0 отклоняется, называется критической областью значений статистики критерия Z. Множество Ω0Ω{{\Omega }_{0}}\cup \Omega ' должно являться множеством всех возможных значений статистики критерия Z.

Из определений области допустимых значений и критической области следует статистический критерий проверки гипотезы H0: если выборочное значение статистики критерия zΩ0z\in {{\Omega }_{0}}, то основная гипотеза H0 принимается, если выборочное значение статистики критерия zΩz\in \Omega ', то основная гипотеза H0 отвергается.

Пусть для выборки x1,...,xn статистика критерия Z приняла выборочное значение z, лежащее в критической области Ω’, т.е. вероятность попадания статистики критерия Z в окрестность которой мала. В соответствии со статистическим критерием основная гипотеза H0 должна быть отвергнута. Однако событие zΩz\in \Omega ', хоть и с малой вероятностью, но всё же могло произойти в условиях основной гипотезы H0. Если это так, то статистическое решение об отклонении гипотезы H0 будет ошибочным.

С другой стороны, если для выборки x1,...,xn статистика критерия Z приняла выборочное значение z, лежащее в области допустимых значений Ω0, это могло случиться как в условиях основной гипотезы H0 (с высокой вероятностью), так и, возможно, в условиях альтернативной гипотезы H’ (с низкой вероятностью). В соответствии со статистическим критерием основная гипотеза H0 принимается. Если же событие zΩ0z\in {{\Omega }_{0}} на самом деле произошло в условиях альтернативной гипотезы H’, то статистическое решение о принятии гипотезы H0 также будет ошибочным. В обоих случаях говорят об ошибках принятия статистического решения.

Ошибкой 1-го рода при принятии статистического решения называется событие, состоящее в том, что основная гипотеза H0 отвергается, в то время как она верна.

Ошибкой 2-го рода при принятии статистического решения называется событие, состоящее в том, что основная гипотеза H0 принимается, в то время как верна альтернативная гипотеза H’.

Пример 3

Пример 4

Уровнем значимости α при проверке статистической гипотезы называется вероятность ошибки первого рода:

α=P(ZΩH0)\alpha =P\left( Z\in \Omega '|{{H}_{0}} \right).

Вероятность β ошибки второго рода:

β=P(ZΩ0H)\beta =P\left( Z\in {{\Omega }_{0}}|H' \right).

Ясно, что с уменьшением вероятности ошибки первого рода возрастает вероятность ошибки второго рода и наоборот. Это означает, что при выборе критической области и области допустимых значений статистики критерия должен достигаться определённый компромисс.

Проиллюстрируем сказанное на примере. Пусть основная и альтернативная гипотезы H0 и H’ являются простыми. Пусть статистики критерия Z при условии истинности основной гипотезы H0 имеет нормальное распределение FZ(zH0)N(m1,σ1){{F}_{Z}}(z|{{H}_{0}})\sim N({{m}_{1}},{{\sigma }_{1}}), а при условии истинности H’ – распределение FZ(zH0)N(m2,σ2){{F}_{Z}}(z|{{H}_{0}})\sim N({{m}_{2}},{{\sigma }_{2}}).

Распределения вероятностей статистики критерия Z при условии истинности основной и альтернативной гипотез

У качестве критической области Ω’ выбраны хвосты распределения fZ(zH0){{f}_{Z}}(z|{{H}_{0}}), площадь каждого из которых равна α/2. Вероятность попадания статистики критерия Z, имеющей распределение fZ(zH0){{f}_{Z}}(z|{{H}_{0}}), в критическую область, таким образом, равна вероятности ошибки первого рода α. Вероятность ошибки второго рода β равна площади под графиком функции плотности распределения fZ(zH){{f}_{Z}}(z|H') внутри области допустимых значений Ω0. Из графиков видно, что уменьшая ширину области допустимых значений, площадь a будет увеличиваться, в то время как площадь β – уменьшаться, и наоборот.

Точки на оси значений статистики критерия z, разделяющие область допустимых значений Ω0 и критическую область Ω’, называются критическими точками. На рисунке выше это точки z1 и z2, являющиеся квантилями распределения fZ(zH0){{f}_{Z}}(z|{{H}_{0}}) на уровнях α/2 и 1 – α/2 соответственно.

В случае если основная и альтернативная гипотезы H0 и H’ являются простыми, величина μ = 1 – β называется мощностью критерия.

Очевидно, что при заданном значении вероятности ошибки первого рода a выбор критической области Ω’ может быть сделан неоднозначно. Единственное требование, предъявляемое к критической области, состоит в том, что площадь под графиком известного распределения статистики критерия fZ(zH0){{f}_{Z}}(z|{{H}_{0}}) в критической области должна быть равна α. Однако соответствующие различным критическим областям критерии будут иметь, вообще говоря, различные вероятности β ошибок второго рода.

Различные варианты выбора критической области

Наилучшей критической областью (НКО) называют критическую область, которая при заданном уровне значимости a обеспечивает минимальную вероятность β ошибки второго рода. Критерий, использующий наилучшую критическую область, имеет максимальную мощность.

Если альтернативная гипотеза является сложной, т.е. не определяет однозначно функцию распределения FX(x) генеральной совокупности X, а следовательно, и функцию распределения статистики критерия FZ(zH){{F}_{Z}}(z|H'), а определяет её с точностью до значения некоторого параметра θ, то вводят функцию мощности критерия μ(θ) как функцию параметра θ. Значение функции мощности критерия μ(θ) в точке θ определяется как

μ(θ)=1β(θ)\mu (\theta )=1-\beta (\theta ),

где β(θ) – вероятность ошибки второго рода при условии, что неизвестный параметр принял значение θ, θ∈Θ, где Θ – область возможных значений параметра θ.

Пример 5

Функция мощности имеет важное значение в задачах, связанных с оценкой необходимого объёма выборки для обеспечения требуемой вероятности ошибки второго рода принятия статистического решения при заданной вероятности ошибки первого рода.

Алгоритм проверки статистических гипотез

Далее будем рассматривать лишь случай простой основной статистической гипотезы. Алгоритм проверки любой простой гипотезы включает следующие этапы.

1) Сформулировать проверяемую гипотезу H0 и альтернативную гипотезу H’. Гипотезы формулируются, исходя из условия задачи или особенностей рассматриваемой проблемной области.

2) Выбрать уровень значимости α, на котором будет сделано статистическое решение. Уровень значимости выбирается исследователем как допустимая вероятность ошибки первого рода при принятии статистического решения. Обычно, уровень значимости выбирается небольшим, например, α = 0,1 или α = 0,01, однако, следует помнить, что выбор слишком малого уровня значимости приведёт к увеличению вероятности ошибки второго рода при принятии статистического решения.

3) Выбрать статистику критерия Z для проверки гипотезы H0. Для большинства встречающихся на практике статистических гипотез H0 выражение для статистики критерия Z, обеспечивающей минимальное или близкое к минимальному значение вероятности ошибки второго рода при фиксированном уровне значимости, известно. От исследователя, как правило, не требуется придумывать оригинальное выражение для используемой статистики критерия.

4) Найти закон распределения fZ(zH0){{f}_{Z}}(z|{{H}_{0}}) выбранной статистики критерия Z при условии истинности основной гипотезы H0. Законы распределения большинства используемых на практике статистик критерия также известны.

5) Построить область допустимых значений Ω0 и критическую область Ω’. Критическая область Ω’ зависит от вида статистики критерия Z, альтернативной гипотезы H’ и уровня значимости α.

Простая основная параметрическая гипотеза имеет вид H0:θ=θ0{{H}_{0}}:\theta ={{\theta }_{0}}, где θ – неизвестный параметр генеральной совокупности, θ0 – некоторая константа из области возможных значений параметра θ. Для такой основной гипотезы возможны следующие варианты формулировок альтернативных гипотез:

а) H:θ<θ0H':\theta <{{\theta }_{0}};

б) H:θ>θ0H':\theta >{{\theta }_{0}};

в) H:θθ0H':\theta \ne {{\theta }_{0}}.

Как правило, оптимальная критическая область – это область маловероятных значений статистики критерия в хвостах распределения. Если критическая область расположена в левом хвосте распределения fZ(zH0){{f}_{Z}}(z|{{H}_{0}}), то такая критическая область называется левосторонней, если в правом хвосте – то правосторонней, если в обоих хвостах – то двусторонней. В случае двусторонней критической области площади каждого из хвостов, как правило, выбираются равными.

Типы критических областей: левосторонняя, правосторонняя, двусторонняя

Уровень значимости α определяет ширину критической области.

6) Вычислить выборочное значение статистики критерия z на основе имеющихся выборочных наблюдений из генеральной совокупности.

7) Принять статистическое решение, используя решающее правило: если выборочное значение статистики критерия zΩ0z\in {{\Omega }_{0}}, то основная гипотеза H0 принимается, если выборочное значение статистики критерия zΩz\in \Omega ', то основная гипотеза H0 отвергается в пользу альтернативной гипотезы H’.

Иногда при использовании статистических пакетов для проверки гипотез процедура статистического анализа не возвращает в явном виде выборочное значение z статистики критерия Z. В этом случае статистическое решение принимается на основе так называемого значения p-value.

Если альтернативная гипотеза имеет вид H:θθ0H':\theta {{\theta }_{0}}, то значение p-value – это площадь под графиком функции плотности распределения статистики критерия, расположенная левее / правее выборочного значения статистики критерия z:

$H':\theta

H:θ>θ0  p=1FZ(z).H':\theta >{{\theta }_{0}}\ \Rightarrow \ p=1-{{F}_{Z}}(z).

Иными словами, p-value – это вероятность того, что статистика критерия Z примет более «экстремальные» значения в левом / правом хвосте критической области, чем рассчитанное по выборке выборочное значение z.

Если альтернативная гипотеза имеет вид H:θθ0H':\theta \ne {{\theta }_{0}}, то p-value рассчитывается по следующей формуле:

H:θθ0  p=min(FZ(z),1FZ(z))/2H':\theta \ne {{\theta }_{0}}\ \Rightarrow \ p=\min \left( {{F}_{Z}}(z),1-{{F}_{Z}}(z) \right)/2.

В этом случае p-value – это вероятность того, что статистика критерия Z примет более «экстремальные» значения, чем z, в любом из хвостов двусторонней критической области.

Если значение p-value мало, это свидетельствует о том, что выборочное значение статистики критерия z уже приняло довольно «экстремальное» значение, что может говорить о противоречии выборочных данных основной гипотезе. Если значение p‑value велико, то оснований отвергать основную гипотезу нет.

При использовании значения p-value критерий проверки статистической гипотезы формулируется следующим образом: если значение p-value больше уровня значимости a, то основная гипотеза H0 принимается, если значение p‑value меньше уровня значимости a, то основная гипотеза H0 отвергается.

Если основная гипотеза H0 отвергается, то делается вывод, что выборочные наблюдения противоречат основной гипотезе, если же H0 принимается, то выборочные данные могли быть получены из генеральной совокупности со свойствами, указанными в H0, что, впрочем, не означает, что генеральная совокупность в самом деле имеет эти свойства.

Пример 1

Проверка гипотез о параметрах нормально распределённой генеральной совокупности

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей нормальное распределение N(m, σ). Ниже приводятся наилучшие по мощности статистики критерия для различных вариантов гипотез относительно параметров m и s. Как правило, эти статистики связаны с эффективными оценками параметров, относительно которых выдвигаются гипотезы.

1) Гипотеза о значении математического ожидания при известной дисперсии (one-sampled z-test).

H0:m=m0{{H}_{0}}:m={{m}_{0}}.

В качестве статистики критерия используется статистика

Z=Xˉm0σ/n  Z=\frac{\bar{X}-{{m}_{0}}}{{\sigma }/{\sqrt{n}}\;}.

(1)

При условии истинности H0 случайная величина

XˉN(m0,σ/n  )\bar{X}\sim N\left( {{m}_{0}},{\sigma }/{\sqrt{n}}\; \right),

следовательно, ZH0N(0,1)Z{{|}_{{{H}_{0}}}}\sim N\left( 0,1 \right).

2) Гипотеза о значении математического ожидания при неизвестной дисперсии (one-sample t-test).

В связи с тем, что σ не известно, статистику (1) здесь использовать нельзя. Вместо σ в (1) подставляется оценка S среднеквадратичного отклонения:

Z=Xˉm0S/n  Z=\frac{\bar{X}-{{m}_{0}}}{{S}/{\sqrt{n}}\;},

при этом в условиях истинности гипотезы H0 статистика Z будет иметь распределение Стьюдента с n–1 степенью свободы.

3) Гипотеза о значении дисперсии при известном математическом ожидании (chi-squared test).

H0:σ=σ0{{H}_{0}}:\sigma ={{\sigma }_{0}}.

Эффективной оценкой дисперсии при известном математическом ожидании является статистика S02σ2nχ2(n)S_{0}^{2}\sim \frac{{{\sigma }^{2}}}{n}{{\chi }^{2}}(n). В качестве статистики критерия выберем статистику

Z=nS02σ02Z=\frac{nS_{0}^{2}}{\sigma _{0}^{2}}.

Очевидно, что при условии истинности H0 статистика

ZH0χ2(n)Z{{|}_{{{H}_{0}}}}\sim{{\chi }^{2}}(n).

4) Гипотеза о значении дисперсии при неизвестном математическом ожидании (chi-squared test).

H0:σ=σ0{{H}_{0}}:\sigma ={{\sigma }_{0}}.

Эффективной оценкой дисперсии при неизвестном математическом ожидании является статистика S2σ2n1χ2(n1)S_{{}}^{2}\sim\frac{{{\sigma }^{2}}}{n-1}{{\chi }^{2}}(n-1). В качестве статистики критерия выберем статистику

Z=(n1)S2σ02Z=\frac{(n-1)S_{{}}^{2}}{\sigma _{0}^{2}}.

Очевидно, что при условии истинности H0 статистика

ZH0χ2(n1)Z{{|}_{{{H}_{0}}}}\sim {{\chi }^{2}}(n-1).

Запишем теперь статистики критерия для гипотез, связанных с параметрами двух генеральных совокупностей. Пусть x11,...,x1,n1{{x}_{11}},...,{{x}_{1,{{n}_{1}}}} и x21,...,x2,n2{{x}_{21}},...,{{x}_{2,{{n}_{2}}}} – выборки объёмов n1 и n2 из нормально распределённых генеральных совокупностей N(m1, σ1) и N(m2, σ2) соответственно.

5) Гипотеза о равенстве математических ожиданий при известных дисперсиях (two-sample z-test).

H0:m1=m2{{H}_{0}}:{{m}_{1}}={{m}_{2}}.

Статистики Xˉ1N(m1,σ1/n1  ){{\bar{X}}_{1}}\sim N\left( {{m}_{1}},{{{\sigma }_{1}}}/{\sqrt{{{n}_{1}}}}\; \right), Xˉ2N(m2,σ2/n2  ){{\bar{X}}_{2}}\sim N\left( {{m}_{2}},{{{\sigma }_{2}}}/{\sqrt{{{n}_{2}}}}\; \right).

Несложно показать, что при условии истинности H0 статистика

Z=Xˉ1Xˉ2σ12/n1  +σ22/n2  Z=\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{\sqrt{{\sigma _{1}^{2}}/{{{n}_{1}}}\;+{\sigma _{2}^{2}}/{{{n}_{2}}}\;}}

имеет стандартизованное нормальное распределение N(0; 1).

6) Гипотеза о равенстве дисперсий при известных математических ожиданиях (two-sample F-test).

H0:σ1=σ2{{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}.

Статистика F0=S012/σ12S022/σ22F(n1,n2){{F}_{0}}=\frac{S_{01}^{2}/\sigma _{1}^{2}}{S_{02}^{2}/\sigma _{2}^{2}}\sim F({{n}_{1}},{{n}_{2}}).

В качестве статистики критерия используется отношение оценок дисперсий при известных математических ожиданиях

Z=F0H0=S012S022Z={{F}_{0}}{{|}_{{{H}_{0}}}}=\frac{S_{01}^{2}}{S_{02}^{2}},

которое при условии истинности H0 распределено по закону Фишера F(n1,n2)F({{n}_{1}},{{n}_{2}}).

7) Гипотеза о равенстве дисперсий при неизвестных математических ожиданиях (two-sample F-test).

H0:σ1=σ2{{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}.

Статистика F=S12/σ12S22/σ22F(n11,n21)F=\frac{S_{1}^{2}/\sigma _{1}^{2}}{S_{2}^{2}/\sigma _{2}^{2}}\sim F({{n}_{1}}-1,{{n}_{2}}-1).

В качестве статистики критерия используется отношение оценок дисперсий при неизвестных математических ожиданиях

Z=FH0=S12S22Z=F{{|}_{{{H}_{0}}}}=\frac{S_{1}^{2}}{S_{2}^{2}},

которое при условии истинности H0 распределено по закону Фишера F(n11,n21)F({{n}_{1}}-1,{{n}_{2}}-1).

8) Гипотеза о равенстве математических ожиданий при неизвестных дисперсиях (two-sample unpooled t-test).

H0:m1=m2{{H}_{0}}:{{m}_{1}}={{m}_{2}}.

а) Дисперсии генеральных совокупностей равны σ12=σ12=σ2\sigma _{1}^{2}=\sigma _{1}^{2}=\sigma _{{}}^{2} (это может быть известно априорно, исходя из условия задачи, или в случае, если гипотеза H0:σ1=σ2{{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}} при неизвестных математических ожиданиях принимается).

Объединённая оценка дисперсии σ2 по двум выборкам имеет вид:

S2=(n11)S12+(n21)S22n1+n22{{S}^{2}}=\frac{({{n}_{1}}-1)S_{1}^{2}+({{n}_{2}}-1)S_{2}^{2}}{{{n}_{1}}+{{n}_{2}}-2}.

При условии истинности H0 статистика S2 имеет распределение

S2σ2n1+n22χ2(n1+n22){{S}^{2}}\sim \frac{{{\sigma }^{2}}}{{{n}_{1}}+{{n}_{2}}-2}{{\chi }^{2}}({{n}_{1}}+{{n}_{2}}-2).

Несложно показать, что статистика

Z=Xˉ1Xˉ2S1/n1  +1/n2  Z=\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{S\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}

при условии истинности H0 имеет распределение Стьюдента с n1+n2–2 степенями свободы.

б) Оснований считать, что дисперсии генеральных совокупностей равны, нет (Welch’s t-test).

Для каждой из дисперсий вычисляются свои оценки S12S_{1}^{2} и S22S_{2}^{2}. Статистика критерия имеет вид:

Z=Xˉ1Xˉ2S12/n1  +S22/n2  Z=\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{\sqrt{{S_{1}^{2}}/{{{n}_{1}}}\;+{S_{2}^{2}}/{{{n}_{2}}}\;}}.

Показано, что при условии истинности H0 статистика Z имеет распределение Стьюдента с числом степеней свободы, равным целой части от величины 1 / k, где

k=(S12/n1S12/n1+S22/n2)2n11+(S22/n2S12/n1+S22/n2)2n21k=\frac{{{\left( \frac{S_1^2/n_1}{S_1^2/{n_1}+{S_2^2}/{n_2}} \right)}^2}}{n_1-1}+\frac{{{\left( \frac{{S_2^2}/{n_2}}{{S_1^2}/{n_1}+{S_2^2}/{n_2}} \right)}^2}}{n_2-1}.

Основные статистики критерия при проверке статистических гипотез о параметрах нормально распределённой генеральной совокупности и их законы распределения приведены в табл. 4.1.


Таблица 4.1

Статистики критерия при проверке статистических гипотез о параметрах нормально распределённой генеральной совокупности

Основная гипотеза, H0

Мат. ожидание

Дисперсия

Статистика критерия, Z

Закон распределения, fZ(zH0){{f}_{Z}}(z|{{H}_{0}})

H0:m=m0{{H}_{0}}:m={{m}_{0}}

не изв.

изв.

Xˉm0σ/n  \frac{\bar{X}-{{m}_{0}}}{{\sigma }/{\sqrt{n}}\;}

N(0,1)N\left( 0,1 \right)

H0:m=m0{{H}_{0}}:m={{m}_{0}}

не изв.

не изв.

Xˉm0S/n  \frac{\bar{X}-{{m}_{0}}}{{S}/{\sqrt{n}}\;}

T(n1)T\left( n-1 \right)

H0:σ=σ0{{H}_{0}}:\sigma ={{\sigma }_{0}}

изв.

не изв.

nS02σ02\frac{nS_{0}^{2}}{\sigma _{0}^{2}}

χ2(n){{\chi }^{2}}(n)

H0:σ=σ0{{H}_{0}}:\sigma ={{\sigma }_{0}}

не изв.

не изв.

(n1)S2σ02\frac{(n-1)S_{{}}^{2}}{\sigma _{0}^{2}}

χ2(n1){{\chi }^{2}}(n-1)

H0:m1=m2{{H}_{0}}:{{m}_{1}}={{m}_{2}}

не изв.

изв.

Xˉ1Xˉ2σ12/n1  +σ22/n2  \frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{\sqrt{{\sigma _{1}^{2}}/{{{n}_{1}}}\;+{\sigma _{2}^{2}}/{{{n}_{2}}}\;}}

N(0,1)N\left( 0,1 \right)

H0:m1=m2{{H}_{0}}:{{m}_{1}}={{m}_{2}}

не изв.

не изв.,

равные

Xˉ1Xˉ2S1/n1  +1/n2  \frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{S\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}

T(n1+n22)T\left( {{n}_{1}}+{{n}_{2}}-2 \right)

H0:σ1=σ2{{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}

изв.

не изв.

S012S022\frac{S_{01}^{2}}{S_{02}^{2}}

F(n1,n2)F({{n}_{1}},{{n}_{2}})

H0:σ1=σ2{{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}

не изв.

не изв.

S12S22\frac{S_{1}^{2}}{S_{2}^{2}}

F(n11,n21)F({{n}_{1}}-1,{{n}_{2}}-1)


Все приведённые выше выражения для статистик критерия и их законов распределения справедливы, если случайная выборка X1,…, Xn (или выборки X11,...,X1,n1{{X}_{11}},...,{{X}_{1,{{n}_{1}}}} и X21,...,X2,n2{{X}_{21}},...,{{X}_{2,{{n}_{2}}}}) получены из нормально распределённой генеральной совокупности. Однако поскольку все статистики основаны на оценках Xˉ\bar{X}и S2, представляющих собой суммы случайных величин, то согласно центральной предельной теоремы теории вероятностей распределение этих статистик при больших объёмах выборок будет близко нормальному, даже если распределение каждого слагаемого отлично от нормального. В то же время, если генеральная совокупность распределена нормально, то статистика S2 имеет распределение хи-квадрат, которое при больших объёмах выборки также может быть аппроксимировано нормальным распределением. Это означает, что законы распределения статистик критерия остаются справедливыми при больших объёмах выборки в случае распределения генеральной совокупности, отличного от нормального.

Пример 1

Пример 2

В некоторых случаях для проверки параметрических статистических гипотез может быть использован метод доверительных интервалов. Пусть основная гипотеза H0:θ=θ0{{H}_{0}}:\theta ={{\theta }_{0}}, альтернативная гипотеза H:θθ0H':\theta \ne {{\theta }_{0}}. Если для неизвестного параметра θ может быть построен доверительный интервал (θ1; θ2), то проверка статистической гипотезы H0 сводится к проверке попадания значения θ0 в доверительный интервал (θ1; θ2). Критерий проверки гипотез при использовании метода доверительных интервалов состоит в следующем: если θ0 &in; (θ1; θ2), то основная гипотеза H0 должна приниматься, в противном случае – отклоняться. Если альтернативная гипотеза H’ имеет вид H:θ<θ0H':\theta <{{\theta }_{0}} или H:θ>θ0H':\theta >{{\theta }_{0}}, то строится соответствующий односторонний доверительный интервал (–∞; θ2) или (θ1; +∞).

При проверке статистической гипотезы о равенстве математических ожиданий H0:m1=m2{{H}_{0}}:{{m}_{1}}={{m}_{2}} строится доверительный интервал для разности m1m2. Если интервал накрывает 0, то основная гипотеза принимается, в противном случае – отклоняется.

При проверке статистической гипотезы о равенстве дисперсий H0:σ1=σ2{{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}} строится доверительный интервал для отношения σ12/σ22\sigma _{1}^{2}/\sigma _{2}^{2}. Если интервал накрывает 1, то основная гипотеза принимается, в противном случае – отклоняется.

Пример 3

Проверка гипотез о вероятности «успеха» в схеме Бернулли

При статистическом анализе данных, связанных с повторными независимыми испытаниями (схемой Бернулли), обычно рассматривают два вида задач: сравнение вероятности «успеха» p в одном испытании с заданным значением p0 и сравнение вероятности «успеха» в двух сериях испытаний.

Пусть проводится серия из n испытаний по схеме Бернулли и случайная величина K – число «успехов». Тогда K имеет биномиальное распределение K B(n,p)K\sim{\ }B(n,p). Математическое ожидание mK=np{{m}_{K}}=np и дисперсия dK=np(1p){{d}_{K}}=np(1-p). В соответствии с предельной теоремой Муавра-Лапласа при большом числе испытаний n статистика K имеет закон распределения, близкий к нормальному:

K N(np,np(1p))K\sim{\ }N(np,\sqrt{np(1-p)}).

Частота «успеха» H=K/nH=K/n также имеет нормальное распределение H N(p,p(1p)/n  )H\sim{\ }N(p,\sqrt{{p(1-p)}/{n}\;}).

Для проверки статистической гипотезы (one-proportion z-test)

H0:p=p0{{H}_{0}}:p={{p}_{0}}

в качестве статистики критерия используем стандартизованную частоту

Z=Hp0p0(1p0)/n  Z=\frac{H-{{p}_{0}}}{\sqrt{{{{p}_{0}}(1-{{p}_{0}})}/{n}\;}},

которая при условии истинности H0 имеет распределение fZ(zH0) N(0; 1){{f}_{Z}}(z|{{H}_{0}})\sim{\ }N(0;\ 1).

Если альтернативная гипотеза H:pp0H':p\ne {{p}_{0}}, то критическая область для статистики критерия выбирается двусторонней, если H:p<p0H':p<{{p}_{0}} или H:p>p0H':p>{{p}_{0}}, то левосторонней или правосторонней соответственно.

Пусть теперь проводятся две серии испытаний и требуется проверить гипотезу о равенстве вероятностей «успехов» p1 и p2 в этих сериях (two-proportion z-test):

H0:p1=p2{{H}_{0}}:{{p}_{1}}={{p}_{2}} .

Частота «успеха» в первой серии H1N(p1,p1(1p1)/n1)H_1\sim N(p_1,\sqrt{p_1(1-p_1)/n_1}), во второй серии – H2N(p2,p2(1p2)/n2)H_2\sim N(p_2,\sqrt{p_2(1-p_2)/n_2}), где n1 и n2 – число испытаний в первой и второй сериях соответственно. В силу композиционной устойчивости нормального распределения разность частот H=H1H2H={{H}_{1}}-{{H}_{2}} также будет иметь нормальное распределение H N(mH,σH)H\sim{\ }N({{m}_{H}},{{\sigma }_{H}}), где

mH=p1p2{{m}_{H}}={{p}_{1}}-{{p}_{2}},

σH2=p1(1p1)n1+p2(1p2)n2\sigma _{H}^{2}=\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}.

При условии истинности H0 (т.е. при p1=p2=p{{p}_{1}}={{p}_{2}}=p) стандартизованная разность частот

Z=H1H2p(1p)1/n1  +1/n2  Z=\frac{{{H}_{1}}-{{H}_{2}}}{\sqrt{p(1-p)}\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}

имеет стандартизованное нормальное распределение N(0; 1).

Заменяя в знаменателе неизвестную истинную вероятность p на её эффективную оценку – агрегированную частоту

H=n1H1+n2H2n1+n2H=\frac{{{n}_{1}}{{H}_{1}}+{{n}_{2}}{{H}_{2}}}{{{n}_{1}}+{{n}_{2}}},

получим приближённое выражение для статистики критерия

Z=H1H2H(1H)1/n1  +1/n2  Z=\frac{{{H}_{1}}-{{H}_{2}}}{\sqrt{H(1-H)}\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}.

Подчеркнём, что указанная статистика может использоваться лишь при достаточно больших объёмах наблюдений n1 и n2.

Если альтернативная гипотеза H:p1p2H':{{p}_{1}}\ne {{p}_{2}}, то критическая область для статистики критерия выбирается двусторонней, если H:p1<p2H':{{p}_{1}}<{{p}_{2}} или H:p1>p2H':{{p}_{1}}>{{p}_{2}}, то левосторонней или правосторонней соответственно.

Пример 1

Критерии согласия и однородность выборок

Проверка гипотез о виде распределения. Критерий Колмогорова

Статистические методы, изложенные в предыдущих главах, опираются на различные априорные допущения о виде исследуемой статистической модели. Например, основные формулы расчёта доверительных интервалов и статистик критерия для проверки статистических гипотез о параметрах распределений выведены в предположениях о нормальности распределения генеральной совокупности и независимости элементов наблюдаемой случайной выборки.

В практических приложениях может возникнуть вопрос о соответствии выборочных наблюдений предполагаемой статистической модели. Эти предположения могут быть сформулированы как статистические гипотезы и проверены с помощью статистических критериев.

Критериями согласия (goodness of fit tests) называют статистические критерии, предназначенные для проверки гипотез о виде распределения наблюдаемой генеральной совокупности. Критерии согласия отвечают на вопрос, насколько хорошо экспериментальные данные согласуются с предполагаемой статистической моделью генеральной совокупности.

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей неизвестное распределение FX(x, θ) с вектором неизвестных параметров θ=(θ1,...,θr)\theta =({{\theta }_{1}},...,{{\theta }_{r}}) размерности r. Рассмотрим задачу проверки статистической гипотезы о том, что функция распределения FX(x, θ) совпадает с некоторой известной функцией G(x). Сформулируем основную и альтернативную гипотезы:

H0:FX(x,θ)=G(x){{H}_{0}}:{{F}_{X}}(x,\theta )=G(x),

H:FX(x,θ)G(x)H':{{F}_{X}}(x,\theta )\ne G(x).

Оценкой неизвестной функции распределения FX(x, θ), рассчитанной по выборке x1,…,xn, является эмпирическая функция распределения Fn(x)F_{n}^{*}(x). ЭФР Fn(x)F_{n}^{*}(x) выборки x1,…,xn является реализацией случайной эмпирической функции распределения Fn(x)\mathcal{F}_{n}^{*}(x) соответствующей случайной выборки X1,…, Xn. В то же время, Fn(x)\mathcal{F}_{n}^{*}(x) является состоятельной оценкой функции распределения FX(x, θ). Это означает, что при nn\to \infty при каждом фиксированном x случайная величина Fn(x)\mathcal{F}_{n}^{*}(x) стремится по вероятности к значению функции распределения FX(x, θ) в точке x. Следовательно, при условии истинности основной гипотезы вероятность того, что рассогласование Δ(Fn(x),G(x))\Delta \left( F_{n}^{*}(x),G(x) \right) между Fn(x)F_{n}^{*}(x) и G(x) примет достаточно большие значения, стремится к нулю с ростом объёма выборки n. Меру рассогласования между двумя распределениями можно выбрать многими способами и в зависимости от этого выбора получаем различные статистики критерия для проверки интересующей нас гипотезы.

Критерий Колмогорова (one-sample KS-test), называемый также критерием Колмогорова-Смирнова (A.N. Kolmogorov, N.V. Smirnov, 1933), основан на результатах сравнения ЭФР Fn(x)F_{n}^{*}(x) с предполагаемой функцией распределения G(x) с помощью метрики

Δ(Fn(x),G(x))=Dn=supxFn(x)G(x)\Delta \left( F_{n}^{*}(x),G(x) \right)={{D}_{n}}=\underset{x}{\mathop{\sup }}\,\left| F_{n}^{*}(x)-G(x) \right|.

(1)

Если функции Fn(x)F_{n}^{*}(x) и G(x) близки с точки зрения указанной метрики, то оснований отклонять основную гипотезу H0 нет. Если расхождение между этими функциями велико, то распределение случайной величины X значимо отлично от предполагаемого распределения G(x), следовательно, основная гипотеза H0 должна быть отвергнута в пользу альтернативной.

А.Н. Колмогоровым предложена статистика критерия

Zn=nDn{{Z}_{n}}=\sqrt{n}{{D}_{n}},

для которой показано, что при условии истинности основной гипотезы H0 при nn\to \infty её закон распределения не зависит от вида функции G(x), причём её функция распределения стремится к предельной (функции распределения Колмогорова):

K(z)=k=(1)ke2k2z2K(z)=\sum\limits_{k=-\infty }^{\infty }{{{(-1)}^{k}}{{e}^{-2{{k}^{2}}{{z}^{2}}}}}.

(2)

Приближённо полагая при больших n (n > 40), что статистика критерия Zn имеет распределение Колмогорова, для неё может быть рассчитана любая квантиль, используя формулу (2) или таблицу квантилей распределения Колмогорова. Некоторые критические точки распределения Колмогорова и соответствующие им уровни значимости приведены в табл. 5.1.

Таблица 5.1

Таблица квантилей распределения Колмогорова

α

0,005

0,01

0,025

0,05

0,10

0,15

0,20

0,25

z1–α

1,73

1,63

1,48

1,36

1,22

1,14

1,07

1,02

В случае истинности альтернативной гипотезы H’ рассогласование Dn между ЭФР Fn(x)F_{n}^{*}(x) и G(x) при nn\to \infty будет отлично от нуля, причём с увеличением Dn статистика критерия Zn более вероятно будет принимать большие значения. Следовательно, основная гипотеза H0 должна отвергаться в области больших значений Zn, т.е. критическая область должна выбираться правосторонней.

На практике для вычисления рассогласования Dn между ЭФР Fn(x)F_{n}^{*}(x) и G(x) по выборке x1,…,xn удобно использовать формулу

Dn=maxi=1,n{inG(x(i)),G(x(i))i1n}{{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \frac{i}{n}-G({{x}_{(i)}}),G({{x}_{(i)}})-\frac{i-1}{n} \right\},

которую также можно записать в виде

Dn=maxi=1,n{G(x(i))2i12n+12n}{{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \left| G({{x}_{(i)}})-\frac{2i-1}{2n} \right|+\frac{1}{2n} \right\},

где x(1),...,x(n){{x}_{(1)}},...,{{x}_{(n)}} – вариационный ряд выборки.

Пример 1

Если требуется проверить принадлежность функции распределения FX(x, θ) заданному параметрическому множеству распределений G(x, θ), θ&in;Θ, то проверяется согласие эмпирической функции распределения Fn(x)F_{n}^{*}(x) лишь с максимально правдоподобным для данной выборки распределением G(x,θ~)G(x,\tilde{\theta }), где θ~\tilde{\theta } – МП-оценка параметра θ.

Пример 2

Критерий "омега-квадрат"

Из вида метрики Колмогорова (1*) следует, что она хорошо различает функции распределения Fn(x)F_{n}^{*}(x) и G(x), отличающиеся друг от друга достаточно сильно пусть даже в одной единственной точке x. Если же Fn(x)F_{n}^{*}(x) отличается от G(x) на довольно широком интервале (или на всей числовой оси), но везде не очень сильно, то величина Dn будет невелика, и критерий Колмогорова может ложно принять основную гипотезу H0, в то время как на самом деле распределения FX(x, θ) и G(x) различны. Этот факт свидетельствует о высокой вероятности ошибки второго рода при проверке статистической гипотезы о равенстве распределений, что делает критерий Колмогорова маломощным.

Этот недостаток критерия Колмогорова может быть устранён при использовании другой метрики для расчёта рассогласования между двумя распределениями, называемой метрикой «омега-квадрат», – в непрерывном случае:

Δ(Fn(x),G(x))=ωn2=Fn(x)G(x)2dx\Delta \left( F_{n}^{*}(x),G(x) \right)=\omega _{n}^{2}=\int\limits_{-\infty }^{\infty }{{{\left| F_{n}^{*}(x)-G(x) \right|}^{2}}dx},

в дискретном случае:

Δ(Fn(x),G(x))=ωn2=1ni=1nFn(xi)G(xi)2\Delta \left( F_{n}^{*}(x),G(x) \right)=\omega _{n}^{2}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{\left| F_{n}^{*}({{x}_{i}})-G({{x}_{i}}) \right|}^{2}}}.

(1)

Статистика критерия, основанная на данной метрике, называется статистикой Крамера-Мизеса (Harald Cramer, Richard Edler von Mises, 1930), или статистикой «омега-квадрат»:

Zn=nωn2{{Z}_{n}}=n\omega _{n}^{2},

для которой показано, что при условии истинности основной гипотезы H0 при nn\to \infty её закон распределения не зависит от вида функции G(x) и стремится к распределению «омега-квадрат».

Приближённо полагая при больших n (n > 40), что Zn ω2{{Z}_{n}}\sim{\ }{{\omega }^{2}}, для статистики критерия может быть рассчитан любой квантиль, используя таблицу. Некоторые критические точки распределения «омега-квадрат» и соответствующие им уровни значимости приведены в табл. 5.2.

Таблица 5.2

Таблица квантилей распределения «омега-квадрат»

α

0,005

0,01

0,025

0,05

0,10

0,15

0,20

0,25

z1–α

0,87

0,75

0,58

0,46

0,35

0,28

0,24

0,21

Аналогично критерию Колмогорова, в критерии «омега-квадрат» критическая область выбирается правосторонней.

На практике для вычисления рассогласования ωn2\omega _{n}^{2} между ЭФР Fn(x)F_{n}^{*}(x) и G(x) по выборке x1,…,xn удобно использовать формулу

ωn2=1ni=1n(G(x(i))2i12n)2\omega _{n}^{2}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( G({{x}_{(i)}})-\frac{2i-1}{2n} \right)}^{2}}},

(2)

где x(1),...,x(n){{x}_{(1)}},...,{{x}_{(n)}} – вариационный ряд выборки.

Пример 1

Критерий "хи-квадрат"

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей неизвестное распределение FX(x, θ) с вектором неизвестных параметров θ=(θ1,...,θr)\theta =({{\theta }_{1}},...,{{\theta }_{r}}) размерности r. Наряду с критерием Колмогорова и критерием «омега-квадрат» для проверки гипотезы о совпадении функции распределения FX(x, θ) с некоторой известной функцией G(x):

H0:FX(x,θ)=G(x){{H}_{0}}:{{F}_{X}}(x,\theta )=G(x),

H:FX(x,θ)G(x)H':{{F}_{X}}(x,\theta )\ne G(x);

может быть также использован критерий Пирсона.

Критерий Пирсона (Karl Pearson, 1900), или критерий «хи-квадрат» (Pearsons chi-squared test), основан на оценке степени близости гистограммы относительных частот выборки и известной плотности распределения g(x)=dG(x)dxg(x)=\frac{dG(x)}{dx}. Для построения гистограммы проводят группировку выборочных значений на k интервалов J1,…,Jk, где J1 = [α0 = x(1); α1), J2 = [α1; α2),…, Jk = [αk-1; αk = x(n)]. Все интервалы выбираются, как правило, одинаковой ширины h.

Пусть ni – число элементов выборки, принадлежащих интервалу Ji, i=1,ki=\overline{1,k}. Очевидно, что для частот выполняется равенство i=1kni=n\sum\limits_{i=1}^{k}{{{n}_{i}}}=n.

На основе известной функции плотности распределения g(x) рассчитываются вероятности попадания в каждый интервал:

pi=P(XJi)=αi1αig(x)dx{{p}_{i}}=P(X\in {{J}_{i}})=\int\limits_{{{\alpha }_{i-1}}}^{{{\alpha }_{i}}}{g(x)dx}, i=1,ki=\overline{1,k}.

Полученные результаты представлены в виде таблицы.

Число наблюдений

Всего

J1

...

Jk

Наблюдаемое

n1

...

nk

n

Ожидаемое

np1

...

npk

n

Относительная частота p~i=ni/n  {{\tilde{p}}_{i}}={{{n}_{i}}}/{n}\; является состоятельной оценкой вероятности pi, i=1,ki=\overline{1,k}. Это означает, что для каждого интервала Ji, i=1,ki=\overline{1,k}, при условии истинности основной гипотезы вероятность того, что рассогласование между p~i{{\tilde{p}}_{i}} и pi примет достаточно большие значения, стремится к нулю при nn\to \infty .

В качестве меры рассогласования между p~i{{\tilde{p}}_{i}} и pi используется статистика

$Z=n\sum\limits_{i=1}^{k}{\frac{(\tilde p_i-p_i)^2}{p_i}=\sum\limits_{i=1}^{k}{\frac{(n_i-np_i)^2}{np_i}$.

для которой показано, что при условии истинности основной гипотезы H0 при nn\to \infty её закон распределения не зависит от вида функции G(x) и стремится к распределению «хи-квадрат» с kr–1 степенями свободы, где r – число неизвестных параметров распределения FX(x, θ) (теорема Пирсона).

Использование статистики Z возможно также для проверки согласия выборочных данных с дискретным распределением генеральной совокупности. В этом случае в качестве вероятностей p1,…,pk следует брать вероятности дискретных значений генеральной совокупности ( i=1kpi=1\sum\limits_{i=1}^{k}{{{p}_{i}}}=1 ), а в качестве частот p~1,...,p~k{{\tilde{p}}_{1}},...,{{\tilde{p}}_{k}} – относительные частоты этих значений в выборке. При необходимости близкие дискретные значения могут быть сгруппированы.

Если требуется проверить принадлежность функции распределения FX(x, θ) заданному параметрическому множеству распределений G(x, θ), θ&in;Θ, то проверяется согласие лишь с максимально правдоподобным для данной выборки распределением G(x,θ~)G(x,\tilde{\theta }), где θ~\tilde{\theta } – МП-оценка параметра θ.

Аппроксимация закона распределения статистики Z при условии истинности основной гипотезы H0 законом χ2(kr1){{\chi }^{2}}(k-r-1) с высокой точностью возможна лишь при больших значениях ожидаемых абсолютных частот npi, i=1,ki=\overline{1,k}. В случае если для некоторых интервалов npi < 5, то такие интервалы рекомендуется объединить с соседними.

Аналогично критериям Колмогорова и «омега-квадрат», в критерии Пирсона критическая область выбирается правосторонней.

Пример 1

Проверка гипотез об однородности выборок. Критерий знаков

В практических приложениях наряду с задачей о соответствии выборочных наблюдений предполагаемому закону распределения может возникнуть задача о проверке соответствия распределений двух генеральных совокупностей по результатам выборочных наблюдений.

Пусть x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} – выборка объёма nX наблюдений случайной величины X, имеющей неизвестное распределение FX(x), y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}} – выборка объёма nY наблюдений случайной величины Y, имеющей неизвестное распределение FY(y). Выборки x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} и y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}} называются однородными, если FX(ξ) = FY(ξ). Иными словами, выборки однородные, если они получены из одной и той же генеральной совокупности, или являются наблюдениями одной и той же случайной величины.

Сформулируем основную и альтернативную гипотезы однородности:

H0:FX(ξ)=FY(ξ){{H}_{0}}:{{F}_{X}}(\xi )={{F}_{Y}}(\xi ),

H:FX(ξ)FY(ξ)H':{{F}_{X}}(\xi )\ne {{F}_{Y}}(\xi ).

(1)

Одним из наиболее простых и грубых критериев проверки гипотезы об однородности распределения случайных величин Х и Y является критерий знаков. Критерий знаков (sign test) используется для проверки однородности двух связанных выборок (paired samples). Такие выборки получаются в результате наблюдений двумерного случайного вектора (X, Y). Объёмы связанных выборок всегда равны.

Критерий знаков является примером непараметрического критерия математической статистики, т.е. критерия, использующего не сами численные значения элементов выборки, а структурные свойства выборки (например, отношения порядка между её элементами, знаки и пр.). Мощность непараметрических критериев, как правило, меньше, чем мощность их параметрических аналогов. Причина этого связана с неизбежной потерей части информации, содержащейся в выборке. Однако непараметрические методы могут применяться при менее строгих предположениях о свойствах наблюдаемых случайных величин и, как правило, более просты с вычислительной точки зрения.

Если выборки получены из одной и той же генеральной совокупности, то значения xi и yi, i=1,ni=\overline{1,n}, взаимозаменяемы, и, следовательно, вероятности появления положительных и отрицательных разностей xi и yi равны, т.е.

P(XiYi>0)=P(XiYi<0)=1/2  P({{X}_{i}}-{{Y}_{i}}>0)=P({{X}_{i}}-{{Y}_{i}}<0)={1}/{2}\;.

(2)

Пусть K – число знаков «+» в последовательности знаков разностей x1y1,…,xnyn. Если в этой последовательности разностей содержатся нулевые элементы, то они исключаются из рассмотрения. Далее для простоты будем считать, что в последовательности x1y1,…,xnyn нулевых элементов нет. При условии, что основная гипотеза H0 верна, а пары наблюдений (Xi,Yi), i=1,ni=\overline{1,n}, и, следовательно, знаки разностей XiYi независимы, число K знаков «+» имеет биномиальное распределение B(n, 1/2). Таким образом, проверка гипотезы однородности (1) сводится к проверке гипотезы о параметре p биномиального распределения:

H0:p=1/2  {{H}_{0}}:p={1}/{2}\;,

H:p1/2  H':p\ne {1}/{2}\;.

Несложно показать, что эта гипотеза эквивалентна гипотезе о равенстве медиан распределений FX(x) и FY(y).

Математическое ожидание mK=np{{m}_{K}}=np и дисперсия dK=np(1p){{d}_{K}}=np(1-p). В соответствии с предельной теоремой Муавра-Лапласа при большом числе испытаний n статистика K имеет закон распределения, близкий к нормальному:

KN(np,np(1p))K\sim N\left( np,\sqrt{np(1-p)} \right).

Частота «успеха» H=K/nH=K/n также имеет нормальное распределение HN(p,p(1p)/n  )H\sim N\left( p,\sqrt{{p(1-p)}/{n}\;} \right).

В качестве статистики критерия используется стандартизованная частота:

Z=H1/2  1/4n  =2n(H1/2  )Z=\frac{H-{1}/{2}\;}{\sqrt{{1}/{4n}\;}}=2\sqrt{n}(H-{1}/{2}\;),

(3)

которая при условии истинности H0 имеет распределение fZ(zH0)N(0,1){{f}_{Z}}(z|{{H}_{0}})\sim N(0,1).

Основная гипотеза H0 должна отклоняться при больших отличиях частоты знаков «+» от значения 1/2 как в меньшую, так и в большую сторону, т.е. в области больших абсолютных значений статистики критерия Z. Таким образом, критическая область для статистики Z должна выбираться двусторонней.

Условие (2) является необходимым, но не достаточным условием однородности выборок x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} и y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}}. Это означает, что из принятия основной гипотезы критерия знаков не следует однородность выборок, а следует лишь возможность однородности. Если же основная гипотеза критерия знаков отклоняется, то отклоняется и гипотеза однородности выборок.

Пример 1

Критерий Манна-Уитни

Критерий Манна-Уитни является ещё одним непараметрическим критерием проверки статистической гипотезы об однородности выборок:

H0:FX(ξ)=FY(ξ){{H}_{0}}:{{F}_{X}}(\xi )={{F}_{Y}}(\xi ),

H:FX(ξ)FY(ξ)H':{{F}_{X}}(\xi )\ne {{F}_{Y}}(\xi ).

Критерий был предложен Уилкоксоном (Frank Wilcoxon, 1945) и существенно переработан и расширен Манном и Уитни (Henry Mann, Donald Whitney, 1947). Критерий Манна-Уитни является одним из наиболее популярных непараметрических критериев проверки статистической гипотезы об однородности выборок. Другие названия критерия – критерий Манна-Уитни-Уилкоксона и критерий суммы рангов Уилкоксона (Mann-Whitney-Wilcoxon test, MWW-test, U-test).

Критерий Манна-Уитни использует тот факт, что если выборки x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} и y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}} получены из одной и той же генеральной совокупности, то элементы как первой, так и второй выборок в вариационном ряду z(1),...,z(N){{z}_{(1)}},...,{{z}_{(N)}} объединённой выборки x1,...,xnX,y1,...,ynY{{x}_{1}},...,{{x}_{{{n}_{X}}}},{{y}_{1}},...,{{y}_{{{n}_{Y}}}}, N=nX+nYN={{n}_{X}}+{{n}_{Y}} – суммарный объём выборок, перемешаны равномерно.

Для оценки степени перемешивания данных двух выборок проводится ранжирование объединённой выборки z1,...,zN{{z}_{1}},...,{{z}_{N}}. Рангом элемента zi в выборке z1,...,zN{{z}_{1}},...,{{z}_{N}} называется его порядковый номер в вариационном ряду z(1),...,z(N){{z}_{(1)}},...,{{z}_{(N)}}. Минимальный элемент z(1){{z}_{(1)}} выборки имеет ранг 1, максимальный элемент z(N){{z}_{(N)}} – ранг N. Если несколько выборочных значений в вариационном ряду равны, то им приписываются одинаковые ранги, равные среднему арифметическому из их порядковых номеров.

В результате ранжирования для выборки z1,...,zN{{z}_{1}},...,{{z}_{N}} получаем выборку соответствующих рангов r1,...,rN{{r}_{1}},...,{{r}_{N}}. Обозначим через RX – сумму рангов в ряду r1,...,rN{{r}_{1}},...,{{r}_{N}}, соответствующих элементам из первой выборки, RY – элементам из второй выборки.

Несложно показать, что

nX(nX+1)2RXnX(nX+1)2+nXnY\frac{{{n}_{X}}({{n}_{X}}+1)}{2}\le {{R}_{X}}\le \frac{{{n}_{X}}({{n}_{X}}+1)}{2}+{{n}_{X}}{{n}_{Y}},

nY(nY+1)2RYnY(nY+1)2+nXnY\frac{{{n}_{Y}}({{n}_{Y}}+1)}{2}\le {{R}_{Y}}\le \frac{{{n}_{Y}}({{n}_{Y}}+1)}{2}+{{n}_{X}}{{n}_{Y}}.

Минимальное значение nX(nX+1)2\frac{{{n}_{X}}({{n}_{X}}+1)}{2} суммы рангов RX элементов первой выборки достигается, когда все они преобладают на левом конце объединённого вариационного ряда, максимальное значение nXnY+nX(nX+1)2{{n}_{X}}{{n}_{Y}}+\frac{{{n}_{X}}({{n}_{X}}+1)}{2} – когда на правом.

Введём статистики UX и UY, линейно связанные с суммами рангов RX и RY:

UX=nXnY+nX(nX+1)2RX,    0UXnXnY{{U}_{X}}={{n}_{X}}{{n}_{Y}}+\frac{{{n}_{X}}({{n}_{X}}+1)}{2}-{{R}_{X}}, \ \ \ \ 0\le {{U}_{X}}\le {{n}_{X}}{{n}_{Y}},

UY=nXnY+nY(nY+1)2RY,     0UYnXnY{{U}_{Y}}={{n}_{X}}{{n}_{Y}}+\frac{{{n}_{Y}}({{n}_{Y}}+1)}{2}-{{R}_{Y}}, \ \ \ \ \ 0\le {{U}_{Y}}\le {{n}_{X}}{{n}_{Y}},

UX+UY=nXnY{{U}_{X}}+{{U}_{Y}}={{n}_{X}}{{n}_{Y}}.

В качестве меры степени перемешивания элементов двух выборок в критерии Манна-Уитни используется любая из статистик UX или UY. При равномерном перемешивании элементов выборочные значения статистик UX и UY будут близки к их средним по диапазону изменения значениям nXnY/2  {{{n}_{X}}{{n}_{Y}}}/{2}\;.

При условии истинности основной гипотезы H0 при nX{{n}_{X}}\to \infty , nY{{n}_{Y}}\to \infty закон распределения статистик UX и UY не зависит от вида функций FX(x) и FY(y), причём их распределение стремится к нормальному:

UX N(nXnY2,nXnY(nX+nY+1)12)U_X\sim{\ }N\left( \frac{{{n}_{X}}{{n}_{Y}}}{2},\sqrt{\frac{{{n}_{X}}{{n}_{Y}}({{n}_{X}}+{{n}_{Y}}+1)}{12}} \right).

В качестве статистики критерия выберем любую из стандартизованных статистик UX и UY (например, UX):

Z=UXnXnY2nXnY(nX+nY+1)12Z=\frac{{{U}_{X}}-\frac{{{n}_{X}}{{n}_{Y}}}{2}}{\sqrt{\frac{{{n}_{X}}{{n}_{Y}}({{n}_{X}}+{{n}_{Y}}+1)}{12}}},

которая при условии истинности H0 имеет распределение fZ(zH0) N(0, 1){{f}_{Z}}(z|{{H}_{0}})\sim{\ }N(0,\ 1). На практике распределение статистики Z можно аппроксимировать нормальным уже при nX > 10, nY > 10, что делает критерий Манна-Уитни применимым для проверки гипотезы об однородности для малых выборок.

Основная гипотеза H0 должна отклоняться при больших отличиях статистики UX от среднего значения nXnY/2  {{{n}_{X}}{{n}_{Y}}}/{2}\;, т.е. в области больших по модулю значений статистики критерия Z. Таким образом, критическая область для статистики Z должна выбираться двусторонней.

Пример 1

Модифицированные критерии Колмогорова, "омега-квадрат", "хи-квадрат"

Пусть x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} – выборка объёма nX наблюдений случайной величины X, имеющей неизвестное распределение FX(x), y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}} – выборка объёма nY наблюдений случайной величины Y, имеющей неизвестное распределение FY(y).

Параметрические критерии проверки статистической гипотезы об однородности

H0:FX(ξ)=FY(ξ){{H}_{0}}:{{F}_{X}}(\xi )={{F}_{Y}}(\xi ),

H:FX(ξ)FY(ξ)H':{{F}_{X}}(\xi )\ne {{F}_{Y}}(\xi );

основаны на оценке рассогласования между эмпирическими функциями распределения FX(ξ)F_{X}^{*}(\xi ) и FY(ξ)F_{Y}^{*}(\xi ). Здесь могут быть использованы те же самые метрики, что и в критериях Колмогорова, «омега-квадрат» и Пирсона. Такие критерии, модифицированные для случая двух выборок, называются двухвыборочными (two-sample tests).

1. Двухвыборочный критерий Колмогорова (two-sample KS-test).

В критерии Колмогорова используется статистика критерия

ZnX,nY=nXnYnX+nYDnX,nY{{Z}_{{{n}_{X}},{{n}_{Y}}}}=\sqrt{\frac{{{n}_{X}}{{n}_{Y}}}{{{n}_{X}}+{{n}_{Y}}}}{{D}_{{{n}_{X}},{{n}_{Y}}}},

где DnX,nY{{D}_{{{n}_{X}},{{n}_{Y}}}} – расстояние по Колмогорову между эмпирическими функциям распределения FnX(ξ)F_{{{n}_{X}}}^{*}(\xi ) и GnY(ξ)G_{{{n}_{Y}}}^{*}(\xi ) случайных величин X и Y соответственно:

DnX,nY=maxξFnX(ξ)GnY(ξ){{D}_{{{n}_{X}},{{n}_{Y}}}}=\underset{\xi }{\mathop{\max }}\,\left| F_{{{n}_{X}}}^{*}(\xi )-G_{{{n}_{Y}}}^{*}(\xi ) \right|.

Для статистики ZnX,nY{{Z}_{{{n}_{X}},{{n}_{Y}}}} показано, что при условии истинности основной гипотезы H0 при nX{{n}_{X}}\to \infty , nY{{n}_{Y}}\to \infty её закон распределения не зависит от вида функций FX(x) и FY(y), причём её распределение стремится к распределению Колмогорова. Аппроксимация распределения статистики ZnX,nY{{Z}_{{{n}_{X}},{{n}_{Y}}}} распределением Колмогорова даёт хорошие результаты уже при nX > 40, nY > 40.

Так же, как и в критерии согласия Колмогорова, здесь основная гипотеза H0 должна отклоняться в области больших значений ZnX,nY{{Z}_{{{n}_{X}},{{n}_{Y}}}}, т.е. критическая область должна выбираться правосторонней.

На практике для вычисления рассогласования DnX,nY{{D}_{{{n}_{X}},{{n}_{Y}}}} между ЭФР FnX(ξ)F_{{{n}_{X}}}^{*}(\xi ) и GnY(ξ)G_{{{n}_{Y}}}^{*}(\xi ) удобно использовать формулу:

DnX,nY=maxi=1,NFnX(z(i))GnY(z(i)){{D}_{{{n}_{X}},{{n}_{Y}}}}=\underset{i=\overline{1,N}}{\mathop{\max }}\,\left| F_{{{n}_{X}}}^{*}({{z}_{(i)}})-G_{{{n}_{Y}}}^{*}({{z}_{(i)}}) \right|,

где z(1),...,z(N){{z}_{(1)}},...,{{z}_{(N)}} – вариационный ряд объединённой выборки x1,...,xnX,y1,...,ynY{{x}_{1}},...,{{x}_{{{n}_{X}}}},{{y}_{1}},...,{{y}_{{{n}_{Y}}}}, N=nX+nYN={{n}_{X}}+{{n}_{Y}} – суммарный объём выборок.

Пример 1

2. Двухвыборочный критерий «омега-квадрат» (two-sample omega-squared test).

Метрика «омега-квадрат» для расчёта рассогласования между функциями FX(x) и FY(y) на основе результатов наблюдений x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} и y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}} имеет вид:

ωnX,nY2=1Ni=1NFnX(zi)GnX(zi)2\omega_{n_X,n_Y}^2=\frac{1}{N}\sum\limits_{i=1}^{N}{{{\left| F_{n_X}^*(z_i)-G_{n_X}^{*}(z_i) \right|}^2}},

где z1,...,zN{{z}_{1}},...,{{z}_{N}} – объединённая выборка x1,...,xnX,y1,...,ynY{{x}_{1}},...,{{x}_{{{n}_{X}}}},{{y}_{1}},...,{{y}_{{{n}_{Y}}}}, N=nX+nYN={{n}_{X}}+{{n}_{Y}} – суммарный объём выборок.

В двухвыборочном критерии «омега-квадрат» (критерии Крамера-Мизеса) используется статистика

ZnX,nY=nXnYnX+nYωnX,nY2{{Z}_{{{n}_{X}},{{n}_{Y}}}}=\frac{{{n}_{X}}{{n}_{Y}}}{{{n}_{X}}+{{n}_{Y}}}\omega _{{{n}_{X}},{{n}_{Y}}}^{2},

для которой показано, что при условии истинности основной гипотезы H0 при nX{{n}_{X}}\to \infty , nY{{n}_{Y}}\to \infty её закон распределения не зависит от вида функций FX(x) и FY(y), причём её распределение стремится к распределению «омега-квадрат».

Аналогично критерию согласия «омега-квадрат», основная гипотеза H0 должна отклоняться в области больших значений ZnX,nY{{Z}_{{{n}_{X}},{{n}_{Y}}}}, т.е. критическая область должна выбираться правосторонней.

На практике для вычисления выборочного значения статистики Крамера-Мизеса удобно использовать формулу:

z=WnXnY(nX+nY)4nXnY16(nX+nY)z=\frac{W}{{{n}_{X}}{{n}_{Y}}({{n}_{X}}+{{n}_{Y}})}-\frac{4{{n}_{X}}{{n}_{Y}}-1}{6({{n}_{X}}+{{n}_{Y}})},

где

W=nXi=1nX(rii)2+nYj=1nY(sjj)2W={{n}_{X}}\sum\limits_{i=1}^{{{n}_{X}}}{{{({{r}_{i}}-i)}^{2}}}+{{n}_{Y}}\sum\limits_{j=1}^{{{n}_{Y}}}{{{({{s}_{j}}-j)}^{2}}},

а ri и sj – ранги элемента xi в выборке x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} и элемента yj в выборке y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}} соответственно, i=1,nXi=\overline{1,{{n}_{X}}}, j=1,nYj=\overline{1,{{n}_{Y}}}.

3. Двухвыборочный критерий Пирсона (two-sample chi-squared test) .

Двухвыборочный критерий Пирсона, или критерий «хи-квадрат», основан на оценке степени близости гистограмм относительных частот выборок x1,...,xnX{{x}_{1}},...,{{x}_{{{n}_{X}}}} и y1,...,ynY{{y}_{1}},...,{{y}_{{{n}_{Y}}}}. Для построения гистограмм проводят группировку выборочных значений обеих выборок на k интервалов J1,…, Jk, где J1 = [α0 = x(1); α1), J2 = [α1; α2),…,Jk = [αk-1; αk = x(n)], как правило, одинаковой ширины h (см. §2). Полученные результаты представлены в виде таблицы.

Число наблюдений

Всего

J1

...

Jk

Наблюдаемых в выборке X

m1(X)m_{1}^{(X)}

...

mk(X)m_{k}^{(X)}

nX

Наблюдаемых в выборке Y

m1(Y)m_{1}^{(Y)}

...

mk(Y)m_{k}^{(Y)}

nY

В качестве меры рассогласования между относительными частотами mi(X)/nX  {m_{i}^{(X)}}/{{{n}_{X}}}\; и mi(Y)/nY  {m_{i}^{(Y)}}/{{{n}_{Y}}}\; используется статистика:

ZnX,nY=nXnYi=1k1mi(X)+mi(Y)(mi(X)nXmi(Y)nY)2Z_{n_X,n_Y}=n_Xn_Y\sum\limits_{i=1}^{k}{\frac{1}{m_i^{(X)}+m_i^{(Y)}}{{\left(\frac{m_i^{(X)}}{n_X}-\frac{m_i^{(Y)}}{n_Y} \right)}^2}}.

(1)

для которой показано, что при условии истинности основной гипотезы H0 при nX{{n}_{X}}\to \infty , nY{{n}_{Y}}\to \infty её закон распределения не зависит от вида функций FX(x) и FY(y), причём её распределение стремится к распределению «хи-квадрат» с k–1 степенью свободы.

Аналогично критерию согласия Пирсона, основная гипотеза H0 должна отклоняться в области больших значений ZnX,nY{{Z}_{{{n}_{X}},{{n}_{Y}}}}, т.е. критическая область должна выбираться правосторонней.

Аппроксимация закона распределения статистики ZnX,nY{{Z}_{{{n}_{X}},{{n}_{Y}}}} при условии истинности основной гипотезы H0 законом χ2(k1){{\chi }^{2}}(k-1) с высокой точностью возможна лишь при больших значениях частот mi(X)m_{i}^{(X)} и mi(Y)m_{i}^{(Y)}, i=1,ki=\overline{1,k}. В случае если для некоторых интервалов mi(X)<3m_{i}^{(X)}<3 или mi(Y)<3m_{i}^{(Y)}<3, то такие интервалы рекомендуется объединить с соседними.

Пример 2

Анализ статистических взаимосвязей

Виды связей между величинами

При изучении объектов и явлений исследователю, как правило, приходится иметь дело с несколькими некоторым образом связанными статистическими признаками. Например, объём продукции предприятия связан с численностью работников, мощностью оборудования, стоимостью производственных фондов и еще многими признаками. Признаки «пол» и «число лейкоцитов в крови» могли бы рассматриваться как зависимые, если бы большинство мужчин имело высокий уровень лейкоцитов, а большинство женщин – низкий, или наоборот. Рост связан с весом, потому что обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с количеством ошибок в тесте, т.к. люди высоким значением IQ делают меньше ошибок и т.д.

Невозможно управлять явлениями, предсказывать их развитие без изучения характера, силы и других особенностей связей. Поэтому методы исследования, направленные на измерение связей, составляют чрезвычайно важную часть методологии научного исследования, в том числе и статистического.

При исследовании причинно-следственных связей статистические признаки разделяют на факторные и результативные. Факторные признаки, или факторы, – это признаки, обуславливающие изменение других, связанных с ними, признаков. Результативными называются признаки, изменяющиеся под воздействием факторных признаков.

Различают два типа связей между факторными и результативными признаками: функциональную и статистическую. Функциональной называют такую связь, при которой каждому определённому значению x факторного признака соответствует одно и только одно значение y результативного признака:

y=f(x)y=f(x).

Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой и ни от чего более. Такие связи являются абстракциями, в реальной жизни они встречаются редко, но находят широкое применение в точных науках и в первую очередь, в математике. Например, зависимость площади круга от радиуса S(R)=πR2S(R)=\pi {{R}^{2}}.

Функциональная зависимость результативного признака y от многих факторов x1,…,xk возможна только в том случае, если признак y всегда зависит от перечисленного набора факторов и ни от чего более. Такие связи также являются абстракциями, поскольку большинство явлений и процессов безграничного реального мира связаны между собой, и нет такого конечного числа переменных, которые абсолютно полно определяли бы собою зависимую величину. Тем не менее, на практике нередко используют представление реальных связей как функциональных. Например, длина года (период обращения Земли вокруг Солнца) почти функционально зависит только от массы Солнца и расстояния Земли от него. На самом деле она зависит в очень слабой степени и от масс, и от расстояний других планет от Земли, но вносимые ими (и тем более в миллионы раз более далекими звездами) искажения функциональной связи для всех практических целей, кроме космонавтики, пренебрежимо малы.

Статистической связью между результативным и факторным признаками называется связь, при которой каждому определённому значению x факторного признака соответствует некоторое распределение FY(yx){{F}_{Y}}(y|x) вероятностей значений результативного признака.

Такие связи имеют место, например, если на результативный признак действуют несколько факторных признаков, а для описания связи используется один или несколько определяющих (учтённых) факторов.

Частным случаем статистической связи между результативным и факторным признаками y и x является корреляционная связь. При корреляционной связи от значения x факторного признака зависит не всё распределение вероятностей FY(y), а лишь математическое ожидание величины Y. Математическое ожидание случайной величины Y при фиксированном значении случайной величины X = x называется условным математическим ожиданием и обозначается M[Y|x], а уравнение

M[Yx]=f(x)\text{M}[Y|x]=f(x)

называется уравнением регрессии Y на X.

В зависимости от типа рассматриваемых статистических признаков для анализа статистических связей между ними используют различные статистические методы (табл. 6.1).

Для анализа степени тесноты связи между количественными факторным и результативным признаками, т.е. признаками, варианты которых имеют числовое выражение, используются методы корреляционного анализа, для анализа уравнения регрессии – методы регрессионного анализа. Корреляционный и регрессионный анализы также могут быть применены для случая качественных порядковых, или ординальных, признаков, т.е. признаков, значения которых могут быть некоторым образом упорядочены. Для таких признаков можно сказать, какие значения больше или меньше, но нельзя сказать насколько.

В случае если факторный признак является номинальным (категориальным, или атрибутивным), т.е. признаком, варианты которого могут быть измерены только в терминах принадлежности к некоторым категориям, а результативный – количественным, то для анализа статистической связи между ними используются методы дисперсионного анализа.

Если же оба признака – и факторный, и результативный – являются номинальными, то для анализа статистической связи между ними используют метод таблиц сопряжённости.

Если факторный признак является количественным, а результативный – номинальным, то задачу, как правило, сводят к случаю двух номинальных признаков путём группировки значений факторного признака.

Таблица 6.1

Методы исследования статистических связей

факторный

результативный

номинальный

количественный

номинальный

таблицы сопряжённости

таблицы сопряжённости

количественный

дисперсионный анализ

корреляционный,
регрессионный анализ

Анализ статистической связи между номинальными величинами. Таблицы сопряженности

Пусть (X, Y) – вектор номинальных случайных величин X и Y, т.е. величин, значения которых нельзя выразить количественно (например, это может быть имя, город, национальность и т.п.). Номинальные случайные величины обязательно являются случайными величинами дискретного типа. Обозначим k – число вариантов случайной величины X, l – число вариантов случайной величины Y. Пусть распределение случайного вектора (X, Y) описывается таблицей:

Варианты

y1

...

yj

...

yl

Σ

x1

p11

...

p1j

...

p1l

j=1lp1j\sum\limits_{j=1}^{l}{{{p}_{1j}}}

...

...

...

...

...

...

...

xi

pi1

...

pij

...

pil

j=1lpij\sum\limits_{j=1}^{l}{{{p}_{ij}}}

...

...

...

...

...

...

...

xk

pk1

...

pkj

...

pkl

j=1lpkj\sum\limits_{j=1}^{l}{{{p}_{kj}}}

Σ

i=1kpi1\sum\limits_{i=1}^{k}{{{p}_{i1}}}

...

i=1kpij\sum\limits_{i=1}^{k}{{{p}_{ij}}}

...

i=1kpil\sum\limits_{i=1}^{k}{{{p}_{il}}}

1

В последнем столбце и последней строке приведены маргинальные распределения случайных величин X и Y соответственно, вероятности pij=P(X=xi,Y=yj){{p}_{ij}}=P(X={{x}_{i}},Y={{y}_{j}}), i=1,ki=\overline{1,k}, j=1,lj=\overline{1,l}.

Будем считать, что признак x является факторным, а признак y – результативным. При каждом фиксированном варианте xi случайной величины X, i=1,ki=\overline{1,k}, случайная величина Y имеет распределение вероятностей, представленное в i‑ой строке таблицы. При отсутствии статистической связи между случайными величинами X и Y распределение вероятностей случайной величины Y не зависит от значений случайной величины X и совпадает с её маргинальным распределением, т.е. j=1,l\forall j=\overline{1,l} должно выполняться равенство:

P(Y=yjX=x1)=...=P(Y=yjX=xk)=P(Y=yj)P(Y={{y}_{j}}|X={{x}_{1}})=...=P(Y={{y}_{j}}|X={{x}_{k}})=P(Y={{y}_{j}}).

(1)

Используя определение условной вероятности, запишем эквивалентное равенству (1) условие:

pijj=1lpij=i=1kpij\frac{{{p}_{ij}}}{\sum\limits_{j=1}^{l}{{{p}_{ij}}}}=\sum\limits_{i=1}^{k}{{{p}_{ij}}}, i=1,k\forall i=\overline{1,k}, j=1,l\forall j=\overline{1,l}.

(2)

Пусть (x1,y1),...,(xn,yn)({{x}_{1}},{{y}_{1}}),...,({{x}_{n}},{{y}_{n}}) – выборка наблюдений случайного вектора (X, Y) объёма n. Обозначим через nij частоту пары (xi,yj)({{x}_{i}},{{y}_{j}}) в этой выборке, i=1,ki=\overline{1,k}, j=1,lj=\overline{1,l}. Таблица, составленная из этих частот, называется (эмпирической) таблицей сопряжённости (contingency table, crosstab) (табл. 6.2).

Таблица 6.2

Таблица сопряжённости

Варианты

y1

...

yj

...

yl

Σ

x1

n11

...

n1j

...

n1l

j=1ln1j\sum\limits_{j=1}^{l}{{{n}_{1j}}}

...

...

...

...

...

...

...

xi

ni1

...

nij

...

nil

j=1lnij\sum\limits_{j=1}^{l}{{{n}_{ij}}}

...

...

...

...

...

...

...

xk

nk1

...

nkj

...

nkl

j=1lnkj\sum\limits_{j=1}^{l}{{{n}_{kj}}}

Σ

i=1kni1\sum\limits_{i=1}^{k}{{{n}_{i1}}}

...

i=1knij\sum\limits_{i=1}^{k}{{{n}_{ij}}}

...

i=1knil\sum\limits_{i=1}^{k}{{{n}_{il}}}

n

Сформулируем статистическую гипотезу об отсутствии статистической связи между случайными величинами X и Y:

H0:FY(yX=x1)=...=FY(yX=xk)=FY(y){{H}_{0}}:{{F}_{Y}}(y|X={{x}_{1}})=...={{F}_{Y}}(y|X={{x}_{k}})={{F}_{Y}}(y),

H:¬H0H':\neg{{H}_{0}}.

(3)

В случае если основная гипотеза H0 верна, т.е. справедливы равенства (2), в таблице сопряжённости вместо наблюдаемых частот nij, i=1,ki=\overline{1,k}, j=1,lj=\overline{1,l}, будут стоять теоретические частоты mij=npij{{m}_{ij}}=n{{p}_{ij}}:

mij=npij=nj=1lpiji=1kpij=1nj=1lniji=1knij{{m}_{ij}}=n{{p}_{ij}}=n\sum\limits_{j=1}^{l}{{{p}_{ij}}}\sum\limits_{i=1}^{k}{{{p}_{ij}}}=\frac{1}{n}\sum\limits_{j=1}^{l}{{{n}_{ij}}}\sum\limits_{i=1}^{k}{{{n}_{ij}}},

из которых можно составить теоретическую таблицу сопряжённости.

Для проверки статистической гипотезы (3) используется критерий, основанный на оценке степени близости между частотами в эмпирической и теоретической таблицах сопряжённости. В качестве меры рассогласования используется статистика

Z=i=1kj=1l(nijmij)2mijZ=\sum\limits_{i=1}^{k}{\sum\limits_{j=1}^{l}\frac{(n_{ij}-m_{ij})^2}{m_{ij}}},

(4)

для которой показано, что при условии истинности основной гипотезы H0 при nn\to \infty её закон распределения стремится к распределению «хи-квадрат» с (k–1)*(l–1) степенями свободы. На практике закон распределения статистики критерия Z может быть аппроксимирован с высокой точностью законом χ2((k1)(l1)){{\chi }^{2}}\left( (k-1)(l-1) \right), если выполняется условие mij > 5 для всех i=1,ki=\overline{1,k}, j=1,lj=\overline{1,l}.

В связи с тем, что основная гипотеза H0 должна отвергаться при больших рассогласованиях между частотами в эмпирической и теоретической таблицах сопряжённости, то критическая область для статистики критерия Z должна выбираться правосторонней.

Статистика критерия (4) может быть применена для анализа значимости статистической связи между двумя количественными признаками. В этом случае признаки должны быть предварительно группированы, а результаты группировки представлены в виде корреляционной таблицы.

Пример 1

Виды дисперсий в совокупности, разделённой на части

Пусть исследуемая генеральная совокупность разделена по некоторому номинальному признаку на группы. Например, при исследовании доходов предприятий в различных регионах страны множество предприятий разделено на группы по признаку «территориальное расположение», при исследовании качества продукции различных производителей генеральная совокупность разделена на группы по признаку «производитель» и т.п. Пусть в каждой группе проведено выборочное наблюдение, в результате которого получена выборка значений интересующего количественного признака.

Ставится задача определить, есть ли значимая статистическая связь между группировочным признаком (фактором) и интересующим результативным признаком.

Введём следующие обозначения: G – номинальный группировочный признак, имеющий K вариантов, X – количественный результативный признак, x1(k),...,xnk(k)x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)} – выборка наблюдений случайной величины X объёма nk, соответствующая k-му варианту групппировочного признака, k=1,Kk=\overline{1,K}. Для выборки из каждой группы могут быть рассчитаны выборочные характеристики:

xˉk=1nki=1nkxi(k){{\bar{x}}_{k}}=\frac{1}{{{n}_{k}}}\sum\limits_{i=1}^{{{n}_{k}}}{x_{i}^{(k)}} – частное (групповое) среднее, k=1,Kk=\overline{1,K};

σ~k2=1nki=1nk(xi(k)xˉk)2\tilde\sigma_k^2=\frac{1}{n_k}\sum\limits_{i=1}^{n_k}{{{(x_i^{(k)}-{\bar{x}_k})}^2}} – частная (групповая) дисперсия, k=1,Kk=\overline{1,K}.

Выборочные характеристики объединённой выборки x1(1),...,xn1(1),...,x1(K),...,xnK(K)x_{1}^{(1)},...,x_{{{n}_{1}}}^{(1)},...,x_{1}^{(K)},...,x_{{{n}_{K}}}^{(K)}:

xˉ=1nk=1Ki=1nkxi(k)\bar{x}=\frac{1}{n}\sum\limits_{k=1}^{K}{\sum\limits_{i=1}^{{{n}_{k}}}{x_{i}^{(k)}}} – общее среднее;

DX=1nk=1Ki=1nk(xi(k)xˉ)2{{D}_{X}^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{\sum\limits_{i=1}^{{{n}_{k}}}{{{(x_{i}^{(k)}-\bar{x})}^{2}}}} – общая дисперсия;

где n=k=1Knkn=\sum\limits_{k=1}^{K}{{{n}_{k}}} – общий объём выборки.

Несложно показать, что общее среднее представляет собой среднее арифметическое групповых средних, взвешенное объёмами выборок:

xˉ=1nk=1Knkxˉk\bar{x}=\frac{1}{n}\sum\limits_{k=1}^{K}{{{n}_{k}}{{{\bar{x}}}_{k}}}.

Аналогично, введём среднее арифметическое групповых дисперсий, взвешенное объёмами выборок:

Dw=1nk=1Knkσ~k2{{D}_{w}^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{{{n}_{k}}\tilde\sigma _{k}^{2}}.

Величина, рассчитываемая по этой формуле, называется внутригрупповой дисперсией (within-group variance) выборок x1(k),...,xnk(k)x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)}, k=1,Kk=\overline{1,K}.

Общая дисперсия DXD_X^* является мерой разброса (вариации) выборочных данных объединённой выборки, внутригрупповая дисперсия DwD_w^* – мерой разброса данных внутри каждой группы. Мерой разброса групповых средних является межгрупповая дисперсия (between-group variance), определяемая выражением:

Db=1nk=1Knk(xˉkxˉ)2{D_b^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{{n_k}{{({\bar{x}_{k}}-\bar{x})}^2}}.

Можно показать, что для внутригрупповой, межгрупповой и общей дисперсий справедливо правило сложения дисперсий:

DX=Dw+Db{{D}_{X}^*}={{D}_{w}^*}+{{D}_{b}^*}.

Правило сложения дисперсий имеет следующую интерпретацию: общая вариация результативного признака X складывается из его вариации внутри каждой группы (при каждом фиксированном значении группировочного признака G) и вариации групповых средних. Вариация значений признака X внутри каждой группы не может быть обусловлена признаком G (поскольку внутри каждой группы он имеет фиксированное значение) и связана с действием других факторов, называемых остаточными. В то же время, вариация групповых средних связана именно с действием фактора G. Таким образом, может быть предложна ещё одна интерпретация правила сложения дисперсий: вариация результативного признака X складывается из вариации, обусловленной действием остаточных факторов, и вариации, связанной с группировочным признаком G.

Отношение межгрупповой дисперсии к общей дисперсии называется эмпирическим коэффициентом детерминации (ЭКД):

η2=DbDX\eta^{2}=\frac{{{D}_{b}^*}}{{{D}_{X}^*}}.

(1)

Возможные значения ЭКД 0η21 0\le \eta^{2}\le 1. ЭКД показывает, какая доля в общей вариации результативного признака X связана с действием группировочного признака G. ЭКД нередко называют также показателем «эта-квадрат» (eta-squared).

Отношение межгруппового среднеквадратического отклонения к общему среднеквадратическому отклонению называется эмпирическим корреляционным отношением (ЭКО):

η=DbDX\eta=\sqrt{\frac{{{D}_{b}^*}}{{{D}_{X}^*}}}.

Возможные значения ЭКО 0η1 0\le \eta\le 1. На основе ЭКО судят о степени тесноты статистической связи между факторным признаком G и результативным признаком X. Для характеристики степени тесноты связи может быть использована шкала Чеддока (R. E. Chaddock, 1925) (табл. 6.3).

Таблица 6.3

Шкала Чеддока

η

Степень тесноты связи

0,1–0,3

слабая

0,3–0,5

умеренная

0,5–0,7

заметная

0,7–0,9

высокая

0,9–0,99

сильная

0,99–1

функциональная

Пример 1

При расчётах внутригрупповой, межгрупповой и общей дисперсий, а также ЭКД и ЭКО по результатам выборочного наблюдения необходимо иметь в виду, что все получаемые значения являются смещёнными оценками соответствующих теоретических значений, характеризующих генеральную совокупность. Показатели вариации, а также их несмещённые оценки сведены в таблицу, называемую таблицей дисперсионного анализа (табл. 6.4).

Таблица 6.4

Таблица дисперсионного анализа

Источник вариации

Показатель вариации

Число степеней свободы

Несмещённая оценка

Группировочный признак

Db{{D}_{b}^*}

K–1

nK1Db\frac{n}{K-1}{{D}_{b}^*}

Остаточные признаки

Dw{{D}_{w}^*}

nK

nnKDw\frac{n}{n-K}{{D}_{w}^*}

Все признаки

DX{{D}_{X}^*}

n–1

nn1DX\frac{n}{n-1}{{D}_{X}^*}

Смещение оценки ЭКД, рассчитываемой по формуле (1), является положительным, т.е. такая оценка в среднем даёт завышенную долю объяснённой дисперсии. Однако с ростом объёма выборки величина смещения уменьшается. При малом объёме выборки вместо оценки ЭКД (1) рекомендуется использовать другую оценку, обладающую меньшим смещением:

ω2=DbK1nKDwDX+K1nKDw\omega^{2}=\frac{{{D}_{b}^*}-\frac{K-1}{n-K}{{D}_{w}^*}}{{{D}_{X}^*}+\frac{K-1}{n-K}{{D}_{w}^*}}.

(2)

Оценка ЭКД, рассчитываемая по формуле (2), всегда меньше оценки, рассчитываемой по формуле (1).

Однофакторный дисперсионный анализ

При исследовании влияния номинального группировочного признака G на количественный результативный признак X задача проверки значимости статистической связи между этими признаками может быть сведена к задаче проверки статистической гипотезы о равенстве математических ожиданий случайных величин X1,…, XK, соответствующих каждому варианту группировочного признака G. Для проверки такой гипотезы используется дисперсионный анализ (Analysis of Variance, ANOVA).

Поскольку рассматривается единственный группировочный признак G (фактор), то дисперсионный анализ называется однофакторным (one-way ANOVA).

Пусть x1(k),...,xnk(k)x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)} – выборка объёма nk из k-ой группы, т.е. результаты наблюдений случайной величины Xk, k=1,Kk=\overline{1,K}. В дисперсионном анализе выдвигаются следующие предположения:

1) все случайные величины X1,…, XK имеют нормальное распределение;

2) выборки из каждой группы являются независимыми;

3) дисперсии случайных величин X1,…,XK равны (такие случайные величины называются гомоскедастичными).

Учитывая эти предположения, гипотеза об отсутствии статистической связи между группировочным и результативным признаками

H0:FX1(x)=...=FXK(x)=FX(x){{H}_{0}}:{{F}_{{{X}_{1}}}}(x)=...={{F}_{{{X}_{K}}}}(x)={{F}_{X}}(x)

эквивалентна гипотезе о математических ожиданиях

H0:m1=...=mK{{H}_{0}}:{{m}_{1}}=...={{m}_{K}},

H:¬H0H':\neg{{H}_{0}}.

Для проверки этой гипотезы используется статистика:

F=Db/(K1)  Dw/(nK)  F=\frac{{{{D}_{b}^*}}/{(K-1)}\;}{{{{D}_{w}^*}}/{(n-K)}\;}.

которая при условии истинности основной гипотезы H0 имеет распределение Фишера F(K–1, nK). Фактически, статистика F представляет собой отношение несмещённых оценок межгрупповой и внутригрупповой дисперсий. При наличии статистической связи между группировочным и исследуемым признаками (случай отклонения гипотезы H0) межгрупповая дисперсия много больше внутригрупповой дисперсии, из чего следует, что критическая область должна выбираться правосторонней.

Дисперсионный анализ является слабо чувствительным (робастным) к требованию о нормальности распределения наблюдаемых случайных величин при больших и сбалансированных объёмах выборок, а при нарушении требования их гомоскедастичности наблюдается рост вероятности ошибки второго рода.

Пример 1

В частном случае число вариантов K группировочного признака может быть равно 2. Тогда гипотеза дисперсионного анализа имеет вид:

H0:m1=m2{{H}_{0}}:{{m}_{1}}={{m}_{2}},

H:m1m2H':{{m}_{1}}\ne {{m}_{2}}.

Эта гипотеза является двухвыборочной параметрической гипотезой и для её проверки может быть использована статистика критерия Стьюдента.

Основная гипотеза H0 дисперсионного анализа состоит в том, что математические ожидания в каждой из K групп равны против альтернативной гипотезы, состоящей в том, что математические ожидания хотя бы в двух группах окажутся различными. Такая альтернатива включает множество вариантов. Основная гипотеза дисперсионного анализа будет отклонена как в случае значимого различия математических ожиданий лишь в двух группах, так и в случае значимого различия математических ожиданий всех групп.

В случае, когда основная гипотеза H0 в результате дисперсионного анализа отклоняется, нередко бывает необходимо узнать, какие именно математические ожидания значимо отличаются, а какие равны. Возможным способом такой проверки является проведение попарных сравнений математических ожиданий для каждой пары групп, т.е. проверка множества статистических гипотез вида:

H0:mi=mj{{H}_{0}}:{{m}_{i}}={{m}_{j}},

H:mimjH':{{m}_{i}}\ne {{m}_{j}}.

где i=1,Ki=\overline{1,K}, j=1,Kj=\overline{1,K}.

Однако такой способ проверки имеет существенный недостаток. При проверке одной параметрической гипотезы задаётся некоторый уровень значимости α, определяющий вероятность ошибки первого рода, т.е. отклонения основной гипотезы при условии её истинности. При проверке множества параметрических гипотез, каждую на уровне значимости α, с использованием статистики критерия Стьюдента, вероятность ошибочно обнаружить различие в математических ожиданиях будет расти с числом проверяемых гипотез.

Вероятность ошибки первого рода при проверке K независимых статистических гипотез будет равна

α~=1(1α)K\tilde{\alpha }=1-{{\left( 1-\alpha \right)}^{K}}.

В случае зависимых гипотез может быть рассчитана оценка эффективной вероятности α~\tilde{\alpha } ошибки первого рода, используя различные корректирующие поправки (например, поправку Бонферрони).

Для того, чтобы обеспечить заданную вероятность ошибки первого рода при проверке множества параметрических гипотез вида H0:mi=mj{{H}_{0}}:{{m}_{i}}={{m}_{j}}, i=1,Ki=\overline{1,K},j=1,Kj=\overline{1,K}, на практике используются методы множественного сравнения (multiple comparison tests).

Одним из методов множественного сравнения является метод Шеффе (Henry Scheffe, 1953), называемый также методом линейных контрастов. С помощью метода Шеффе проверяется основная гипотеза вида:

H0:k=1Kckmk=0{{H}_{0}}:\sum\limits_{k=1}^{K}{{{c}_{k}}{{m}_{k}}}=0,

H:k=1Kckmk0H':\sum\limits_{k=1}^{K}{{{c}_{k}}{{m}_{k}}}\ne 0,

где c1,…,cK – весовые коэффициенты, причём k=1Kck=0\sum\limits_{k=1}^{K}{{{c}_{k}}}=0. Величина C=k=1KckmkC=\sum\limits_{k=1}^{K}{{{c}_{k}}{{m}_{k}}} называется линейным контрастом. В частном случае, при ci=cj{{c}_{i}}=-{{c}_{j}}, i{1,...,K}i\in\{1,...,K\}, j{1,...,K}j\in \{1,...,K\}, и остальных нулевых коэффициентах, линейный контраст C=mimjC={{m}_{i}}-{{m}_{j}}, а проверяемая гипотеза имеет вид:

H0:mi=mj{{H}_{0}}:{{m}_{i}}={{m}_{j}},

H:mimjH':{{m}_{i}}\ne {{m}_{j}}.

Для проверки гипотезы H0 используем метод доверительных интервалов. Точечной оценкой линейного контраста является линейная комбинация групповых средних

C~=k=1KckXˉk\tilde{C}=\sum\limits_{k=1}^{K}{{{c}_{k}}{{{\bar{X}}}_{k}}},

которая для конкретной выборки примет выборочное значение

c~=k=1Kckxˉk\tilde{c}=\sum\limits_{k=1}^{K}{{{c}_{k}}{{{\bar{x}}}_{k}}}.

Можно показать, что оценка дисперсии линейного контраста равна

σ~C2=nDwnKk=1Kck2nk\tilde{\sigma}_{C}^{2}=\frac{n{{D}_{w}^*}}{n-K}\sum\limits_{k=1}^{K}{\frac{c_{k}^{2}}{{{n}_{k}}}},

а границы доверительного интервала имеют вид:

C~±σ~C(K1)f1α(K1;nK)\tilde{C}\pm \tilde{\sigma }_{C}^{{}}\sqrt{(K-1){{f}_{1-\alpha }}(K-1;n-K)},

где f1α(K1;nK){{f}_{1-\alpha }}(K-1;n-K) – квантиль распределения Фишера с K–1 и nK степенями свободы на уровне значимости 1–α.

В случае, если доверительный интервал накрывает нулевое значение, то нет оснований отвергать основную гипотезу о равенстве нулю линейного контраста.

Пример 2

Статистическая связь между компонентами нормально распределенного случайного вектора

Частным случаем статистической связи между количественными признаками x и y является корреляционная связь. При корреляционной связи от значения x факторного признака зависит лишь условное математическое ожидание M[Y | x] случайной величины Y, при этом все остальные характеристики распределения случайной величины Y остаются неизменными. Функция f(x), описывающая эту зависимость, называется функцией регрессии Y на X.

Частным случаем корреляционной связи между признаками x и y является линейная корреляционная связь, когда функция регрессии Y на X представляет собой линейную функцию:

f(x)=β0+β1xf(x)={{\beta }_{0}}+{{\beta }_{1}}x.

Пусть случайный вектор Z=(X,Y)TZ={{(X,Y)}^{T}} имеет двумерное нормальное распределение, Z N(m,C)Z\sim{\ }N(m,C), где m=(mX,mY)Tm={{({{m}_{X}},{{m}_{Y}})}^{T}} – вектор математических ожиданий, C=(σX2kXYkYXσY2 )C=\left( \begin{matrix} \sigma _{X}^{2} & {{k}_{XY}} \\ {{k}_{YX}} & \sigma _{Y}^{2} \ \end{matrix} \right) – ковариационная матрица. Покажем, что если между случайными величинами X и Y есть статистическая связь, то такая связь является линейной корреляционной связью.

Запишем двумерную функцию плотности распределения случайного вектора Z в матричном виде:

fZ(z)=12πdetCexp{12(zm)TC1(zm)}{{f}_{Z}}(z)=\frac{1}{2\pi \sqrt{\det C}}\exp \left\{ -\frac{1}{2}{{(z-m)}^{T}}{{C}^{-1}}(z-m) \right\},

где z=(x,y)Tz={{(x,y)}^{T}}. В скалярном виде:

fXY(x,y)=12σXσY1ρXY2exp{1(1ρXY2)×{{f}_{XY}}(x,y)=\frac{1}{2{{\sigma }_{X}}{{\sigma }_{Y}}\sqrt{1-\rho _{XY}^{2}}}\exp \left\{ -\frac{1}{(1-\rho _{XY}^{2})}\times \right.

        ×[(xmX)22σX2ρXY(xmX)(ymY)σXσY+(ymY)22σY2]}\left. \,\,\,\,\,\,\,\,\times \left[ \frac{{{(x-{{m}_{X}})}^{2}}}{2\sigma _{X}^{2}}-\rho _{XY}^{{}}\frac{(x-{{m}_{X}})(y-{{m}_{Y}})}{{{\sigma}_{X}}{{\sigma }_{Y}}}+\frac{{{(y-{{m}_{Y}})}^{2}}}{2\sigma _{Y}^{2}} \right] \right\},

(1)

где ρXY=kXYσXσY{{\rho }_{XY}}=\frac{{{k}_{XY}}}{{{\sigma }_{X}}{{\sigma }_{Y}}} – коэффициент корреляции.

Путём интегрирования по соответствующей переменной двумерной функции плотности (1) получим маргинальные распределения случайных величин X и Y:

fX(x)=+fXY(x,y)dy=1σX2πexp{(xmX)22σX2}{{f}_{X}}(x)=\int\limits_{-\infty }^{+\infty }{{{f}_{XY}}(x,y)dy}=\frac{1}{{{\sigma }_{X}}\sqrt{2\pi }}\exp \left\{ -\frac{{{(x-{{m}_{X}})}^{2}}}{2\sigma_{X}^{2}} \right\},

(2)

fY(y)=+fXY(x,y)dx=1σY2πexp{(ymY)22σY2}{{f}_{Y}}(y)=\int\limits_{-\infty }^{+\infty }{{{f}_{XY}}(x,y)dx}=\frac{1}{{{\sigma }_{Y}}\sqrt{2\pi }}\exp \left\{ -\frac{{{(y-{{m}_{Y}})}^{2}}}{2\sigma_{Y}^{2}} \right\},

(3)

Из равенств (1), (2) и (3) видно, что в случае если ρXY=0{{\rho }_{XY}}=0, выполняется тождество:

fXY(x,y)=fX(x)fY(y){{f}_{XY}}(x,y)={{f}_{X}}(x){{f}_{Y}}(y),

из которого следует, что если нормально распределённые случайные величины X и Y некоррелированы, то они независимы. Для произвольного закона распределения это утверждение в общем случае неверно.

По определению, условная плотность распределения случайной величины Y:

fY(yx)=fXY(x,y)fX(x){{f}_{Y}}(y|x)=\frac{{{f}_{XY}}(x,y)}{{{f}_{X}}(x)}.

Подставляя выражения (1 )и (2), получим

fY(yx)=1σYX2πexp{(ymYX(x))22σYX2}{{f}_{Y}}(y|x)=\frac{1}{{{\sigma }_{Y|X}}\sqrt{2\pi }}\exp \left\{ -\frac{{{(y-{{m}_{Y|X}}(x))}^{2}}}{2\sigma _{Y|X}^{2}} \right\},

(4)

где использованы обозначения

mYX(x)=mY+ρXYσYσX(xmX){{m}_{Y|X}}(x)={{m}_{Y}}+\rho _{XY}^{{}}\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}}(x-{{m}_{X}}),

(5)

σYX=σY1ρXY2{{\sigma }_{Y|X}}={{\sigma }_{Y}}\sqrt{1-\rho _{XY}^{2}}.

(6)

Из (4)–(6) следует, что при любом фиксированном значении x распределение случайной величины Y является нормальным распределением с постоянной дисперсией σYX{{\sigma }_{Y|X}}. Это означает, что статистическая связь между величинами X и Y может быть только корреляционной. Покажем, что эта связь линейна.

Используя определения условного математического ожидания и среднеквадратичного отклонения, получим, что для случайной величины Y они равны соответственно mYX(x){{m}_{Y|X}}(x) и σYX{{\sigma }_{Y|X}}:

M[Yx]=+yfY(yx)dy=mYX(x)\text{M}[Y|x]=\int\limits_{-\infty }^{+\infty }{y{{f}_{Y}}(y|x)dy}={{m}_{Y|X}}(x),

(7)

D[Yx]=+(ymYX(x))2fY(yx)dy=σYX2\text{D}[Y|x]=\int\limits_{-\infty }^{+\infty }{{{\left( y-{{m}_{Y|X}}(x) \right)}^{2}}{{f}_{Y}}(y|x)dy}=\sigma _{Y|X}^{2}.

(8)

Учитывая линейную зависимость (5), заключаем, что функция регрессии Y на X является линейной. Это означает, что статистическая связь между нормально распределёнными случайными величинами может быть только линейной корреляционной. Из (5) получаем коэффициенты линейной регрессии:

β0=mYρXYσYσXmX{{\beta }_{0}}={{m}_{Y}}-\rho _{XY}^{{}}\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}}{{m}_{X}},

β1=ρXYσYσX{{\beta }_{1}}=\rho _{XY}^{{}}\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}}.

(9)

Из этих равенств видно, что функция регрессии не зависит от x ( β1=0{{\beta }_{1}}=0 ), если коэффициент корреляции ρXY=0{{\rho }_{XY}}=0. Таким образом, некоррелированность нормально распределённых случайных величин означает отсутствие статистической связи между ними. Можно показать, что если ρXY=1\left| {{\rho }_{XY}} \right|=1, то между случайными величинами X и Y имеется линейная функциональная связь:

Y=σYσXX+(mYσYσXmX)Y=\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}}X+\left( {{m}_{Y}}-\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}}{{m}_{X}} \right).

Следовательно, коэффициент корреляции можно рассматривать как показатель тесноты статистической связи между нормально распределёнными случайными величинами X и Y.

На рисунке ниже показаны диаграммы рассеяния (в корреляционном анализе называемые корреляционными полями) двумерных нормальных распределений при различных значениях коэффициента корреляции.

Корреляционные поля двумерных нормальных распределений с нулевым математическим ожиданием и с.к.о. компонентов σX = 1, σY = 1 при различных значениях коэффициента корреляции ρXY

С изменением коэффициента корреляции от –1 до 1 прямая регрессии изменяет угол наклона, от минимального значения arctan(σYσX)=π4-\arctan \left(\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}} \right)=-\frac{\pi }{4} до максимального arctan(σYσX)=π4\arctan \left( \frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}}\right)=\frac{\pi }{4}, кроме того, изменяется степень рассеяния выборочных значений относительно прямой регрессии – при ρXY=0{{\rho }_{XY}}=0 рассеяние максимально, а при ρXY=1\left| {{\rho }_{XY}} \right|=1 рассеяние отсутствует.

Согласно (9), угол наклона линии регрессии зависит не только от коэффициента корреляции ρXY{{\rho }_{XY}}, но и от отношения с.к.о. σYσX\frac{{{\sigma}_{Y}}}{{{\sigma }_{X}}}. На рисунке ниже показаны корреляционные поля двумерных нормальных распределений при фиксированном значении коэффициента корреляции и различных значениях отношения σYσX\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}}.

Корреляционные поля двумерных нормальных распределений с нулевым математическим ожиданием и ρXY = 0,8 при различных значениях с.к.о. компонентов

Из диаграмм рассеяния видно, что угол наклона прямой регрессии может изменяться практически от 0 до π/2 в зависимости от соотношения с.к.о. σYσX\frac{{{\sigma }_{Y}}}{{{\sigma }_{X}}} при фиксированном значении коэффициента корреляции ρXY, кроме того, изменяется степень рассеяния выборочных значений относительно прямой регрессии, определяемая условными с.к.о. σYX{{\sigma }_{Y|X}} и σXY{{\sigma }_{X|Y}}.

Корреляционное отношение

Если закон распределения случайного вектора Z=(X,Y)TZ={{(X,Y)}^{T}} не является нормальным, то характер изменения условного математического ожидания M[Yx]=f(x)\text{M}[Y|x]=f(x) в общем случае является нелинейным, а условная дисперсия D[Yx]\text{D}[Y|x] зависит от x. При каждом фиксированном x условная дисперсия D[Yx]\text{D}[Y|x] является мерой рассеяния условного распределения FY(yx){{F}_{Y}}(y|x) относительно условного математического ожидания M[Yx]\text{M}[Y|x], т.е. относительно значения функции регрессии в точке x.

Рассеяние случайной величины Y относительно её математического ожидания mY складывается из двух слагаемых, а именно: рассеяния случайной величины Y относительно функции регрессии и рассеяния значений функции регрессии относительно математического ожидания случайной величины Y, т.е.

M[(YmY)2]=M[(Yf(X))2]+M[(f(X)mY)2]\text{M}[{{(Y-{{m}_{Y}})}^{2}}]=\text{M}[{{(Y-f(X))}^{2}}]+\text{M}[{{(f(X)-{{m}_{Y}})}^{2}}].

(1)

Для доказательства преобразуем левую часть равенства:

M[(YmY)2]=M[((Yf(X))+(f(X)mY))2]=\text{M}[{{(Y-{{m}_{Y}})}^{2}}]=\text{M}\left[ {{\left( (Y-f(X))+(f(X)-{{m}_{Y}}) \right)}^{2}} \right]=

        =M[(Yf(X))2]+2M[(Yf(X))(f(X)mY)]+\ \ \ \ \ \ \ \ =\text{M}[{{(Y-f(X))}^{2}}]+2\text{M}[(Y-f(X))(f(X)-{{m}_{Y}})]+

                                   +M[(f(X)mY)2]\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ +\text{M}[{{(f(X)-{{m}_{Y}})}^{2}}].

Учитывая, что

M[(Yf(X))(f(X)mY)]=0\text{M}[(Y-f(X))(f(X)-{{m}_{Y}})]=0,

(2)

получаем верное равенство (1).

Величина DresY=M[(Yf(X))2]{{D}_{resY}}=\text{M}\left[ {{(Y-f(X))}^{2}} \right] характеризует степень разброса значений случайной величины Y относительно линии регрессии и называется остаточной дисперсией случайной величины Y (residual variance).

Величина DYX=M[(f(X)mY)2]{{D}_{Y|X}}=\text{M}\left[ {{(f(X)-{{m}_{Y}})}^{2}} \right] характеризует степень разброса значений, принадлежащих линии регрессии, относительно математического ожидания случайной величины Y и называется дисперсией, обусловленной регрессией Y на X (variance explained by regression).

Таким образом, для общей дисперсии Y, дисперсии, обусловленной регрессией Y на X, и остаточной дисперсии Y справедливо правило сложения дисперсий:

DY=DresY+DYX{{D}_{Y}}={{D}_{resY}}+{{D}_{Y|X}}.

Отношение дисперсии, обусловленной регрессией Y на X, к общей дисперсии случайной величины Y называется коэффициентом детерминации (КД) Y на X:

RYX2=DYXDYR_{Y|X}^{2}=\frac{{{D}_{Y|X}}}{{{D}_{Y}}}.

(3)

Возможные значения КД 0RYX21 0\le R_{Y|X}^{2}\le 1. КД показывает, какая доля в общей вариации результативного признака Y связана с вариацией линии регрессии. Иными словами, КД – это доля вариации, объяснённой регрессией, в общей вариации значений признака Y.

Отношение среднеквадратичного отклонения, обусловленного регрессией Y на X, к среднеквадратичному отклонению случайной величины Y называется корреляционным отношением (КО) Y на X:

RYX=DYXDYR_{Y|X}^{{}}=\sqrt{\frac{{{D}_{Y|X}}}{{{D}_{Y}}}}.

Возможные значения КО 0RYX1 0\le R_{Y|X}^{{}}\le 1. На основе КО судят о степени тесноты корреляционной связи между факторным признаком X и результативным признаком Y. Для характеристики степени тесноты связи может быть использована шкала Чеддока (табл. 6.3).

Равенство RYX=0R_{Y|X}^{{}}=0 означает, что вариация значений функции регрессии f(x) при различных значениях x полностью отсутствует, линия регрессии является горизонтальной прямой ( f(x)=constf(x)=const ). Другими словами, корреляционная связь между случайными величинами X и Y отсутствует.

Равенство RYX=1R_{Y|X}^{{}}=1 будет иметь место, если остаточная дисперсия DresY=0{{D}_{resY}}=0, т.е. если вариация признака Y относительно линии регрессии при каждом фиксированном значении x полностью отсутствует. Это означает, что при каждом значении x значение признака Y однозначно определено и равно f(x). Иными словами, между случайными величинами X и Y имеется функциональная связь.

Аналогично выражению (3) определяется КД RXY2R_{X|Y}^{2} X на Y.

Между RYX2R_{Y|X}^{2} и RXY2R_{X|Y}^{2} в общем случае нет какой-либо простой зависимости. Возможны ситуации, когда один из этих показателей принимает нулевое значение, в то время как другой равен единице. Так, на рисунке ниже приведён пример ситуации, когда RYX21R_{Y|X}^{2}\approx 1, в то время как RXY20R_{X|Y}^{2}\approx 0. В первом случае (слева) линия регрессии Y на X является параболой (сплошная линия), разброс данных относительно неё небольшой, т.е. DresY0{{D}_{resY}}\approx 0, в то время как разброс значений, принадлежащих линии регрессии, относительно среднего значения случайной величины Y (горизонтальная пунктирная линия) много больше, т.е. DYXDY{{D}_{Y|X}}\approx {{D}_{Y}}. Во втором случае (справа) линия регрессии X на Y – прямая, параллельная оси Y. Линия регрессия проходит на уровне среднего значения случайной величины X, т.е. DXY0{{D}_{X|Y}}\approx 0, в то время как разброс значений случайной величины X относительно линии регрессии практически равен разбросу относительно среднего значения случайной величины X, т.е. DresXDX{{D}_{resX}}\approx {{D}_{X}}.

Иллюстрация к расчёту КД RYX2R_{Y|X}^{2} и RXY2R_{X|Y}^{2}

Рассмотрим, как связаны между собой коэффициент корреляции ρXY и корреляционное отношение RYXR_{Y|X}^{{}}. Из теории вероятностей известно, что из независимости случайных величин следует их некоррелированность. В терминах статистической связи это утверждение формулируется так: если между признаками отсутствует статистическая связь, то между ними отсутствует линейная корреляционная связь. Справедливость этого утверждения очевидна, поскольку линейная корреляционная связь – частный случай статистической связи. Обратное утверждение в общем случае неверно: отсутствие линейной корреляционной связи не означает отсутствие статистической связи какого-либо другого типа.

Ранее показано, что между компонентами двумерного нормально распределённого случайного вектора статистическая связь может быть лишь линейной корреляционной связью. Из этого следует, что термины «статистическая связь» и «линейная корреляционная связь» для нормального распределения эквивалентны. В теории вероятностей это утверждение известно как «из некоррелированности нормально распределённых случайных величин следует их независимость».

Рассчитаем КД для нормально распределённых случайных величин X и Y. По определению, коэффициент детерминации равен:

RYX2=DYXDY=1DresYDY=1M[(Yf(X))2]DYR_{Y|X}^{2}=\frac{{{D}_{Y|X}}}{{{D}_{Y}}}=1-\frac{{{D}_{resY}}}{{{D}_{Y}}}=1-\frac{\text{M}\left[ {{(Y-f(X))}^{2}} \right]}{{{D}_{Y}}}.

где f(x)=M[Yx]f(x)=\text{M}[Y|x] – функция регрессии.

Учитывая, что условная дисперсия σYX{{\sigma }_{Y|X}} не зависит от x:

D[Yx]=M[(Yf(x))2]=σY1ρXY2=σYX2\text{D}[Y|x]=\text{M}\left[ {{(Y-f(x))}^{2}} \right]={{\sigma }_{Y}}\sqrt{1-\rho _{XY}^{2}}=\sigma _{Y|X}^{2},

запишем

RYX2=1σYX2DY=1σY2(1ρXY2)σY2=ρXY2R_{Y|X}^{2}=1-\frac{\sigma _{Y|X}^{2}}{{{D}_{Y}}}=1-\frac{\sigma _{Y}^{2}\left( 1-\rho _{XY}^{2} \right)}{\sigma _{Y}^{2}}=\rho _{XY}^{2}.

Таким образом, для нормально распределённых случайных величин коэффициент корреляции и корреляционное отношение совпадают с точностью до знака. Это означает, что использование корреляционного отношения в качестве показателя статистической связи имеет смысл лишь для признаков, распределения которых отличны от нормального. В случае же нормального распределения можно ограничиться рассмотрением лишь коэффициента корреляции.

При любом законе распределения случайного вектора Z=(X,Y)TZ={{(X,Y)}^{T}} для КД и коэффициента корреляции справедливо неравенство:

0ρXY2RYX21 0\le \rho _{XY}^{2}\le R_{Y|X}^{2}\le 1.

При этом возможны следующие варианты:

а) ρXY2=0\rho _{XY}^{2}=0 тогда и только тогда, когда линейная корреляционная связь между X и Y отсутствует;

б) ρXY2=RYX2=1\rho _{XY}^{2}=R_{Y|X}^{2}=1 тогда и только тогда, когда имеется линейная функциональная связь между X и Y;

в) ρXY2<RYX2=1\rho _{XY}^{2}<R_{Y|X}^{2}=1 тогда и только тогда, когда имеется нелинейная функциональная связь между X и Y;

г) ρXY2=RYX2<1\rho _{XY}^{2}=R_{Y|X}^{2}<1 тогда и только тогда, когда регрессия Y на X линейна, но функциональная связь отсутствует.

Оценивание коэффициента корреляции по выборочным данным

Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего неизвестное распределение FXY(x, y).

1. Точечная оценка коэффициента корреляции

На практике в качестве точечной оценки коэффициента корреляции ρXY используется выборочный коэффициент корреляции:

ρXY=kXYσXσY\rho _{XY}^{*}=\frac{k_{XY}^{*}}{\sigma _{X}^{*}\sigma _{Y}^{*}},

(1)

где kXYk_{XY}^{*} – выборочный ковариационный момент:

kXY=1ni(xixˉ)(yiyˉ)k_{XY}^{*}=\frac{1}{n}\sum\limits_{i}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}.

Выборочный коэффициент корреляции ρXY\rho _{XY}^{*} является состоятельной смещённой оценкой коэффициента корреляции ρXY со смещением, равным ρXY(1ρXY2)2n-\frac{\rho _{XY}^{{}}(1-\rho _{XY}^{2})}{2n}. Величина смещения убывает с увеличением объёма выборки и при n > 30 уже становится практически пренебрежимой.

2. Интервальная оценка коэффициента корреляции

Пусть распределение FXY(x, y) является двумерным нормальным распределением. В этом случае точечная оценка коэффициента корреляции ρXY\rho _{XY}^{*} имеет асимптотически нормальный закон распределения с математическим ожиданием

M[ρXY]ρXYρXY(1ρXY2)2n\text{M}\left[ \rho _{XY}^{*} \right]\approx \rho _{XY}^{{}}-\frac{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}{2n}

и дисперсией

D[ρXY](1ρXY2)2n\text{D}\left[ \rho _{XY}^{*} \right]\approx \frac{{{\left( 1-\rho _{XY}^{2} \right)}^{2}}}{n}.

В качестве центральной статистики при построении доверительного интервала выберем стандартизованную оценку коэффициента корреляции:

U=ρXYM[ρXY]D[ρXY]=ρXY(ρXYρXY(1ρXY2)/2n  )(1ρXY2)/n  N(0,1)U=\frac{\rho _{XY}^{*}-\text{M}\left[ \rho _{XY}^{*} \right]}{\sqrt{\text{D}\left[ \rho _{XY}^{*} \right]}}=\frac{\rho _{XY}^{*}-\left( \rho_{XY}^{{}}-{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}/{2n}\; \right)}{{\left( 1-\rho _{XY}^{2} \right)}/{\sqrt{n}}\;}\sim N(0,1).

Запишем тождество для статистики U:

P(uα/2<(ρXYρXY(1ρXY2)/2n  )ρXY(1ρXY2)/n  <u1α/2)=1αP\left( {{u}_{\alpha /2}}<\frac{\left( \rho _{XY}^{*}-{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}/{2n}\; \right)-\rho _{XY}^{{}}}{{\left( 1-\rho_{XY}^{2} \right)}/{\sqrt{n}}\;}<{{u}_{1-\alpha /2}} \right)=1-\alpha ,

где uα/2{{u}_{\alpha /2}} и u1α/2{{u}_{1-\alpha /2}} – квантили стандартизованного нормального распределения на уровнях α/2 и 1–α/2 соответственно. Преобразуя неравенство под знаком вероятности, получим:

P(ρXY+ρXY(1ρXY2)2nu1α/21ρXY2n<ρXY<P\left( \rho _{XY}^{*}+\frac{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}{2n}-{{u}_{1-\alpha /2}}\frac{1-\rho _{XY}^{2}}{\sqrt{n}}<\rho_{XY}^{{}}< \right.

                      <ρXY+ρXY(1ρXY2)2n+u1α/21ρXY2n)=1α\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. <\rho _{XY}^{*}+\frac{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}{2n}+{{u}_{1-\alpha/2}}\frac{1-\rho _{XY}^{2}}{\sqrt{n}} \right)=1-\alpha.

Это выражение ещё не даёт интервальной оценки коэффициента корреляции ρXY, так как левая и правая части неравенства под знаком вероятности содержат этот параметр. На практике в указанные части неравенств подставляют вместо неизвестного точного значения ρXY его оценку ρXY\rho _{XY}^{*}. В результате получается следующий интервал для ρXY:

(ρXY+ρXY(1(ρXY)2)2nu1α/21(ρXY)2n;\left( \rho _{XY}^{*}+\frac{\rho _{XY}^{*}\left( 1-{{(\rho _{XY}^{*})}^{2}} \right)}{2n}-{{u}_{1-\alpha /2}}\frac{1-{{(\rho_{XY}^{*})}^{2}}}{\sqrt{n}}; \right.

                     ρXY+ρXY(1(ρXY)2)2n+u1α/21(ρXY)2n)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. \rho _{XY}^{*}+\frac{\rho _{XY}^{*}\left( 1-{{(\rho _{XY}^{*})}^{2}} \right)}{2n}+{{u}_{1-\alpha/2}}\frac{1-{{(\rho _{XY}^{*})}^{2}}}{\sqrt{n}} \right),

являющийся доверительным для ρXY на уровне значимости α.

Подчеркнём, что указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах выборки (n > 500).

При малых объёмах выборки границы доверительного интервала для ρXY могут быть рассчитаны по следующим приближённым формулам:

(tanh(12ln1+ρXY1ρXY+ρXY2(n1)u1α/2n3);\left( \tanh \left( \frac{1}{2}\ln \frac{1+\rho _{XY}^{*}}{1-\rho _{XY}^{*}}+\frac{\rho _{XY}^{*}}{2(n-1)}-\frac{{{u}_{1-\alpha /2}}}{\sqrt{n-3}}\right); \right.

(2)

                      tanh(12ln1+ρXY1ρXY+ρXY2(n1)+u1α/2n3))\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. \tanh \left( \frac{1}{2}\ln \frac{1+\rho _{XY}^{*}}{1-\rho _{XY}^{*}}+\frac{\rho_{XY}^{*}}{2(n-1)}+\frac{{{u}_{1-\alpha /2}}}{\sqrt{n-3}} \right) \right),

где tanhx=exexex+ex\tanh x=\frac{{{e}^{x}}-{{e}^{-x}}}{{{e}^{x}}+{{e}^{-x}}} – функция гиперболического тангенса.

Приведённые формулы расчёта границ доверительного интервала для коэффициента корреляции выведены в условиях нормальности распределения генеральной совокупности. Однако в случае отклонения от нормальности уже при объёмах выборки n > 30 возникающая неточность расчёта практически пренебрежима.

3. Проверка значимости коэффициента корреляции

Для проверки статистической гипотезы

H0:ρXY=0{{H}_{0}}:{{\rho }_{XY}}=0

в качестве статистики критерия используется статистика

Z=ρXY1(ρXY)2n2Z=\frac{\rho _{XY}^{*}}{\sqrt{1-{{(\rho _{XY}^{*})}^{2}}}}\sqrt{n-2},

(3)

которая при условии истинности H0 имеет распределение Стьюдента с n2 степенями свободы fZ(zH0)T(n2){{f}_{Z}}(z|{{H}_{0}})\sim T(n-2).

Если альтернативная гипотеза H:ρXY0H':{{\rho }_{XY}}\ne 0, то критическая область для статистики критерия выбирается двусторонней, если H:ρXY<0H':{{\rho}_{XY}}<0 или H:ρXY>0H':{{\rho }_{XY}}>0, то левосторонней или правосторонней соответственно.

Пример 1

Оценивание коэффициента детерминации и корреляционного отношения по выборочным данным

Пусть (x1, y1),…, (xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего неизвестное распределение FXY(x, y).

1. Точечные оценки КД и КО

В качестве точечной оценки коэффициента детерминации используют статистику

RYX2=DYXDY=1DresYDYR_{Y|X}^{2*}=\frac{D_{Y|X}^{*}}{D_{Y}^{*}}=1-\frac{D_{resY}^{*}}{D_{Y}^{*}}.

(1)

Такую оценку КД называют также показателем «эр-квадрат» (R-squared).

В качестве точечной оценки корреляционного отношения используют статистику

RYX=DYXDY=1DresYDYR_{Y|X}^{*}=\sqrt{\frac{D_{Y|X}^{*}}{D_{Y}^{*}}}=\sqrt{1-\frac{D_{resY}^{*}}{D_{Y}^{*}}}.

Для расчёта выборочной остаточной дисперсии DresYD_{resY}^{*} необходимо знать функцию регрессии Y на X. Пусть эта функция имеет вид f(xi,β0,...,βk1)f({{x}_{i}},{{\beta }_{0}},...,{{\beta }_{k-1}}), где β0,...,βk1{{\beta }_{0}},...,{{\beta }_{k-1}} – известные параметры. Тогда, учитывая определение остаточной дисперсии, запишем выражение для выборочной остаточной дисперсии:

DresY=1ni=1n(yif(xi,β0,...,βk1))2D_{resY}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{y}_{i}}-f({{x}_{i}},{{\beta }_{0}},...,{{\beta }_{k-1}}) \right)}^{2}}}.

(2)

Если же для функции регрессии задан только её вид, а параметры β0,...,βk1{{\beta }_{0}},...,{{\beta }_{k-1}} оцениваются на основе результатов наблюдений (x1,y1),…,(xn,yn), то выборочная остаточная дисперсия рассчитывается по формуле

DresY=1ni=1n(yif(xi,β~0,...,β~k1))2D_{resY}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{y}_{i}}-f({{x}_{i}},{\tilde{\beta}_0},...,{\tilde{\beta}_{k-1}}) \right)}^2}},

где β~0,...,β~k1{{\tilde{\beta }}_{0}},...,{{\tilde{\beta }}_{k-1}} – оценки параметров β0,...,βk1{{\beta }_{0}},...,{{\beta }_{k-1}}.

Выборочная дисперсия признака Y рассчитывается по известной формуле:

DY=1ni=1n(yiyˉ)2D_{Y}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{y}_{i}}-\bar{y} \right)}^{2}}}.

При обработке реальных данных встречаются случаи, когда ни вид, ни параметры функции регрессии бывают априорно не известны. В этом случае функция регрессии может быть оценена непосредственно по выборочным наблюдениям. Для этого проводится группировка выборочных значений x1,…,xn. Обозначим J1,…,Jk – интервалы группировки, ni – число выборочных точек, попадающих в интервал Ji, i=1,ki=\overline{1,k}, k – число интервалов.

Пусть (xi1,yi1),...,(xi,ni,yi,ni)({{x}_{i1}},{{y}_{i1}}),...,({{x}_{i,{{n}_{i}}}},{{y}_{i,{{n}_{i}}}}) – выборочные наблюдения, попавшие в интервал Ji, i=1,ki=\overline{1,k}. Для этих наблюдений рассчитываются групповые средние (xˉi,yˉi)({{\bar{x}}_{i}},{{\bar{y}}_{i}}), где

xˉi=1nij=1nixij,    yˉi=1nij=1niyij.{{\bar{x}}_{i}}=\frac{1}{{{n}_{i}}}\sum\limits_{j=1}^{{{n}_{i}}}{{{x}_{ij}}},\ \ \ \ {{\bar{y}}_{i}}=\frac{1}{{{n}_{i}}}\sum\limits_{j=1}^{{{n}_{i}}}{{{y}_{ij}}}.

Линия, соединяющая все групповые средние (xˉ1,yˉ1),...,(xˉm,yˉm)({{\bar{x}}_{1}},{{\bar{y}}_{1}}),...,({{\bar{x}}_{m}},{{\bar{y}}_{m}}), и будет являться оценкой линии регрессии.

На практике для упрощения вычислений при расчёте оценки дисперсии, обусловленной регрессией Y на X, предполагается, что функция регрессии является кусочно-постоянной:

xJif(x)=yˉi, i=1,k\forall x\in {{J}_{i}}\to f(x)={{\bar{y}}_{i}},\ i=\overline{1,k}.

Число интервалов группировки k не должно быть слишком мало – в этом случае кусочно-постоянная аппроксимация функции регрессии будет неточной. С другой стороны, при слишком большом числе интервалов группировки становятся неточными оценки групповых средних.

Учитывая определение дисперсии, обусловленной регрессией, запишем выражение для выборочной дисперсии, обусловленной регрессией Y на X:

DYX=1ni=1nni(yˉiyˉ)2D_{Y|X}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{n}_{i}}{{\left( {\bar{y}_{i}}-\bar{y} \right)}^{2}}}.

(3)

Можно показать, что для выборочных оценок общей дисперсии Y, дисперсии, обусловленной регрессией Y на X, и остаточной дисперсии Y справедливо правило сложения дисперсий:

DY=DresY+DYXD_{Y}^{*}=D_{resY}^{*}+D_{Y|X}^{*}.

Оценивание линии регрессии по выборочным данным. Жирными точками отмечены групповые средние (xˉ1,yˉ1),...,(xˉm,yˉm)({{\bar{x}}_{1}},{{\bar{y}}_{1}}),...,({{\bar{x}}_{m}},{{\bar{y}}_{m}})

При расчётах дисперсии, обусловленной регрессией, остаточной дисперсии и общей дисперсии, а также КД и КО по результатам выборочного наблюдения необходимо иметь в виду, что все получаемые значения являются смещёнными оценками соответствующих теоретических значений, характеризующих генеральную совокупность. Показатели вариации, а также их несмещённые оценки сведены в таблицу, называемую таблицей регрессионного анализа (табл. 6.5).

Таблица 6.5

Таблица регрессионного анализа

Источник вариации

Показатель вариации

Число степеней свободы

Несмещённая оценка

Регрессия

DYXD_{Y|X}^{*}

k–1

nk1DYX\frac{n}{k-1}D_{Y|X}^{*}

Остаточные признаки

DresYD_{resY}^{*}

nk

nnkDresY\frac{n}{n-k}D_{resY}^{*}

Все признаки

DY{{D}_{Y}^*}

n–1

nn1DY\frac{n}{n-1}{{D}_{Y}^*}

Здесь k – число оцениваемых параметров функции регрессии. Если при расчётах используется кусочно-постоянная аппроксимация функции регрессии, то это число равно числу интервалов группировки.

Смещение точечной оценки КД, рассчитываемой по формуле (1), равно

M[RYX2]RYX2=1RYX2n(k(1RYX2)(1+2RYX2))\text{M}\left[ R_{Y|X}^{2*} \right]-R_{Y|X}^{2}=\frac{1-R_{Y|X}^{2}}{n}\left( k-(1-R_{Y|X}^{2})(1+2R_{Y|X}^{2}) \right).

Это смещение всегда положительно, т.е. оценка КД (1) в среднем даёт завышенную долю дисперсии, объясненной регрессией. При больших k и малых n это смещение может достигать существенных значений и приводить к серьёзным ошибкам в интерпретации получаемых результатов. В частности, при RYX2=0R_{Y|X}^{2}=0 смещение оценки КД равно

M[RYX2RYX2=0]=k1n\text{M}\left[ R_{Y|X}^{2*}|R_{Y|X}^{2}=0 \right]=\frac{k-1}{n}.

Пренебрегая единицей в числителе, это смещение имеет смысл величины, обратной числу наблюдений, приходящихся на один оцениваемый параметр уравнения регрессии. Например, для выборки объёма n = 18 из генеральной совокупности с КД, равным нулю, при числе оцениваемых параметров уравнения регрессии k = 6 (таким образом, три наблюдения на параметр), оценка КД в среднем будет равна 5/18 = 0,278. При n/k>100n/k>100 смещение выборочного значения КД становится менее 0,01.

Оценкой КД, имеющей меньшее смещение, является отношение несмещённых оценок остаточной дисперсии и общей дисперсии признака Y за вычетом из единицы:

RˉYX2=1D~resYD~Y\bar{R}_{Y|X}^{2}=1-\frac{\tilde{D}_{resY}}{\tilde{D}_{Y}},

(4)

где

D~resY=nnkDresY\tilde{D}_{resY}^{{}}=\frac{n}{n-k}D_{resY}^{*},

D~Y=nn1DY\tilde{D}_{Y}^{{}}=\frac{n}{n-1}D_{Y}^{*}.

Учитывая выражение для расчёта показателя RYX2R_{Y|X}^{2*}, запишем:

RˉYX2=1DresY/(nk)  DY/(n1)  =1(1RYX2)n1nk\bar{R}_{Y|X}^{2}=1-\frac{{D_{resY}^{*}}/{(n-k)}\;}{{D_{Y}^{*}}/{(n-1)}\;}=1-\left( 1-R_{Y|X}^{2*} \right)\frac{n-1}{n-k}.

(5)

Эта оценка по-прежнему является смещённой, поскольку отношение двух несмещённых оценок в общем случае не является несмещённой оценкой отношения. Такая оценка называется скорректированной оценкой коэффициента детерминации. Скорректированную оценку КД называют также показателем «эр-бар-квадрат» (adjusted R-squared).

Показатели «эр-квадрат» и «эр-бар-квадрат» имеют принципиально различную интерпретацию. Показатель RYX2R_{Y|X}^{2*} является мерой вариации признака Y, объяснённой регрессией f(x). Если вариация выборочных данных относительно линии регрессии отсутствует, т.е. все выборочные наблюдения лежат на линии регрессии, то RYX2=1R_{Y|X}^{2*}=1. Если вариация самой линии регрессии отсутствует, т.е. f(x)=constf(x)=const, то RYX2=0R_{Y|X}^{2*}=0.

Показатель RˉYX2\bar{R}_{Y|X}^{2} всегда меньше показателя RYX2R_{Y|X}^{2*} и может даже принимать отрицательные значения. Этот показатель можно рассматривать как сравнительную меру «объяснительных» способностей различных уравнений регрессии.

При большом отношении n/kn/k объёма выборки к числу параметров уравнения регрессии разница между RYX2R_{Y|X}^{2*} и RˉYX2\bar{R}_{Y|X}^{2} становится практически пренебрежимой.

2. Интервальные оценки КД и КО

При расчёте границ доверительных интервалов для КД и КО используются различные аппроксимации. Если распределение FXY(x, y) является двумерным нормальным распределением, то доверительный интервал на уровне значимости a для КД RYX2R_{Y|X}^{2} может быть аппроксимирован следующим интервалом:

(RYX2t1α/2(nk1)s[RYX2];RYX2+t1α/2(nk1)s[RYX2])\left( R_{Y|X}^{2*}-{{t}_{1-\alpha /2}}(n-k-1)s\left[ R_{Y|X}^{2*} \right];R_{Y|X}^{2*}+{{t}_{1-\alpha /2}}(n-k-1)s\left[ R_{Y|X}^{2*}\right] \right),

где t1α/2(nk1){{t}_{1-\alpha /2}}(n-k-1) – квантиль распределения Стьюдента с nk–1 степенями свободы на уровне 1–α/2, а s[RYX2]s\left[ R_{Y|X}^{2*} \right] – оценка с.к.о. показателя «эр-квадрат», рассчитываемая из формулы:

s2[RYX2]=4RYX2(1RYX2)2(nk)2(n21)(n+3){{s}^{2}}\left[ R_{Y|X}^{2*} \right]=\frac{4R_{Y|X}^{2*}{{\left( 1-R_{Y|X}^{2*} \right)}^{2}}{{\left( n-k \right)}^{2}}}{\left( {{n}^{2}}-1\right)\left( n+3 \right)},

которая при n>>kn >> k может быть аппроксимирована выражением:

s2[RYX2]4RYX2(1RYX2)2n{{s}^{2}}\left[ R_{Y|X}^{2*} \right] \approx \frac{4R_{Y|X}^{2*}{{\left( 1-R_{Y|X}^{2*} \right)}^{2}}}{n},

Для расчёта доверительного интервала для КО RYXR_{Y|X}^{{}} используется аппроксимация:

((nk)RYX2n(1RYX2)f1α/2(r1,r2)k1n;(nk)RYX2n(1RYX2)fα/2(r1,r2)k1n)\left( \sqrt{\frac{(n-k)R_{Y|X}^{2*}}{n\left( 1-R_{Y|X}^{2*} \right){{f}_{1-\alpha/2}}({{r}_{1}},{{r}_{2}})}-\frac{k-1}{n}};\sqrt{\frac{(n-k)R_{Y|X}^{2*}}{n\left( 1-R_{Y|X}^{2*} \right){{f}_{\alpha/2}}({{r}_{1}},{{r}_{2}})}-\frac{k-1}{n}} \right),

где fα/2(r1,r2){{f}_{\alpha /2}}({{r}_{1}},{{r}_{2}}) и f1α/2(r1,r2){{f}_{1-\alpha /2}}({{r}_{1}},{{r}_{2}}) – квантили распределения Фишера с r1 и r2 степенями свободы в числителе и в знаменателе на уровнях α/2 и 1–α/2 соответственно. Степени свободы вычисляются по формулам:

r1=[(k1+nRYX2)2k1+2nRYX2],{{r}_{1}}=\left[ \frac{{{\left( k-1+nR_{Y|X}^{2*} \right)}^{2}}}{k-1+2nR_{Y|X}^{2*}} \right],

r2=nk,{{r}_{2}}=n-k,

где [][\cdot ] – целая часть числа.

На практике указанные аппроксимации применяются и для случая, когда распределение FXY(x, y) отличается от нормального, причём, чем больше отношение n/kn/k, тем выше точность аппроксимации.

3. Проверка значимости КД и КО

Для проверки статистической гипотезы

H0:RYX2=0{{H}_{0}}:R_{Y|X}^{2}=0 (или H0:RYX=0{{H}_{0}}:R_{Y|X}^{{}}=0)

в качестве статистики критерия используют статистику

Z=RYX2/(k1)  (1RYX2)/(nk)  Z=\frac{{R_{Y|X}^{2*}}/{(k-1)}\;}{{\left( 1-R_{Y|X}^{2*} \right)}/{(n-k)}\;},

(6)

которая при условии истинности H0 имеет распределение Фишера с k1 и nk степенями свободы в числителе и в знаменателе соответственно: fZ(zH0)F(k1,nk){{f}_{Z}}(z|{{H}_{0}})\sim F(k-1,n-k).

Критическая область для статистики критерия выбирается правосторонней.

Пример 1

Ранговый коэффициент корреляции по Спирмену

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей распределение FX(x){{F}_{X}}(x), x(1),...,x(n){{x}_{(1)}},...,{{x}_{(n)}} – её вариационный ряд.

Рангом ri элемента xi выборки x1,…,xn называется его порядковый номер в вариационном ряду выборки, т.е.

x(ri)=xi{{x}_{({{r}_{i}})}}={{x}_{i}}, i=1,ni=\overline{1,n}.

Ранг ri элемента xi можно рассматривать как реализацию случайной величины Ri=Ri(X1,...,Xn){{R}_{i}}={{R}_{i}}({{X}_{1}},...,{{X}_{n}}), определяемой как ранг случайной величины Xi в случайной выборке X1,…,Xn.

Ранговой статистикой Z называется произвольная функция от рангов R1,…, Rn:

Z=φ(R1,...,Rn)Z=\varphi ({{R}_{1}},...,{{R}_{n}}).

В связи с тем, что статистика Z является функцией случайных аргументов, Z является случайной величиной. Для каждой реализации x1,…,xn случайной выборки X1,…,Xn получим соответствующие ей реализацию рангов r1,…,rn и реализацию z ранговой статистики Z:

z=φ(r1,...,rn)z=\varphi ({{r}_{1}},...,{{r}_{n}}).

Примечание. В случае если выборка x1,…,xn содержит одинаковые элементы, то им, как правило, приписывают одинаковый ранг, равный среднему из порядковых номеров этих элементов в вариационном ряду.

Пример 1

Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y); r1,…,rn – ранги элементов выборки x1,…,xn; s1,…,sn – ранги элементов выборки y1,…,yn.

Ранговым коэффициентом корреляции по Спирмену (Charles Spearman, 1904) называется ранговая статистика, определяемая следующим выражением:

ρXY(sp)=i=1n(Rirˉ)(Sisˉ)i=1n(Rirˉ)2i=1n(Sisˉ)2\rho_{XY}^{(sp)}=\frac{\sum\limits_{i=1}^{n}{({{R}_{i}}-\bar{r})({{S}_{i}}-\bar{s})}}{\sqrt{\sum\limits_{i=1}^{n}{({R_i}-\bar{r})^2}\sum\limits_{i=1}^{n}{(S_i-\bar{s})^2}}},

(1)

где rˉ\bar{r} и sˉ\bar{s} – средние значения рангов:

rˉ=sˉ=1ni=1ni=n+12\bar{r}=\bar{s}=\frac{1}{n}\sum\limits_{i=1}^{n}{i}=\frac{n+1}{2}.

(2)

Выборочное значение этой статистики для выборки (x1, y1),…,(xn, yn) равно:

ρ~XY(sp)=i=1n(rirˉ)(sisˉ)i=1n(rirˉ)2i=1n(sisˉ)2=μRSσSσR\tilde{\rho}_{XY}^{(sp)}=\frac{\sum\limits_{i=1}^n{(r_i-\bar{r})(s_i-\bar{s})}}{\sqrt{\sum\limits_{i=1}^{n}{(r_i-\bar{r})^2}\sum\limits_{i=1}^n(s_i-\bar{s})^2}}=\frac{\mu_{RS}^{*}}{\sigma _{S}^{*}\sigma _{R}^{*}}.

(3)

Фактически, значение рангового коэффициента корреляции по Спирмену для выборки (x1, y1),…,(xn, yn) – это значение линейного коэффициента корреляции для соответствующей выборки рангов (r1, s1),…,(rn, sn).

Учитывая (2), выражение (3) можно упростить:

ρ~XY(sp)=16n(n21)i=1n(risi)2\tilde{\rho }_{XY}^{(sp)}=1-\frac{6}{n({{n}^{2}}-1)}\sum\limits_{i=1}^{n}{{{({{r}_{i}}-{{s}_{i}})}^{2}}}.

(4)

Известно, что линейный коэффициент корреляции ρXY используется для обнаружения линейной корреляционной связи между величинами X и Y. Так, если ρXY =1|\rho _{XY}^{{}}|\ =1, то между X и Y имеется линейная функциональная связь. Если ρXY = 0, то между X и Y отсутствует линейная корреляционная связь.

Значение ρXY(sp) =1|\rho _{XY}^{(sp)}|\ =1 будет означать, что между рангами R и S имеется линейная функциональная связь. Если же ρXY(sp)=0\rho_{XY}^{(sp)}=0, то между рангами R и S отсутствует линейная корреляционная связь.

Рассмотрим, что означают эти случаи в пространстве признаков X и Y. Если X и Y связаны линейной функциональной зависимостью Y=aX+bY=aX+b, то между рангами R и S также будет линейная зависимость. В самом деле, при a>0a>0 бόльшим значениям X будут соответствовать бόльшие значения Y, таким образом, для отсортированной в порядке возрастания по X выборки (x1, y1),…,(xn, yn) соответствующая выборка рангов будет иметь вид:

ri

1

...

i

...

n

si

1

...

i

...

n

При a<0a<0:

ri

1

...

i

...

n

si

n

...

n-i+1

...

1

Рассчитывая ранговый коэффициент по формуле (4), получим, что при a>0a>0: ρ~XY(sp)=1\tilde{\rho }_{XY}^{(sp)}=1, при a<0a<0: ρ~XY(sp)=1\tilde{\rho}_{XY}^{(sp)}=-1.

Если Y=φ(X)Y=\varphi (X), где φ(X) – монотонно возрастающая функция, то для отсортированной по X выборки (x1, y1),…,(xn, yn) соответствующая выборка рангов будет такой же, что и для случая линейной функциональной зависимости между X и Y при a>0a>0. Если φ(X) – монотонно убывающая функция, то выборка рангов будет такой же, что и для случая линейной функциональной зависимости между X и Y при a<0a<0.

Диаграммы рассеяния выборочных наблюдений (слева) и соответствующих выборочных рангов (справа)

Из рисунка видно, что переход к рангам «выпрямляет» монотонную зависимость исходных признаков.

Рассмотрим другой случай, когда признаки X и Y независимы. В этой ситуации случайный вектор рангов (S1,...,Sn)({{S}_{1}},...,{{S}_{n}}), составленный для случайной выборки Y1,...,Yn{{Y}_{1}},...,{{Y}_{n}}, соответствующей отсортированным по возрастанию значениям выборки x1,...,xn{{x}_{1}},...,{{x}_{n}}, с равной вероятностью является любой из возможных n! перестановок, составленных из чисел 1,…,n. Следовательно, математическое ожидание рангового коэффициента корреляции по Спирмену (1) будет равно нулю, т.е. M[ρXY(sp)]=0\text{M}\left[ \rho _{XY}^{(sp)} \right]=0. Можно показать, что дисперсия D[ρXY(sp)]=1n1\text{D}\left[ \rho _{XY}^{(sp)} \right]=\frac{1}{n-1}. Это означает, что значения выборочного рангового коэффициента корреляции по Спирмену ρ~XY(sp)\tilde{\rho }_{XY}^{(sp)} при условии независимости случайных величин X и Y и большом объёме выборки будут группироваться вблизи нуля.

Диаграммы рассеяния выборочных наблюдений (слева) и соответствующих выборочных рангов (справа) для случая независимых признаков

Из рисунка видно, что для независимых случайных величин X и Y выборочные ранги рассеяны практически равномерно внутри квадрата n×nn\times n.

Для проверки значимости рангового коэффициента корреляции по Спирмену сформулируем основную гипотезу:

H0:ρXY(sp)=0{{H}_{0}}:\rho _{XY}^{(sp)}=0.

В качестве статистики критерия используют статистику:

Z=ρ~XY(sp)1ρ~XY(sp)2n2Z=\frac{\tilde{\rho }_{XY}^{(sp)}}{\sqrt{1-\tilde{\rho }_{XY}^{(sp)2}}}\sqrt{n-2},

которая при условии истинности H0 имеет распределение Стьюдента с n–2 степенями свободы: fZ(zH0)T(n2){{f}_{Z}}(z|{{H}_{0}})\sim T(n-2).

Критическая область для статистики критерия выбирается, исходя из вида альтернативной гипотезы.

Пример 2

Ранговый коэффициент корреляции по Кендаллу

Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y).

Ранговым коэффициентом корреляции по Кендаллу (Maurice Kendall, 1938) называется ранговая статистика, определяемая следующим выражением:

τXY=N+N12n(n1)\tau _{XY}^{{}}=\frac{{{N}^{+}}-{{N}^{-}}}{\frac{1}{2}n(n-1)},

(1)

где N+ – число пар наблюдений (xi, yi), (xj, yj), i>ji>j, для которых выполнено условие (xixj)(yiyj)>0({{x}_{i}}-{{x}_{j}})({{y}_{i}}-{{y}_{j}})>0, N – число пар наблюдений (xi, yi), (xj, yj), i>ji>j, для которых выполнено условие (xixj)(yiyj)<0({{x}_{i}}-{{x}_{j}})({{y}_{i}}-{{y}_{j}})<0. Иными словами, N+ – это число наблюдаемых пар, у которых имеется одинаковая тенденция к изменению по обоим признакам: либо при увеличении значения одного увеличивается значение другого, либо при уменьшении значения одного уменьшается значение другого. N – это число наблюдаемых пар с противоположными тенденциями к изменению. Ранговый коэффициент корреляции по Кендаллу также называют «тау Кендалла» (Kendalls tau coefficient).

Отсортируем результаты наблюдений в порядке возрастания значений признака X. Тогда выборкой рангов признака X будет последовательность натуральных чисел 1,2,…,n (если все наблюдения x1,…,xn различны). Соответствующую выборку рангов признака Y обозначим s1,…,sn.

На практике для расчёта выборочного значения рангового коэффициента корреляции по Кендаллу используют формулу:

τ~XY=4Qn(n1)1\tilde{\tau }_{XY}^{{}}=\frac{4Q}{n(n-1)}-1,

(2)

где Q=i=1n1QiQ=\sum\limits_{i=1}^{n-1}{{{Q}_{i}}},

Qi=j=i+1n[sj>si]{{Q}_{i}}=\sum\limits_{j=i+1}^{n}{\left[ {{s}_{j}}>{{s}_{i}} \right]}

(3)

количество рангов в выборке si+1,...,sn{{s}_{i+1}},...,{{s}_{n}}, больших, чем si.

Примечание. Использование формулы (2) даёт верный результат лишь для случая, когда в выборках x1,…,xn и y1,…,yn отсутствуют повторяющиеся элементы. Однако при небольшом их количестве этой погрешностью на практике можно пренебречь.

Свойства и интерпретация рангового коэффициента корреляции по Кендаллу аналогичны свойствам и интерпретации рангового коэффициента корреляции по Спирмену. Так, при функциональной монотонно возрастающей зависимости между случайными величинами X и Y τXY=1\tau _{XY}^{{}}=1, при монотонно убывающей: τXY=1\tau _{XY}^{{}}=-1. Для независимых случайных величин X и Y математическое ожидание M[τXY]=0\text{M}\left[ \tau _{XY}^{{}}\right]=0.

Выборочные значения коэффициента корреляции по Спирмену, как правило, получаются выше (по абсолютной величине) выборочных значений коэффициента корреляции по Кендаллу. Этот эффект связан с большей чувствительностью первого коэффициента к несоответствию в тенденциях изменений значений признаков.

Для проверки значимости рангового коэффициента корреляции по Спирмену сформулируем основную гипотезу:

H0:τXY=0{{H}_{0}}:\tau _{XY}^{{}}=0.

В качестве статистики критерия используют статистику

Z=τ~XY9n(n+1)2(2n+5)Z=\tilde{\tau }_{XY}^{{}}\sqrt{\frac{9n(n+1)}{2(2n+5)}},

которая при условии истинности H0 и большом объёме выборки (n > 30) аппроксимируется стандартизованным нормальным распределением: fZ(zH0)N(0, 1){{f}_{Z}}(z|{{H}_{0}})\sim N(0,\ 1).

Критическая область для статистики критерия выбирается, исходя из вида альтернативной гипотезы.

Пример 1

Регрессионный анализ

Статистические модели

Для применения математических методов описания явлений необходимо, прежде всего, установить соотношения между величинами, характеризующими рассматриваемые явления. Каждое такое соотношение представляет собой математическую модель явления. Так, например, законы Ньютона представляют собой совокупность моделей механических явлений. Уравнения Максвелла в физике представляют собой математическую модель электродинамических явлений.

Пусть поведение системы описывается некоторой совокупностью величин, причём одни величины носят характер внешних воздействий на систему и называются её входными воздействиями (input variables), а другие представляют собой результат работы системы и называются откликами системы (responses) на входные воздействия.

Входные воздействия и отклики системы

Во многих случаях математическую модель системы можно построить чисто математическим путём на основе известных законов механики, физики и других дисциплин, использующих количественные соотношения (такую модель будем называть теоретической). Так, например, различные модели управляемого летательного аппарата можно построить математически, пользуясь законами механики.

Однако существуют и такие системы, для которых принципиально невозможно построить модели чисто математическим путём. Примерами таких систем могут служить человек или коллектив людей, завод, отрасль промышленности, экономика и т.п. В этом случае приходится прибегать к экспериментальному исследованию самих систем или входящих в них подсистем и строить соответствующие модели путём статистической обработки полученных данных.

Модели, построенные на основе статистической обработки результатов экспериментального исследования функционирования систем, называются статистическими моделями систем.

Примерами задач, при решении которых используются статистические модели, могут служить прогнозирование погоды по измеренным значениями параметров состояния атмосферы в различных точках пространства и в различные моменты времени, в медицинской практике задача распознавания болезни пациента по результатам обследования и определение соответствующих методов лечения, распознавание рукописных символов и цифр на изображении и многие другие задачи, для решения которых применение классических математических методов оказывается неэффективным.

Задача построения статистической модели явления, процесса или системы состоит в нахождении соотношений между величинами, описывающими течение данного явления, процесса или функционирование системы. Если эти соотношения позволяют по данным значениям входных величин однозначно определить значения выходных, то описываемая ими модель называется детерминированной. Если же выходы модели являются случайными величинами, то модель называется стохастической.

Как теоретические модели, выводимые математически из законов физики, химии, экономики или других областей науки, так и статистические модели, получаемые на основе статистической обработки результатов наблюдений, могут быть детерминированными или стохастическими.

Одному и тому же явлению могут соответствовать различные модели. Проблема построения модели системы включает выбор подходящей формы этой модели, а также разумной степени её сложности.

Задачи регрессионного анализа

Рассмотрим задачу определения значения случайной величины по данным значениям другой величины. Пусть Y – случайная величина, значения которой требуется определить, x – известная величина, которая может представлять собой значение некоторой случайной величины X или заданное значение некоторой переменной. Предположим, что между величинами Y и X имеется статистическая связь, т.е. распределение случайной величины Y зависит от значения x.

С точки зрения математической статистики поставленная задача представляет собой задачу оценивания значения случайной величины Y при данном значении x. Пусть y^=y^(x)\hat{y}=\hat{y}(x) – оценка значения случайной величины Y при данном значении x. В связи с тем, что x – фиксированное значение, то оценка y^\hat{y} не является случайной величиной. Случайной величиной является ошибка этой оценки:

ε(x)=y^(x)Y\varepsilon (x)=\hat{y}(x)-Y.

(1)

В качестве меры точности оценки y^(x)\hat{y}(x) целесообразно использовать математическое ожидание квадрата ошибки ε(x)\varepsilon (x):

mε2(x)=M[(y^(x)Y)2x]{{m}_{{{\varepsilon }^{2}}}}(x)=\text{M}\left[ {{\left( \hat{y}(x)-Y \right)}^{2}}|x \right].

(2)

Наилучшей оценкой значения случайной величины Y при данном значении x будет оценка, минимизирующая ошибку (2):

M[(y^(x)Y)2x]miny^(x)\text{M}\left[ {{\left( \hat{y}(x)-Y \right)}^{2}}|x \right]\to \underset{\hat{y}(x)}{\mathop{\min }}\,.

(3)

Из известного в теории вероятностей равенства

M[(Ya)2]=D[Y]+(M[Y]a)2\text{M}\left[ {{\left( Y-a \right)}^{2}} \right]=\text{D}[Y]+{{\left( \text{M}[Y]-a \right)}^{2}}

(4)

следует, что математическое ожидание квадрата ошибки (1) будет минимальным, если y^(x)\hat{y}(x) будет математическим ожиданием случайной величины Y при данном значении x:

y^(x)=M[Yx]\hat{y}(x)=\text{M}\left[ Y|x \right].

(5)

Следовательно, зависимость оценки y^(x)\hat{y}(x) значения случайной величины Y при данном значении x представляет собой регрессию Y на X. Таким образом, оптимальной с точки зрения среднего квадрата ошибки (1) оценкой зависимости Y от x служит регрессия Y на X. В частности, оптимальным прогнозом величины Y по данному значению x будет прогноз по регрессии.

Модель, определяемая регрессией Y на X, называется регрессионной моделью. Построение и исследование регрессионных моделей составляет предмет регрессионного анализа.

Регрессионную модель имеет смысл строить, если априорно или по результатам предварительного анализа выявлено, что между входными и выходными величинами имеется статистическая связь. В терминах регрессионного анализа входные величины называются регрессорами, или предикторами, а выходные переменные - откликами модели.

Ниже перечислены основные задачи регрессионного анализа.

1) Выбор класса функций для описания зависимости откликов модели Y1,...,Yl{{Y}_{1}},...,{{Y}_{l}} от регрессоров X1,...,Xm{{X}_{1}},...,{{X}_{m}}.

2) Нахождение оценок неизвестных параметров функции, описывающей зависимость откликов модели Y1,...,Yl{{Y}_{1}},...,{{Y}_{l}} от регрессоров X1,...,Xm{{X}_{1}},...,{{X}_{m}}.

3) Статистический анализ найденной зависимости откликов модели Y1,...,Yl{{Y}_{1}},...,{{Y}_{l}} от регрессоров X1,...,Xm{{X}_{1}},...,{{X}_{m}}.

4) Предсказание значений откликов модели Y1,...,Yl{{Y}_{1}},...,{{Y}_{l}} по результатам наблюдения регрессоров X1,...,Xm{{X}_{1}},...,{{X}_{m}} на основе найденной зависимости.

Рассмотрим случай одного регрессора X и скалярного отклика Y.

Как показано выше, оптимальной функцией, описывающей зависимость отклика модели Y от регрессора X, является функция регрессии Y на X. При этом возможны следующие ситуации.

1) Вид функции регрессии известен, исходя из априорной информации о наблюдаемых величинах. Например, если известно, что случайные величины X и Y имеют нормальный закон распределения, то уравнение регрессии Y на X (как и X на Y) может быть только линейным.

2) Вид функции регрессии не известен или эта функция слишком сложна. В этой ситуации возможны следующие подходы к определению вида функции регрессии.

а) Исследователь задаёт некоторый ограниченный класс функций Ψ, например, линейные или полиномиальные функции, в котором предлагается искать функцию регрессии. Если этот класс функций не содержит «истинную» функцию регрессии, то минимум среднего квадрата ошибки ε(x)\varepsilon (x) при каждом значении x не может быть обеспечен. На практике ищут оценку зависимости y^(x)\hat y(x) в выбранном классе функций из условия минимума математического ожидания (2) квадрата ошибки ε(x)\varepsilon (x) в рассматриваемой области изменения величины x. Для выбора класса функций, в котором целесообразно искать функцию регрессии, нередко требуется проведение предварительного анализа результатов наблюдений.

б) Функция регрессии оценивается по результатам наблюдений. Такое оценивание основано на расчёте множества условных средних значений наблюдений отклика Y и аппроксимации линии регрессии по рассчитанным точкам.

Схема оценивания функции регрессии

Оценивание параметров уравнения регрессии. Метод наименьших квадратов

Как только определён класс функций Ψ, в котором предлагается искать функцию регрессии, возникает задача оценивания её параметров. Рассмотрим сначала случай одного регрессора X и скалярного отклика Y. Пусть f(x,β0,...,βk1)Ψf(x,{{\beta }_{0}},...,{{\beta }_{k-1}})\in \Psi – предполагаемая скалярная функция регрессии, β=(β0,...,βk1)T\beta ={{({{\beta }_{0}},...,{{\beta }_{k-1}})}^{T}} – вектор неизвестных параметров.

Таким образом, принимая во внимание (1*) и (5*), случайная величина Y при фиксированном значении x представляет собой сумму двух слагаемых: неслучайной величины f(x,β0,...,βk1)f(x,{{\beta }_{0}},...,{{\beta }_{k-1}}) и случайной ошибки ε(x)\varepsilon (x):

Y=f(x,β0,...,βk1)+ε(x)Y=f(x,{{\beta }_{0}},...,{{\beta }_{k-1}})+\varepsilon (x).

(1)

Модель (1) является регрессионной моделью отклика Y, а ошибка ε(x)\varepsilon (x) называется ошибкой регрессионной модели.

При оценивании и проведении статистического анализа регрессионной модели (1), как правило, выдвигаются следующие ключевые требования.

1°. Математическое ожидание ошибки модели ε(x)\varepsilon (x) для всех x из рассматриваемой области изменения равно нулю:

M[ε(x)]=0\text{M}\left[ \varepsilon (x) \right]=0.

Если математическое ожидание M[ε(x)]=const0\text{M}\left[ \varepsilon (x) \right]=const\neq 0, то это требование может быть обеспечено для любых предполагаемых функций регрессии со свободным членом, поскольку он берёт на себя возможное ненулевое математическое ожидание ошибок. В связи с этим выбор моделей со свободным членом, как правило, предпочтительнее.

Нарушение этого требования в общем случае приводит к смещённости оценок регрессионной модели.

2°. Вход модели X и ошибки модели ε(x)\varepsilon (x) для всех x из рассматриваемой области изменения – независимые случайные величины. Это требование называется требованием экзогенности входа модели.

Экзогенность входа X означает независимость случайной величины X от функционирования моделируемой системы. Значения экзогенных переменных определяются вне модели и не связаны с результатами работы системы.

Примером неэкзогенной модели является модель:

Yt=f(Yt1,β0,...,βk1)+εt{{Y}_{t}}=f({{Y}_{t-1}},{{\beta }_{0}},...,{{\beta }_{k-1}})+{{\varepsilon }_{t}}.

В этой модели вход Yt1{{Y}_{t-1}}, очевидно, зависит от ошибки модели εt1{{\varepsilon }_{t-1}}.

Нарушение требования экзогенности приводит к существенному ухудшению статистических свойств оценок регрессионной модели.

Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y).

Оптимальным вектором параметров β будет вектор, при котором достигается минимум критерия (3*) при каждом x. В силу ограниченности объёма выборки в качестве меры точности регрессионной модели выберем оценку среднего квадрата ошибки при каждом выборочном значении x1,...,xn{{x}_{1}},...,{{x}_{n}}:

ε~2=1ni=1nε~2(xi)=1ni=1n(f(xi,β0,...,βk1)yi)2=DresY\overline{{{{\tilde{\varepsilon }}}^{2}}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{{\tilde{\varepsilon}}}^{2}}({{x}_{i}})}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( f({{x}_{i}},{{\beta }_{0}},...,{{\beta }_{k-1}})-{{y}_{i}} \right)}^{2}}}=D_{resY}^{*},

(2)

которая в точности совпадает с выражением (2*) для остаточной дисперсии признака Y.

Таким образом, задача нахождения вектора параметров β – это задача минимизации критерия:

DresY(β)minβD_{resY}^{*}(\beta )\to \underset{\beta }{\mathop{\min }}\,.

(3)

Учитывая, что выборочная дисперсия DYD_{Y}^{*} случайной величины Y не зависит от β, критерий минимизации остаточной дисперсии (3) эквивалентен критерию максимизации показателя «эр-квадрат»:

RYX2(β)maxβR_{Y|X}^{2*}(\beta )\to \underset{\beta }{\mathop{\max }}\,.

(4)

Вектор β~\tilde{\beta }, максимизирующий критерий (4), является точечной оценкой вектора параметров β функции регрессииf(x,β)Ψf(x,\beta )\in \Psi , рассчитанной по выборке (x1, y1),…,(xn, yn). Метод расчёта вектора β~\tilde{\beta }, основанный на минимизации критерия (4), называется методом наименьших квадратов (МНК), а рассчитанные с его помощью оценки β~0,...,β~k1{{\tilde{\beta }}_{0}},...,{{\tilde{\beta}}_{k-1}} называются МНК-оценками.

Поскольку показатель «эр-квадрат», минимизируемый в методе наименьших квадратов, характеризует долю вариации случайной величины Y, объяснённую функцией регрессии, суть метода наименьших квадратов состоит в подборе таких параметров функции регрессии из заданного класса функций Ψ, при которых она объясняет максимально возможную долю вариации признака Y.

Иллюстрация к методу наименьших квадратов

Необходимым условием минимума функции DresY(β)D_{resY}^{*}(\beta ) является равенство нулю частных производных:

DresY(β0,...,βk1)βi=0,   i=0,k1\frac{\partial D_{resY}^{*}({{\beta }_{0}},...,{{\beta }_{k-1}})}{\partial {{\beta }_{i}}}=0, \ \ \ i=\overline{0,k-1}.

(5)

Подставляя (2) в выражение (5), получим систему k уравнений с k неизвестными:

i=1n(f(xi,β0,...,βk1)yi)f(x,β0,...,βk1)βi=0,   i=0,k1.\sum\limits_{i=1}^{n}{\left( f({{x}_{i}},{{\beta }_{0}},...,{{\beta }_{k-1}})-{{y}_{i}} \right)}\frac{\partial f(x,{{\beta }_{0}},...,{{\beta}_{k-1}})}{\partial {{\beta }_{i}}}=0, \ \ \ i=\overline{0,k-1}.

(6)

Разрешая эту систему относительно параметров β0,...,βk1{{\beta }_{0}},...,{{\beta }_{k-1}}, находим МНК-оценки β~0,...,β~k1{{\tilde{\beta }}_{0}},...,{{\tilde{\beta}}_{k-1}} параметров функции регрессии f(x,β0,...,βk1)f(x,{{\beta }_{0}},...,{{\beta }_{k-1}}). Значение f~(x)=f(x,β~0,...,β~k1)\tilde{f}(x)=f(x,{{\tilde{\beta}}_{0}},...,{{\tilde{\beta }}_{k-1}}) представляет собой МНК-оценку функции регрессии в точке x.

Таким образом, оценка регрессионной модели (1) имеет вид:

Y~=f~(x)+ε(x)\tilde{Y}=\tilde{f}(x)+\varepsilon (x).

(7)

Подставляя выборочные значения x1,...,xn{{x}_{1}},...,{{x}_{n}} в модель (7), получим множество случайных величин Y~1,...,Y~n{{\tilde{Y}}_{1}},...,{{\tilde{Y}}_{n}}, предсказанных моделью:

Y~i=f~(xi)+ε(xi){{\tilde{Y}}_{i}}=\tilde{f}({{x}_{i}})+\varepsilon ({{x}_{i}}).

Реализациями случайных величин Y~1,...,Y~n{{\tilde{Y}}_{1}},...,{{\tilde{Y}}_{n}} являются выборочные значения y1,...,yn{{y}_{1}},...,{{y}_{n}}. Разности между наблюдаемыми значениями y1,...,yn{{y}_{1}},...,{{y}_{n}} и расчётными значениями функции регрессии f~(x1),...,f~(xn)\tilde{f}({{x}_{1}}),...,\tilde{f}({{x}_{n}}), называются регрессионными остатками (residuals):

ε~(xi)=yif~(xi)\tilde{\varepsilon }({{x}_{i}})={{y}_{i}}-\tilde{f}({{x}_{i}}), i=1,ni=\overline{1,n}.

Регрессионные остатки ε~(x1),...,ε~(xn)\tilde\varepsilon(x_1),...,\tilde\varepsilon(x_n) являются реализациями случайных ошибок ε(x1),...,ε(xn)\varepsilon(x_1),...,\varepsilon(x_n) регрессионной модели (1) при значениях её входа, равных x1,...,xn{{x}_{1}},...,{{x}_{n}} соответственно.

Можно показать, что при соблюдении требований 1° и 2° к регрессионной модели, оценки параметров β~0,...,β~k1{{\tilde{\beta }}_{0}},...,{{\tilde{\beta}}_{k-1}} функции регрессии и её значения f~(x)\tilde{f}(x) в произвольной точке x являются состоятельными и несмещёнными.

Простейшая линейная регрессионная модель

Пусть функция регрессии Y на X имеет вид:

f(x,β0,β1)=β0+β1xf(x,{{\beta }_{0}},{{\beta }_{1}})={{\beta }_{0}}+{{\beta }_{1}}x.

(1)

Тогда регрессионная модель (1*) отклика Y выглядит следующим образом:

Y=β0+β1x+ε(x)Y={{\beta }_{0}}+{{\beta }_{1}}x+\varepsilon (x).

(2)

Такая модель называется простейшей линейной регрессионной моделью (simple linear regression).

Используя метод наименьших квадратов, найдём оценки параметров модели β0,β1{{\beta }_{0}},{{\beta }_{1}}. Запишем систему уравнений (6*):

{β0n+β1i=1nxi=i=1nyi,β0i=1nxi+β1i=1nxi2=i=1nxiyi;\begin{cases} {{\beta }_{0}}n+{{\beta }_{1}}\sum\limits_{i=1}^{n}{{{x}_{i}}}=\sum\limits_{i=1}^{n}{{{y}_{i}}}, \\ {{\beta }_{0}}\sum\limits_{i=1}^{n}{{{x}_{i}}}+{{\beta }_{1}}\sum\limits_{i=1}^{n}{x_{i}^{2}}=\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}; \end{cases}

решением которой являются оценки β~0,β~1{{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}:

{β~0=yˉρXYσYσXxˉ,β~1=ρXYσYσX.\begin{cases} {{{\tilde{\beta }}}_{0}}=\bar{y}-\rho _{XY}^{*}\frac{\sigma _{Y}^{*}}{\sigma _{X}^{*}}\bar{x}, \\ {{{\tilde{\beta }}}_{1}}=\rho _{XY}^{*}\frac{\sigma _{Y}^{*}}{\sigma _{X}^{*}}.\end{cases}

(3)

Таким образом, МНК-оценка значения простейшей линейной функции регрессии Y на X (1) в точке x имеет вид:

f~(x)=f(x,β~0,β~1)=yˉ+ρXYσYσX(xxˉ)\tilde{f}(x)=f(x,{{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}})=\bar{y}+\rho _{XY}^{*}\frac{\sigma _{Y}^{*}}{\sigma _{X}^{*}}(x-\bar{x}).

Заметим, что найденные МНК-оценки параметров простейшей линейной регрессии являются выборочными оценками теоретических значений (9*), рассчитанных для функции регрессии нормально распределённых случайных величин.

Оценки β~0,β~1{{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}} имеют следующие свойства:

1. они являются линейными функциями результатов наблюдений y1,...,yn{{y}_{1}},...,{{y}_{n}};

2. состоятельность, т.е β~iPβi{{\tilde{\beta }}_{i}}\overset{P}{\mathop{\to }}\,{{\beta }_{i}} при nn\to \infty , i=0,1i=0,1;

3. несмещённость, т.е. M[β~i]=βi\text{M}\left[ {{{\tilde{\beta }}}_{i}} \right]={{\beta }_{i}}, i=0,1i=0,1.

Пусть к регрессионной модели (2) наряду с требованиями 1° и 2° налагаются следующие дополнительные требования (условия Гаусса-Маркова).

3°. Неизменность дисперсии ошибок ε(x)\varepsilon(x) для всех x из рассматриваемой области определения:

D[ε(x)]=σ2\text{D}\left[ \varepsilon (x) \right]={{\sigma }^{2}}.

(4)

Требование постоянства дисперсии произвольных случайных величин ξ1,...,ξn{{\xi }_{1}},...,{{\xi }_{n}} называется требованием их гомоскедастичности. Если дисперсии случайных величин ξ1,...,ξn{{\xi }_{1}},...,{{\xi }_{n}} различны, то такие величины называются гетероскедастичными.

Регрессионная модель называется гомоскедастичной, если гомоскедастичны её ошибки, т.е. если выполнено условие (4) для всех x из рассматриваемой области определения.

Наличие свойства гомоскедастичности ошибок простейшей линейной регрессионной модели связано с гомоскедастичностью наблюдаемой случайной величины Y при различных значениях x. Так, если при различных x дисперсии случайной величины Y различны, то регрессионная модель будет гетероскедастичной.

Иногда гетероскедастичность данных можно обнаружить визуально (например, на рисунке справа). Если диаграммы рассеяния не дают явной информации, тогда применяются статистические тесты на гомоскедастичность.

Пример гомоскедастичных (слева) и гетероскедастичных (справа) данных

Наличие гетероскедастичности в наблюдениях случайной величины Y приводит к неэффективности оценок β~0,β~1{{\tilde{\beta }}_{0}},{{\tilde{\beta}}_{1}} и f~(x)\tilde{f}(x).

4°. Независимость ошибок ε(x)\varepsilon(x) и ε(x)\varepsilon (x') модели для всех x и x' из рассматриваемой области определения.

Если известно, что ошибки модели имеют нормальное распределение ε(x) N(0,σ2)\varepsilon (x)\sim{\ }N(0,{{\sigma }^{2}}) при всех x, то требование независимости эквивалентно требованию некоррелированности:

cov[ε(x),ε(x)]=0\operatorname{cov}\left[ \varepsilon (x),\varepsilon (x') \right]=0.

Наличие свойства независимости остатков простейшей линейной регрессионной модели связано с независимостью наблюдаемых значений случайной величины Y при различных значениях x. Иными словами, выборка наблюдений y1,...,yn{{y}_{1}},...,{{y}_{n}} должна быть реализацией независимой случайной выборки Y1,...,Yn{{Y}_{1}},...,{{Y}_{n}}. Если это требование не выполняется, то МНК-оценки β~0,β~1{{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}и f~(x)\tilde{f}(x) являются неэффективными (теорема Гаусса-Маркова).

Свойства 3° и 4° эквивалентны выполнению условия

Vε=σ2IV_\varepsilon={{\sigma }^{2}}I,

где Vε – ковариационная матрица ошибок регрессионной модели, I – единичная матрица.

При соблюдении требований 1°–4° оценки β~0,β~1{{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}} и f~(x)\tilde{f}(x)являются эффективными, т.е. оценками с наименьшей дисперсией в классе всех линейных несмещённых оценок. Эти дисперсии равны:

D[β~0]=σ2i=1nxi2nDX,D\left[ {{{\tilde{\beta }}}_{0}} \right]=\frac{{{\sigma }^{2}}\sum\limits_{i=1}^{n}{x_{i}^{2}}}{nD_{X}^{*}},

D[β~1]=σ2nDX.D\left[ {{{\tilde{\beta }}}_{1}} \right]=\frac{{{\sigma }^{2}}}{nD_{X}^{*}}.

Доверительные интервалы на уровне значимости α для параметров β0,β1{{\beta }_{0}},{{\beta }_{1}} регрессионной модели рассчитываются по следующим формулам:

(β~0t1α/2(n2)D~resYi=1nxi2n2DX;\left( {{{\tilde{\beta }}}_{0}}-{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{\sum\limits_{i=1}^{n}{x_{i}^{2}}}{{{n}^{2}}D_{X}^{*}}}\right.;

                    β~0+t1α/2(n2)D~resYi=1nxi2n2DX),\left. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{{\tilde{\beta }}}_{0}}+{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{\sum\limits_{i=1}^{n}{x_{i}^{2}}}{{{n}^{2}}D_{X}^{*}}} \right),

(5)

(β~1t1α/2(n2)D~resY1nDX;\left( {{{\tilde{\beta }}}_{1}}-{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{nD_{X}^{*}}} \right.;

                    β~1+t1α/2(n2)D~resY1nDX),\left. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{{\tilde{\beta }}}_{1}}+{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{nD_{X}^{*}}}\right),

(6)

где t1α/2(n2){{t}_{1-\alpha /2}}(n-2) – квантиль распределения Стьюдента с n–2 степенями свободы на уровне 1–α/2, DXD_{X}^{*} – выборочная дисперсия случайной величины X, D~resY\tilde{D}_{resY}^{{}} – несмещённая оценка остаточной дисперсии случайной величины Y:

D~resY=1n2i=1n(f~(xi)yi)2\tilde{D}_{resY}^{{}}=\frac{1}{n-2}\sum\limits_{i=1}^{n}{{{\left( \tilde{f}({{x}_{i}})-{{y}_{i}} \right)}^{2}}},

Доверительный интервал на уровне значимости α для функции регрессии f(x)=M[Yx]f(x)=\text{M}\left[ Y|x \right] в точке x имеет вид:

(f~(x)t1α/2(n2)D~resY1n+(xxˉ)2nDX;\left( \tilde{f}(x)-{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{n}+\frac{{{(x-\bar{x})}^{2}}}{nD_{X}^{*}}} \right.;

             f~(x)+t1α/2(n2)D~resY1n+(xxˉ)2nDX).\left. \ \ \ \ \ \ \ \ \ \ \ \ \ \tilde{f}(x)+{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{n}+\frac{{{(x-\bar{x})}^{2}}}{nD_{X}^{*}}} \right).

Отметим, что границы доверительного интервала для функции регрессии f(x) нелинейно зависят от x.

Простейшая линейная регрессия

На рисунке сплошной линией изображена оцененная функция регрессии f~(x)\tilde{f}(x), пунктирными линиями – границы доверительного интервала для f(x) на уровне значимости α = 0,1.

Простейшая регрессионная модель (2) называется значимой, если β10{{\beta }_{1}}\ne 0.

Для проверки значимости простейшей регрессионной модели сформулируем основную и альтернативную гипотезы:

H0:β1=0,{{H}_{0}}:{{\beta }_{1}}=0,

H:β10.H':{{\beta }_{1}}\ne 0.

В качестве статистики критерия используется статистика:

Z=RYX2(1RYX2)/(n2)  Z=\frac{R_{Y|X}^{2*}}{{\left( 1-R_{Y|X}^{2*} \right)}/{(n-2)}\;},

(7)

которая при условии истинности H0 имеет распределение Фишера с 1 и n–2 степенями свободы в числителе и знаменателе соответственно: fZ(zH0) F(1,n2){{f}_{Z}}(z|{{H}_{0}})\sim{\ }F(1,n-2).

Критическая область для статистики критерия выбирается правосторонней.

Заметим, что статистика критерия (7), используемая при проверке значимости простейшей линейной регрессионной модели, представляет собой статистику (6*), используемую при проверке гипотезы о равенстве нулю коэффициента детерминации Y на X при числе неизвестных параметров функции регрессии k = 2. Фактически проверка гипотезы о значимости регрессионной модели – это проверка гипотезы о равенстве нулю коэффициента детерминации при функции регрессии (1).

Пример 1

Линейная регрессионная модель общего вида

Пусть функция регрессии имеет вид:

f(x,β0,...,βk)=β0φ0(x)+...+βk1φk1(x)f(x,{{\beta }_{0}},...,{{\beta }_{k}})={{\beta }_{0}}{{\varphi }_{0}}(x)+...+{{\beta }_{k-1}}{{\varphi }_{k-1}}(x),

(1)

где φ0(x),...,φk1(x){{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) – некоторая система функций (не обязательно линейных).

Тогда регрессионная модель (1*) отклика Y на входное воздействие x выглядит следующим образом:

Y=β0φ0(x)+...+βk1φk1(x)+ε(x)Y={{\beta }_{0}}{{\varphi }_{0}}(x)+...+{{\beta }_{k-1}}{{\varphi }_{k-1}}(x)+\varepsilon (x).

(2)

где ε(x)\varepsilon(x) – случайная ошибка модели.

Такая модель называется линейной регрессионной моделью общего вида, или просто линейной регрессионной моделью. Под линейностью регрессионной модели понимается линейность по её параметрам β0,...,βk1{{\beta }_{0}},...,{{\beta }_{k-1}}.

Как правило, в качестве функции φ0(x){{\varphi }_{0}}(x) выбирается тождественная единица:

φ0(x)1{{\varphi }_{0}}(x)\equiv 1.

(3)

При условии постоянства математического ожидания ошибок модели M[ε(x)]=const0\text{M}\left[ \varepsilon (x) \right]=const\neq 0 такой выбор обеспечивает выполнение требования 1°, предъявляемого к регрессионным моделям.

Используя метод наименьших квадратов, найдём оценки параметров модели β0,...,βk1{{\beta }_{0}},...,{{\beta }_{k-1}}. Запишем систему уравнений (6*) в матричном виде:

FTFβ=FTy{{F}^{T}}F\beta ={{F}^{T}}y,

(4)

где β=(β0,...,βk1)T\beta ={{({{\beta }_{0}},...,{{\beta }_{k-1}})}^{T}} – вектор параметров модели, y=(y1,...,yn)Ty={{({{y}_{1}},...,{{y}_{n}})}^{T}}– вектор откликов модели,

F=(φ0(x1)...φk1(x1)φ0(x2)...φk1(x2).........φ0(xn)...φk1(xn))F=\left( \begin{matrix} {{\varphi }_{0}}({{x}_{1}}) & ... & {{\varphi }_{k-1}}({{x}_{1}}) \\ {{\varphi }_{0}}({{x}_{2}}) & ... & {{\varphi }_{k-1}}({{x}_{2}}) \\ ... & ... & ... \\ {{\varphi }_{0}}({{x}_{n}}) & ... & {{\varphi }_{k-1}}({{x}_{n}}) \\ \end{matrix} \right).

(5)

Матрица F называется регрессионной матрицей, или матрицей плана (design matrix).

Решением системы (4) является вектор:

β~=(FTF)1FTy\tilde{\beta }={{({{F}^{T}}F)}^{-1}}{{F}^{T}}y.

(6)

МНК-оценка функции линейной регрессии Y на X (1) в точке x имеет вид:

f~(x)=f(x,β~)=j=0k1β~jφj(x)\tilde{f}(x)=f(x,\tilde{\beta })=\sum\limits_{j=0}^{k-1}{{{{\tilde{\beta }}}_{j}}{{\varphi }_{j}}(x)}.

(7)

При соблюдении требований к регрессионным моделям МНК-оценки (6) и (7) имеют те же свойства, что и МНК-оценки простейшей линейной регрессионной модели, а ковариационная матрица вектора МНК-оценок β~=(β~0,...,β~k1)T\tilde{\beta }={{\left( \tilde\beta_0,...,\tilde\beta_{k-1} \right)}^{T}} равна:

cov[β~]=σ2(FTF)1\operatorname{cov}\left[ {\tilde{\beta }} \right]={{\sigma }^{2}}{{({{F}^{T}}F)}^{-1}},

где σ2 – дисперсия ошибок модели (2). Матрица (FTF)1{{({{F}^{T}}F)}^{-1}} называется дисперсионной матрицей Фишера.

Доверительные интервалы на уровне значимости α для параметров βj{{\beta }_{j}}, j=0,k1j=\overline{0,k-1}, регрессионной модели рассчитываются по следующим формулам:

(β~jt1α/2(nk)D~resYcjj;\left( {{{\tilde{\beta }}}_{j}}-{{t}_{1-\alpha /2}}(n-k)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{{{c}_{jj}}} \right.;

                            β~j+t1α/2(nk)D~resYcjj),\left. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{{\tilde{\beta }}}_{j}}+{{t}_{1-\alpha /2}}(n-k)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{{{c}_{jj}}} \right),

где cjjj-й диагональный элемент матрицы (FTF)1{{({{F}^{T}}F)}^{-1}}, j=0,k1j=\overline{0,k-1}, t1α/2(nk){{t}_{1-\alpha /2}}(n-k) – квантиль распределения Стьюдента с nk степенями свободы на уровне 1–α/2, D~resY\tilde{D}_{resY}^{{}} – несмещённая оценка остаточной дисперсии случайной величины Y:

D~resY=1nki=1n(f~(xi)yi)2\tilde{D}_{resY}^{{}}=\frac{1}{n-k}\sum\limits_{i=1}^{n}{{{\left( \tilde{f}({{x}_{i}})-{{y}_{i}} \right)}^{2}}},

Доверительный интервал на уровне значимости α для функции регрессии f(x)=M[Yx]f(x)=\text{M}\left[ Y|x \right] в точке x имеет вид:

(f~(x)t1α/2(nk)D~resYφT(x)(FTF)1φ(x);\left( \tilde{f}(x)-{{t}_{1-\alpha /2}}(n-k)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{{{\varphi }^{T}}(x){{({{F}^{T}}F)}^{-1}}\varphi (x)} \right.;

      f~(x)+t1α/2(nk)D~resYφT(x)(FTF)1φ(x)),\left. \ \ \ \ \ \ \tilde{f}(x)+{{t}_{1-\alpha /2}}(n-k)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{{{\varphi }^{T}}(x){{({{F}^{T}}F)}^{-1}}\varphi (x)}\right),

где φ(x)=(φ0(x),...,φk1(x))T\varphi (x)={{\left( {{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) \right)}^{T}} – вектор значений системы функций в точке x.

Пример функции регрессии, линейной по параметрам, приведён на рисунке ниже.

Линейная регрессия общего вида

На рисунке сплошной линией изображена оцененная функция регрессии f~(x)=β~0+β~1x+β~2x2+β~3x3\tilde{f}(x)={{\tilde{\beta }}_{0}}+{{\tilde{\beta }}_{1}}x+{{\tilde{\beta}}_{2}}{{x}^{2}}+{{\tilde{\beta }}_{3}}{{x}^{3}}, пунктирными линиями – границы доверительного интервала для f(x) на уровне значимости α = 0,1.

Линейная регрессионная модель (2) называется значимой, если соответствующая ей функция регрессии зависит от x. В частности, если выполнено условие (3), то модель значима, если хотя бы один из коэффициентов β1,...,βk1{{\beta }_{1}},...,{{\beta }_{k-1}} отличен от нуля. Если все β1=...=βk1=0{{\beta}_{1}}=...={{\beta }_{k-1}}=0, то модель называется незначимой.

Проверка значимости линейной регрессионной модели означает проверку гипотезы:

H0:β1=...=βk1=0{{H}_{0}}:{{\beta }_{1}}=...={{\beta }_{k-1}}=0

против альтернативной гипотезы

H:j=1k1βj2>0H':\sum\limits_{j=1}^{k-1}{\beta _{j}^{2}}>0.

В качестве статистики критерия используют статистику:

Z=RYX2/(k1)  (1RYX2)/(nk)  Z=\frac{{R_{Y|X}^{2*}}/{(k-1)}\;}{{\left( 1-R_{Y|X}^{2*} \right)}/{(n-k)}\;},

(8)

которая при условии истинности H0 имеет распределение Фишера с k–1 и nk степенями свободы в числителе и в знаменателе соответственно: fZ(zH0)F(k1,nk){{f}_{Z}}(z|{{H}_{0}})\sim F(k-1,n-k).

Критическая область для статистики критерия выбирается правосторонней.

Статистика критерия (8), используемая при проверке значимости линейной регрессионной модели, представляет собой статистику (6*), используемую при проверке гипотезы о равенстве нулю коэффициента детерминации Y на X при числе неизвестных параметров функции регрессии, равном k.

Для проверки гипотезы о равенстве нулю параметра βj{{\beta }_{j}}, j=0,k1j=\overline{0,k-1}, линейной регрессионной модели:

H0:βj=0{{H}_{0}}:{{\beta }_{j}}=0

используют статистику критерия:

Z=β~jD~resYcjjZ=\frac{{{{\tilde{\beta }}}_{j}}}{\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{{{c}_{jj}}}},

которая при условии истинности H0 имеет распределение Стьюдента с nk степенями свободы: fZ(zH0)T(nk){{f}_{Z}}(z|{{H}_{0}})\sim T(n-k).

Критическая область для статистики критерия выбирается, исходя из вида альтернативной гипотезы.

Система функций φ0(x),...,φk1(x){{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) может быть выбрана произвольным образом, однако на практике удобно использовать некоторую систему ортогональных функций.

Система функций φ0(x),...,φk1(x){{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) называется ортогональной на множестве x1,...,xn{{x}_{1}},...,{{x}_{n}}, если

i=1nφm(xi)φl(xi)=0\sum\limits_{i=1}^{n}{{{\varphi }_{m}}({{x}_{i}}){{\varphi }_{l}}({{x}_{i}})}=0, m,l=0,...,k1\forall m,l=0,...,k-1, mlm\ne l.

(9)

В случае центрированных функций φj(x){{\varphi }_{j}}(x), j=0,k1j=\overline{0,k-1}, т.е. функций, для которых выполнено условие:

i=1nφj(xi)=0\sum\limits_{i=1}^{n}{{{\varphi }_{j}}({{x}_{i}})}=0, j=0,...,k1\forall j=0,...,k-1,

равенство (9) в терминах математической статистики означает некоррелированность функций φm(x){{\varphi }_{m}}(x) и φl(x){{\varphi }_{l}}(x) при mlm\ne l:

cov[φm(x),φl(x)]=0\operatorname{cov}\left[ {{\varphi }_{m}}(x),{{\varphi }_{l}}(x) \right]=0, m,l=0,...,k1\forall m,l=0,...,k-1, mlm\ne l.

Можно показать, что если система функций φ0(x),...,φk1(x){{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) ортогональна на множестве x1,...,xn{{x}_{1}},...,{{x}_{n}}, то МНК-оценки параметров β0,...,βk1{{\beta }_{0}},...,{{\beta }_{k-1}} регрессионной модели (2) вычисляются по формуле:

β~j=i=1nyiφj(xi)i=1nφj2(xi){{\tilde{\beta }}_{j}}=\frac{\sum\limits_{i=1}^{n}{{{y}_{i}}{{\varphi }_{j}}({{x}_{i}})}}{\sum\limits_{i=1}^{n}{\varphi _{j}^{2}({{x}_{i}})}}, j=0,k1j=\overline{0,k-1}.

В качестве системы ортогональных функций φ0(x),...,φk1(x){{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) могут быть выбраны, например, ортогональные полиномы Чебышева или Эрмита.

Пример 1

Множественная линейная регрессия

Если на систему действует множество входных воздействий X1,...,Xm{{X}_{1}},...,{{X}_{m}}, то её регрессионная модель имеет вид:

Y=f(x,β0,...,βk)+ε(x)Y=f(x,{{\beta }_{0}},...,{{\beta }_{k}})+\varepsilon (x),

(1)

где f(x,β0,...,βk)f(x,{{\beta }_{0}},...,{{\beta }_{k}}) – функция регрессии, ε(x)\varepsilon(x) – случайная ошибка модели, x=(x1,...,xm)x=({{x}_{1}},...,{{x}_{m}}) – вектор входных воздействий. Пусть функция регрессии является линейной (по параметрам):

f(x,β0,...,βk)=β0φ0(x)+...+βk1φk1(x)f(x,{{\beta }_{0}},...,{{\beta }_{k}})={{\beta }_{0}}{{\varphi }_{0}}(x)+...+{{\beta }_{k-1}}{{\varphi }_{k-1}}(x),

(2)

где φ0(x),...,φk1(x){{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) – некоторая система скалярных функций (не обязательно линейных) m переменных.

Матрица плана регрессионной модели (1) аналогична матрице плана (5*) линейной регрессионной модели общего вида. МНК-оценки параметров β0,...,βk{{\beta }_{0}},...,{{\beta }_{k}} функции регрессии (2) рассчитываются по формуле (6*).

Для расчёта доверительных интервалов параметров модели и проверки значимости модели используются те же формулы, что и для линейной регрессионной модели (2*).

Рассмотрим частный случай функции регрессии (2). Пусть k1=mk-1=m, а функции φ0(x),...,φk1(x){{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x) заданы следующим образом:

φ0(x1,...,xm)1,{{\varphi }_{0}}({{x}_{1}},...,{{x}_{m}})\equiv 1,

φi(x1,...,xm)=xi,   i=1,m.{{\varphi }_{i}}({{x}_{1}},...,{{x}_{m}})={{x}_{i}},\ \ \ i=\overline{1,m}.

Тогда функция регрессии (2) представляет собой гиперплоскость в пространстве признаков (x1,...,xm,y)({{x}_{1}},...,{{x}_{m}},y):

f(x,β0,...,βm)=β0+β1x1+...+βmxmf(x,{{\beta }_{0}},...,{{\beta }_{m}})={{\beta }_{0}}+{{\beta }_{1}}{{x}_{1}}+...+{{\beta }_{m}}{{x}_{m}}.

(3)

Пусть (x11,...,xm1,y1),...,(x1n,...,xmn,yn)({{x}_{11}},...,{{x}_{m1}},{{y}_{1}}),...,({{x}_{1n}},...,{{x}_{mn}},{{y}_{n}}) – выборка наблюдений случайного вектора (X1,...,Xm,Y)({{X}_{1}},...,{{X}_{m}},Y). По этим данным может быть рассчитан показатель «эр-квадрат» (1*):

RYX1,...,Xm2=DYX1,...,XmDY=1DresYDYR_{Y|{{X}_{1}},...,{{X}_{m}}}^{2*}=\frac{D_{Y|{{X}_{1}},...,{{X}_{m}}}^{*}}{D_{Y}^{*}}=1-\frac{D_{resY}^{*}}{D_{Y}^{*}}.

(4)

Этот показатель следует интерпретировать как долю вариации выборочных данных, объяснённую линейной функцией регрессии (2). Величина остаточной дисперсии DresYD_{resY}^{*} характеризует разброс выборочных значений относительно гиперплоскости регрессии.

При анализе линейного уравнения регрессии (3) выборочное корреляционное отношение RYX1,...,XmR_{Y|{{X}_{1}},...,{{X}_{m}}}^{*} (4) называют также множественным коэффициентом корреляции (multiple correlation). Отметим, что множественный коэффициент корреляции, в отличие от линейного коэффициента корреляции Пирсона, принимает значения в диапазоне от 0 до 1.

Можно показать, что множественный коэффициент корреляции RYX1,...,XmR_{Y|{{X}_{1}},...,{{X}_{m}}}^{*} выражается через парные коэффициенты корреляции следующим образом:

RYX1,...,Xm=cTRXX1cR_{Y|{{X}_{1}},...,{{X}_{m}}}^{*}=\sqrt{{{c}^{T}}R_{XX}^{-1}c},

(5)

где RXX – корреляционная матрица регрессоров X1,...,Xm{{X}_{1}},...,{{X}_{m}} размерности m×mm\times m, c – вектор-столбец корреляций отклика Y с регрессорами X1,...,Xm{{X}_{1}},...,{{X}_{m}}.

В частном случае, при m = 2 формула (5) имеет вид:

RYX1,X2=(ρYX1)2+(ρYX2)22ρYX1ρYX2ρX1X21(ρX1X2)2R_{Y|X_1,X_2}^{*}=\sqrt{\frac{{{(\rho _{YX_1}^{*})}^{2}}+{{(\rho _{YX_2}^{*})}^{2}}-2\rho _{YX_1}^{*}\rho_{YX_2}^{*}\rho _{X_1X_2}^{*}}{1-{{(\rho _{X_1X_2}^{*})}^2}}}.

Добавление в регрессионную модель новых регрессоров всегда увеличивает значение показателя «эр-квадрат». Связано это с тем, что с увеличением размерности пространства признаков ошибка линейной аппроксимации n точек может только уменьшиться либо остаться неизменной (при нулевом коэффициенте перед добавляемым признаком). Эта особенность является недостатком показателя «эр-квадрат», поскольку подобное увеличение его значения может быть не связано с наличием статистической связи между рассматриваемым откликом Y модели и переменными X1,...,Xm{{X}_{1}},...,{{X}_{m}}.

Показателем, компенсирующим этот эффект, является скорректированное корреляционное отношение:

RˉYX1,...,Xm=1DresY/(nk)  DY/(n1)  =1(1RYX1,...,Xm2)n1nk\bar{R}_{Y|{{X}_{1}},...,{{X}_{m}}}^{{}}=\sqrt{1-\frac{{D_{resY}^{*}}/{(n-k)}\;}{{D_{Y}^{*}}/{(n-1)}\;}}=\sqrt{1-\left(1-R_{Y|{{X}_{1}},...,{{X}_{m}}}^{2*} \right)\frac{n-1}{n-k}},

при анализе линейного уравнения регрессии (3) называемое также скорректированным множественным коэффициентом корреляции (adjusted multiple correlation).

Пример 1