Случайная
дискретная величина и ее числовые характеристики:
Основные
понятия:
2. Распределение
случайной величины.
3. Графическое
представление распределения.
5. Дисперсия.
6. Среднеквадратическое
отклонение.
Несмотря
на наличие ссылок по тексту, автор все же рекомендует прочесть раздел целиком -
для более последовательного понимания материала.
Определения и
пояснения:
1. Переменная величина х, принимающая в результате испытания одно из конечной или
бесконечной последовательности значений х1,
х2 …хк …, называется
дискретной случайной величиной,
если каждому значению хк
соответствует определенная вероятность рк,
что переменная величина примет значение хк.
Этот пункт нуждается в пояснениях.
Прежде всего,
приведем пример, поясняющий, что же есть такое – загадочная случайная
дискретная величина… Предположим, мы исследуем уровень
интеллекта в какой-либо группе испытуемых. В результате эксперимента каждый из обследованных выдаст некое значение. Мы не можем заранее
предсказать, какова будет величина этого значения: 70, 100, 130 баллов и т.п.,
- и потому наша случайная дискретная величина СЛУЧАЙНА. Даже
если людей в группе столько, что обязательно отыщутся те, у кого будет 71 балл,
72, 73, 74… и так далее – до 127, 128, 129, 130, то все равно не может быть
человека, набравшего 129,5 балла или 71,5 балла или сто целых, семьдесят пять
сотых балла, - и потому наша случайная дискретная величина ДИСКРЕТНА.
Однако, при чем здесь понятие «вероятность»? Вот к
чему оно относится. Пусть в нашем
примере накопились самые разные значения – кто-то блистал интеллектом, кто-то,
к сожалению, ударил в грязь лицом, а кто-то, большинство, скромно держались в
середине. Ясно, что чем сильнее отличается какое-то значение (в данном случае
чей-то коэффициент IQ) от среднего, от нормы, тем
меньше шансов, что он встретится, тем реже он встретится. Это и составляет в
нашем примере содержание понятия «вероятность». Далее мы сможем, собрав все
значения, подсчитать, сколько раз каждое встретилось в нашем эксперименте – тем
самым получаем таблицу или график, отражающий зависимость частоты встречаемости
значения Хn от величины этого значения.
Следует уметь отличать случайную дискретную величину
от функциональной зависимости. Таких главных отличий два..
Вспомним для
начала определение функции: функцией
называется такая зависимость, при которой каждому значению аргумента
соответствует одно и только одно значение функции. Иными словами,
функциональная зависимость устанавливает взаимно однозначное соответствие между
аргументом (тем, что отложено по оси X абсцисс) и функцией (тем, что отложено
по оси Y ординат).
Первое отличие
состоит в том, что функция устанавливает соответствие между исходным числом и
числом, полученным вследствие подстановки в какую-либо формулу (например,
уравнение параболы, как мы помним, выглядит так: y=kx2+b). Случайная
дискретная величина тоже может быть описана с помощью уравнений, но эти
уравнения будут связывать число – то есть значение случайной дискретной величины с частотой ее встречаемости
в нашем эксперименте.
Вторым важным отличием, как явствует из самого
названия, следует считать то, что случайная дискретная величина дискретна, тогда как
обязательным условием функции является ее непрерывность. Что это значит? Это
значит то, что между любыми двумя точками на координатной оси, на которой
отложены значения аргумента какой-либо функции, можно разместить еще сколько
угодно других точек. И более того: каждой из точек можно найти соответствие на
оси ординат, то есть подставить ее значение в уравнение и подсчитать результат.
Это – о функции. Для случайной дискретной величины другие законы: ее
значения меняются скачкообразно – если в
измерении IQ в какой либо группе лиц самое нижнее значение х1
равно, скажем, 100 баллов, то следующее по величине значение х2 может оказаться
равным 105. При этом между ними нет ни 101, ни 102, ни 103, ни 104.
(Слово «закон» в этом случае следует понимать, как
«закономерность», «данный конкретный характер, подлежащий точному описанию»).
И функция, и случайная дискретная величина могут быть заданы тремя способами:
Табличным (таблица);
Графически (график, гистограмма);
Аналитически (уравнение). p = f(x).
3. Графическое представление закона распределения.
Рисунок 1
Всегда, когда перед нами график, первым вопросом, на
который мы обязаны ответить, будет вопрос: «Что отложено по осям?» Что же
отложено в нашем случае? Итак, на оси абсцисс представлены ЗНАЧЕНИЯ случайной
дискретной величины, расположенные в порядке возрастания; на оси ординат –
ВЕРОЯТНОСТЬ, с которой в нашем опыте могут встретиться эти значения. Из данного
графика видно, что, к примеру, значение х2 – самое
вероятное, а х4 – наименее вероятное.
Если опыты уже
проведены, а значения получены, то уместнее говорить не о ВЕРОЯТНОСТИ появления значений, а о ЧАСТОТЕ (частости) их
встречаемости в данном эксперименте. В этом случае на графике следовало бы
заменить букву Р на букву f, которой обычно частота и
обозначается.
4. Математическим ожиданием
дискретной случайной величины называется сумма
произведений всех ее возможных значений на вероятности этих значений:
М[х] = х1р1
+ х2р2 +…+ хnрn
При неограниченном возрастании числа испытаний среднее арифметическое значений случайной величины стремится к ее математическому ожиданию.
Математическое ожидание М[х] числа появления события А при n
независимых испытаниях равно произведению числа испытаний на вероятность р появления числа А:
М[х] = nр => n = М[х] / р
1. Дисперсией случайной
величины х называется математическое
ожидание квадрата разности случайной величины х и ее математического ожидания:
D[х]
= M[(х - mх)2]
Более наглядно дисперсию
можно описать, не прибегая к использованию в
формуле понятия «математическое ожидание». Формула (сохраняя тот же
смысл) будет выглядеть вот так:
2. Средним квадратическим
отклонением случайной величины называется корень квадратный из ее дисперсии:
Дадим пояснение сразу для данного и предыдущего пункта.
Поскольку формулы очень похожи, прочтем «вслух» лишь одну их них:
Среднеквадратическое
отклонение случайной дискретной величины Х равно корню квадратному из отношения
суммы квадратов разностей каждого конкретного значения хi
и среднего значения к общему количеству значений, уменьшенному на единицу.
Смысл формулы гораздо проще, нежели ее звучание: в ней главным компонентом является разность между каждым значением и средним. В результате нахождения этой разности и преобразования полученного числа получаем значение среднеквадратического отклонения. Чем оно больше, тем сильнее разбросаны значения исследуемой величины вокруг своего среднего.
Для чего вообще необходимы понятия дисперсии и среднеквадратического отклонения?
Во многих экспериментах нам необходимо знать, как в среднем характеризуется данная исследуемая величина, какое, в среднем, она может принять значение. (Допустим, нам надо определить, каков, в среднем, показатель интеллекта в той или иной группе лиц.) Казалось бы, это задачу легко решить, прибегнув к вычислению простого среднего арифметического? Но часто мы, воспользовавшись этим способом, можем впасть в точно такое же заблуждение, в какое впадал знаменитый булгаковский персонаж, когда предлагал «все сложить и поделить». Поясним эту опасность на примере. Пусть нам известно, что средний показатель интеллекта в некоей группе равен такому-то числу. Что можно сказать об интеллекте группы, на основании лишь знания этого среднего показателя? Решительно ничего! Мы не знаем, все ли значения тесно сгруппированы вокруг среднего (все демонстрируют средний интеллект) или половина показателей очень низких, а половина – очень высоких. Может статься, что большинство демонстрируют интеллект выше среднего, но показатели одного-двух человек так низки, что «тянут» назад всю группу. В каждом из трех вариантов может быть одно и то же среднее значение.
В таком случае нам требуется иметь такую характеристику, которая бы говорила о том, сколь велик разброс значений вокруг среднего, или сколь далеко, как правило, от среднего отстоит любое, случайно взятое, значение. Для ответа на этот вопрос и служит такая математическая величина, как ДИСПЕРСИЯ, то есть – мера рассеяния.
Почему же, имея в своем распоряжении дисперсию, мы нуждаемся еще и в среднеквадратическом отклонении? Как видно из формул той и другой величины, отличие их лишь в показателе степени. Среднеквадратическое отклонение более удобно на практике, так как сохраняет размерность исследуемой величины. Используя не дисперсию, а среднеквадратическое отклонение, мы можем не опасаться, что придется на какой-то стадии вычислений иметь дело, скажем, с «квадратными килограммами» или «квадратными литрами» или, хуже того, «квадратными коэффициентами интеллекта» – в рамках нашего же примера.
3. Нормальное
распределение, его характеристика и графическое представление. Выбросы.
Распределения, отличные от нормального.
Рисунок 2
Под НОРМАЛЬНЫМ понимают такое распределение, как
представлено на рисунке 2. Оно характеризуется тем, что основная масса значений
(около 65%) попадает в интервал «среднее плюс/минус одна сигма» в интервал
«среднее плюс/минус две сигмы» попадают более 90-95 процентов всех значений, и
лишь несущественное количество выходит за эти пределы. Нормальным это
распределение названо так потому, что часто встречается в обычном физическом
мире, в естественнонаучных исследованиях. Наряду с нормальным, встречаются и
другие, так называемые «теоретические» распределения, например,
экспоненциальное. Помимо нормального, в психологических (да и любых
гуманитарных) исследованиях еще столь же часто используется понятие
РАВНОМЕРНОГО распределения, то есть такого, при котором каждое из возможных
значений встречается с одинаковой частотой. Его график – горизонтальная прямая.
(Случай, когда эта прямая идет под наклоном, тоже относится к равномерным
распределениям, но нами рассматриваться не будет.)
Сходность
данного эмпирического распределения с нормальным – важное обстоятельство,
использующееся в различных статистических методах, относящихся к категории т.н.
ПАРАМЕТРИЧЕСКИХ, о чем будет сказано ниже.
Рисунок 3
Рисунок 3 иллюстрирует такое
понятие, как ВЫБРОСЫ. Пусть в некоем
эксперименте получено какое-то количество значений. Может оказаться, что
некоторые из них достаточно существенно отличаются от основной «массы». Почему они
возникают, стоит ли принимать их во внимание, и как выделить в числе прочих?
Возьмем пример.
Пусть по методике СМИЛ
обследовано некоторое количество человек – кандидатов на вакантную должность.
Пусть задача исследователя состоит в составлении усредненного профиля этих
лиц, чтобы в дальнейшем
руководствоваться им при подборе персонала на аналогичную должность в другие
организации. Пусть также профили нескольких человек оказались недостоверны,
ввиду стремления скрыть существующие психологические проблемы и представить
себя в наиболее выгодном свете. Спрашивается: как учитывать такие профили?
Ясно, что профили этих лиц должны исключаться из рассмотрения. В противном
случае, каждая шкала усредненного профиля «пригодного кандидата» будет излишне
сглажена за счет «прибавки» от недостоверных профилей, а итоговый профиль
получится более пологим. (Исключать значения не следовало бы тогда, когда мы
желали бы определить степень волнения соискателей, степень их
заинтересованности и т.п., и тогда расценивали бы присутствие недостоверных
профилей, как «эффект» по интересующему нас запросу.)
Обычно за выбросы
принимаются те значения, которые отстоят от среднего более чем на три сигмы
(среднеквадратических отклонения).
На рисунке это диапазон
снаружи от двух прямых. Прямая, проходящая посередине,
символизирует условную линию, вокруг
которой группируются значения. Какие-то из них отстоят дальше от нее, -
какие-то – ближе, но все (белые кружки) находятся в интервале «до трех сигм».
Черными кружками на рисунке обозначены выбросы.
Рисунок 4
Некоторые эмпирические
распределения могут отличаться от нормального. Рисунок
4 показывает, что эти отличия могут выражаться в АССИММЕТРИИ (штриховая линия)
и отличаться числом и характером «пиков» - эта характеристика носит название
ЭКСЦЕССА.
Показатели асимметрии и
эксцесса вычисляются по формулам: