что такое распределение в математике

Основные законы распределения

1.Биномиальный закон распределения.

Биномиальный закон распределения описывает вероятность наступления события А m раз в n независимых испытаниях, при условии, что вероятность р наступления события А в каждом испытании постоянна.

Например, отдел продаж магазина бытовой техники в среднем получает один заказ на покупку телевизоров из 10 звонков. Составить закон распределения вероятностей на покупку m телевизоров. Построить полигон распределения вероятностей.

2.Геометрическое распределение.

Геометрическое распределение случайной величины имеет следующий вид:

Пример. В компанию по ремонту бытовой техники поступила партия из 10 запасных блоков для стиральных машин. Бывают случаи, что в партии оказывается 1 блок бракованный. Проводится проверка до обнаружения бракованного блока. Необходимо составить закон распределения числа проверенных блоков. Вероятность того, что блок может оказаться бракованным равна 0,1. Построить полигон распределения вероятностей.

3.Гипергеометрическое распределение.

Гипергеометрическое распределение случайной величины имеет следующий вид:

Из таблицы видно, что вероятность угадывания одного числа m=1 выше, чем при m=0. Однако затем вероятность начинает быстро снижаться. Таким образом, вероятность угадывания 4-х чисел уже составляет менее 0,005, а 5-ти ничтожно мала.

4.Закон распределения Пуассона.

Случайная величина Х имеет распределение Пуассона, если закон ее распределения имеет вид:

Из условия имеем: m=100, λ 1 =8, λ 2 =6, λ 3 =4 ( ≤10 )

(таблица дана не полностью)

Если n достаточно большое и стремится к бесконечности, а значение p стремится к нулю, так что произведение np стремится к постоянному числу, то данный закон является приближением к биномиальному закону распределения. Из графика видно, что чем больше вероятность р, тем ближе кривая расположена к оси m, т.е. более пологая. (Рис.4)

Необходимо отметить, что биномиальный, геометрический, гипергеометрический и закон распределения Пуассона выражают распределение вероятностей дискретной случайной величины.

5.Равномерный закон распределения.

Если плотность вероятности ϕ(х) есть величина постоянная на определенном промежутке [a,b], то закон распределения называется равномерным. На рис.5 изображены графики функции распределения вероятностей и плотность вероятности равномерного закона распределения.

6.Нормальный закон распределения (закон Гаусса).

Среди законов распределения непрерывных случайных величин наиболее распрастраненным является нормальный закон распределения. Случайная величина распределена по нормальному закону распределения, если ее плотность вероятности имеет вид:

График плотности вероятности случайной величины, имеющей нормальный закон распределения, симметричен относительно прямой х=а, т.е х равному математическому ожиданию. Таким образом, если х=а, то кривая имеет максимум равный:

При изменении величины математического ожидания кривая будет смещаться вдоль оси Ох. На графике (Рис.6) видно, что при х=3 кривая имеет максимум, т.к. математическое ожидание равно 3. Если математическое ожидание примет другое значение, например а=6, то кривая будет иметь максимум при х=6. Говоря о среднем квадратическом отклонении, как можно увидеть из графика, чем больше среднее квадратическое отклонение, тем меньше максимальное значение плотности вероятности случайной величины.

Функция, которая выражает распределение случайной величины на интервале (-∞,х), и имеющая нормальный закон распределения, выражается через функцию Лапласа по следующей формуле:

7.Показательный закон распределения.

Закон распределения случайной величины Х называется показательным (или экспоненциальным), если плотность вероятности имеет вид:

График плотности вероятности с параметрами
λ = 2, λ = 4, λ =6 изображен на рис.8

Функция распределения случайной величины Х, которая имеет показательное распределение, имеет вид:

График функции изображен на рис.9

Если функцию распределения случайной величины выразить через плотность вероятности при х ≥ а, то она примет вид:

8.Логарифмически-нормальное распределение.

Если логарифм непрерывной случайной величины изменяется по нормальному закону, то случайная величина имеет логарифмически-нормальное распределение. Функция логаривмически-нормального распределения имеет вид.

Из графика видно, что чем меньше σ и больше математическое ожидание а, тем кривая становится более пологая и больше стремится к симметрии. Данный закон, чаще всего, используется для описания распределения поступления денежных средств (доходов), банковских вкладов, износа основных средств и т.д. (Рис.10)

9. χ ² распределение

Сумма квадратов k независимых случайных величин, которые распределены по нормальному закону, называется χ ² распределением.

χ ² распределение имеет вид:

Плотность вероятности случайной величины, распределенной по распределению χ ² имеет вид:

Из графика видно, что чем больше n=k, тем кривая стремиться к нормальному распределению. Рис.11.

Распределение непрерывной случайной величины называется распределением Стьюдента, если оно имеет вид:

Плотность вероятности распределения Стьюдента имеет вид:

На рис.12 изображена плотность вероятности распределения Стьюдента. Из графика можно увидеть, что чем больше k, тем больше кривая приближается к нормальному распределению.

11. Распределение Фишера-Снедекора.

Распределение случайной величины Фишера-Снедекора имеет вид:

Плотность вероятности случайной величины имеет вид:

При стремлении n к бесконечности распределение Фишера-Снедекора стремится к нормальному закону распределения.(Рис.13)

Источник

Содержание:

Законы распределения:

Распределение случайных переменных: Каждая из случайных переменных имеет ряд возможных значений, могущих возникнуть с определенной вероятностью.

Случайные переменные величины могут носить прерывный (дискретный) и непрерывный характер. Возможные значения прерывной случайной переменной отделены друг от друга конечными интервалами. Возможные значения непрерывной случайной переменной не могут быть заранее перечислены и непрерывно заполняют некоторый промежуток.

Примерами прерывных случайных переменных могут служить:

Примеры непрерывных случайных переменных:

Если перечислить все возможные значения случайной переменной и указать вероятности этих значений, то получится распределение случайной переменной. Распределение случайной переменной указывает на соотношение между отдельными значениями случайной величины и их вероятностями.

Распределение случайной переменной будет задано законом распределения, если точно указать, какой вероятностью обладает каждое значение случайной переменной.

Такая таблица называется также рядом распределения случайной переменной.

Для наглядности ряд распределения изображают графически, откладывая на прямоугольной системе координат по оси абсцисс возможные значения случайной переменной, а по оси ординат — их вероятности. В результате графического изображения получается многоугольник или полигон распределения (график 1). Многоугольник распределения является одной из форм закона распределения.

Функция распределения

Ряд распределения является исчерпывающей характеристикой прерывной случайной перемен-

Вероятность того, что Х

При копировании любых материалов с сайта evkova.org обязательна активная ссылка на сайт www.evkova.org

Сайт создан коллективом преподавателей на некоммерческой основе для дополнительного образования молодежи

Сайт пишется, поддерживается и управляется коллективом преподавателей

Whatsapp и логотип whatsapp являются товарными знаками корпорации WhatsApp LLC.

Cайт носит информационный характер и ни при каких условиях не является публичной офертой, которая определяется положениями статьи 437 Гражданского кодекса РФ. Анна Евкова не оказывает никаких услуг.

Источник

Распределение (математика)

Распределение вероятностей — это закон, описывающий область значений случайной величины и вероятности их принятия.

Содержание

Определение

Определение 1. Пусть задано вероятностное пространство , и на нём определена случайная величина . В частности, по определению, X является измеримым отображением измеримого пространства в измеримое пространство , где обозначает борелевскую сигма-алгебру на . Тогда случайная величина X индуцирует вероятностную меру на следующим образом:

Способы задания распределений

Теорема 1. Функция распределения FX(x) любой случайной величины удовлетворяет следующим трем свойствам:

Из того факта, что борелевская сигма-алгебра на вещественной прямой порождается семейством интервалов вида , вытекает

Для вероятностных распределений, обладающих определенными свойствами, существуют более удобные способы его задания.

Дискретные распределения

Пример 1. Пусть функция p задана таким образом, что и . Эта функция задаёт распределение случайной величины X такой, что .

Теорема 3. Дискретное распределение обладает следующими свойствами:

Непрерывные распределения

Непрерывное распределение — распределение вероятностей, не имеющее атомов. Любое распределение вероятностей есть смесь дискретного и непрерывного.

Абсолютно непрерывные распределения

Очевидно, что для любой плотности распределения fX верно равенство . Верна и обратная

Читайте также:  исполнительная на итп какие акты обязательные документация

Теорема 4. Если функция такая, что:

то существует распределение такое, что f(x) является его плотностью.

Просто применение формулы Ньютона-Лейбница приводит к простому соотношению между кумулятивной функцией и плотностью абсолютно непрерывного распределения.

Теорема 5. Если f(x) — непрерывная плотность распределения, а F(x) — его кумулятивная функция, то

Полезное

Смотреть что такое «Распределение (математика)» в других словарях:

Математика в девяти книгах — (начало) «Математика в девяти книгах» (кит. трад. 九章算術 … Википедия

Распределение Пуассона — Функция вероятности … Википедия

МАТЕМАТИКА — уч. предмет в школе, в содержание к рого входят элементы арифметики, алгебры, начал анализа, евклидовой геометрии плоскости и пространства, аналитич. геометрии, тригонометрии. Преподавание М. направлено на овладение учащимися системой матем.… … Российская педагогическая энциклопедия

Математика гармонии — Эта статья предлагается к удалению. Пояснение причин и соответствующее обсуждение вы можете найти на странице Википедия:К удалению/22 ноября 2012. Пока процесс обсуждени … Википедия

Математика Древнего Востока — История науки По тематике Математика Естественные науки … Википедия

Портал:Математика — Начинающим · Сообщество · Порталы · Награды · Проекты · Запросы · Оценивание География · История · Общество · Персоналии · Религия · Спорт · Техника · Наука · Искусство · Философия … Википедия

Финансовая математика — Финансовая математика раздел прикладной математики, имеющий дело с математическими задачами, связанными с финансовыми расчётами. В финансовой математике любой финансовый инструмент рассматривается с точки зрения генерируемого этим… … Википедия

Регрессия (математика) — У этого термина существуют и другие значения, см. регрессия. Регрессия (лат. regressio обратное движение, отход), в теории вероятностей и математической статистике, зависимость среднего значения какой либо величины от некоторой другой… … Википедия

Континуальное распределение Гаусса — было введено в квантовой теории поля как расширение понятия распределения Гаусса для конечномерных векторов на континуальные пространства скалярных и векторных полей. Континуальное распределение активно используется в аппарате функциональных… … Википедия

Гауссиана распределение (или кривая) — нормальное распределение величин в виде синусоиды. Например, распределение людей по их интеллекту, когда начало и конец кривой отображают число идиотов и гениев, а пик кривой индивидов со средним интеллектом. Термин создан в честь великого… … Энциклопедический словарь по психологии и педагогике

Источник

Распределение (теория вероятностей)

Распределение вероятностей — это закон, описывающий область значений случайной величины и вероятности их принятия.

Содержание

Определение

Определение 1. Пусть задано вероятностное пространство , и на нём определена случайная величина . В частности, по определению, X является измеримым отображением измеримого пространства в измеримое пространство , где обозначает борелевскую сигма-алгебру на . Тогда случайная величина X индуцирует вероятностную меру на следующим образом:

Способы задания распределений

Теорема 1. Функция распределения FX(x) любой случайной величины удовлетворяет следующим трем свойствам:

Из того факта, что борелевская сигма-алгебра на вещественной прямой порождается семейством интервалов вида , вытекает

Для вероятностных распределений, обладающих определенными свойствами, существуют более удобные способы его задания.

Дискретные распределения

Пример 1. Пусть функция p задана таким образом, что и . Эта функция задаёт распределение случайной величины X такой, что .

Теорема 3. Дискретное распределение обладает следующими свойствами:

Непрерывные распределения

Непрерывное распределение — распределение вероятностей, не имеющее атомов. Любое распределение вероятностей есть смесь дискретного и непрерывного.

Абсолютно непрерывные распределения

Очевидно, что для любой плотности распределения fX верно равенство . Верна и обратная

Теорема 4. Если функция такая, что:

то существует распределение такое, что f(x) является его плотностью.

Просто применение формулы Ньютона-Лейбница приводит к простому соотношению между кумулятивной функцией и плотностью абсолютно непрерывного распределения.

Теорема 5. Если f(x) — непрерывная плотность распределения, а F(x) — его кумулятивная функция, то

Полезное

Смотреть что такое «Распределение (теория вероятностей)» в других словарях:

ТЕОРИЯ ВЕРОЯТНОСТЕЙ — математич. наука позволяющая по вероятностям одних событий случайных (см.) находить вероятности случайных событий, связанных к. л. образом с первыми. Современная Т.в. основана на аксиоматике (см. Метод аксиоматический) А. Н. Колмогорова. На… … Российская социологическая энциклопедия

Независимость (теория вероятностей) — У этого термина существуют и другие значения, см. Независимость (значения). В теории вероятностей два случайных события называются независимыми, если наступление одного из них не изменяет вероятность наступления другого. Аналогично, две случайные … Википедия

Степени свободы (теория вероятностей) — У этого термина существуют и другие значения, см. Степени свободы (значения). Количество степеней свободы это количество значений в итоговом вычислении статистики, способных варьироваться. Иными словами, количество степеней свободы… … Википедия

ВЕРОЯТНОСТЕЙ ТЕОРИЯ — раздел математики, в к ром строят и изучают матем. модели случайных явлении. Случайность присуща в той или иной степени подавляющему большинству протекающих в природе процессов. Обычно она присутствует там, где существ. влияние на ход процесса… … Физическая энциклопедия

РАСПРЕДЕЛЕНИЕ — осн. понятие вероятностей теории и матем. статистики. Р. полностью характеризует случайную величину. Пусть x дискретная случайная величина, принимающая (конечное или бесконечное) счётное множество значений . Если вероятность реализации… … Физическая энциклопедия

Теория случайных матриц — Теория случайных матриц раздел математической статистики, изучающий свойства ансамблей матриц, элементы которых распределены случайным образом. Как правило задаётся закон распределения элементов. При этом изучается статистика собственных… … Википедия

Распределение Пуассона — Функция вероятности … Википедия

РАСПРЕДЕЛЕНИЕ — случайной величины X, принимающей целые неотрицательные значения r: где m > 0 параметр. Ср. значение М(Х) =m, дисперсия D(X) =m, производящая функция G(z) = = exp[m(z 1)]. П. р. определяет вероятность наблюдения r событий в данный интервал… … Физическая энциклопедия

ВЕРОЯТНОСТЕЙ ТЕОРИЯ — математическая наука, позволяющая по вероятностям одних случайных событий находить вероятности других случайных событий, связанных к. л. образом с первыми. Утверждение о том, что к. л. событие наступает с вероятностью, равной, напр., 1/2, еще не… … Математическая энциклопедия

ВЕРОЯТНОСТЕЙ ТЕОРИЯ — занимается изучением событий, наступление которых достоверно неизвестно. Она позволяет судить о разумности ожидания наступления одних событий по сравнению с другими, хотя приписывание численных значений вероятностям событий часто бывает излишним… … Энциклопедия Кольера

Источник

Типичные распределения вероятности: шпаргалка data scientist-а

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?

Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно услышать:«Data scientist разбирается в статистике лучше, чем любой программист». Прикладные математики так мстят за то, что статистика уже не так на слуху, как в золотые 20е. У них даже по этому поводу есть своя несмешная диаграмма Венна. И вот, значит, внезапно вы, программист, оказываетесь совершенно не у дел в беседе о доверительных интервалах, вместо того, чтобы привычно ворчать на аналитиков, которые никогда не слышали о проекте Apache Bikeshed, чтобы распределённо форматировать комментарии. Для такой ситуации, чтобы быть в струе и снова стать душой компании – вам нужен экспресс-курс по статистике. Может, не достаточно глубокий, чтобы вы всё понимали, но вполне достаточный, чтобы так могло показаться на первый взгляд.

Вероятностные распределения – это основа статистики, так же как структуры данных – основа computer science. Если хотите говорить языком data scientist-а – надо начинать с их изучения. В принципе можно, если повезёт, делать простые анализы, используя R или scikit-learn вообще без понимания распределений, так же как можно написать программу на Java без понимания хэшфункций. Но рано или поздно это закончится слезами, ошибками, ложными результатами или — гораздо хуже – охами и выпученными глазами от старших статистиков.

Читайте также:  что делать если собака не идет на поводке

Существуют сотни различных распределений, некоторые из которых на слух звучат как чудовища средневековых легенд, типа Muth или Lomax. Тем не менее, на практике более-менее часто используются около 15. Каковы они, и какие умные фразы о них требуется запомнить?

Итак, что такое распределение вероятности?

Всё время что-то происходит: кидаются кубики, идёт дождь, подъезжают автобусы. После того, как это что-то произошло, можно быть уверенным в некотором исходе: кубики выпали на 3 и 4, выпало 2.5 см дождя, автобус подъехал через 3 минуты. Но до этого момента мы можем говорить только о том, насколько каждый исход возможен. Распределения вероятности описывают то, как мы видим вероятность каждого исхода, что, зачастую, гораздо интереснее, чем знать только один, наиболее возможный, исход. Распределения бывают разных форм, но строго одного размера: сумма всех вероятностей в распределении — всегда 1.

Например, подбрасывание правильной монетки имеет два исхода: она упадёт либо орлом, либо решкой (предполагая, что она не приземлится на ребро и её не стащит в воздухе чайка). Перед броском мы верим, что с шансом 1 к 2 или с вероятностью 0.5 она упадёт орлом. Точно так же, как и решкой. Это распределение вероятности двух исходов броска, и, если вы внимательно прочитали это предложение, то вы уже поняли распределение Бернулли.

Несмотря на экзотические названия, распространённые распределения связаны друг с другом достаточно интуитивными и интересными способами, позволяющими легко их вспоминать и уверенно о них рассуждать. Некоторые естественно следуют, например, из распределения Бернулли. Время показать карту этих связей.

Распечатайте, отрежьте по пунктирной линии и носите с собой в кошельке. Это — ваш путеводитель в стране распределений и их родственников.

Бернулли и равномерное

Вы уже встретились с распределением Бернулли выше, с двумя исходами – орлом или решкой. Представьте его теперь как распределение над 0 и 1, 0 – орёл, 1 – решка. Как уже понятно, оба исхода равновероятны, и это отражено на диаграмме. ФПР Бернулли содержит две линии одинаковой высоты, представляющие 2 равновероятных исхода: 0 и 1 соответственно.

Распределение Бернулли может представлять и неравновероятные исходы, типа броска неправильной монетки. Тогда вероятность орла будет не 0.5, а какая-то другая величина p, а вероятность решки – 1-p. Как и многие другие распределения, это на самом деле целое семейство распределений, задаваемых определёнными параметрами, как p выше. Когда будете думать «Бернулли» – думайте про «бросок (возможно, неправильной) монетки».

Отсюда весьма небольшой шаг до того, чтобы представить распределение поверх нескольких равновероятных исходов: равномерное распределение, характеризуемое плоской ФПР. Представьте правильный игральный кубик. Его исходы 1-6 равновероятны. Его можно задать для любого количества исходов n, и даже в виде непрерывного распределения.

Думайте о равномерном распределении как о «правильном игральном кубике».

Биномиальное и гипергеометрическое

Биномиальное распределение можно представить как сумму исходов тех вещей, которые следуют распределению Бернулли.

Киньте честную монету два раза – сколько раз будет орёл? Это число, подчиняющееся биномиальному распределению. Его параметры – n, число испытаний, и p – вероятность «успеха» (в нашем случае – орла или 1). Каждый бросок – распределённый по Бернулли исход, или испытание. Используйте биномиальное распределение, когда считаете количество успехов в вещах типа броска монеты, где каждый бросок не зависит от других и имеет одинаковую вероятность успеха.

Или представьте урну с одинаковым количество белых и чёрных шаров. Закройте глаза, вытащите шар, запишите его цвет и верните назад. Повторите. Сколько раз вытащился чёрный шар? Это число также подчиняется биномиальному распределению.

Эту странную ситуацию мы представили, чтобы было легче понять смысл гипергеометрического распределения. Это распределение того же числа, но в ситуации если бы мы не возвращали шары обратно. Оно, безусловно, двоюродный брат биномиального распределения, но не такое же, так как вероятность успеха изменяется с каждым вытащенным шаром. Если количество шаров достаточно велико по сравнению с количеством вытаскиваний – то эти распределения практически одинаковы, так как шанс успеха изменяется с каждым вытаскиванием крайне незначительно.

Когда где-то говорят о вытаскивании шаров из урн без возврата, практически всегда безопасно ввернуть «да, гипергеометрическое распределение», потому что в жизни я ещё не встречал никого, кто реально наполнял бы урны шарами и потом вытаскивал их и возвращал, или наоборот. У меня даже знакомых нет с урнами. Ещё чаще это распределение должно всплывать при выборе значимого подмножества некоторой генеральной совокупности в качестве выборки.

Тут может быть не очень понятно, а раз туториал и экспресс-курс для новичков — надо бы разъяснить. Генеральная совокупность — есть нечто, что мы хотим статистически оценить. Для оценки мы выбираем некоторую часть (подмножество) и производим требуемую оценку на ней (тогда это подмножество называется выборкой), предполагая, что для всей совокупности оценка будет похожей. Но чтобы это было верно, часто требуются дополнительные ограничения на определение подмножества выборки (или наоборот, по известной выборке нам надо оценить, описывает ли она достаточно точно совокупность).

Практический пример — нам нужно выбрать от компании в 100 человек представителей для поездки на E3. Известно, что в ней 10 человек уже ездили в прошлом году (но никто не признаётся). Сколько минимум нужно взять, чтобы в группе с большой вероятностью оказался хотя бы один опытный товарищ? В данном случае генеральная совокупность — 100, выборка — 10, требования к выборке — хотя бы один, уже ездивший на E3.

В википедии есть менее забавный, но более практичный пример про бракованные детали в партии.

Пуассон

Что насчёт количества заказчиков, звонящих по горячей линии в техподдержку каждую минуту? Это исход, чьё распределение на первый взгляд биномиальное, если считать каждую секунду как испытание Бернулли, в течение которой заказчик либо не позвонит (0), либо позвонит (1). Но электроснабжающие организации прекрасно знают: когда выключают электричество – за секунду могут позвонить двое или даже больше сотни людей. Представить это как 60000 миллисекундных испытаний тоже не поможет – испытаний больше, вероятность звонка в миллисекунду меньше, даже если не учитывать двух и более одновременно, но, технически – это всё ещё не испытание Бернулли. Тем не менее, срабатывает логическое рассуждение с переходом к бесконечности. Пусть n стремится к бесконечности, а p – к 0, и так, чтобы np было постоянным. Это как делить на всё более малые доли времени со всё менее малой вероятностью звонка. В пределе мы получим распределение Пуассона.

Так же, как и биномиальное, распределение Пуассона – это распределение количества: количества раз того, как что-то произойдёт. Оно параметризуется не вероятностью p и количеством испытаний n, но средней интенсивностью λ, что, в аналогии с биномиальным, просто постоянное значение np. Распределение Пуассона – то, о чём надо вспоминать, когда идёт речь о подсчёте событий за определённое время при постоянной заданной интенсивности.

Читайте также:  Что такое пригласить бей доу

Когда есть что-то, типа прихода пакетов на роутер или появления покупателей в магазине или что-то, ожидающее в очереди – думайте «Пуассон».

Геометрическое и отрицательное биномиальное

Из простых испытаний Бернулли появляется другое распределение. Сколько раз монетка выпадет решкой, прежде, чем выпасть орлом? Число решек подчиняется геометрическому распределению. Как и распределение Бернулли, оно параметризуется вероятностью успешного исхода, p. Оно не параметризуется числом n, количеством бросков-испытаний, потому что число неудачных испытаний как раз и есть исход.

Если биномиальное распределение это «сколько успехов», то геометрическое это «Сколько неудач до успеха?».

Отрицательное биномиальное распределение – простое обобщение предыдущего. Это количество неудач до того, как будет r, а не 1, успехов. Поэтому оно дополнительно параметризуется этим r. Иногда его описывают как число успехов до r неудач. Но, как говорит мой лайф-коуч: «Ты сам решаешь, что есть успех, а что — неудача», так что это тоже самое, если при этом не забыть, что вероятность p тоже должна правильной вероятностью успеха или неудачи соответственно.

Если нужна будет шутка для снятия напряжения, можно упомянуть, что биномиальное и гипергеометрическое распределение – это очевидная пара, но и геометрическое и отрицательное биномиальное так же весьма похожи, после чего заявить «Ну и кто же так их все называет, а?»

Экспоненциальное и Вейбула

Снова о звонках в техподдержку: сколько пройдёт до следующего звонка? Распределение этого времени ожидания как будто бы геометрическое, потому что каждая секунда, пока никто не звонит – это как неуспех, до секунды, пока, наконец, звонок не произойдёт. Количество неудач –это как количество секунд, пока никто не звонил, и это практически время до следующего звонка, но «практически» нам недостаточно. Суть в том, что это время будет суммой целых секунд, и, таким образом, не получится посчитать ожидание внутри этой секунды до непосредственно звонка.

Ну и, как и раньше, переходим в геометрическом распределении к пределу, относительно временных долей – и вуаля. Получаем экспоненциальное распределение, которое точно описывает время до звонка. Это непрерывное распределение, первое такое у нас, потому что исход не обязательно в целых секундах. Как и распределение Пуассона, оно параметризуется интенсивностью λ.

Повторяя связь биномиального с геометрическим, Пуассоновское «сколько событий за время?» связано с экспоненциальным «сколько до события?». Если есть события, количество которых на единицу времени подчиняется распределению Пуассона, то время между ними подчиняется экспоненциальному распределению с тем же параметром λ. Это соответствие между двумя распределениями необходимо отмечать, когда обсуждается любое из них.

Экспоненциальное распределение должно приходить на ум при размышлении о «времени до события», возможно, «времени до отказа». По факту, это такая важная ситуация, что существуют более обобщённые распределения чтобы описать наработку-на-отказ, типа распределения Вейбула. В то время, как экспоненциальное распределение подходит, когда интенсивность — износа, или отказов, например – постоянна, распределение Вейбула может моделировать увеличивающуюся (или уменьшающуюся) со временем интенсивность отказов. Экспоненциальное, в общем-то, частный случай.

Думайте «Вейбул» когда разговор заходит о наработке-на-отказ.

Нормальное, логнормальное, Стьюдента и хи-квадрат

Нормальное, или гауссово, распределение, наверное, одно из важнейших. Его колоколообразная форма узнаётся сразу. Как и e, это особенно любопытная сущность, которая проявляется везде, даже из внешне самых простых источников. Возьмите набор значений, подчиняющихся одному распределению – любому! – и сложите их. Распределение их суммы подчиняется (приблизительно) нормальному распределению. Чем больше вещей суммируется – тем ближе их сумма соответствует нормальному распределению (подвох: распределение слагаемых должно быть предсказуемым, быть независимым, оно стремится только к нормальному). То, что это так, несмотря на исходное распределение – это потрясающе.

Меня удивило, что автор не пишет про необходимость сопоставимого масштаба суммируемых распределений: если одно существенно доминирует надо остальными — сходиться будет крайне плохо. И, в общем-то, абсолютная взаимная независимость необязательна, достаточна слабая зависимость.

Ну сойдёт, наверное, для вечеринок, как он написал.

Это называется «центральная предельная теорема», и надо знать, что это, почему так названо и что означает, иначе моментально засмеют.

В её разрезе, нормальное связано со всеми распределениями. Хотя, в основном, его связывают с распределениями всяких сумм. Сумма испытаний Бернулли следует биномиальному распределению и, с увеличением количества испытаний, это биномиальное распределение становится всё ближе в нормальному распределению. Аналогично и его двоюродный брат – гипергеометрическое распределение. Распределение Пуассона – предельная форма биномиального – так же приближается к нормальному с увеличением параметра интенсивности.

Исходы, которые подчиняются логнормальному распределению, дают значения, логарифм которых нормально распределён. Или по-другому: экспонента нормально распределённого значения логнормально распределена. Если суммы – нормально распределены, то запомните так же, что произведения распределены логнормально.

t-Распределение Стьюдента – это основа t-теста, который многие нестатистики изучают в других областях. Оно используется для предположений о среднем нормального распределения и так же стремится к нормальному распределению с увеличением своего параметра. Отличительная особенность t-распределения – его хвосты, которые толще, чем у нормального распределения.

Если толстохвостый анекдот недостаточно раскачал вашего соседа – переходите в довольно забавной байке про пиво. Больше 100 лет назад Гиннесс использовал статистику, чтобы улучшить свой стаут. Тогда Вильям Сили Госсет и изобрёл полностью новую статистическую теорию для улучшенного выращивания ячменя. Госсет убедил босса, что другие пивовары не поймут, как использовать его идеи, и получил разрешение на публикацию, но под псевдонимом «Стьюдент». Самое известное достижение Госсета – как раз это самое t-распределение, которое, можно сказать, названо в честь него.

Наконец, распределение хи-квадрат – распределение сумм квадратов нормально-распределенных величин. На этом распределении построен тест хи-квадрат, который сам основан на сумме квадратов разниц, которые должны быть нормально распределены.

Гамма и бета

В этом месте, если вы уже заговорили о чём-то хи-квадратном, разговор начинается всерьёз. Вы уже, возможно, говорите с настоящими статистиками, и, наверное, стоит уже откланиваться, поскольку могут всплыть вещи типа гамма-распределения. Это обобщение и экспоненциального, и хи-квадрат распределения. Как и экспоненциальное распределение, оно используется для сложных моделей времен ожидания. Например, гамма-распределение появляется, когда моделируется время до следующих n событий. Оно появляется в машинном обучении как «сопряжённое априорное распределение» к парочке других распределений.

Не вступайте в разговор об этих сопряжённых распределениях, но если всё-таки придётся, не забудьте сказать о бета-распределении, потому что оно сопряжённое априорное к большинству упомянутых здесь распределений. Data-scientist-ы уверены, что оно именно для этого и сделано. Упомяните об этом ненароком и идите к двери.

Начало мудрости

Распределения вероятности — это то, о чём нельзя знать слишком много. По настоящему заинтересованные могут обратиться к этой супердетализированной карте всех распределений вероятности. Надеюсь, этот шуточный путеводитель даст вам уверенность казаться «в теме» в современной технокультуре. Или, по крайней мере, способ с высокой вероятностью определить, когда надо идти на менее ботанскую вечеринку.

Шон Овен – директор Data Science в Cloudera, Лондон. До Клаудеры он основал Myrrix Ltd. (сейчас проект Oryx) для коммерционализации широкомасштабных рекомендательных систем в реальном времени на Hadoop. Он так же контрибьютор Apache Spark и соавтор O’Reilly Media’s Advanced Analytics with Spark

Источник

Сайт для любознательных читателей