что такое распределение пуассона
Распределение Пуассона и объяснение Пуассоновского процесса
Дата публикации Jan 20, 2019
В этой статье мы рассмотримПуассоновские процессыиРаспределение Пуассона,две важные вероятностные концепции. Выделив только соответствующую теорию, мы проработаем пример из реальной жизни, показывая уравнения и графики, чтобы представить идеи в правильном контексте.
Пуассоновский процесс
Важным моментом является то, что мы знаемсреднее время между событиямино они расположены случайно (стохастический). У нас могут быть параллельные сбои, но мы также можем годами преодолевать сбои из-за случайности процесса.
Пуассоновский процесссоответствует следующим критериям (в действительности многие явления, смоделированные как пуассоновские процессы, не соответствуют им в точности):
Типичные примеры пуассоновских процессовклиенты, звонящие в справочный центр, посетители веб-сайта, радиоактивный распад атомов, фотоны, поступающие в космический телескоп, и изменения цены акций. Пуассоновские процессы обычно связаны со временем, но они не должны быть. В случае с запасом мы могли бы знать среднее движение за день (количество событий за время), но у нас также мог бы быть процесс Пуассона для количества деревьев в акре (количество событий на область).
(Одним из примеров, часто приводимых для процесса Пуассона, являются прибытия автобусов (или поезда, или теперь Ubers). Однако это не настоящий процесс Пуассона, поскольку прибытия не зависят друг от друга. Даже для систем шин, которые не работают вовремя, Опоздание одного автобуса влияет на время прибытия следующего автобуса.У Джейка ВандерПласа есть отличная статьяо применении процесса Пуассона ко времени прибытия автобусов, который лучше работает с подготовленными данными, чем с данными реального мира.)
Распределение Пуассона
Пуассоновский процессэто модель, которую мы используем для описания случайных событий и сама по себе она не очень полезна. Нам нужноРаспределение Пуассонаделать интересные вещи, такие как нахождение вероятности ряда событий за период времени или нахождение вероятности ожидания некоторого времени до следующего события.
Массовая функция вероятности распределения Пуассона дает вероятность наблюденияКсобытия в период времени с учетом продолжительности периода и среднего события за время:
Это немного запутанно, и период времени / времени * обычно упрощается в один параметр,λ,лямбда, показатель скорости. С помощью этой замены функция вероятности распределения Пуассона теперь имеет один параметр:
Лямбда может рассматриваться какожидаемое количество событий в интервале, (Мы перейдем к названию этого интервала, потому что помните, нам не нужно использовать период времени, мы могли бы использовать площадь или объем на основе нашего процесса Пуассона). Мне нравится выписывать лямбду, чтобы напомнить себе, что параметр скорости является функцией как среднего числа событий за время, так и продолжительности периода времени, но чаще всего вы увидите, что это прямо выше.
Как мы меняем параметр скорости,λмы меняем вероятность увидеть разное количество событий за один интервал Приведенный ниже график представляет собой функцию вероятности массы распределения Пуассона, показывающую вероятность ряда событий, происходящих в интервале с различными параметрами скорости.
Когда это не целое число, наибольшее число вероятностей событий будет ближайшим целым числом к параметру скорости, поскольку распределение Пуассона определено только для дискретного числа событий. Дискретный характер распределения Пуассона также объясняет, почему этомассафункция, а неплотностьфункция. (Параметр скорости также является средним значением и дисперсией распределения, которые не обязательно должны быть целыми числами.)
Отработанный пример
Для решения проблемы, которую мы решим с помощью дистрибутива Пуассона, мы могли бы продолжить со сбоями веб-сайта, но я предлагаю кое-что более грандиозное. В детстве мой отец часто брал меня во двор, чтобы наблюдать (или пытаться наблюдать)метеоритные дожди, Мы не были космическими фанатами, но наблюдения за объектами из космоса, сгоревшими в небе, было достаточно, чтобы вытащить нас наружу, хотяметеорные потоки всегда казалисьг в самые холодные месяцы.
Что именно означает «ожидается 5 метеоров»? Ну, согласно моему пессимистическому отцу, это означало, что мы увидим 3 метеора в час, вершины. В то время я не обладал навыками работы с данными и доверял его мнению. Теперь, когда я старше и скептически отношусь к авторитетным фигурам, пришло время проверить его заявление. Мы можем использовать распределение Пуассона, чтобы найти вероятность увидеть ровно 3 метеора за один час наблюдения:
На приведенном ниже графике показана функция вероятности массы для числа метеоров в часе со средним временем между метеорами 12 минут (что аналогично тому, как говорят, что 5 метеоров ожидаются в часе).
Мы уже подсчитали, что вероятность увидеть ровно 3 метеора составляет около 14%. Шанс увидеть3 или меньше метеоровза один час составляет 27%, что означает вероятность увидетьболее 3составляет 73%. Аналогичным образом, вероятность более 5 метеоров составляет 38,4%, в то время как мы можем ожидать увидеть 5 или менее метеоров в 61,6% часов наблюдений. Несмотря на то, что он небольшой, с вероятностью 1,4% можно наблюдать более 10 метеоров в час!
Чтобы визуализировать эти возможные сценарии, мы можем провести эксперимент, попросив нашу сестру записать количество метеоров, которые она видит каждый час в течение 10 000 часов. Результаты показаны на гистограмме ниже:
(Это, очевидно, симуляция. Для этой статьи не было ни одной сестры.) Глядя на возможные результаты, можно утверждать, что этораспределениеи ожидаемый результат не всегда происходит. В несколько счастливых ночей мы видели 10 или более метеоров в час, хотя обычно мы видели 4 или 5 метеоров.
Экспериментируя с параметром скорости
Параметр скорости,λ,это единственное число, которое нам нужно для определения распределения Пуассона. Однако, поскольку он является произведением двух частей (события / интервал * длина интервала), есть два способа его изменить: мы можем увеличивать или уменьшать события / интервал и мы можем увеличивать или уменьшать длину интервала.
Во-первых, давайте изменим параметр скорости, увеличив или уменьшив количество метеоров в час, чтобы увидеть, как это влияет на распределение. Для этого графика мы поддерживаем постоянный период времени равным 60 минутам (1 час).
Не удивительно, что мы ожидаем увидеть больше метеоров, чем дольше мы будем отсутствовать! Кто бы ни сказал, «тот, кто колеблется, потерян», явно никогда не стоял и смотрел на метеоритные дожди.
Время ожидания
Интригующая часть пуассоновского процесса включает в себя выяснение того, как долго мы должны ждать следующего события (это иногда называют временем взаимодействия). Рассмотрим ситуацию: метеоры появляются в среднем каждые 12 минут. Если мы прибудем в случайное время, как долго мы можем ожидать, чтобы увидеть следующий метеор? Мой папа всегда (на этот раз с оптимизмом) утверждал, что нам нужно было ждать только 6 минут до первого метеора, который согласуется с нашей интуицией. Однако еслимы узнали что-нибудьдело в том, что наша интуиция не годится для вероятности.
Я не буду вдаваться в вывод (он исходит из уравнения функции вероятности), но время, которое мы можем ожидать между событиями, является экспоненциальной затухающей. Вероятность ожидания определенного промежутка времени между последовательными событиями уменьшается экспоненциально с увеличением времени. Следующее уравнение показывает вероятность ожидания больше указанного времени.
В нашем примере у нас есть 1 событие / 12 минут, и если мы подключим числа, мы получим 60,65% шансов на ожидание> 6 минут. Так много для предположения моего отца! Чтобы показать другой случай, мы можем ожидать более 30 минут, примерно 8,2% времени. (Следует отметить, что это происходит между каждой последовательной парой событий. Время ожидания между событиями не имеет памяти, поэтому время между двумя событиями не влияет на время между любыми другими событиями. Это отсутствие памяти также известно какМарковская недвижимость).
График помогает нам визуализировать экспоненциальный спад времени ожидания:
Существует 100% вероятность ожидания более 0 минут, что составляет почти 0% вероятности ожидания более 80 минут. Опять же, поскольку это распределение, существует широкий диапазон возможных интервалов взаимодействия.
И наоборот, мы можем использовать это уравнение, чтобы найти вероятность ожидания меньше или равна времени:
Мы можем ожидать 6 минут или меньше, чтобы увидеть метеор в 39,4% случаев. Мы также можем найти вероятность ожидания определенного периода времени: существует вероятность 57,72% ожидания от 5 до 30 минут, чтобы увидеть следующий метеор.
Чтобы визуализировать распределение времени ожидания, мы можем еще раз запустить (смоделированный) эксперимент. Мы моделируем наблюдение в течение 100 000 минут со средней скоростью 1 метеор / 12 минут. Затем мы находим время ожидания между каждым видимым метеором и строим график распределения.
Наиболее вероятное время ожидания составляет 1 минуту, но это несреднее время ожидания.Давайте вернемся к первоначальному вопросу: сколько времени мы можем ожидать в среднем, чтобы увидеть первый метеор, если мы прибудем в случайное время?
Чтобы ответить на вопрос о среднем времени ожидания, мы проведем 10 000 отдельных испытаний, каждый раз наблюдая за небом в течение 100 000 минут. На графике ниже показано распределение среднего времени ожидания между метеорами из этих испытаний:
Если метеоры приходили ровно каждые 12 минут, то в среднем мы должны ждать, чтобы увидетьпервыйбудет 6 минут. Однако, поскольку это экспоненциальное распределение, иногда мы обнаруживаемся и вынуждены ждать час, что перевешивает большее количество раз, когда мы ждем менее 12 минут. Это называетсяОжидание парадокса времени и стоит прочитать.
В качестве окончательной визуализации давайте проведем случайную симуляцию продолжительностью 1 час наблюдения.
Ну, на этот раз мы получили именно то, что ожидали: 5 метеоров. Мы должны были ждать 15 минут для первого, но затем были хорошие падающие звезды. По крайней мере, в этом случае стоило бы выйти из дома для небесного наблюдения!
Заметки о распределении Пуассона и биномиальном распределении
Биномиальное распределение используется для моделирования вероятности числа успехов, которые мы можем ожидать от n испытаний с вероятностью p. Распределение Пуассона является частным случаем биномиального распределения, так как n стремится к бесконечности, в то время как ожидаемое число успехов остается фиксированным. Пуассон используется в качестве аппроксимации бинома, если n велико, а p мало.
Как и в случае со многими идеями в статистике, «большие» и «маленькие» подходят для интерпретации. Практическое правило состоит в том, что распределение Пуассона является приличным приближением бинома, если n> 20 и np
Выводы
Подводя итог, можно сказать, что распределение Пуассона дает вероятность ряда событий в интервале, порожденном пуассоновским процессом. Распределение Пуассона определяется параметром скорости,λ, которое представляет собой ожидаемое количество событий в интервале (события / интервал * длина интервала) и наибольшее число вероятностей событий. Мы также можем использоватьРаспределение Пуассона, чтобы найти время ожиданиямежду событиями. Даже если мы прибудем в случайное время, среднее время ожидания всегда будет средним временем между событиями.
Как всегда, я приветствую отзывы и конструктивную критику. Со мной можно связаться в твиттере@koehrsen_will.
Что такое распределение Пуассона?
Sep 1, 2019 · 6 min read
Прежде чем вводить параметр λ и подставлять его в формулу, давайте задумаемся: почему Пуассону вообще пришлось изобретать такое распределение?
1. Почему Пуассон изобрел свое распределение?
Чтобы предсказывать количество будущих событий!
Или более формально: чтобы предсказывать вероятность данного числа событий, происходящих в определенный интервал времени.
В продажах, например, “ событие” это покупка (сам момент покупки, не просто выбор). Событием может быть количество посетителей в день на веб-сайте, кликов на рекламном объявлении в следующем месяце, число звонков в рабочее время или число людей, которые умрут от смертельных заболеваний в следующем году, и так далее.
Вот пример, как я использую распределение Пуассона в реальной жизни.
2. Как решить эту задачу?
Давай т е на время сделаем вид, что мы ничего не знаем о распределении Пуассона. Как тогда решить задачу?
Первый путь: начать с количества прочтений. Для каждого читателя блога есть вероятность, что статья ему действительно понравится и он поставит лайк.
Это классическая работа для биномиального распределения, так как мы рассчитываем количество успешных событий (лайков).
Биномиальная случайная величина — это количество успешных x в n повторяющихся попыток. Предполагается, что вероятность успеха p является постоянной в каждой попытке.
Итак, у нас есть только один параметр — 17 человек в неделю, что является “ средним значением” (средним значением успешных событий в неделею, или математическим ожиданием x). Нам ничего не известно ни о вероятности получения лайков p, ни о количестве посетителей блога n.
Значит, нам нужно больше информации для решения задачи. Что конкретно нужно, чтобы оформить эту вероятность как биномиальную проблему? Две вещи: вероятность успеха (лайков) p и количество попыток (посетителей) n.
Получим их из прошлых данных.
Это статистика за 1 год. Общее количество читателей блога — 59 тысяч, 888 из них поставили лайк.
Следовательно, количество читателей в неделю ( n): 59 000/52 = 1134. Количество поставивших лайк в неделю ( x): 888/52 =17.
Используя биномиальную функцию вероятности, посчитаем вероятность того, что я получу точно 20 успешных событий (20 лайков) на следующей неделе.
Только что мы решили задачу с помощью биномиального распределения.
Тогда зачем нам распределение Пуассона? Что оно может делать такого, что не может биномиальное распределение?
3. Недостатки биномиального распределения
a) Биномиальная случайная величина бинарна — 0 или 1.
В примере выше у нас было 17 лайков в неделю. Это 17/7 = 2.4 человека в день и 17/(7*24) = 0.1 в час.
Если моделировать вероятность успеха в часах (0.1 человек в час), используя биномиальную случайную величину, получим, что в большем количестве часов лайков будет 0, а в некоторые часы ровно 1 лайк. Также возможно, что в час будет больше 1 лайка (2, 3, 5 и т.д.).
Проблема с биномиальным распределением в том, что оно не может содержать более одного события в единицу времени (1 час в примере).
Так может разделить 1 час на 60 минут и принять за единицу времени минуту? Тогда в 1 час поместится несколько событий. (Помним, что 1 минута содержит только ноль или одно событие).
Теперь проблема решена?
Вроде бы. Но что если в течение одной минуты мы получим несколько лайков? (например, кто-то поделился постом в Твиттере, и трафик вырос в эту минуту). Что тогда? Можно разделить минуту на секунды. Тогда единицей времени становится секунда, и в минуту помещается несколько событий. Но проблема бинарного контейнера будет существовать для все меньших единиц времени.
Дело в том, что биномиальная случайная величина может содержать несколько событий, если делить единицу времени на все меньшие единицы. В результате изначальная единица времени будет содержать более одного события.
Математически это означает n → ∞. Если предположим, что среднее значение фиксировано, тогда p → 0. В противном случае n*p — количество событий — чрезмерно возрастет.
Единица времени с использованием этого лимита может быть бесконечно мала. Больше не нужно беспокоиться о более чем одном событии в единицу времени. Так получается распределение Пуассона.
b) В биномиальном распределении количество попыток (n) должно быть известно заранее.
Нельзя посчитать вероятность успеха при помощи биномиального распределения, зная только среднее значение (17 человек в неделю). Нужно больше информации ( n и p), чтобы использовать формулу.
Распределение Пуассона же не обязывает вас знать ни n ни p. Предположим, что n бесконечно велико, а p бесконечно мала. Единственный параметр распределения — значение λ (ожидаемое значение x). В реальной жизни чаще известно только значение (например, с 2 до 4 часов дня я принял 3 телефонных звонка), а не значения n и p.
4. Формула Пуассона
Давайте получим формулу Пуассона математически из формулы функции биномиального распределения.
Теперь нужно только показать, что умножение первых двух множителей n!/((n-k)!*n^k) дает 1, когда n стремится к бесконечности.
Распределение Пуассона и формула Пуассона
Краткая теория
Для пуассоновской случайной величины математическое ожидание и дисперсия совпадают с интенсивностью потока событий:
$$M(X)=lambda, quad D(X)=lambda.$$
Распределение Пуассона – определение
Распределение Пуассона — вероятностное распределение дискретного типа, моделирует случайную величину, представляющую собой число событий, произошедших за фиксированное время, при условии, что данные события происходят с некоторой фиксированной средней интенсивностью и независимо друг от друга. Другими словами, если событие происходит с некоторой периодичностью, то мы можем определить вероятность, что такое событие произойдёт n раз за интересующий нас период.
Параметр лямбда – λ
Распределение Пуассона зависит только от одного параметра – λ, данный параметр зависит от вероятности успешного события и общего количества событий.
Успешное событие: распределение Пуассона применяется только тогда, когда есть разделение на результат “да” и “нет”, например, лампочка перегорела: да – успешное событие; шина прокололась: да – успешное событие и так далее.
λ = n*p, где p – вероятность успешного события, а n – общее количество событий, для которых ведётся расчёт.
Например, если гроза проходит раз в месяц и мы хотим посчитать вероятность грозы за 24 месяца, то вероятность равна единице, а количество событий равно 24, откуда лямбда равна 24.
Можно считать по-другому, вероятность грозы в конкретный день – 1/30, количество событий – 730 дней, лямбда равна 24.3.
Пример
В тысяче ящиков с антоновками в одном попадается голден, какова вероятность, что в 5000 ящиках будет меньше 4 ящиков с яблоком голден?
Вероятность ящика с яблоком голден – 0.1% (1 ящик на 1000 = 1/1000, если в процентах – 1/1000 * 100 = 0.1%)
Общее количество событий – 5000 ящиков
Из вышесказанного следует:
λ = 5000 * 0.001 = 5
Функция вероятности (формула Пуассона)
Вероятность, что успешное событие произойдёт k раз:
Пример
В тысяче ящиков с антоновками в одном попадается голден, какова вероятность, что в 5000 ящиках будет 2 ящика с яблоком голден?
Из предыдущего примера мы знаем, что λ=5, теперь мы ищем вероятность, что k будет равно 2, для этого используем формулу функции вероятности:
Условия возникновения распределения Пуассона
Рассмотрим условия, при которых возникает распределение Пуассона.
Во-первых, распределение Пуассона является предельным для биномиального распределения, когда число опытов n неограниченно увеличивается (стремится к бесконечности) и одновременно вероятность p успеха в одном опыте неограниченно уменьшается (стремится к нулю), но так, что их произведение np сохраняется в пределе постоянным и равным λ (лямбде):
.
В математическом анализе доказано, что распределение Пуассона с параметром λ = np можно приближенно применять вместо биномиального, когда число опытов n очень велико, а вероятность p очень мала, то есть в каждом отдельном опыте событие A появляется крайне редко.
Во-вторых, распределение Пуассона имеет место, когда есть поток событий, называемым простейшим (или стационарным пуассоновским потоком). Потоком событий называют последовательность таких моментов, как поступление вызовов на коммуникационный узел, приходы посетителей в магазин, прибытие составов на сортировочную горку и тому подобных. Пуассоновский поток обладает следующими свойствами:
Характеристики случайной величины, распределённой по закону Пуассона
Характеристики случайной величины, распределённой по закону Пуассона:
математическое ожидание ;
стандартное отклонение ;
дисперсия .
Распределение Пуассона и расчёты в MS Excel
Вероятность распределения Пуассона P(m) и значения интегральной функции F(m) можно вычислить при помощи функции MS Excel ПУАССОН.РАСП. Окно для соответствующего расчёта показано ниже (для увеличения нажать левой кнопкой мыши).
MS Excel требует ввести следующие данные:
Почему Пуассон изобрел свое распределение?
Чтобы предсказывать количествобудущихсобытий!
Или более формально: чтобы предсказывать вероятность данного числа событий, происходящих в определенный интервал времени.
В продажах, например, “событие” это покупка (сам момент покупки, не просто выбор). Событием может быть количество посетителей в день на веб-сайте, кликов на рекламном объявлении в следующем месяце, число звонков в рабочее время или число людей, которые умрут от смертельных заболеваний в следующем году, и так далее.
Недостатки биномиального распределения
a) Биномиальная случайная величина бинарна — 0 или 1.
В примере выше у нас было 17 лайков в неделю. Это 17/7 = 2.4 человека в день и 17/(7*24) = 0.1 в час.
Если моделировать вероятность успеха в часах (0.1 человек в час), используя биномиальную случайную величину, получим, что в большем количестве часов лайков будет 0, а в некоторые часы ровно 1 лайк. Также возможно, что в час будет больше 1 лайка (2, 3, 5 и т.д.).
Проблема с биномиальным распределением в том, что оно не может содержать более одного события в единицу времени (1 час в примере).
Так может разделить 1 час на 60 минут и принять за единицу времени минуту? Тогда в 1 час поместится несколько событий. (Помним, что 1 минута содержит только ноль или одно событие).
Теперь проблема решена?
Вроде бы. Но что если в течение одной минуты мы получим несколько лайков? (например, кто-то поделился постом в Твиттере, и трафик вырос в эту минуту). Что тогда? Можно разделить минуту на секунды. Тогда единицей времени становится секунда, и в минуту помещается несколько событий. Но проблема бинарного контейнера будет существовать для все меньших единиц времени.
Дело в том, что биномиальная случайная величина может содержать несколько событий, если делить единицу времени на все меньшие единицы. В результате изначальная единица времени будет содержать более одного события.
Математически это означает n → ∞. Если предположим, что среднее значение фиксировано, тогда p → 0. В противном случае n*p — количество событий — чрезмерно возрастет.
Единица времени с использованием этого лимита может быть бесконечно мала. Больше не нужно беспокоиться о более чем одном событии в единицу времени. Так получается распределение Пуассона.
b) В биномиальном распределении количество попыток (n) должно быть известно заранее.
Нельзя посчитать вероятность успеха при помощи биномиального распределения, зная только среднее значение (17 человек в неделю). Нужно больше информации (n и p), чтобы использовать формулу.
Распределение Пуассона же не обязывает вас знать ни n ни p. Предположим, что n бесконечно велико, а p бесконечно мала. Единственный параметр распределения — значение λ (ожидаемое значение x). В реальной жизни чаще известно только значение (например, с 2 до 4 часов дня я принял 3 телефонных звонка), а не значения n и p.
Решение задачи на распределение Пуассона в Excel
Пример 1. Отдел технического контроля определил, что среднее число не соблюденных допусков в размерах производимых деталей составляет 6. Определить вероятности следующих событий обеими рассматриваемыми функциями (для сравнения результатов вычислений):
Вид таблицы данных:
Рассчитаем вероятность наличия трех и менее дефектов с помощью функций:
Для нахождения вероятности выбора детали с наличием ровно трех дефектов используем функции:
Для расчета вероятности точного совпадения третий аргумент задан в качестве логического ЛОЖЬ.
Как видно, результаты вычислений обеих функций идентичны.
Числовые характеристики случайной величины Х
Математическое ожидание распределения Пуассона
M[X] = λ
Дисперсия распределения Пуассона
D[X] = λ
Вероятность появления k событий за время длительностью t можно также найти по формуле Пуассона:
где λ — интенсивность потока событий, то есть среднее число событий, которые появляются в единицу времени.
а) оба элемента будут работать безотказно;
P(2) = P1(0)*P2(0) = 0,8187*0,6065 = 0,4966
б) только один элемент выйдет из строя.
P(1) = P1(0)*(1-P2(0)) + (1-P1(0))*P2(0) = 0.8187*(1-0.6065) + (1-0.8187)*0.6065 = 0.4321
Формула Пуассона
Давайте получим формулу Пуассона математически из формулы функции биномиального распределения.