что такое статистическая погрешность определение
Погрешности экспериментальных результатов
Какие бывают погрешности
Любое число, которое выдает нам эксперимент, это результат измерения. Измерение производится прибором, и это либо непосредственные показания прибора, либо результат обработки этих показаний. И в том, и в другом случае полученный результат измерения неидеален, он содержит погрешности. И потому любой грамотный физик должен не только предъявить численный результат измерения, но и обязан указать все сопутствующие погрешности. Не будет преувеличением сказать, что численный экспериментальный результат, предъявленный без указания каких-либо погрешностей, бессмыслен.
В физике элементарных частиц к указанию погрешностей относятся исключительно ответственно. Экспериментаторы не только сообщают погрешности, но и разделяют их на разные группы. Три основных погрешности, которые встречаются чаще всего, это статистическая, систематическая и теоретическая (или модельная) погрешности. Цель такого разделения — дать четкое понимание того, что именно ограничивает точность этого конкретного измерения, а значит, за счет чего эту точность можно улучшить в будущем.
Статистическая погрешность связана с разбросом значений, которые выдает эксперимент после каждой попытки измерить величину.
Систематическая погрешность характеризует несовершенство самого измерительного инструмента или методики обработки данных, а точнее, недостаточное знание того, насколько «сбоит» инструмент или методика.
Теоретическая/модельная погрешность — это неопределенность результата измерения, которая возникла потому, что методика обработки данных была сложная и в чем-то опиралась на теоретические предположения или результаты моделирования, которые тоже несовершенны. Впрочем, иногда эту погрешность считают просто разновидностью систематических погрешностей.
Наконец, в отдельный класс, видимо, можно отнести возможные человеческие ошибки, прежде всего психологического свойства (предвзятость при анализе данных, ленность при проверке того, как результаты зависят от методики анализа). Строго говоря, они не являются погрешностью измерения, поскольку могут и должны быть устранены. Зачастую это избавление от человеческих ошибок может быть вполне формализовано. Так называемый дважды слепой эксперимент в биомедицинских науках — один тому пример. В физике частиц есть похожие приемы (см. заметку Что означает «слепой анализ» при поиске новых частиц?).
Что означает погрешность
Стандартный вид записи измеренной величины с погрешностью знаком всем. Например, результат взвешивания какого-то предмета может быть 100 ± 5 грамм. Это означает, что мы не знаем абсолютно точно массу, она может быть и 101 грамм, и 96 грамм, а может быть и все 108 грамм. Но уж точно не 60 и не 160 грамм. Мы говорим лишь, сколько нам показывают весы, и из каких-то соображений определяем тот примерный разброс, который измерение вполне могло бы дать.
Тут надо подчеркнуть две вещи. Во-первых, в бытовой ситуации значение 100 ± 5 грамм часто интерпретируется так, словно истинная масса гарантированно лежит в этом диапазоне и ни в коей мере не может быть 94 или 106 грамм. Научная запись подразумевает не это. Она означает, что истинная масса скорее всего лежит в этом интервале, но в принципе может случиться и так, что она немножко выходит за его пределы. Это становится наиболее четко, когда речь идет о статистических погрешностях; см. подробности на страничке Что такое «сигма»?.
Во-вторых, надо четко понимать, что погрешности — это не ошибки эксперимента. Наоборот, они являются показателем качества эксперимента. Погрешности характеризуют объективный уровень несовершенства прибора или неидеальности методики обработки. Их нельзя полностью устранить, но зато можно сказать, в каких рамках результату можно доверять.
Некоторые дополнительные тонкости, связанные с тем, что именно означают погрешности, описаны на странице Тонкости анализа данных.
Как записывают погрешности
Указанный выше способ записи не уточняет, что это за погрешность перед нами. В физике элементарных частиц при предъявлении результатов источники погрешностей принято уточнять. В результате запись результата может иногда принять пугающий своей сложностью вид. Таких выражений не надо бояться, просто нужно внимательно посмотреть, что там указано.
В самом простом случае экспериментально измеренное число записывается так: результат и две погрешности одна за другой:
Тут вначале всегда идет статистическая, а за ней — систематическая погрешность. Если же измерение не прямое, а в чем-то опирается на теорию, которая тоже не идеально точна, то следом за ними приписывается теоретическая погрешность, например:
μ = 1,33 ± 0,14 ± 0,15 ± 0,11.
Иногда для пущей понятности явно указывают, что есть что, и тогда погрешностей может быть даже больше. Это делается вовсе не для того, чтобы запутать читателя, а с простой целью: упростить в будущем расчет уточенного результата, если какой-то один из источников погрешностей будет уменьшен. Вот пример из статьи arXiv:1205.0934 коллаборации LHCb:
Нередки также случаи, когда погрешности в сторону увеличения и уменьшения разные. Тогда это тоже указывается явно (пример из статьи hep-ex/0403004):
И наконец, совсем экзотический случай: когда величина настолько плохо определена, что погрешность пишут не к самому числу, а к показателю степени. Например, 10 12 ± 2 означает, что величина вполне может лежать где-то между 10 миллиардами и 100 триллионами. В этом случае обычно нет большого смысла разделять погрешности на разные типы.
Величина со всеми явно указанными погрешностями часто не очень удобна для работы, например при сравнении теории и эксперимента. В этом случае погрешности суммируют. Эти слова ни в коем случае нельзя воспринимать как простое сложение! Как правило, речь идет о сложении в квадратах: если все три типа погрешностей обозначить как Δxstat., Δxsys., Δxtheor., то глобальная погрешность обычно вычисляется по формуле
Стоит еще добавить, что в других разделах физики нередко используют иную запись: вместо символа «±» погрешность просто помещают в скобках. Тогда ее понимают так: это погрешность, выраженная в единицах последней значащей цифры. Например, 100(5) означает 100 ± 5, а 1,230(15) означает 1,230 ± 0,015. В этом случае принципиально важно писать правильное число нулей в результате измерения, ведь запись 1,23(15) уже будет означать вдесятеро большую погрешность: 1,23 ± 0,15.
Как изображают погрешности
Когда экспериментально измеренные значения наносятся на график, погрешности тоже приходится указывать. Это обычно делают в виде «усов», как на рисунке слева. Такие «усы» с засечками относятся к глобальной погрешности. Если же хочется разделить статистические и систематические погрешности, то делают так, как показано на рисунке справа. Здесь засечки показывают только статистические погрешности, а полные усы во всю длину отвечают глобальным погрешностям. Другой вариант: выделение полных погрешностей цветом, как это показано, например, на рисунке с данными ATLAS по хиггсовскому бозону.
Наконец, когда экспериментальная точка имеет отдельные погрешности по обеим осям, то их тоже наносят, и результат выглядит в виде крестика.
Статистическая погрешность
Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.
Статистическая погрешность: чуть подробнее
Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).
Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.
В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.
Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.
Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.
Как считать статистическую погрешность?
Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.
Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.
Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.
Пример 1
Объем статистики имеет значение!
Продолжим этот пример. Предположим, вам такая точность показалась недостаточной, вам хочется уменьшить статистическую погрешность. В ситуации, когда и детектор, и методика отбора уже работают идеально, это можно сделать только одним способом — накопить побольше статистики.
Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.
Пример 2
Если речь идет не просто о подсчетах событий, а об измерении непрерывной величины, то там статистическая погрешность тоже присутствует, но вычисляется она чуть сложнее.
Предположим, вы хотите измерить массу какой-то новой, только что открытой частицы. Частица эта рождается редко, и у вас из всей статистики набралось лишь четыре события рождения этой частицы. В каждом событии вы измерили ее массу, и у вас получилось четыре результата (мы здесь намеренно опускаем возможные систематические погрешности): 755 МэВ, 805 МэВ, 770 МэВ, 730 МэВ. Теперь можно взять область масс от 700 до 850 МэВ и поставить на ней эти четыре точки (рис. 1). Поскольку каждая точка отвечает одному событию с данной массой, мы каждой точке присваиваем погрешность ±1 событие. То, что массы разные, — совершенно нормально, поскольку у нестабильных частиц есть некая «размазка» по массе. Поэтому, согласно теории, ожидается некая плавная кривая, и когда физики говорят про массу нестабильной частицы, они имеют в виду положение максимума этой кривой. Она тоже показана на рис. 1, но только положение и ширина этой кривой заранее неизвестны, они определяются по наилучшему соответствию с данными.
Рис. 1. Данные из примера в виде «экспериментального» графика. Каждая точка отвечает одному событию при данной массе. Пунктирная кривая показывает типичное теоретическое ожидание для распределения «экспериментальных» точек
Из-за того что данных очень мало, мы можем провести эту кривую так, как показано на рисунке, а можем и немножко сместить ее в стороны — и так, и эдак будет осмысленное совпадение. Вычислив среднее значение массы, можно получить положение пика этой кривой, а также его неопределенность: 765 ± 15 МэВ. Эта неопределенность целиком и полностью обязана разным результатам измерений, она и является статистической погрешностью измерения.
Рис. 2. То же, что на рис. 1, но уже на статистике в 60 «экспериментальных» точек
Если мы наберем побольше событий рождения и распада этой частицы, мы сможем увеличить статистику. На рис. 2 показано, как мог бы выглядеть тот же график, если бы у нас уже было 60 событий. Распределение событий по массе начинает приобретать какую-то форму, которая действительно отдаленно напоминает широкий пик, спадающий по краям.
Рис. 3. Сечение процесса e + e – → π + π – в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон. Здесь собраны данные восьми экспериментов, изучавших этот процесс. Статистические погрешности измерений детектора BaBar едва заметны глазом. Изображение из статьи arXiv:1010.4180
Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.
Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.
Статистическая погрешность
Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.
Статистическая погрешность: чуть подробнее
Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).
Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.
В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.
Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.
Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.
Как считать статистическую погрешность?
Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.
Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.
Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.
Пример 1
Объем статистики имеет значение!
Продолжим этот пример. Предположим, вам такая точность показалась недостаточной, вам хочется уменьшить статистическую погрешность. В ситуации, когда и детектор, и методика отбора уже работают идеально, это можно сделать только одним способом — накопить побольше статистики.
Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.
Пример 2
Если речь идет не просто о подсчетах событий, а об измерении непрерывной величины, то там статистическая погрешность тоже присутствует, но вычисляется она чуть сложнее.
Предположим, вы хотите измерить массу какой-то новой, только что открытой частицы. Частица эта рождается редко, и у вас из всей статистики набралось лишь четыре события рождения этой частицы. В каждом событии вы измерили ее массу, и у вас получилось четыре результата (мы здесь намеренно опускаем возможные систематические погрешности): 755 МэВ, 805 МэВ, 770 МэВ, 730 МэВ. Теперь можно взять область масс от 700 до 850 МэВ и поставить на ней эти четыре точки (рис. 1). Поскольку каждая точка отвечает одному событию с данной массой, мы каждой точке присваиваем погрешность ±1 событие. То, что массы разные, — совершенно нормально, поскольку у нестабильных частиц есть некая «размазка» по массе. Поэтому, согласно теории, ожидается некая плавная кривая, и когда физики говорят про массу нестабильной частицы, они имеют в виду положение максимума этой кривой. Она тоже показана на рис. 1, но только положение и ширина этой кривой заранее неизвестны, они определяются по наилучшему соответствию с данными.
Рис. 1. Данные из примера в виде «экспериментального» графика. Каждая точка отвечает одному событию при данной массе. Пунктирная кривая показывает типичное теоретическое ожидание для распределения «экспериментальных» точек
Из-за того что данных очень мало, мы можем провести эту кривую так, как показано на рисунке, а можем и немножко сместить ее в стороны — и так, и эдак будет осмысленное совпадение. Вычислив среднее значение массы, можно получить положение пика этой кривой, а также его неопределенность: 765 ± 15 МэВ. Эта неопределенность целиком и полностью обязана разным результатам измерений, она и является статистической погрешностью измерения.
Рис. 2. То же, что на рис. 1, но уже на статистике в 60 «экспериментальных» точек
Если мы наберем побольше событий рождения и распада этой частицы, мы сможем увеличить статистику. На рис. 2 показано, как мог бы выглядеть тот же график, если бы у нас уже было 60 событий. Распределение событий по массе начинает приобретать какую-то форму, которая действительно отдаленно напоминает широкий пик, спадающий по краям.
Рис. 3. Сечение процесса e + e – → π + π – в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон. Здесь собраны данные восьми экспериментов, изучавших этот процесс. Статистические погрешности измерений детектора BaBar едва заметны глазом. Изображение из статьи arXiv:1010.4180
Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.
Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.