что такое статистический выброс
Выброс (статистика)
Выброс (англ. outlier ) — в статистике результат измерения, выделяющийся из общей выборки.
Статистический метод, способный действовать в условиях выбросов, называется робастным. Медиана является робастной характеристикой, а выборочное среднее — нет. Существует пример (квартет Энскомба), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов.
Причины выбросов
Определение выбросов
Поскольку множество статистических методов «буксуют» на выборках с выбросами, выбросы приходится обнаруживать (желательно — автоматически) и исключать из выборки. Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон
,
Более тонкие критерии — критерий Шовене, тест Граббса, критерий Пирса, Q-тест Диксона.
См. также
Полезное
Смотреть что такое «Выброс (статистика)» в других словарях:
Выброс — Выброс: Выбросы неутилизуемые отходы. Выброс (статистика) (англ. outlier) результат измерения, не подпадающий под общее распределение. Выброс (фигурное катание) элемент парного фигурного катания … Википедия
Бензин — (Petrol) Бензин это самое распространенное топливо для большинства видов транспорта Подробная информация о составе, получении, хранении и применении бензина Содержание >>>>>>>>>>>>>> … Энциклопедия инвестора
Список статей по статистике — Это служебный список статей, созданный для координации работ по развитию темы. Данное предупреждение не ус … Википедия
Буэнос-Айрес — Это слово имеет Буэнос Айрес (значения) Город, столица Аргентины Буэнос Айрес Ciudad Autónoma de Buenos Aires … Википедия
Новая судейская система (фигурное катание) — Новая судейская система (англ. New Judging System (NJS), также Судейская система ИСУ, англ. ISU Judging System[1]) действующая система оценок для мужского и женского одиночного фигурного катания, парного катания, спортивных танцев … Википедия
Автомобильный рынок — Автомобильный рынок это совокупность экономических отношений, благодаря которым происходит взаимодействие субъектов рынка с целью обмена готовых автомобилей на денежные средства или их эквиваленты. Под автомобильным рынком в народе также… … Википедия
Канадский хоккей — Хоккей с шайбой Хоккей с шайбой спортивная игра, подвид хоккея, заключающаяся в противоборстве двух команд, которые, передавая шайбу клюшками, стремятся забросить её наибольшее количество раз в ворота соперника и не пропустить в свои. Побеждает… … Википедия
Сборные на чемпионате мира по хоккею с шайбой 2008 — Основная статья: Чемпионат мира по хоккею с шайбой 2008 Александр Сёмин празднует первый гол в ворота Канады. Сёмин лидер сборной России по количеству набранных очков … Википедия
Чемпионат мира по хоккею с шайбой 2008 (составы) — Основная статья: Чемпионат мира по хоккею с шайбой 2008 … Википедия
АВТОМОБИЛЬ ЛЕГКОВОЙ — самодвижущееся четырехколесное транспортное средство с двигателем, предназначенное для перевозок небольших групп людей по автодорогам. Легковой автомобиль, обычно вмещающий от одного до шести пассажиров, именно этим, в первую очередь, отличается… … Энциклопедия Кольера
Как использовать статистику для выявления выбросов в данных
Дата публикации 2018-04-25
При моделировании важно очистить выборку данных, чтобы убедиться, что наблюдения наилучшим образом представляют проблему.
Иногда набор данных может содержать экстремальные значения, которые выходят за пределы ожидаемого и отличаются от других данных. Они называются выбросами, и часто модели машинного обучения и навыки моделирования в целом могут быть улучшены путем понимания и даже устранения этих значений выбросов.
В этом руководстве вы узнаете больше о выбросах и двух статистических методах, которые можно использовать для идентификации и фильтрации выбросов из набора данных.
После завершения этого урока вы узнаете:
Обзор учебника
Этот урок разделен на 4 части; они есть:
Что такое выбросы?
Это редко, или отчетливо, или не подходит в некотором роде.
Выбросы могут иметь много причин, таких как:
Не существует точного способа определения и идентификации выбросов в целом из-за специфики каждого набора данных. Вместо этого вы или эксперт в области должны интерпретировать необработанные наблюдения и решить, является ли значение выбросом или нет.
Тем не менее, мы можем использовать статистические методы для выявления наблюдений, которые кажутся редкими или маловероятными с учетом имеющихся данных.
Это не означает, что указанные значения являются выбросами и должны быть удалены. Но инструменты, описанные в этом руководстве, могут помочь пролить свет на редкие события, которые могут потребовать второго взгляда.
Тестовый набор данных
Прежде чем мы рассмотрим методы идентификации выбросов, давайте определим набор данных, который мы можем использовать для тестирования методов.
Мы сгенерируем 10 000 случайных чисел из гауссовского распределения со средним значением 50 и стандартным отклонением 5.
Числа, взятые из гауссовского распределения, будут иметь выбросы. То есть в силу самого распределения будет несколько значений, которые будут далеки от средних, редких значений, которые мы можем определить как выбросы.
Мы будем использоватьrandn ()функция для генерации случайных гауссовских значений со средним значением 0 и стандартным отклонением 1, затем умножьте результаты на наше собственное стандартное отклонение и добавьте среднее значение для смещения значений в предпочтительный диапазон.
Генератор псевдослучайных чисел засеян, чтобы гарантировать, что мы получаем одну и ту же выборку чисел при каждом запуске кода.
При выполнении примера генерируется образец, а затем выводится среднее значение и стандартное отклонение. Как и ожидалось, значения очень близки к ожидаемым.
Метод стандартных отклонений
Если мы знаем, что распределение значений в выборке является гауссовским или гауссовидным, мы можем использовать стандартное отклонение выборки в качестве предела для выявления выбросов.
Гауссово распределение обладает свойством того, что стандартное отклонение от среднего может использоваться для надежного суммирования процентного значения в выборке.
Например, в пределах одного стандартного отклонения среднее будет охватывать 68% данных.
Таким образом, если среднее значение равно 50, а стандартное отклонение равно 5, как в тестовом наборе данных выше, то все данные в выборке между 45 и 55 будут составлять около 68% выборки данных. Мы можем охватить большую часть выборки данных, если расширим диапазон следующим образом:
Значение, которое выходит за пределы 3 стандартных отклонений, является частью распределения, но это маловероятное или редкое событие приблизительно в 1 из 370 выборок.
Давайте сделаем это на конкретном примере.
Иногда данные сначала стандартизируются (например, до Z-показателя с нулевым средним и единичной дисперсией), чтобы обнаружение выброса можно было выполнить с использованием стандартных значений отсечения Z-показателя. Это удобно и не требуется вообще, и мы сделаем вычисления в исходном масштабе данных здесь, чтобы прояснить ситуацию.
Мы можем рассчитать среднее и стандартное отклонение для данной выборки, а затем рассчитать порог для определения выбросов как более 3 стандартных отклонений от среднего.
Затем мы можем определить выбросы как те примеры, которые выходят за пределы определенных нижних и верхних пределов.
Кроме того, мы можем отфильтровать те значения из выборки, которые не находятся в определенных пределах.
Мы можем собрать все это вместе с нашим образцом набора данных, подготовленным в предыдущем разделе.
Полный пример приведен ниже.
Выполнение примера сначала выведет количество идентифицированных выбросов, а затем число наблюдений, которые не являются выбросами, демонстрируя, как идентифицировать и отфильтровать выбросы соответственно.
До сих пор мы говорили только об одномерных данных с гауссовым распределением, например одна переменная. Вы можете использовать тот же подход, если у вас есть многомерные данные, например, данные с несколькими переменными, каждая с разным распределением Гаусса.
Вы можете представить границы в двух измерениях, которые бы определяли эллипс, если у вас есть две переменные. Наблюдения, которые выходят за пределы эллипса, будут считаться выбросами. В трех измерениях это будет эллипсоид и т. Д. В более высокие измерения.
С другой стороны, если вы знали больше о домене, возможно, можно определить выброс, превышая пределы одного или подмножества измерений данных.
Межквартильный метод
Не все данные являются нормальными или достаточно нормальными, чтобы рассматривать их как взятые из гауссовского распределения.
Хорошей статистикой для суммирования выборки негауссовых распределений данных является Interquartile Range, или IQR для краткости.
IQR рассчитывается как разница между 75-м и 25-м процентилями данных и определяет прямоугольник на графике прямоугольника и вискера.
Мы называем процентили квартилями («кварта4) потому что данные делятся на четыре группы через 25-е, 50-е и 75-е значения.
IQR определяет средние 50% данных, или тело данных.
IQR может использоваться для определения выбросов путем определения пределов значений выборки, которые являются факторомКIQR ниже 25-го процентиля или выше 75-го процентиля. Общее значение для фактораКэто значение 1,5. Коэффициент k, равный 3 или более, можно использовать для определения значений, которые являются экстремальными выбросами или «дальние выходы”, Когда описано в контексте рамок и усов.
На графике бокса и усов эти пределы изображены в виде заборов на усиках (или линиях), которые нарисованы из бокса. Значения, которые выходят за пределы этих значений, отображаются в виде точек.
Мы можем рассчитать процентили набора данных, используяпроцентиля ()Функция NumPy, которая принимает набор данных и спецификацию желаемого процентиля. Затем IQR можно рассчитать как разницу между 75-м и 25-м процентилями.
Затем мы можем рассчитать пороговое значение для выбросов как 1,5-кратное IQR и вычесть это пороговое значение из 25-го процентиля и добавить его к 75-му процентилю, чтобы получить фактические пределы данных.
Затем мы можем использовать эти пределы для определения значений выбросов.
Мы также можем использовать пределы, чтобы отфильтровать выбросы из набора данных.
Мы можем связать все это вместе и продемонстрировать процедуру на тестовом наборе данных.
Полный пример приведен ниже.
При выполнении примера сначала выводятся идентифицированные 25-й и 75-й процентили и вычисленный IQR. Печатается число выявленных выбросов, а затем число наблюдений, не связанных с выбросами.
Подход может быть использован для многомерных данных путем расчета пределов для каждой переменной в наборе данных по очереди и с учетом выбросов в качестве наблюдений, которые выходят за пределы прямоугольника или гипер-прямоугольника.
расширения
В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.
Если вы исследуете какое-либо из этих расширений, я хотел бы знать.
Дальнейшее чтение
Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться
Сообщений
статьи
Резюме
В этом руководстве вы обнаружили выбросы и два статистических метода, которые можно использовать для идентификации и фильтрации выбросов из набора данных.
В частности, вы узнали:
У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.
Блог об аналитике, визуализации данных, data science и BI
Дашборд первых 8 месяцев жизни малыша
Анализ рынка вакансий аналитики и BI: дашборд в Tableau
Анализ альбомов Земфиры: дашборд в Tableau
Гайд по современным BI-системам
Обнаружение статистических выбросов в R
Этот материал — перевод статьи «Outliers detection in R». А ещё у нас есть материал про обнаружение выбросов в Python.
Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами. Действительно, человек с ростом 200 см, скорее всего, будет считаться отклонением по сравнению с остальным населением, но этот же человек не будет считаться статистическим выбросом, если мы измерим рост баскетболистов.
Выбросы могут быть вызваны изменчивостью, присущей наблюдаемому явлению. Например, при сборе данных о заработной плате часто возникают выбросы, поскольку некоторые люди зарабатывают гораздо больше остальных. Выбросы также могут возникать из-за экспериментальной ошибки, ошибки измерения или кодирования. Например, вес человека 786 кг явно является ошибкой при кодировании веса объекта. Её или его вес, скорее всего, составляет 78,6 кг или 7,86 кг в зависимости от того, был измерен вес взрослого человека или ребёнка.
По этой причине иногда имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.
В этой статье я представлю несколько подходов к обнаружению выбросов в R от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.
Не существует строгого и однозначного правила насчет того, следует ли удалять выбросы из набора данных перед проведением статистического анализа. Довольно часто переменные значения, вызванные экспериментальной ошибкой или ошибкой измерения удаляются или заменяются на новые значения. Некоторые статистические тесты требуют их отсутствия, чтобы сделать обоснованные выводы, но удаление выбросов рекомендуется не во всех случаях и должно выполняться с осторожностью.
Эта статья поможет обнаружить и проверить выбросы, но вы не узнаете, следует ли удалять, изменять или оставлять такие значения. После проверки вы можете исключить их или включить в свой анализ (а это обычно требует вдумчивого размышления со стороны исследователя). Удаление или сохранение выбросов, в основном, зависит от трех факторов:
Мы будем использовать набор данных mpg из библиотеки ggplot2, чтобы проиллюстрировать различные подходы к обнаружению выбросов в R, и в частности, мы сосредоточимся на работе с переменной hwy (пробег в милях на галлон израсходованного топлива).
Минимальные и максимальные значения
Первое, что необходимо для обнаружения выбросов в R — начать с описательной статистики, и, в частности, с минимальных и максимальных значений.
В R это легко сделать с помощью функции summary():
Минимум и максимум — первое и последнее значения в выходных данных выше. В качестве альтернативы, их также можно вычислить с помощью функций min() и max():
Явная ошибка кодирования, такая как, например, человеческий вес в 786 кг уже будет легко обнаружена с помощью этой простой техники.
Другой базовый способ обнаружения выбросов — построение гистограммы данных.
Что такое статистический выброс
ГОСТ Р ИСО 16269-4-2017
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
СТАТИСТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ
Выявление и обработка выбросов
Statistical methods. Statistical data presentation. Part 4. Detection and treatment of outliers
Дата введения 2018-12-01
Предисловие
1 ПОДГОТОВЛЕН Открытым акционерным обществом «Научно-исследовательский центр контроля и диагностики технических систем» (АО «НИЦ КД») на основе собственного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 125 «Применение статистических методов»
Международный стандарт разработан Техническим комитетом ISO/ТС 69.
Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).
При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА*
Введение
Выбросы могут искажать и сокращать информацию, содержащуюся в источнике данных или процедуре их генерации. В производстве наличие выбросов снижает результативность производственных процессов, качество продукции, а также процедур контроля продукции. Выбросы не всегда следует трактовать как «плохие» или «ошибочные» данные. В некоторых случаях выбросы дают важную информацию, которую необходимо учитывать в процессе исследований.
Выявление и анализ выбросов в процессе измерения ведут к более полному пониманию изучаемых процессов и более глубокому анализу данных, и как следствие, к более достоверным выводам.
Так как проблеме обнаружения и обработки выбросов посвящено большое количество литературных публикаций, важной задачей является определение и стандартизация (на международном уровне) этих методов.
Настоящий стандарт содержит шесть приложений. В приложении A приведен алгоритм вычисления статистик и критических значений для выявления выбросов в выборке из нормального распределения. В приложениях B, D и E приведены таблицы, необходимые для применения рекомендованных в стандарте процедур. В приложении C приведено статистическое обоснование построения диаграмм, помогающих в решении задачи отслеживания выбросов. В приложении F приведено поэтапное руководство по применению процедур, установленных в настоящем стандарте, и представлена блок-схема соответствующих действий.
1 Область применения
В настоящем стандарте установлены статистические критерии и методы графического анализа данных, полученные в результате измерений. В настоящем стандарте приведены рекомендации по методам определения робастных оценок и процедурам проверки наличия выбросов в данных.
Методы, представленные в настоящем стандарте, предназначены главным образом для выявления и обработки выбросов одномерных данных. Однако в настоящем стандарте представлены также некоторые рекомендации по работе с многомерными данными и данными регрессионного анализа.
2 Термины и определения
В настоящем стандарте применены следующие термины с соответствующими определениями:
2.1 выборка, набор данных (sample, data set): Подмножество генеральной совокупности, состоящее из одной или нескольких выборочных единиц.
2.2 выброс (outlier): Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки (2.1).
2.3 маскировка (masking): Наличие более одного выброса (2.2), затрудняющее обнаружение каждого выброса.
2.4 вероятность ложного обнаружения выбросов (some-outside rate): Вероятность того, что одно или несколько наблюдений незагрязненной выборки, ошибочно классифицированы как выбросы (2.2).
2.5 метод коррекции выбросов (outlier accommodation method): Метод нечувствительный к наличию выбросов (2.2) при принятии решения о генеральной совокупности.
2.6 устойчивая оценка (resistant estimation): Оценка, подверженная лишь малым изменениям при замене небольшой доли набора данных (2.1), элементами, возможно, имеющими значительное отличие от замененных элементов.
2.7 робастная оценка (robust estimation): Оценка, нечувствительная к небольшим отклонениям от предполагаемой вероятностной модели данных.
2.8 ранг (rank): Положение наблюдаемого значения в упорядоченном наборе наблюдаемых значений.
2.9 глубина (depth): Наименьший из двух рангов (2.8), присвоенных элементу при упорядочивании выборки (2.1) в неубывающем и невозрастающем порядках.
2.10 порядковая статистика (order statistic): Статистика, определяемая рангом при упорядочивании набора данных в неубывающем порядке.
[ИСО 3534-1:2006, п.1.13]
2.12 первый квартиль, нижний выборочный квартиль (first quartile, sample lower quartile, ): Медиана (2.11) первых наименьших (n-1)/2 значений для нечетного числа наблюдений; медиана первых наименьших n/2 значений для четного числа наблюдений.
2.13 третий квартиль, верхний выборочный квартиль (third quartile, sample upper quartile, ): Медиана (2.11) последних наибольших (n-1)/2 значений для нечетного числа наблюдений или медиана последних наибольших n/2 значений для четного числа наблюдений.
2.14 межквартильный размах IQR (interquartile range, IQR): Разность третьего квартиля (2.13) и первого квартиля (2.12).
2.15 сводка пяти чисел (five-number summary): Набор значений выборочного минимума, первого квартиля (2.12), медианы (2.11), третьего квартиля (2.13) и выборочного максимума.
2.16 диаграмма ящик с усами (box plot): Графическое представление (горизонтальное или вертикальное) сводки пяти чисел (2.15).
Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn
Загрузка и первичный анализ данных
Итак, по-честному сославшись на первоисточник данных и человека, который над ними поработал, откроем CSV-файл с данными girls.csv и посмотрим, что там есть. Видим параметры 604-х девушек месяца Playboy с декабря 1953 по январь 2009: обхват груди (Bust, в см), обхват талии (Waist, в см), обхват бедер (Hips, в см), а также рост (Height, в см.) и вес (Weight, в кг).
Откроем нашу любимую среду программирования для Python (в моем случае Eclipse + PyDev) и загрузим данные с помощью библиотеки Pandas. В этой статье предполагается, что библиотеки Pandas, NumPy, SciPy, sklearn и matplotlib установлены. Если нет, пользователи Windows могут порадоваться и элементарно установить прекомпилированные библиотеки отсюда.
Ну а пользователям никсов и маков (как и автору) придется чуть-чуть помучаться, но статья не об этом.
Вначале импортируем модули, которые нам понадобятся. Об их роли будем говорить по мере поступления.
Создаем экземпляр girls структуры данных DataFrame модуля Pandas считыванием данных из файла girls.csv (он лежит рядом с данным py-файлом, иначе надо указывать полный путь). Параметр header говорит, что названия признаков находятся в первой строке (т.е. в нулевой, если считать, как программисты).
Кстати, Pandas — отличный вариант для тех, кто привык к питону, но все еще любит быстроту парсинга данных в R. Главное, что унаследовал Pandas от R — это как раз удобную структуру данных DataFrame.
Автор знакомился с Pandas по тьюториалу Kaggle в пробном соревновании «Titanic: Machine Learning from Disaster». Для тех, кто не знаком с Kaggle, — отличный повод наконец сделать это.
Посмотрим общую статистику наших девушек:
Нам сообщат, что в нашем распоряжении 604 девушки, каждая с 7-ю признаками — Month (тип object), Year (тип int64) и еще 5-ю признаками типа int64, которые мы уже называли.
Дальше узнаем про девушек побольше:
Эх, если бы в жизни все было так просто!
Интерпретатор нам перечислит основные статистические характеристики признаков девушек — среднее, минимальное и максимальное значения. Уже неплохо. Отсюда заключаем, что средние формы модели Playboy 89-60-88 (ожидаемо), средний рост — 168 см, вес — 52 кг.
Вот рост то, кажется, маловат. Видимо, объясняется тем, что данные исторические, с середины ХХ века, сейчас-то стандартом у моделей, кажется, считается рост 180 см.
Охват груди девушек меняется от 81 до 104 см, талия — от 46 до 89, бедра — от 61 до 99, рост — от 150 см до 188 см, вес — от 42 кг до 68 кг.
Ух ты, уже можно подозревать, что в данные вкралась ошибка. Это что за пивная бочка модель с талией 89 см? А как бедра могут быть 61 см?
Давайте посмотрим, что это за уникумы:
Это девушки месяца Playboy в декабре 1998-го и январе 2005-го соответственно. Несложно их отыскать здесь. Это тройняшки Николь, Эрика и Жаклин с неговорящей фамилей Дам (Dahm) — все три «под одним аккаунтом» и Дэстини Дэвис (Destiny Davis). Легко заметить, что талии тройняшек — 25 дюймов (64 см), а не 89, а бедра нашей Дэстини — 86 см, а никак не 61.
Для красоты можно еще построить и гистограммы распределения параметров девушек (для разнообразия они сделаны в R).
Итак, простым, невооруженным взглядом на данные уже можно найти в них какие-то странности, если, конечно, данных не очень много, и признаки можно как-то трактовать в понятном человеку виде.
Предобработка данных
Далее выделяем 2 главных компонента в данных, чтоб их можно было отобразить. Тут нам пригодилась библиотека Scikit-learn Principal Component Analysis (PCA). Также нам не помешает сохранить число наших девушек. Кроме того, мы скажем, что ищем 1% выбросов в данных, то есть ограничимся 6-7 «странными» девушками. (Переменные в Питоне, записанные в верхнем регистре, символизируют константы и обычно записываются в начале файла после подключения модулей).
Обучение модели
Для обнаружения «выбросов» в данных используем одноклассовую модель машины опорных векторов. Теоретическую работу над этой вариацией SVM начал Алексей Яковлевич Червоненкис. Как заявляет «Яндекс», сейчас разработка методов решения этой задачи занимает первое место в развитии теории машинного обучения.
Не буду здесь рассказывать, что такое SVM и ядра, про это и так много написано, например на Хабре (попроще) и на machinelearning.ru (посложнее). Отмечу только, что One-class SVM позовляет, как это следует из названия, отличать объекты одного класса. Обнаружение аномалий в данных — всего лишь скромное приложение этой идеи. Сейчас, в эпоху глубинного обучения, с помощью алгоритмов одноклассовой классификации пытаются научить компьютер «создавать представление» предмета, как, например, ребенок отличает собаку от всех остальных предметов.
Но вернемся к Scikit-реализации One-class SVM, которая неплохо документирована на сайте Scikit-learn.
Создаем экземпляр классификатора с гауссовым ядром и «скармливаем» ему данные.
Поиск выбросов
Создаем массив dist_to_border, который хранит расстояния от объектов обучающей выборки X до построенной разделяющей поверхности, а затем, после того, как мы выбрали порог, создаем массив индикаторов (True или False) того, что объект является представителем данного класса, а не выбросом. При этом расстояние положительно, если объект лежит «внутри» области, ограниченной построенной разделяющей поверхностью (т.е. является представителем класса), и отрицательно в противном случае. Порог определяется статистически, как такое расстояние до разделяющей поверхности, что у OUTLIER_FRACTION (в нашем случае у одного) процента выборки оно больше (т.е в нашем случае, threshold — это 1%-перцентиль массива расстояний до разделяющей поверхности).
Отображение и трактовка результатов
Наконец, визуализируем то что получилось. На этом моменте я не буду останавливаться, разобраться с matplotlib желающие могут самостоятельно. Это переработанный код из примера Scikit-learn «Outlier detection with several methods».
Получаем такую картинку:
Видны 7 «выбросов». Чтобы понять, что за девушки таятся под этим нелицеприятным «выбросы», посмотрим их в исходных данных.
А теперь самая занимательная часть — трактовка полученных выбросов.
Замечаем, что экспонатов в нашей кунсткамере всего 7 (мы так удачно задали порог OUTLIER_FRACTION), поэтому можно пройтись по каждому из них.
Примечательно, что дама с охватом бедер в 61 см, которую мы подозревали в сильном отличии от прочих девушек, по остальным параметрам вполне в норме, и SVM-ом не была определена как «выброс».