Что такое ошибка репрезентативности

ОШИБКИ РЕПРЕЗЕНТАТИВНОСТИ. ОЦЕНКА ДОСТОВЕРНОСТИ ВЫБОРОЧНЫХ ПОКАЗАТЕЛЕЙ

Выше было отмечено, что конечной целью исследования является нахождение параметров генеральной совокупности, но в большинстве случаев генеральную совокупность изучают не непосредственно, а пользуясь выборкой. Ограниченность объема выборки и случайность отбора в нее объектов приводят к тому, что выборочные параметры отличаются от генеральных. Эти различия имеют объективную природу, т. е. возникают независимо от исследователя всегда, когда по части (выборке) пытаются охарактеризовать целое (генеральную) совокупность. Ошибки, возникающие при характеристике генеральной совокупности показателями, полученными при изучении выборки, называются ошибками репрезентативности. Не следует путать статистические ошибки с ошибками другого рода: ошибками типичности (когда выборка составлена неправильно и вследствие этого не является репрезентативной), ошибками прибора или инструмента, ошибками при измерении, ошибками в расчетах и т. д. Такого рода ошибки не вскрываются биометрическими методами, они должны быть устранены заранее. Более того, отсутствие таких ошибок в результате измерений дает основание для дальнейшей биометрической обработки материала с целью выявления статистических ошибок (ошибок репрезентативности), которых нельзя избежать при использовании выборочного метода и которые совершенно необходимо учитывать, чтобы сделать научно обоснованные выводы.

Ошибки репрезентативности показывают степень соответствия выборочных параметров параметрам генеральной совокупности. Чем меньше цифровые значения ошибки, тем точнее вычисленный параметр, тем ближе его значение к значению соответствующего параметра генеральной совокупности.

Согласно закону больших чисел практически маловероятно существенное отклонение выборочного параметра (X, а и др.) от соответствующего параметра генеральной совокупности, если число наблюдений достаточно велико. При изучении всех членов генеральной совокупности статистических ошибок быть не может, так как генеральный параметр находится (рассчитывается) непосредственно.

Пример. Если необходимо охарактеризовать по удою группу коров, закрепленных за каким-то оператором машинного доения, то, принимая во внимание ограниченный объем данной генеральной совокупности можно провести сплошное обследование, т. е. учесть удой у всех коров, входящих в данную группу. В этом случае рассчитанные по всем животным средняя арифметическая (X) и среднее квадратическое отклонение (а) будут генеральными параметрами.

Ошибки вычисляются для всех выборочных параметров и обычно обозначаются буквой т с подстрочным указанием знака того параметра, для которого они определяются: тх; та; т^ и т. д. (в зарубежной литературе ошибку часто обозначают буквой S со знаком своего параметра: Sx; Sa; и т. д.).

Если генеральная совокупность велика, то ее приравнивают к бесконечности (оо). в этом случае ошибку выборочной средней арифметической (X) вычисляют по формуле

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

где т.х — ошибка средней арифметической (X); а — среднее квадратическое отклонение; п — численность выборки.

Из формулы следует, что величина ошибки средней арифметической зависит от значения а и п, причем чем меньше разнообразие признака, тем меньше ошибка. При полной однородности совокупности по изучаемому признаку (о = 0) средняя ошибка равна нулю, т. е. X выборки становится равной X генеральной совокупности. Величина средней ошибки обратно пропорциональна корню квадратному из объема выборки (л/п). Поскольку в практической работе уровень варьирования признака (о) изменить (уменьшить) обычно не представляется возможным, для повышения точности определения Хген необходимо увеличить п.

В малых выборках т% вычисляется по следующей формуле:

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

где п —1 = v — число степеней свободы.

Ошибка — величина именованная (см, кг, % и т. д.), выражается в тех же единицах измерения, что и средняя арифметическая. Средняя арифметическая величина, как и другие параметры совокупности, обычно записывается вместе со своей ошибкой: Х±тх.

Допустим, в выборке из 100 коров среднесуточный удой X = 21,26 кг, а о = ±3,68. Ошибка средней арифметической в данном случае составит 772у = ±-^= = ± = +0,368 кг. Это означает, что средняя ошибка

* л/п VlOO на 100 голов — 0,368 кг. Следовательно, среднесуточные удои изученной выборки характеризуются Х±т.х =21,26±0,368 кг.

Для следующего примера возьмем высоту в холке жеребцов чистокровной верховой породы, где Х = 160,9 см; п = 93; а = ±3,4 см:

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Ошибки других выборочных показателей вычисляют по следующим формулам:

• коэффициента вариации — mcv = ± 2—;

• коэффициента корреляции: для малой выборки — гтг,.Л/-;

• коэффициента регрессии — m Ry/x

Достоверность выборочных показателей (t) определяется отношением выборочного показателя к его средней ошибке по формулам

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Задания для самостоятельной работы

Задание 1. Вычислить ошибки репрезентативности:

Задание 2. Вычислить достоверность выборочных показателей t для X, a, cv, г, R в больших и малых выборках, пользуясь данными задания 1 темы 6.

Источник

Ошибка репрезентативности

Вы, наверное, встречали и другое название этого понятия. Напомним, что стандартная ошибка (standard error) и ошибка репрезентативности часто употребляются, как взаимозаменяемые термины. Они относятся к выборочной совокупности и позволяют определить достоверность результатов исследования над выборкой. Само имя говорит о том, насколько репрезентабельно выборка отображает генеральную совокупность. Другими словами, стандартная ошибка показывает, насколько результаты, полученные при выборочном наблюдении “далеко ушли” от результатов, которые получили бы, исследовав генеральную совокупность.

Выделяют два вида таких ошибок:

Стандартная ошибка среднего

Эта ошибка вычисляется путем деления стандартного отклонения выборки на квадратный корень от количества элементов выборки.

Стандартная ошибка доли

Теперь посмотрим, как можно вычислить стандартную ошибку для относительной величины. На практике часто приходится иметь дело с дихотомическими данными, когда переменные принимают два значения. Это может быть пол (мужской и женский), если не учесть меньшинства, состояние устройства (рабочее и нерабочее), голоса избирателей (за и против), и т.д. Рассмотрим вариант определения ошибки для выборки из таких значений.

Значит, дисперсия имеет следующий вид:

Значит, функция ошибки будет иметь следующий вид:

Эта формула называется стандартной ошибкой доли.

Читайте также

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Переменные потока и запасы

Все экономические переменные, которые имеют временное измерение, т.е. величины которых можно измерить по истечении времени называем переменными потока. А запас не имеет временное измерение.

Показатели вариации

Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion или variability, но не путайте с variation). Есть несколько показателей вариации. Это размах, межквартильный размах, среднее линейное отклонение, дисперсия и стандартное отклонение.

Типы выборки

Для расследования генеральной совокупности применяют два вида выборки. Случайную и неслучайную выборку. Простая, систематическая, стратифицированная и кластерная выборка являются случайными выборками. Стихийная, удобная и квотная выборка являются примером неслучайной выборки.

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Скользящее среднее значение

Среди наиболее популярных технических индикаторов чаще всего, скользящее среднее значение используются для измерения направления текущего тренда. Самая простая формула скользящей средней, известна как Простое Скользящее Среднее значение.

Генеральная совокупность и выборка

Генеральной совокупностью называют всё исследуемое множество. На английском языке этот термин называется популяцией (population). Выборкой (на английском sample) называют некоторое случайно отобранное подмножество из генеральной совокупности.

Нулевая гипотеза

Нулевая гипотеза утверждает, что между исследуемыми данными никакой закономерности нет. Пока нулевая гипотеза не опровергнута, она в силе. Альтернативная гипотеза является обратной нулевой гипотезе.

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Типы данных в статистике

Такие выражения, как минимум, максимум, медиана и процентиль имеют значение лишь для порядковых данных. Порядковые данные делятся на метрические и неметрические.

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Что такое тренд?

Термины тренд и тенденция используются в различных целях. Люди часто говорят о тенденции относительно роста цен и падения курса какой-то валюты. Здесь мы раскроем статистическое значение этих терминов.

Среднее значение, медиана и мода

Все чаще встречаем такие термины, как Бизнес-аналитика, Система поддержки принятия решений, Предсказательная аналитика. Но их уже достаточно распиарили и без нас. Поэтому остановимся на объяснении этих трех терминов: среднее значение, медиана и мода.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.

Источник

Определение ошибки репрезентативности (m)

Ошибка репрезентативности (m) показывает, насколько результаты полученные при выборочном исследовании, отличаются от результатов, которые могли бы быть получены при проведении сплошного исследования (генеральная совокупность).

Взаимосвязь объёма выборки и репрезентативности

· Репрезентативность не зависит от объема выборки. Репрезентативность достигается только тогда, когда в выборку отобраны объекты из разных групп, при условии, что их доли в генеральной и выборочной совокупности равны. Репрезентативность выборки зависит только от методики отбора единиц из генеральной совокупности в выборочную совокупность и не зависит от объема. Конечно, чем больше объем выборки, тем выше ее точность, однако, неверно распределенная выборка в 5000 единиц намного хуже, чем хорошо распределенная выборка в 500 единиц.

· Чем более однородна генеральная совокупность, тем меньший объем выборочной совокупности потребуется для получения точных результатов. Если, например, в генеральной совокупности все респонденты имеют одинаковый доход, то будет достаточно опросить одного респондента, чтобы узнать средний доход по совокупности. Чтобы определить вкус каши достаточно съесть одну ложку, а не всю тарелку, конечно, при условии, что каша хорошо перемешана.

При правильно составленной выборочной совокупности можно получить достаточно полное представление о закономерностях, присущих всей генеральной совокупности. Основным правилом составления выборочной совокупности является обеспечение ее репрезентативности, т.е. соответствия данных выборочной и генеральной совокупностей.

Выборочная совокупность должна быть представительной или репрезентативной (способность быть отражением генеральной совокупности), для чего необходимы следующие требования:

· обладать характерными чертами генеральной совокупности, т.е. по составу быть максимально похожей на неё;

· достаточной по объему, т.е. по числу наблюдений.

Формула ошибки репрезентативности (m) для относительных величин:

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативностиили Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности, если число наблюдений менее 30 случаев,

Р – величина показателя;

q=100–P, если показатель рассчитан на 100;

q=1000 –P, если показатель вычислен на 1000, и т.д.;

n – число наблюдений.

Например: работающих на предприятии – 1400 человек (n), имеющих гипертоническую болезнь (ГБ) – 44 человека.

Показатель заболеваемости ГБ

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативностина 100 работающих, далее вычисляем по формуле

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности.

Вывод: результаты выборочной совокупности по определению ГБ на предприятии отличаются от генеральной совокупности на ± 0,46 (средняя ошибка ± 0,46).

Формула (m) для средней величины: Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативностиили Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности, если число наблюдений меньше 30.

Например, у 49 больных (n) гастритом уровень пепсина М=1,0 г%, σ = ±0,35 г%

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативностиг%

Вывод: результаты выборочной совокупности по определению уровня пепсина у 49 больных гастритом отличаются от генеральной совокупности (если бы исследования проводились у всех больных гастритом) на ± 0,05 (средняя ошибка ± 0,05).

Примечание: среднее квадратическое отклонение (σ)характеризует степень рассеивания вариант вокруг средней арифметической (смотри тему №3). Вычисляют по формуле: Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Амплитуда ряда (см. тему №4)

К – «коэффициент К», (см. приложение №3).

Доверительные границы (М, P) средних и относительных величин –это границы относительных или средних величин размеров признака выход за пределы которых, вследствие случайных колебаний, имеет незначительную вероятность.

Доверительные границы для средней величины по формуле:

Мген., выб. – доверительные границы средней величины генеральной и выборочной совокупности,

t – доверительный критерий (устанавливается исследователем, но должен быть не меньше 2, смотри ниже),

m – ошибка репрезентативности.

Доверительные границы для относительной величины по формуле:

Pген.,выб. – доверительные границы относительной величины генеральной и выборочной совокупности;

t – доверительный критерий (устанавливается исследователем, но должен быть не меньше 2, смотри ниже);

m – ошибка репрезентативности.

Δ = tm (максимально возможная погрешность оценки генеральной совокупности),

t – доверительный критерий (устанавливается исследователем, но должен быть не меньше 2, смотри ниже);

m – ошибка репрезентативности.

Вероятность безошибочного прогноза (p) – это вероятность, с которой можно утверждать, что в генеральной совокупности относительных или средних величин (P, M) показатели будут находиться в пределах ±tm. Для медицинских исследований степень вероятности безошибочного прогноза (p) должна быть не менее 95%, т.е отображать объективную реальность проведенных исследований на 95%, тогда t=2 (см. ниже).

Зависимость доверительного критерия от степени вероятности безошибочного прогноза p (при n>30)

Источник

Репрезентативность выборочных данных

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. В статье рассказываем подробнее об этом важном свойстве.

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Оно отражает способность данных представлять зависимости и закономерности исследуемой предметной области, которые должна обнаружить и научиться воспроизводить построенная модель. Иными словами, репрезентативность показывает, содержат ли анализируемые данные достаточно информации для построения качественной модели, а так же, может ли эта информация быть использована алгоритмом построения модели.

Репрезентативность генеральной совокупности отражает способность совокупности описывать существенные свойства, зависимости и закономерности объектов, процессов и явлений предметной области. Она достигается за счёт правильной организации сбора и консолидации первичных данных.

Репрезентативность выборки описывает способность выборочных данных отражать структурные свойства совокупности, из которой они были извлечены. Т.е. даёт ответ на вопрос: можно ли в исследовании заменить совокупность на выборку без значимого ухудшения результатов анализа. Репрезентативность выборки достигается с помощью правильного выбора метода сэмплинга.

Таким образом, репрезентативность выборки касается только воспроизведения характеристик совокупности. Если сама исходная совокупность плохо представляет предметную область, то, даже если полученная из неё выборка будет репрезентативной, построить на её основе корректную с точки зрения предметной области модель будут невозможно.

Например, пусть компания собирается вывести на рынок новый продукт. При этом она хочет провести маркетинговые исследования в виде опроса клиентов о желаемых характеристиках и параметрах продукта. Число клиентов компании насчитывает сотни тысяч человек (генеральная совокупность), поэтому опросить их всех не представляется возможным физически, не является целесообразным экономически.

Поэтому компания формирует выборку клиентов для проведения опроса. Если мнение клиентов из выборки отражает мнение большинства клиентов и может быть использовано для принятия решений о параметрах и характеристиках нового продукта, то такая выборка будет репрезентативной.

Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. Поэтому в процессе анализа необходимо убедиться, что сформированная выборка репрезентативна.

Таким образом, репрезентативная выборка — это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.

Особенно важным является обеспечение репрезентативности в машинном обучении, для построения моделей классификации и регрессии используется несколько выборок: обучающая, тестовая и валидационная, которые тем или иным способом отбираются из исходного набора данных. И все эти выборки должны быть репрезентативными.

Обеспечение репрезентативности

В основе построения репрезентативной выборки лежит правильный выбор используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности. Например, интернет-опрос может показать, что 100% людей пользуется интернетом, хотя это не соответствует действительности (т.е. репрезентативность нарушена).

Выделяют качественную (структурную) и количественную репрезентативность.

Что такое ошибка репрезентативности. Смотреть фото Что такое ошибка репрезентативности. Смотреть картинку Что такое ошибка репрезентативности. Картинка про Что такое ошибка репрезентативности. Фото Что такое ошибка репрезентативности

Рисунок 1. Количественная и качественная репрезентативность

Качественная репрезентативность

Качественная репрезентативность показывает, что все группы, присутствующие в совокупности, будут представлены и в выборке. Для этого каждый элемент совокупности должен иметь равную вероятность, быть выбранным, а сама выборка должна производиться из однородных групп.

Наиболее оптимальным способом формирования репрезентативной выборки является простой случайный сэмплинг, поскольку в этом случае у любого представителя генеральной совокупности будет одинаковая вероятность попасть в выборку.

Например, при формировании выборки клиентов для опроса, в нее попадут люди из различных социальных групп пропорционально их долям в генеральной совокупности. В результате, выборка будет представлять собой уменьшенную копию генеральной совокупности.

Случайность отбора респондентов в выборку может обеспечивается различными методами. Например, для опроса клиентов берутся номера клиентских карт, которые случайным образом отбираются компьютерной программой с использованием генератора случайных чисел.

Однако, на практике применить простой случайный сэмплинг не всегда представляется возможным. Это связано с тем, что генеральная совокупность может быть неоднородной и будет содержать группы объектов.

Например, если опрос будет проводиться по телефону, то большинство откликов будет получено от пенсионеров, как людей менее занятых и более склонных идти на контакт. Очевидно, что если опрос проводится о продукте, ориентированном на молодёжь, то ценность мнения пенсионеров вряд ли будет высокой.

Чтобы решить эту проблему, можно использовать случайный стратифицированный сэмплинг, когда исходная совокупность сначала разделяется на слои (страты) по некоторому признаку. Например, клиенты могут быть стратифицированы по возрасту. Тогда страты могут быть сформированы пропорционально доле объектов в группах, что позволит уменьшить или увеличить долю той или иной группы, сохранив репрезентативность.

Другой вариант — использовать кластерный (групповой) сэмплинг, когда клиенты предварительно разбиваются на качественно однородные группы — кластеры, и отбор производится из каждого кластера независимо. При этом вероятность отбора может быть одинаковой для всех кластеров, или различной. Можно некоторые кластеры вообще исключить из отбора. В нашем примере клиенты могут быть разбиты на кластеры по социальному статусу — студенты, работающие, пенсионеры, военнослужащие и т.д. Таким образом, долю, пенсионеров в выборке, можно уменьшить или совсем исключить.

Количественная репрезентативность

Количественная репрезентативность показывает, является ли достаточным число элементов выборки для представления характеристик генеральной совокупности с заданной погрешностью. Например, при неизвестной величине генеральной совокупности, когда результат отражается в виде показателя относительной доли, число элементов выборки, обеспечивающее количественную репрезентативность, может быть вычислено по формуле:

где t — доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки, p — доля единиц наблюдения, обладающих изучаемым признаком, q=1−p — доля единиц наблюдения, не обладающих изучаемым признаков, Δ — допустимая ошибка выборки.

n=\frac<2^<2>\cdot 0,25\cdot 0,75><0,05^<2>>=300 заёмщиков.

Если же показатель — не относительная средняя величина просроченной задолженности по всем клиентам, то число наблюдений будет:

Если используется выборка без возврата и размер генеральной совокупности известен, то для определения необходимого размера случайной выборки при использования относительных величин (долей) применяется формула:

n=\frac\cdot p\cdot q\cdot N><\Delta ^<2>\cdot N+t^<2>\cdot p\cdot q>

где N — число наблюдений генеральной совокупности. Для средних значений исследуемой величины формула примет вид:

n=\frac<2^<2>\cdot 0,25\cdot 0,75\cdot 500><0,05^<2>\cdot 500+2^<2>\cdot 0,25\cdot 0,75>\approx 188 клиентов.

Таким образом, необходимый объем выборки при безвозвратном отборе меньше, чем при возвратном (соответственнo, 188 и 300).

В целом, число наблюдений, требуемое для получения репрезентативной выборки, изменяется обратно пропорционально квадрату допустимой ошибки.

Методы оценки репрезентативности

Формально, выборку называют репрезентативной, когда результат оценки определенного параметра по данной выборке совпадает с результатом, оцененным по генеральной совокупности с учетом допустимой погрешности (ошибки репрезентативности). Если выборочная оценка отличается от оценки по генеральной совокупности более, чем на заданный уровень погрешности, то такая выборка считается нерепрезентативной.

Репрезентативность оценивается по отдельным параметрам выборки и совокупности. При этом выборка может оказаться репрезентативной по одним параметрам и нерепрезентативной по другим. Поэтому говорить о репрезентативности как о дихотомическом свойстве выборки (репрезентативна или нерепрезентативна) было бы не верно: выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие — менее. Поэтому правильнее говорить о мере репрезентативности определённой выборки по конкретным параметрам.

Основным моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной. Одна и та же выборка может быть достаточно репрезентативной для одной задачи и недостаточно для другой. Кроме этого, нужно проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. Например, в маркетинговых исследованиях для анализа клиентов важны пол, возрасту, образование и пр.

Следует отметить, что далеко не все задачи бизнес-аналитики требуют строгого статистического подтверждения репрезентативности выборок. Как правило, это задачи точного прогнозирования. Что касается обычных задач, связанных, например, с определением предпочтений действующих и потенциальных клиентов, то они решаются охватом типичной клиентуры, которую можно найти непосредственно в торговых центрах.

Статистические методы

Данные, полученные в результате выборочных обследований, являются реализациями случайных величин (возраст, стаж работы, доход и т.д.). Обычно, на практике считают, что выборка является репрезентативной, если её статистические параметры (среднее значение, дисперсия, среднеквадратичное отклонение и т.д.) отличаются от параметров совокупности не более, чем на 5%.

Однако, данный подход применим только при условии, что вся генеральная совокупность известна и для неё можно вычислить статистические характеристики. Но на практике такое встречается редко, поскольку часть потенциально интересных для исследования объектов оказывается недоступной для наблюдения.

В этом случае прибегают к формированию двух независимых выборок, вычисляют и сравнивают их характеристики, и если они совпадают (не различаются значимо), то выборки считаются репрезентативными. В теоретическом плане такой подход является достаточно привлекательным, однако, на практике сложно реализуем. Во-первых, формирование нескольких выборок ведёт к дополнительным затратам, а во-вторых, если параметры выборок значимо различаются, то невозможно сказать, какая из них репрезентативна.

Нестатистические методы

Статистические методы оценки репрезентативности выборочных данных, хотя и являются строго обоснованными, но довольно сложны в использовании (особенно для пользователей, не имеющих достаточной математической подготовки). Кроме этого они могут иметь ограничения (например, независимость выборок), удовлетворить которым достаточно сложно.

Статистические подходы к оценке репрезентативности выборок имеет смысл использовать, если для анализа данных используются статистические методы. Методы машинного обучения, которые является эвристическими и в большинстве случаев не обеспечивают точного и единственного решения, вообще говоря, не нуждаются в точной оценке репрезентативности обучающих выборок. Поэтому в них используются свои техники для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность.

Ещё одной особенностью выборок, используемых в машинном обучении, является то, что объём исходной совокупности, из которой формируются обучающее, тестовое, а при необходимости, и валидационное множество, известен, поскольку данные содержатся в консолидированных таблицах источника данных.

Затем вычислим величину:

где D_<_> — общее расстояние по всей совокупности, N — число наблюдений совокупности.

Тогда индекс ближайшего соседа будет:

Если значение данного показателя близко к 1, то точки выборки имеют равномерное пространственное распределение. Если меньше 1, то пространственное распределение точек неоднородно. Если NNI больше 1, то имеет место значительная дисперсия значений внутри выборки.

Очевидно, что наилучшим вариантом с точки зрения репрезентативности будет первый случай, когда пространственное распределение точек данных в совокупности и выборке примерно одинаковое. Второй случай показывает, что внутри выборки могут присутствовать некоторое локальные особенности, нехарактерные для всей совокупности.

В литературе можно найти больше количество разнообразных алгоритмов и методов оценки репрезентативности выборок для машинного обучения, разработанных для различных предметных областей исследования и типов задач анализа. Большинство их них являются эвристическими и не гарантируют получения наилучшего результата. Поэтому самым надёжным критерием репрезентативности выборки, на основе которой строилась определённая обучаемая модель, является точность и обобщающая способность самой модели.

Ремонт выборки

Возникает вопрос: а что делать в ситуации, когда аналитику доступна только выборка «как есть», а её репрезентативность неудовлетворительная? При этом доступ к генеральной совокупности для формирования более репрезентативной выборки у него отсутствует (например, из-за проблем с сетью, невозможности повторных исследований из-за высоких затрат и т.д.). В этом случае улучшить ситуацию может специальная процедура, которая называется «ремонт выборки».

Все действия аналитика, связанные с репрезентативностью, можно разделить на два этапа: контроль и ремонт.

Контроль и ремонт выборки рассматриваются как обязательные этапы любого выборочного исследования. Хотя, некоторые авторы не разделяют эти два этапа, а включают ремонт в общую процедуру контроля выборки. Ряд вопросов, связанных с контролем выборки был рассмотрен выше.

Основной целью ремонта является повышение качества выборки в смысле отражения ею зависимостей и закономерностей исследуемых процессов и явлений, которые требуется обнаружить в процессе анализа. При этом не следует путать ремонт выборки с повышением качества данных вообще.

Ремонт выборки, обычно, включает следующие задачи:

Следует отметить, что единого, строго обоснованного подхода к ремонту выборок, вообще говоря, не существует, хотя в литературе можно встретить некоторые общие рекомендации. В большинстве практических случаев аналитику приходится самостоятельно выбирать, какие преобразования следует применить к выборке для повышения её репрезентативности.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *