Что такое панельные данные
Объединённая модель панельных данных
Материал из MachineLearning.
Панельные данные состоят из наблюдений одних и тех же экономических единиц, которые осуществляются в последовательные периоды времени. Панельные данные насчитывают три измерения: признаки (переменные) – объекты – время. Для них разработаны специальные методы анализа.
Содержание
Введение
Панельные данные (Panel data)
Для большинства баз панельных данных характерно, что они содержат наблюдения о большом количестве объектов за относительно короткий промежуток времени.
Панельные данные ценны для экономистов тем, что при правильном их анализе можно избавиться от влияния индивидуальных особенностей объектов (individual heterogeneity), которые, как правило, являются одной из серьезнейших проблем анализа однократных данных.
Примеры использования моделей панельных данных
Пример 1. Макроэкономика. Объекты – страны; – характеристики (например, инфляция, объем инвестиций, объем экспорта, импорта); – показатель ВВП на душу населения. Хотим выяснить, как он зависит от приведенных показателей.
Пример 2. Микроэкономика. Объекты – домашние хозяйства; – доход, число человек в семье, недвижимость, количество иждивенцев в семье, образование, возраст, пол; – структура расходов. Данная задача часто возникает в маркетинге, когда необходимо выяснить каков рынок тех или иных товаров.
Пример 3. Объекты – выборка телезрителей ; – доход, образование, возраст, пол; – структура просмотров:
Пример 4. Объекты – коммерческие фирмы; – оборот, прибыль, число сотрудников, отрасль; – рыночная стоимость.
Пример 5. (См. Экономика преступления: теоретическое и эмпирическое исследование определяющих факторов преступности) Методы анализа панельных данных эффективны для мониторинга и анализа преступлений. Приведем одну из постановок задач в данном контексте. Объекты – регионы; – уровень жизни, среда и ресурсы, демография и миграции, политика, экономика и социальная сфера, культура, образование, внешние условия; – индекс конфликтов.
Обозначения
Здесь – векторы, – матрица.
Преимущества анализа панельных данных перед другими методами
Благодаря специальной структуре панельные данные позволяют строить более гибкие и содержательные модели и получать ответы на вопросы, которые недоступны только в рамках, например, моделей, основанных на пространственных данных.
Основные модели анализа панельных данных
Описание объединенной модели
Простейшая модель – это обычная линейная модель регрессии
или в матричной форме
В эконометрической литературе данная модель носит название объединенной модели регрессии (pooled model).
Панельные данные
В эмпирических исследованиях компонентов финансовой архитектуры компаний и их эффективности наибольшее распространение получил метод регрессионного анализа панельных данных. Панельные данные (panel data) состоят из наблюдений одних и тех же экономических единиц (индивидуумов, домашних хозяйств, фирм и т.д.), которые осуществляются в последовательные периоды времени. В качестве примеров можно привести ежеквартальные либо ежегодные финансовые показатели, а также ежегодные характеристики структуры собственности, состава совета директоров фиксированной группы компаний или ежегодные социально-экономические параметры группы стран, например темп роста ВВП, населения и внешнего долга для стран БРИ КС.
В чем заключаются преимущества этого метода применительно к исследованиям финансовой архитектуры компаний? Во-первых, панельные выборки сочетают в себе как сквозные данные (cross-section data), так и данные типа временных рядов (time-series data). Это позволяет учитывать всевозможные индивидуальные отличия экономических единиц, моделируя не только причины их различного поведения, но и причины изменений в поведении каждой конкретной единицы в различные периоды времени. Представим, например, что необходимо оценить эффект покупки доли в компании фондом прямых инвестиций. Сложность задачи заключается в том, что высокая производительность фирмы может быть вовсе не следствием присутствия фонда, а наоборот, причиной, сделавшей приобретение такой доли привлекательной, и при введении переменных, отвечающих за индивидуальные особенности компаний, эффект от входа фонда может оказаться отрицательным. Таким образом, можно заметить, что панельные данные позволяют исследователям строить более гибкие модели и делать содержательные выводы, недоступные в рамках, например, моделей, основанных лишь на пространственных данных.
Второе преимущество моделей, построенных на панельных данных, состоит в том, что они, как правило, позволяют получать более точные оценки. Это происходит вследствие того, что индивидуальные факторы часто бывают сильно коррелированы с объясняющими переменными и их пропуск может привести к смещенным оценкам остальных параметров.
Один из классических примеров данной ситуации проявляется при оценке производственной функции для выборки компаний из одной отрасли. Если предприятие небольшое, то для него высокую роль в объеме выпуска в дополнение к производственным факторам может играть качество управления компанией. Так как это неявно наблюдаемый фактор, его можно учесть только в качестве индивидуального эффекта, например введением дамми-переменной.
В то же время нельзя не отметить и некоторые технические сложности, связанные с использованием панельных данных. Поскольку панельные данные содержат наблюдения за одними и теми же объектами в разные периоды времени, то в общем случае нереалистично предполагать их независимость. Анализ подобных моделей может потребовать более тонких методов оценивания.
Временные ряды и данные поперечного сечения можно рассматривать как особые случаи панельных данных, которые находятся только в одном измерении (один член панели или отдельное лицо для первого, одна временная точка для последнего).
Исследование, в котором используются панельные данные, называется лонгитюдным исследованием или панельным исследованием.
СОДЕРЖАНИЕ
Пример
человек | год | доход | возраст | секс |
---|---|---|---|---|
1 | 2016 г. | 1300 | 27 | 1 |
1 | 2017 г. | 1600 | 28 год | 1 |
1 | 2018 г. | 2000 г. | 29 | 1 |
2 | 2016 г. | 2000 г. | 38 | 2 |
2 | 2017 г. | 2300 | 39 | 2 |
2 | 2018 г. | 2400 | 40 | 2 |
человек | год | доход | возраст | секс |
---|---|---|---|---|
1 | 2016 г. | 1600 | 23 | 1 |
1 | 2017 г. | 1500 | 24 | 1 |
2 | 2016 г. | 1900 г. | 41 год | 2 |
2 | 2017 г. | 2000 г. | 42 | 2 |
2 | 2018 г. | 2100 | 43 год | 2 |
3 | 2017 г. | 3300 | 34 | 1 |
В приведенном выше примере процедуры перестановки множественных ответов ( MRPP ) показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, есть ли значительная разница между людьми в выборке данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных людей и разных лет. В первом наборе данных два человека (1, 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3), соответственно, в течение трех лет (2016, 2017, 2018). ; в частности, лицо 1 не наблюдается в 2018 году, а лицо 3 не наблюдается в 2016 или 2018 году.
Анализ
Рассмотрим типичную модель панельных данных:
Данные динамической панели
Данные динамической панели описывают случай, когда в качестве регрессора используется запаздывание зависимой переменной:
Анализ панельных данных
Панельные данные и их преимущества
Термин «панельные данные» (panel data) пришел из обследований индивидов, и в этом контексте «панель» представляла собой группу индивидов, за которыми регулярно осуществляли наблюдения в течение определенного периода времени. В настоящее время методы анализа панельных данных получили большое распространение, и понимание панельных данных стало намного шире. Наряду с термином «панельные данные» иногда также используется термин «лонгитюдные данные» (longitudinal data).
Панельные данные состоят из повторных наблюдений одних и тех же выборочных единиц, которые осуществляются в последовательные периоды времени. В качестве объектов наблюдения могут выступать индивиды, домашние хозяйства, фирмы, страны и т.д. Примером панельных данных могут быть ежегодные обследования одних и тех же домашних хозяйств или индивидов (например, для определения изменения их благосостояния), ежеквартальные данные об экономической деятельности отдельных компаний, ежегодные социально-экономические показатели для регионов одной страны или для группы стран и т.д.
Панельные данные совмещают в себе как пространственные данные, так и временные ряды и сочетают достоинства каждого их этих видов данных. Это позволяет строить более адекватные и содержательные модели для изучения истинной причинно-следственной связи между различными переменными, что представляется невозможным в рамках только временных или только пространственных данных. Выделяют следующие преимущества использования панельных данных.
Однако у панельных данных есть и недостатки. Определенные проблемы связаны со сбором данных: проблема покрытия, т.е. неполный учет интересующей совокупности; отсутствие отклика, которое может быть связано как с отсутствием взаимодействия с респондентом, так и с ошибкой интервьюера, искажения, связанные с ошибками измерения, которые могут возникнуть по причине неправильного ответа из-за неясной формулировки вопроса, ошибок памяти, намеренного искажения ответа (престижное смещение), неподходящих информантов, ошибочной записи ответов и эффектов интервьюера.
Отсутствие данных может быть вызвано различными причинами. Например, если индивиды выбирают, что им не стоит работать, потому что предлагаемая зарплата ниже минимального размера оплаты труда, то в этом случае для этих индивидов будут отсутствовать данные по зарплате, но будут иметься данные по другим характеристикам. Так как пропущена только их зарплата, то выборка будет цензурированной. Однако если мы не наблюдаем всех данных этих индивидов, то выборка будет уже усеченной, и в результате получатся смещенные оценки. В первой волне панели отсутствие отклика может быть связано с тем, что выбранный индивид или домохозяйство отказались участвовать в опросе или просто никого не оказалось дома. Частичное отсутствие отклика возникает, когда не дан ответ на один или несколько вопросов. В последующих волнах панели вследствие отсутствия отклика может возникнуть проблема истощения данных, когда респондент, ранее принимавший участие в опросах, может умереть, переехать на другое место жительства или обнаружить, что затраты на участие в опросе для него стали слишком большими, и отказаться от дальнейшего участия.
В настоящее время панельные обследования в разных формах проводятся во многих странах. Впервые панельные данные начали формироваться в США в 1960-х гг. Среди наиболее известных баз панельных данных США можно выделить PSID и NLS.
ПАНЕЛЬНЫЕ ДАННЫЕ.
Согласно проведенным исследованиям, панельные данные представляют собой прослеженные во времени пространственные выборки, которые состоят из наблюдений одних и тех же экономических объектов в последовательные периоды времени. Они ценны для экономистов тем, что при правильном их анализе можно избавиться от влияния индивидуальных особенностей объектов которые, как правило, являются одной из серьезнейших проблем анализа однократных данных. Целью данной работы является углубить знания в области анализа панельных данных. Для этого в работе последовательно рассмотрены основные преимущества и проблемы панельных данных, основные регрессионные модели и практический пример использования панельных данных.
Основные преимущества данных этого типа заключаются в следующем:
1) они предоставляют исследователю большое количество наблюдений, увеличивая число степеней свободы и снижая коллинеарность между объясняющими переменными и, следовательно, улучшая эффективность оценок;
2) они позволяют анализировать множество важных экономических вопросов, которые не могут быть адресованы к временным рядам и пространственным рядам в отдельности;
3) они позволяют предотвратить смещение агрегированности, неизбежно возникающее как при анализе временных рядов (где рассматривается временная эволюция усредненного «репрезентативного» объекта), так и при анализе пространственных рядов (где не учитываются ненаблюдаемые индивидуальные характеристики объектов);
4) они дают возможность проследить индивидуальную эволюцию характеристик объектов во времени.
5) они дают возможность избежать ошибок спецификации, возникающих от невключения в модель существенных переменных.
Существующие проблемы панельных исследований:
смещение в данных (отсутствие или искажение ответов на отдельные вопросы)
истощение выборки (постепенное убывание числа объектов наблюдения: отказ участвовать в опросах в дальнейшем, распад домохозяйств) и ротационные панели как решение проблемы истощения.
Решить данные проблемы помогают специальные техники between и within, которые будут рассмотрены далее более подробно.
Модели панельных данных широко используются в микро- и макроэкономических исследованиях, например:
2. Объекты – коммерческие фирмы; переменные – оборот, прибыль, число сотрудников, отрасль; результирующий показатель – рыночная стоимость.
3. Объекты – регионы; параметры – уровень жизни, среда и ресурсы, демография и миграции, политика, экономика и социальная сфера, культура, образование, внешние условия; результирующий показатель – индекс конфликтов.
Регрессионные модели панельных данных:
1. Общая регрессионная модель (pooled least squares)
2. Модель с детерминированными эффектами (fixed effects model)
3. Модель со случайными эффектами (random effects model)
Общая регрессионная модель (pooledleastsquares)
Регрессионная модель панельных данных отличается от регрессии обычных временных рядов или пространственной регрессии тем, что её переменные имеют двойной нижний индекс, т.е.
Большинство приложений панельных данных использует однокомпонентную модель случайной ошибки νi,t:
Модель с детерминированными эффектами (fixed effects model)
При построении моделей анализа панельных данных потребность учитывать индивидуальные особенности объектов приводит к следующей проблеме: наиболее эффективные методы оценивания оказываются несостоятельными, а состоятельные методы дают неэффективные оценки коэффициентов регрессионных соотношений. В частности, переход к центрированным по времени наблюдениям – техника “Within” – позволяет избавиться от индивидуальных эффектов, но в то же время, приводит к существенной потере эффективности. Рассмотрение тех же регрессионных соотношений для средних по времени значений переменных (“Between” ) позволяет оценить величину вклада индивидуальных эффектов в изменчивость зависимых переменных, но эти оценки имеют сильное смещение агрегированности.
Модель со случайными эффектами (random effects model)
В модели с фиксированными эффектами слишком много параметров и потери степеней свободы можно избежать, если предположить индивидуальные эффекты μiслучайными. Тогда можно предполагать, что ui
IID(0, σε 2 ), и μi не зависят от εit. Кроме того, Xitне зависят от ui и εit для всех i и t. Модель со случайными эффектами применяется в том случае, если мы выбираем случайным образом Nобъектов из большой генеральной совокупности элементов, например, в случае исследований панелей домашних хозяйств, индивидуумов или мелких фирм. Другим примером могут служить представители однородных товарных групп, образованных товарами-заменителями.
Модель со случайными эффектами можно рассматривать как компромисс между сквозной регрессией, налагающей сильное ограничение гомогенности на все коэффициенты уравнения регрессии для любых i и t, и регрессией FE, которая позволяет для каждого объекта выборки ввести свою константу и, таким образом, учесть существующую в реальности, но ненаблюдаемую гетерогенность.
Поиски такого компромисса бывают вызваны следующими причинами:
• оценки модели FE хотя и состоятельны для статических моделей в отсутствии эндогенности, но часто не очень эффективны. Иными словами, может получиться так, что коэффициенты при наиболее интересующих нас переменных окажутся незначимы;
• модель FE не позволяет оценивать коэффициенты при инвариантных по времени регрессорах, так как они элиминируются из модели после преобразования «within».
Сквозная регрессионная модель хотя и лишена этих недостатков, но часто дает несостоятельные оценки, поскольку никак не учитывает индивидуальную гетерогенность.
В модели со случайными эффектами (ui – случайны) индивидуальная гетерогенность учитывается не в самом уравнении, а в матрице ковариаций, которая имеет блочно-диагональный вид, так как внутри каждой группы случайные эффекты корреллируют между собой. Для оценивания такой регрессии следует использовать обобщенный метод наименьших квадратов (GLS).
1. Тест Хаусмана — применяемый эконометрике тест для сравнения моделей, оцененных разными методами, один из которых позволяет получить состоятельные оценки (факторы модели являются экзогенными) и при нулевой и при альтернативной гипотезе, а другой — только при нулевой гипотезе. Если статистика теста превышает критическое значение, регрессоры модели нельзя считать экзогенными, поэтому лучше использовать метод инструментальных переменных. В противном случае можно считать, что регрессоры не хуже инструментов и применять обычный МНК.
Таким образом, последовательно рассмотрев основные преимущества и проблемы панельных данных, основные регрессионные модели и практический пример использования панельных данных, цель работы была достигнута. На практическом примере были разобраны регрессионная модель со случайными эффектами и модель с фиксированными переменными. Следует отметить, что панельные данные могут быть использованы как для анализа экономических взаимосвязей, так и социально-экономических, как например взаимосвязь содержания диоксида углерода в воздухе с ВВП.