В чем состоит негативное влияние мультиколлинеарности. Проблема мультиколлинеарности факторов в регрессионных моделях. Матрица парных коэффициентов корреляции

  • 5.Порядок оценивания линейной эконометрической модели из изолированного уравнения в Excel. Смысл выходной статистической информации сервиса Регрессия. (10) стр 41
  • 6.Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам. (30) стр.24-25,
  • 7. Классическая парная регресионная модель. Спецификация модели. Теорема Гаусса-Маркова.
  • 8. Метод наименьших квадратов: алгоритм метода, условия применения.
  • 9.Идентификация отдельных уравнений системы одновременных уравнений: порядковое условие. (30)
  • Необходимое условие идентифицируемости
  • 10.Оценка параметров парной регрессионной модели методом наименьших квадратов. (10)
  • 11.Фиктивные переменные: определение, назначение, типы.
  • 12.Автокорреляция случайного возмущения. Причины. Последствия.
  • 13.Алгоритм проверки значимости регрессора в парной регрессионной модели.
  • 14.Интервальная оценка ожидаемого значения зависимой переменной в парной регрессионной модели.
  • 15. Тест Чоу на наличие структурных изменений в регрессионной модели. (20) стр. 59,60
  • 16. Алгоритм проверки адекватности парной регрессионной модели. (20) стр. 37, 79
  • 17. Коэффициент детерминации в парной регрессионной модели.
  • 18. Оценка параметров множественной регрессионной модели методом наименьших квадратов.
  • 20. Гетероскедастичность случайного возмущения. Причины. Последствия. Тест gq(20)
  • 21.Фиктивная переменная наклона: назначение; спецификация регрессионной модели с фиктивной переменной наклона; значение параметра при фиктивной переменной. (20) стр.65
  • 22..Алгоритм теста Дарбина-Уотсона на наличие (отсутствие) автокорреляции случайных возмущений. (20) стр 33
  • 23. Структурная и приведённая формы спецификации эконометрических моделей.
  • 24. Гетероскедастичность случайного возмущения. Причины. Последствия. Алгоритм теста Голдфельда-Квандта на наличие или отсутствие гетероскедастичности случайных возмущений.
  • Алгоритм теста Голдфелда-Квандта на наличие (отсутствие) гетероскедастичности случайных возмущений.
  • 25. Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам.
  • 26. Способы корректировки гетероскедастичности. Метод взвешенных наименьших квадратов
  • 27.Проблема мультиколлинеарности в моделях множественной регрессии.Признаки мультиколлениарности.
  • 28.Что такое логит,тобит,пробит.
  • 29. Что такое Метод наибольшего правдоподобия стр. 62.
  • 30. Что такое стационарный процесс?
  • 31.Свойства временных рядов.
  • 32.Модели ar и var .
  • 33. Идентифицируемость системы.
  • 34. Настройка модели с системой одновременных уравнений.
  • 35.Что такое метод Монте-Карло стр 53
  • 36.Оценить качество модели по f, gq, dw (линейнные).Стр.33, 28-29
  • 37. Оценка погрешностей параметров эконометрической модели методом Монте-Карло.
  • 38. Отражение в модели влияния неучтённых факторов. Предпосылки теоремы Гаусса-Маркова.
  • 39.Модели временных рядов. Свойства рядов цен акций на бирже (20) с.93.
  • 40. Ожидаемое значение случайной переменной, её дисперсия и среднее квадратическое отклонение. (20) с.12-21
  • 41. Оценка параметров парной регрессионной модели методом наименьших квадратов с использованием сервиса Поиск решения.
  • 42. Проверка статистических гипотез, t-статистика Стьюдента, доверительная вероятность и доверительный интервал, критические значения статистики Стьюдента. Что такое “толстые хвосты”?
  • 43.Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности
  • 44. Частные коэффициенты детерминации.
  • 46. Экономический смысл коэффициентов линейного и степенного уравнений регрессии.
  • 47.Оценка коэффициентов модели Самуэльсона-Хикса
  • 48. Ошибки от включения в модель незначимых переменных или исключения значимых.С.80
  • 49. Исследование множественной регрессионной модели с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.
  • 51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100
  • 52. Структурная и приведённая формы спецификации эконометрических моделей.
  • 53. Алгоритм проверки значимости регрессора в парной регрессионной модели. По t-статистике, по f-статистике.
  • 54.Свойства рядов цен на фондовом рынке. Принципы построения портфеля Марковица с.93,102
  • 55.Динамическая модель из одновременных линейных уравнений (привести пример) с.105.
  • 56. Метод наибольшего правдоподобия: принципы и целесообразность использования
  • 57. Этапы исследования модели множественной регрессии с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.

    Мультиколлинеарность – это взаимная зависимость влияющих переменных. Проблема состоит в том, что при её наличии становится сложно или невозможно разделить влияние регрессоров на зависимую переменную, и коэффициенты теряют экономический смысл предельной функции или эластичности. Дисперсии коэффициентов растут, сами коэффициенты, оценённые по различным выборкам или методом Монте-Карло, коррелируют между собой. Это приводит к тому, что в области настройки модели графики Y и Ŷ прекрасно совпадают, R2 и F высокие, а в области прогноза графики могут совпасть, что можно объяснить взаимным подавлением погрешностей или расходятся, то есть модель оказывается неадекватной.

    Как обнаружить мультиколлинеарность? Проще всего – по корреляционной матрице. Если коэффициенты корреляции регрессоров больше 0,7, значит они взаимосвязаны. Числовой характеристикой мультиколлинеарности может служить определитель корреляционной матрицы. Если он близок к 1, то регрессоры независимы; если к 0, значит они связаны сильно.

    Как бороться с мультиколлинеарностью?

    1. Смириться, принять во внимание и ничего не делать.

    2.Увеличить объём выборки: дисперсии коэффициентов обратно пропорциональны количеству замеров.

    3.Удалять из модели регрессоры, слабо коррелирующие с зависимой переменной, или коэффициенты которых имеют малую t-статистику. Как видно из таблицы 7.10, при этом происходит смещение коэффициентов при значимых регрессорах, и возникает вопрос об их экономическом смысле. (А смысл такой: если регрессоры коррелируют и вы можете ими управлять, например, расходы на станки и рабочих, то придётся изменять их пропорционально). F-статистика, то есть качество модели, при этом растёт.

    4.Использовать в уравнении регрессии агрегаты из коррелирующих переменных: линейные комбинации с коэффициентами, обратно пропорциональными стандартным отклонениям переменных и выравнивающими их масштабы. Такие агрегаты обычно не имеют экономического смысла, но могут повысить адекватность модели.

    5.Факторный анализ, или Метод главных компонент. Используется, если переменных много, но они являются линейными комбинациями небольшого количества независимых факторов, может быть, не имеющих экономического смысла.

    51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

    Временной ряд – это конечная реализация c тохастического процесса : генерации набора случайных переменных Y (t ).

    Стохастический процесс может быть стационарным и нестационарным. Процесс является стационарным , если

      Математическое ожидание значений переменных не меняется.

      Математическое ожидание дисперсий переменных не меняется.

    3. Нет периодических флуктуаций.

    Распознавание стационарности:

    1. График: систематический рост или убывание, волны и зоны высокой волатильности (дисперсии) в длинном ряде сразу видны.

    2. Автокорреляция (убывает при росте лага)

    3. Тесты тренда: проверка гипотезы о равенстве нулю коэффициента при t .

    4. Специальные тесты, включённые в пакеты компьютерных программ Stata, EViews и др., например, тест Дики-Фуллера (Dickey-Fuller) на единичный корень (Unit root).

    Чисто случайный процесс, стационарный с отсутствием автокорреляции (Cor(u i / u k ) = 0) называется Белый шум.

    Пример нестационарного процесса – случайное блуждание

    Y(t) = Y(t-1) + a(t) где a(t) – белый шум.

    Интересно, что процесс Y (t) = 0,999* Y (t-1) + a(t) является стационарным

    Принципиальную возможность избавиться от нестационарности называют интегрируемость. Применяют различные способы избавления от нестационарности:

    1. Вычитание тренда, что мы и делали в предыдущем разделе;

    2. Использование разностей 1-го, 2-го и т.д. порядков, что можно делать только после сглаживания временного ряда (или энергетического спектра), иначе все эффекты будут подавлены статистическими флуктуациями: дисперсия разности равна сумме дисперсий.

    Для исследования рядов цен на фондовом рынке применяются модели, использующие белый шум и авторегрессию, то есть взаимную зависимость уровней временного ряда.

    Модель MA(q) (moving average) – линейная комбинация последовательных элементов белого шума

    X(t) = a(t) – K(1)*a(t-1) – …. – K(q)*a(t-q)

    X(t) = b0 + b1*X(t-1) + …. + bp*X(t-p)

    Особенно популярны их комбинации

    ARMA(p,q) = AR(p) + MA(q)

    и ARIMA(p, i ,q): то же, с интегрируемостью i –го порядка.

    "

    Основные положения

    Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность . Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов , если определитель матрицы будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

    В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью , которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

    Среди последствий частичной мультиколлинеарности можно выделить следующие:

    • увеличение дисперсий оценок параметров
    • уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
    • получение неустойчивых оценок параметров модели и их дисперсий
    • возможность получения неверного с точки зрения теории знака у оценки параметра

    Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

    Методы устранения мультиколлинеарности

    Существует два основных подхода к решению этой задачи.

    Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.

    Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты - это метод предварительного центрирования . Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).

    Мультиколлинеарность – это коррелированность двух или нескольких переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

    1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

    2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (индекс детерминации имеет высокое значение).

    Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

    Различают два вида мультиколлинеарности: полную и частичную.

    Например, если в модели объясняющие переменные связаны линейным соотношением , то исходное уравнение сводится к уравнению простой линейной зависимости .

    Последнее уравнение не позволяет разделить вклады и в объяснение поведения переменной .

    Полная (совершенная) мультиколлинеарность имеет место, когда между переменными имеется линейная функциональная связь.

    Частичная (несовершенная) коллинеарность возникает в случае достаточно тесных линейных статистических связей между объясняющими переменными.

    Несовершенная мультиколлинеарность факторов характеризуется величиной коэффициента корреляции между ними. Чем больше значение коэффициента корреляции, тем труднее разделить влияние объясняющих переменных и тем менее надежными будут оценки коэффициентов регрессии при этих переменных. Поэтому, если при оценке уравнения регрессии несколько объясняющих переменных оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого рассчитывается корреляционная матрица (это предусмотрено стандартными статистическими пакетами), и проверяется статистическая значимость коэффициентов парной корреляции. При наличии сильной корреляции (коэффициент корреляции по абсолютной величине больше 0,7) один из пары связанных между собой факторов исключается или в качестве объясняющей переменной берется какая-то их функция. Если незначимой оказалась только одна переменная, то ее можно исключить или заменить другой.

    Для оценки наличия мультиколлинеарности может быть использован определитель матрицы межфакторной корреляции, а значимость мультиколлинеарности факторов может быть оценена с помощью статистики .

    В ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.


    Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

    Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет столь серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

    В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

    Литература:

    1. Елисеева И.И. Эконометрика: учебник. М.: Финансы и статистика, 2008.

    2. Бородич С.А. Эконометрика: учебное пособие. Мн.: Новое знание, 2001.

    3. Кремер Н.Ш. Эконометрика: учебник для студентов вузов. М.: ЮНИТИ-ДАНА, 2008.

    Еще одной серьезной проблемой при построении моделей множественной линейной регрессии по МНК является мультиколлинеарность − линейная взаимосвязь двух или нескольких объясняющих переменных. Причем, если объясняющие переменные связаны строгой функциональной зависимостью, то говорят о совершенной мультиколлинеарности . На практике можно столкнуться с очень высокой (или близкой к ней) мультиколлинеарностью − сильной корреляционной зависимостью между объясняющими переменными. Причины мультиколлинеарности и способы ее устранения анализируются ниже.

    10.1. Суть мультиколлинеарности

    Мультиколлинеарность может быть проблемой лишь в случае множественной регрессии. Ее суть можно представить на примере совершенной мультиколлинеарности.

    Пусть уравнение регрессии имеет вид

    Y = β 0 + β 1 X1 + β 2 X2 + ε .

    Пусть также между объясняющими переменными существует

    строгая линейная зависимость:

    X2 = γ 0 + γ 1 X1 .

    Подставив (10.2) в (10.1), получим:

    Y = β 0 + β 1 X1 +β 2 (γ 0 + γ 1 X1 ) + ε

    или Y = (β 0 + β 2 γ 0 ) + (β 1 + β 2 γ 1 )X1 + ε .

    Обозначив β 0 + β 2 γ 0 = a, β 1 + β 2 γ 1 = b, получаем уравнение парной линейной регрессии:

    Y = a + b X1 + ε .

    По МНК нетрудно определить коэффициенты a и b. Тогда получим систему двух уравнений:

    В 2 г 1

    В систему (10.4) входят три неизвестные β 0 , β 1 , β 2 (коэффициенты γ 0 и γ 1 определены в (10.2)). Такая система в подавляющем числе случаев имеет бесконечно много решений. Таким образом, совершен-

    ная мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии уравнения (10.1) и разделить вклады объясняющих переменных X1 и X2 в их влиянии на зависимую переменную Y. В этом случае невозможно сделать обоснованные статистические выводы об этих коэффициентах. Следовательно, в случае мультиколлинеарности выводы по коэффициентам и по самому уравнению регрессии будут ненадежными.

    Совершенная мультиколлинеарность является скорее теоретическим примером. Реальна же ситуация, когда между объясняющими переменными существует довольно сильная корреляционная зависимость, а не строгая функциональная. Такая зависимость называется

    несовершенной мультиколлинеарностью. Она характеризуется высо-

    ким коэффициентом корреляции ρ между соответствующими объясняющими переменными. Причем, если значение ρ по абсолютной величине близко к единице, то говорят о почти совершенной мультиколлинеарности. В любом случае мультиколлинеарность затрудняет разделение влияния объясняющих факторов на поведение зависимой переменной и делает оценки коэффициентов регрессии ненадежными. Данный вывод наглядно подтверждается с помощью диаграммы Вен-

    на (рис. 10.1).

    X 1 X 2

    X 1 X 2

    На рис. 10.1, а коррелированность между объясняющими переменными Х1 и Х2 отсутствует и влияние каждой из них на Y находит отражение в наложении кругов Х1 и Х2 на круг Y. По мере усиления линейной зависимости между Х1 и Х2 соответствующие круги все больше накладываются друг на друга. Заштрихованная область отра-

    жает совпадающие части влияния Х1 и Х2 на Y. На рис. 10.1, г при совершенной мультиколлинеарности невозможно разграничить степени индивидуального влияния объясняющих переменных Х1 и Х2 на зависимую переменную Y.

    10.2. Последствия мультиколлинеарности

    Как известно, при выполнении определенных предпосылок МНК дает наилучшие линейные несмещенные оценки (BLUE-оценки). Причем свойство несмещенности и эффективности оценок остается в силе даже, если несколько коэффициентов регрессии оказываются статистически незначимыми. Однако несмещенность фактически означает лишь то, что при многократном повторении наблюдений (при постоянных объемах выборок) за исследуемыми величинами средние значения оценок стремятся к их истинным значениям. К сожалению, повторять наблюдения в одинаковых условиях в экономике практически невозможно. Поэтому это свойство ничего не гарантирует в каждом конкретном случае. Наименьшая возможная дисперсия вовсе не означает, что дисперсия оценок будет мала по сравнению с самими оценками. В ряде случаев такая дисперсия достаточно велика, чтобы оценки коэффициентов стали статистически незначимыми.

    Обычно выделяются следующие последствия мультиколлинеарности:

    1. Большие дисперсии (стандартные ошибки) оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

    2. Уменьшаются t-статистики коэффициентов, что может привести к неоправданному выводу о существенности влияния соответствующей объясняющей переменной на зависимую переменную.

    3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т. е. они становятся неустойчивыми.

    4. Затрудняется определение вклада каждой из объясняющей переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

    5. Возможно получение неверного знака у коэффициента регрессии. Причину последствий 3, 4 можно наглядно проиллюстрировать

    на примере регрессии (10.1). Данную регрессию можно рассматривать

    как проекцию вектора Y на плоскость векторов X1 и X2 . Если между этими векторами существует тесная линейная зависимость, то угол между векторами X1 и X2 мал. В силу этого операция проектирования становится неустойчивой: небольшое изменение в исходных данных может привести к существенному изменению оценок. На рис. 10.2 векторы Y и Y′ различаются незначительно, но в силу малого угла между X1 и X2 координаты векторов Y и Y′ не только значительно различаются по величине, но и по знаку.

    Y ′

    10.3. Определение мультиколлинеарности

    Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

    1. Коэффициент детерминации R 2 достаточно высок, но некоторые из коэффициентов регрессии статистически незначимы, т.е. они имеют низкие t-статистики.

    2. Парная корреляция между малозначимыми объясняющими переменными достаточно высока.

    Однако данный признак будет надежным лишь в случае двух объясняющих переменных. При большем их количестве более целесообразным является использование частных коэффициентов корреляции.

    3. Высокие частные коэффициенты корреляции.

    Частные коэффициенты корреляции определяют силу линейной зависимости между двумя переменными без учета влияния на них других переменных. Однако при изучении многомерных связей в ряде случаев парные коэффициенты корреляции могут давать совершенно неверные представления о характере связи между двумя переменными. Например, между двумя переменными Х и Y может быть высокий положительный коэффициент корреляции не потому, что одна из них

    стимулирует изменение другой, а оттого, что обе эти переменные изменяются в одном направлении под влиянием других переменных, как учтенных в модели, так и, возможно, неучтенных. Поэтому имеется необходимость измерять действительную тесноту линейной связи между двумя переменными, очищенную от влияния на рассматриваемую пару переменных других факторов. Коэффициент корреляции между двумя переменными, очищенными от влияния других переменных, на-

    зывается частным коэффициентом корреляции.

    Например, при трех объясняющих переменных X1 , X2 , X3 частный коэффициент корреляции между X1 и X2 рассчитывается по формуле:

    r 12.3

    r 12 − r 13r 23

    − r2 )(1

    − r 2

    Опираясь на данную формулу, нетрудно заметить, что частный коэффициент корреляции может существенно отличаться от “обычного” коэффициента корреляции r12 . Пусть, например, r12 = 0.5; r13 = 0.5; r23 = − 0.5. Тогда частный коэффициент корреляции r12.3 = 1, т. е. при относительно невысоком коэффициенте корреляции r12 частный коэффициент корреляции r12.3 указывает на высокую зависимость (коллинеарность) между переменными X1 и X2 . Нетрудно показать, что возможна и обратная ситуация. Другими словами, для более обоснованного вывода о корреляции между парами объясняющих переменных необходимо рассчитывать частные коэффициенты корреляции.

    В общем случае выборочный частный коэффициент корреляции межу переменными Xi и Xj (1 ≤ i < j ≤ m), очищенный от влияния остальных (m − 2) объясняющих переменных, символически обозначается

    r ij. 1 2 … (i − 1)(i+1)…(j − 1)(j+1)…m .

    Приведем без доказательства формулу расчета данного коэффициента.

    Пусть эмпирические парные коэффициенты корреляции между всевозможными парами объясняющих переменных Х1 , Х2 , …, Хm представлены в виде корреляционной матрицы

    R = r

    R3m .

    ... ...

    −1

    c mm

    С * − обратная матрица к матрице R . Тогда

    r ij. 1 2 … (i − 1)(i +1)…(j − 1)(j +1)…m =

    − c * ij

    c * ii c * jj

    Из общей формулы (10.6) легко получаются частные формулы

    (10.5) для трех переменных и (10.7) для четырех переменных:

    r ij. kl =

    r ij. k − r il. k r jl. k

    (1− r2

    )(1 − r2

    il. k

    jl. k

    Пусть rj = ryj . 1 2 …(j − 1)(j +1)…m − частный коэффициент корреляции между зависимой переменной Y и переменной Хj , очищенный от

    влияния всех остальных объясняющих переменных. Тогда rj 2 − част-

    ный коэффициент детерминации, который определяет процент дисперсии переменной Y, объясняемый влиянием только переменной Хj .

    Другими словами, rj 2 , j = 1, 2, …,m позволяет оценить вклад каждой переменной Xj на рассеивание переменной Y.

    4. Сильная вспомогательная (дополнительная) регрессия.

    Мультиколлинеарность может иметь место вследствие того, что какая-либо из объясняющих переменных является линейной (или близкой к линейной) комбинацией других объясняющих переменных. Для данного анализа строятся уравнения регрессии каждой из объясняющих переменных Xj , j = 1, 2, … , m на оставшиеся объясняющие переменные вспомогательные регрессии. Вычисляются соответствующие коэффициенты детерминации Rj 2 и рассчитывается их статистическая значимость на основе F-статистики

    R2 j

    n − m

    − R 2 j

    m − 1

    Здесь n − число наблюдений, m − число объясняющих переменных в первоначальном уравнении регрессии. Статистика F имеет распределение Фишера с ν 1 = m − 1 и ν 2 = n − m степенями свободы. Данная формула аналогична формуле (6.36). Если коэффициент Rj 2 статистически незначим, то Xj не является линейной комбинацией других переменных и ее можно оставить в уравнении регрессии. В противном случае есть основания считать, что Xi существенно зависит от других объясняющих переменных, и имеет место мультиколлинеарность.

    Существует и ряд других методов определения мультиколлинеарности, описание которых выходит за рамки данной книги.

    10.4. Методы устранения мультиколлинеарности

    Прежде чем указать основные методы устранения мультиколлинеарности, отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы прилагать серьезные усилия по ее выявлению и устранению. Ответ на этот вопрос в основном зависит от целей исследования.

    Если основная задача модели − прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2 (≥ 0.9) наличие мультиколлинеарности зачастую не сказывается на прогнозных качествах модели. Хотя это утверждение будет обоснованным лишь в том случае, что и в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее.

    Если же целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность представляется серьезной проблемой.

    Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.

    10.4.1. Исключение переменной(ых) из модели

    Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

    Однако необходима определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого возможно получение смещенных оценок и осуществление необоснованных выводов. Таким образом, в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.

    10.4.2. Получение дополнительных данных или новой выборки

    Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной.

    Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, данный подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

    10.4.3. Изменение спецификации модели

    В ряде случаев проблема мультиколлинеарности может быть решена изменением спецификации модели: либо изменением формы модели, либо добавлением объясняющих переменных, которые не учтены в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

    10.4.4. Использование предварительной информации

    о некоторых параметрах

    Иногда при построении модели множественной регрессии можно воспользоваться некоторой предварительной информацией, в частно-

    сти, известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, полученные для ка- ких-либо предварительных (обычно более простых) моделей, либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

    Для иллюстрации приведем следующий пример. Строится регрессия вида (10.1). Предположим, что переменные X1 и X2 коррелированны. Для ранее построенной модели парной регрессии Y = γ 0 +

    + γ 1 X1 +υ был определен статистически значимый коэффициент γ 1 (для определенности пусть γ 1 = 0.8), связывающий Y с X1 . Если есть основания думать, что связь между Y и X1 останется неизменной, то можно положить γ 1 = β 1 = 0.8. Тогда (10.1) примет вид:

    Y = β 0 + 0.8X1 + β 2 X2 + ε .

    Y – 0.8X1 = β 0 + β 2 X2 + ε .

    Уравнение (10.9) фактически является уравнением парной регрессии, для которого проблема мультиколлинеарности не существует.

    Ограниченность использования данного метода обусловлена тем, что, во-первых, получение предварительной информации зачастую затруднительно, а во-вторых, вероятность того, что выделенный коэффициент регрессии будет одним и тем же для различных моделей, невысока.

    10.4.5. Преобразование переменных

    В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

    Например, пусть эмпирическое уравнение регрессии имеет вид

    Y = b0 + b1 X1 + b2 X2 ,

    причем X1 и X2 − коррелированные переменные. В этой ситуации можно попытаться определять регрессионные зависимости относительных величин

    1 X 1

    1 X 2

    Вполне вероятно, что в моделях, аналогичных (10.11), проблема мультиколлинеарности будет отсутствовать.

    Возможны и другие преобразования, близкие по своей сути к вышеописанным. Например, если в уравнении рассматриваются взаимосвязи номинальных экономических показателей, то для снижения мультиколлинеарности можно попытаться перейти к реальным показателям и т. п.

    Вопросы для самопроверки

    1. Объясните значение терминов “коллинеарность” и “мультиколлинеарность”.

    2. В чем различие между совершенной и несовершенной мультиколлинеарностью?

    3. Каковы основные последствия мультиколлинеарности?

    4. Как можно обнаружить мультиколлинеарность?

    5. Как оценивается коррелированность между двумя объясняющими переменными?

    6. Перечислите основные методы устранения мультиколлинеарности.

    7. Какие из следующих утверждений истинны, ложны или не определены? Ответ поясните.

    а) При наличии высокой мультиколлинеарности невозможно оценить статистическую значимость коэффициентов регрессии при коррелированных переменных.

    б) Наличие мультиколлинеарности не является препятствием для получения по МНК BLUE-оценок.

    в) Мультиколлинеарность не является существенной проблемой, если основная задача построенной регрессионной модели состоит в прогнозировании будущих значений зависимой переменной.

    г) Высокие значения коэффициентов парной корреляции между объясняю-

    щими переменными не всегда являются признаками мультиколлинеарности. д) Так как Х2 является строгой функцией от Х, то при использовании обеих переменных в качестве объясняющих возникает проблема мультиколлинеарности.

    е) При наличии мультиколлинеарности оценки коэффициентов остаются не-

    смещенными, но их t-статистики будут слишком низкими.

    ж) Коэффициент детерминации R2 не может быть статистически значимым, если все коэффициенты регрессии статистически незначимы (имеют низкие t- статистики).

    з) Мультиколлинеарность не приводит к получению смещенных оценок коэффициентов, но ведет к получению смещенных оценок для дисперсий коэф-

    фициентов.

    и) В регрессионной модели Y = β 0 + β 1 X1 + β 2 X2 + ε наличие мультиколлинеарности можно обнаружить, если вычислить коэффициент корреляции между Х1 и Х2 .

    8. Пусть по МНК оценивается уравнение регрессии Y = β 0 + β 1 X1 + β 2 X2 + ε . Для большинства выборок наблюдается высокая коррелированность между

    X1 и X2 . Пусть коррелированности между этими переменными не наблюдается. Коэффициенты регрессии оцениваются по данной выборке. Будут ли в этом случае оценки несмещенными? Будут ли несмещенными оценки дисперсий найденных эмпирических коэффициентов регрессии?

    9. Объясните логику отбрасывания объясняющей переменной с целью устранения проблемы мультиколлинеарности.

    10. Пусть в уравнении регрессии Y = β 0 + β 1 X1 + β 2 X2 + ε переменные X1 и X2

    сильно коррелированны. Строится уравнение регрессии X2 на X1 , случайные отклонения от которой обозначим через υ . Строится новое уравнение регрес-

    сии с зависимой переменной Y и двумя объясняющими переменными − Х2 и υ . Будет ли решена таким образом проблема мультиколлинеарности?

    Упражнения и задачи

    1. Имеется выборка из 10 наблюдений за переменными X 1 , X2 , Y:

    а) Можно ли по этим данным по МНК оценить коэффициенты регрессии с двумя объясняющими переменными. Ответ поясните.

    б) В случае отрицательного ответа на вопрос а) предложите преобразования, которые позволят оценить коэффициенты регрессии.

    2. По выборке n = 50 для X 1 , Х2 , X3 построена следующая корреляционная матрица

    − 0.35

    − 0.35

    эффициентов корреляции r12.3 , r23.1 , r13.2 .

    б) При рассмотрении какой регрессии будет иметь место мультиколлинеарность?

    3. После оценки уравнения регрессии Y = b 0 + b1 X1 + b2 X2 + e был рассчитан коэффициент корреляции rx 1 x 2 = 0. Были рассчитаны уравнения парной

    регрессии: Y = с0 + с1 X1 + υ ; Y = d0 + d2 X2 + ϖ .

    Можно ли ожидать, что будут выполняться следующие соотношения:

    а) b1 = с1 ; b2 = d2 ;

    б) b0 равен либо с0 , либо d0 , либо некоторой их комбинации;

    в) S(b1 ) = S(с1 ); S(b2 ) = S(d2 ) .

    а) Постройте уравнение регрессии INV = b0 + b1 GNP + b2 CONS + e. б) Оцените качество построенного уравнения.

    в) Можно ли было ожидать при построении данного уравнения наличия мультиколлинеарности? Ответ поясните.

    г) Имеет ли место мультиколлинеарность для построенного вами уравнения? Как вы это определили?

    д) Постройте уравнения регрессии INV на GNP и INV на CONS. Какие выводы можно сделать по построенным моделям?

    е) Постройте уравнение регрессии CONS на GNP. Что обнаруживает построенная модель?

    ж) Как можно решить проблему мультиколлинеарности для первоначальной модели?

    5. Пусть исследуется вопрос о среднем спросе на кофе AQ (в граммах на одно-

    го человека). В качестве объясняющих переменных предполагается использовать следующие переменные: PC − индекс цен на кофе, lnYD − логарифм от реального среднедушевого дохода, POP − численность населения, PT − индекс цен на чай. Можно ли априори предвидеть, будут ли в этом случае

    значимыми все t-статистики и будет ли высоким коэффициент детерминации R2 ? Какими будут ваши предложения по уточнению состава объясняющих переменных.

    6. Пусть рассматривается следующая модель:

    CONSt = β 0 + β 1 GNPt + β 2 GNPt − 1 +β 3 (GNPt − GNPt − 1 ) + ε ,

    где CONSt − объем потребления в момент времени t; GNPt , GNPt − 1 − объемы ВНП в моменты времени t и t− 1 соответственно.

    а) Что утверждается в данной модели?

    б) Можно ли по МНК оценить все коэффициенты указанного уравнения регрессии?

    в) Какой из коэффициентов и вследствие чего нельзя оценить?

    г) Решит ли проблему оценки исключение из модели переменной GNPt или переменной GNPt − 1 ? Ответ поясните.