Вы на НеОфициальном сайте факультета ЭиП

На нашем портале ежедневно выкладываются материалы способные помочь студентам. Курсовые, шпаргалки, ответы и еще куча всего что может понадобиться в учебе!
Главная Контакты Карта сайта
 
Где мы?
» » » Численные методы обработки информации

Реклама


Численные методы обработки информации

Просмотров: 4582 Автор: admin
Задание: необходимо провести анализ данных варианта 7 («Лекарства»). Анализ подразумевает проведение линейной и множественной регрессии, исследование данных на наличие автокорреляции, гетероскедастичности, а также получение прогноза значений на 2 года.

Исходные данные представляют собой выборку:
Размер выборки равен 18, однако для проведения анализа используется только 16 значений: оставшиеся 2 значения используются для проверки прогноза, проводимого на 2 года вперед.
В первых двух строках таблицы исходных данных представлены дефляторы цен, третья строка отображает величину потребительских расходов населения на данный вид товара (y), четвертая – личный располагаемый доход населения (I), а в последней строке представлена цена на товар (P). Обработка данных проводилась в системе MathCAD 13. 
Первоначально было найдены линейные уравнения парной регрессии для дохода (I) и цены (P). Данные уравнения имеют вид:
y(P) = a0 + P*a1;
y(I) = a0 + I*a1.
Для получения расчетных значений y (расходы) были найдены коэффициенты a0 и a1. Их значения составили:
- для P (цена): a0 = 20,846, a1 = -0,125.
- для I (доход): a0 = -3,429, a1 = 0,015.
На основе полученный данных были построены графики зависимости между расходами населения на данный товар (y) и доходом (I), а также расходами и ценой (P). На рисунке 1 изображен график линейной регрессии цены.


Рис. 1. График линейной регрессии цены


На рисунке 2 изображен график линейной регрессии дохода.

Рис.2. График линейной регрессии дохода
Коэффициенты детерминации RI и RP составили соответственно 0,965 и 0,98. Это значит, что большая доля расходов (y) – 96% и 98% – объясняется за счет учтенных признаков (I и P). Для проверки значимости полученных коэффициентов использовался критерий Стьюдента. Табличное значение критерия составляет 2,97 для 1%-ной вероятности, это значительно меньше расчетных результатов, что позволяет признать коэффициенты значимыми. То есть практически невероятно, что данные значения параметров обусловлены только случайными совпадениями.
Как видно из рисунка 1 с ростом цены на лекарства расходы населения на данный вид товара снижаются. Что касается графика дохода, то в данном случае функция является возрастающей, то есть с увеличением дохода, расходы населения на лекарства растут.
Следующим этапом анализа является проведение множественной регрессии. Сначала с помощью метода наименьших квадратов были получены коэффициенты линейного уравнения множественной регрессии:
y=a0 + a1*P + a2*I.
Данные коэффициенты составили: a0 = 22,871; a1 = -0,135; a2 = -0,0012.
Также как и для парной регрессии, была проведена проверка значимости уравнения. Однако использовался другой критерий – Фишера. Расчетное значение критерия более чем в 4 раза превысило табличное, что дает право утверждать, что доля вариации, обусловленная регрессией, намного превышает случайную ошибку.
На рисунке 3 изображен график множественной линейной регрессии.
После определения уравнений парной и множественной регрессии и построения графиков необходимо проверить исходные данные на наличие автокорреляции остатков, т.е. на наличие корреляционной зависимости между значениями остатков за текущий и предыдущий моменты времени. При необходимости следует избавиться от автокорреляции.

Рис. 3. График множественной линейной регрессии
Проверка на автокорреляцию осуществляется с помощью критерия Дарбина-Уотсона, который определяется по формуле:
 
В работе был проведен расчет критерия Дарбина-Уотсона для линейного тренда, для кривых второго и третьего порядка. Тем не менее, путем повышения степени полинома не удалось избавиться от автокорреляции. Для полинома первой степени критерий Дарбина-Уотсона составил 0,25. Использование полинома второй степени дало еще худший показатель 0,023. Для полинома третей степени значение составило 0,895. Как видно, во всех трех случаях наблюдается явление положительной автокорреляции. 
Чтобы избавиться от этого для исходных данных был применен анализ с помощью ряда Фурье. Путем экспериментального подбора числа гармоник было выявлено, что оптимальное значение критерия Дарбина-Уотсона достигается при использовании трех гармоник. В этом случае значение критерия равно 2,214, что говорит об отсутствии автокорреляции. В общем виде уравнение, описывающее данные с помощью ряда Фурье, выглядит следующим образом:
y=a0 + ∑(ak*cos(k*ti) + bk*sin(k*ti)),
где k – число гармоник (в нашем случае равно трем).
На рисунке 4 представлен график, описывающий данные, построенный на основе ряда Фурье.



Рис.4. График на основе ряда Фурье
Следующим этапом в исследовании данных является их проверка на гетероскедастичность. Для этой цели было применено 2 критерия: Спирмена и Голдфелда-Квандта.
Тест Спирмена проводился для двух параметров I – дохода и P – цены. В общем виде коэффициент ранговой корреляции для критерия Спирмена выглядит следующим образом:



где di – разность между рангом x и рангом e.
Для параметра I коэффициент ранговой корреляции составил -0,29, а тестовая статистика -0,114. Согласно полученным значениям можно принять нулевую гипотезу об отсутствии гетероскедастичности, поскольку тестовая статистика попадает в интервал от -2,58 до 2,58, установленный для уровня значимости 1%.
Для параметра P коэффициент ранговой корреляции составил 0,138, а тестовая статистика 0,535. В данном случае также можно принять нулевую гипотезу об отсутствии гетероскедастичности, поскольку тестовая статистика попадает в интервал от -2,58 до 2,58, установленный для уровня значимости в 1%.
Для того чтобы убедиться в отсутствии гетероскедастичности в исходных данных был проведен еще один тест – Голдфелда-Квандта. Согласно методике проведения теста было определено соотношение:
F = RSS2 / RSS1,
где RSS2, RSS1 – сумма квадратов остатков в регрессиях для пяти последних и пяти первых наблюдений соответственно.
Для параметра I вышеуказанное соотношение составило 3,768, что более чем в 4 раза меньше табличного значения, то есть можно принять нулевую гипотезу об отсутствии гетероскедастичности между данными дохода и расхода на товар.
Для параметра P тест Голдфелда-Квандта также подтвердил нулевую гипотезу об отсутствии гетероскедастичности: соотношение RSS2 / RSS1 составило 0,492, в то время как табличное значение равно 29,46.
В качестве дополнительного, не предусмотренного заданием, исследования для данных был применен метод Кокрана-Оркатта для избавления от автокорреляции. После проведения итерационного процесса, предусмотренного алгоритмом метода Кокрана-Оркатта, был получен коэффициент Дарбина-Уотсона, составивший 1,217. Условие отсутствия автокорреляции заключается в том, что величина DW, вообще говоря, должна лежать в промежутке от 1,5 до 2,5. Как видно полученное значение 1,217 не попадает в данных промежуток. Однако если провести сравнения с табличными данными d-статистики, получим следующую картину (для 1% уровня значимости): dL = 0,84 и dU = 1,09. То есть расчетное значение критерия Дарбина-Уотсона превышает верхнюю границу для критического значения DW, что позволяет говорить об отсутствии автокорреляции в данных.
Заключительным этапом в работе является построение прогноза для 17 и 18 значения исходных данных (на 2 года). На рисунке 5 изображен график имеющихся и прогнозных значений.

Рис. 5. График прогнозных значений
Зеленой точкой на графике обозначено спрогнозированное 17-ое значение, оно составило 9,781. Точкой лилового цвета обозначено прогнозное значение для 18-ого элемента, оно составило 9,796. Сравним эти результаты с имеющимися реальными цифрами с целью проверки точности прогноза. Итак, 17-ое и 18-ое фактические значения равны 9,7 и 10 соответственно. Как видим, прогноз достаточно точен, особенно для 17-ого значения, хотя погрешность для 18-го элемента составляет всего 0,3, что также можно считать хорошим показателем.
Аватар пользователя

aligreedmer написал:

Комментарий №1 - 4 июня 2009 16:44 Гости

Админ я не могу зарегестрироваться может я просто не то делаю ?

Информация

Комментировать статьи на нашем сайте возможно только в течении 60 дней со дня публикации.

Популярные новости

Статистика сайта



Rambler's Top100



 
Copyright © НеОфициальный сайт факультета ЭиП