В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).
Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).
- Понятие о корреляционном анализе
- Задачи корреляционного анализа
- Связь корреляционного анализа с регрессионным
- Правила отбора факторов корреляционного анализа
- Отображение результатов
- Трехмерное представление диаграммы разброса (рассеивания)
- Оценка тесноты связи
- Пример применения метода корреляционного анализа
- Использование ПО при проведении корреляционного анализа
- В заключение
- Использование корреляционно-регрессионного анализа для обработки экономических статистических данных (стр. 1 из 3)
- математического и компьютерного моделирования
- Метод корреляционно-регрессионного анализа
- Что такое корреляционно-регрессионный анализ (КРА) предприятия?
- Где используется корреляционно-регрессионный анализ?
- Задачи, виды и показатели корреляционно-регрессионного анализа
- Оценка
- Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа :
- Что такое корреляционная диаграмма?
- Допущения и упрощения
- Линейная корреляция Пирсона
- Свойства и предостережения
- Коэффициент ранговой корреляции Спирмана
- Корреляционно-регрессионный анализ: пример
- Проблемы применения
- Зависимость и причинно-следственная связь
- Зачем использовать регрессионный анализ?
- Линейная и множественная регрессия
- Применение корреляционно-регрессионного анализа
- 🎥 Видео
Понятие о корреляционном анализе
Существует множество определений термина. Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.
Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными.
При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей.
Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.
При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.
В этом случае говорят о ложной корреляции.
Задачи корреляционного анализа
Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.
Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:
- выявление факторов, оказывающих наибольшее влияние на результативный признак;
- выявление неизученных ранее причин связей;
- построение корреляционной модели с ее параметрическим анализом;
- исследование значимости параметров связи и их интервальная оценка.
Связь корреляционного анализа с регрессионным
Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами.
Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод корреляционно-регрессионного анализа.
Результативные факторы зависят от одного до нескольких факторов.
Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках.
Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.
Правила отбора факторов корреляционного анализа
При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи.
В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.
Отображение результатов
Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.
https://www.youtube.com/watch?v=bPOOnevYK-g
При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.
Трехмерное представление диаграммы разброса (рассеивания)
Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.
Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов.
Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj.
Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.
Оценка тесноты связи
Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.
Пример применения метода корреляционного анализа
В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.
Профессиональная группа | курение | смертность |
Фермеры, лесники и рыбаки | 77 | 84 |
Шахтеры и работники карьеров | 137 | 116 |
Производители газа, кокса и химических веществ | 117 | 123 |
Изготовители стекла и керамики | 94 | 128 |
Работники печей, кузнечных, литейных и прокатных станов | 116 | 155 |
Работники электротехники и электроники | 102 | 101 |
Инженерные и смежные профессии | 111 | 118 |
Деревообрабатывающие производства | 93 | 113 |
Кожевенники | 88 | 104 |
Текстильные рабочие | 102 | 88 |
Изготовители рабочей одежды | 91 | 104 |
Работники пищевой, питьевой и табачной промышленности | 104 | 129 |
Производители бумаги и печати | 107 | 86 |
Производители других продуктов | 112 | 96 |
Строители | 113 | 144 |
Художники и декораторы | 110 | 139 |
Водители стационарных двигателей, кранов и т. д. | 125 | 113 |
Рабочие, не включенные в другие места | 133 | 146 |
Работники транспорта и связи | 115 | 128 |
Складские рабочие, кладовщики, упаковщики и работники разливочных машин | 105 | 115 |
Канцелярские работники | 87 | 79 |
Продавцы | 91 | 85 |
Работники службы спорта и отдыха | 100 | 120 |
Администраторы и менеджеры | 76 | 60 |
Профессионалы, технические работники и художники | 66 | 51 |
Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).
Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.
https://www.youtube.com/watch?v=P54pNo7ZCBo
С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами.
Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.
Использование ПО при проведении корреляционного анализа
Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный анализ в Excel предполагает вычисление следующих параметров с использованием функций:
1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.
Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию ПИРСОН (PEARSON) с теми же массивами.
Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».
После указания исходных данных получаем график.
2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента.
Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).
3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция».
Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением.
При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.
В заключение
Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.
После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины.
Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel.
Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.
Видео:Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать
Использование корреляционно-регрессионного анализа для обработки экономических статистических данных (стр. 1 из 3)
Министерство образования Российской Федерации
математического и компьютерного моделирования
КУРСОВАЯ РАБОТА
на тему
“Использование корреляционно-регрессионного анализа для обработки экономических статистических данных”
Выполнил:
студент 3 курса Одинокий А.В.
Научный руководитель:
доцент Озерова В.М.
Иваново 2002
СОДЕРЖАНИЕ
1. Введение
2. Роль корреляцонно-регрессионного анализа в обработке экономических данных
3. Корреляционно-регрессионный анализ и его возможности
4. Предпосылки корреляционного и регрессионного анализа
5. Пакет анализа Microsoft Excel
6. Заключение
7. Литература
Введение
Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась.
Но, пожалуй, ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах.
Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.
https://www.youtube.com/watch?v=scY7IPm2fgY
В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа.
Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей.
Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.
Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи.
Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами.
Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.
Использование возможностей современной вычислительной техники, оснащенной пакетами программ машинной обработки статистической информации на ЭВМ, делает практически осуществимым оперативное решение задач изучения взаимосвязи показателей биржевых ставок методами корреляционно-регрессионного анализа.
При машинной обработке исходной информации на ЭВМ, оснащенных пакетами стандартных программ ведения анализов, вычисление параметров применяемых математических функций является быстро выполняемой счетной операцией.
Данная работа посвящена изучению возможности обработки статистических данных биржевых ставок методами корреляционного и регрессионного анализа с использованием пакета прикладных программ Microsoft Excel.
Роль корреляцонно-регрессионного анализа в обработке экономических данных
Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными.
При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей. Исследование взаимосвязи случайных величин биржевых ставок приводит к теории корреляции, как разделу теории вероятностей и корреляционному анализу, как разделу математической статистики.
Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи.
Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.
Формально корреляционная модель взаимосвязи системы случайных величин может быть представлена в следующем виде: , где Z – набор случайных величин, оказывающих влияние на изучаемые случайные величины.
Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.
Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.
Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими.
Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы.
Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.
https://www.youtube.com/watch?v=wQxaf3LUJcg
Математические модели строятся и используются для трех обобщенных целей:
• для объяснения;
• для предсказания;
• для управления.
Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным.
Оснащение же электронных таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент. Однако, в силу его сложности, освоение его требует значительно больших знаний и усилий, чем освоение простых электронных таблиц.
Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные).
Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.
В экономике значимое уравнение используется, как правило, для прогнозирования изучаемого явления или показателя.
Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные таблицы делают такой анализ легко доступным.
Таким образом, регрессионные вычисления и подбор хороших уравнений — это ценный, универсальный исследовательский инструмент в самых разнообразных отраслях деловой и научной деятельности (маркетинг, торговля, медицина и т. д.).
Усвоив технологию использования этого инструмента, можно применять его по мере необходимости, получая знание о скрытых связях, улучшая аналитическую поддержку принятия решений и повышая их обоснованность.
Корреляционно-регрессионный анализ считается одним из главных методов в маркетинге, наряду с оптимизационными расчетами, а также математическим и графическим моделированием трендов (тенденций). Широко применяются как однофакторные, так и множественные регрессионные модели.
Корреляционно-регрессионный анализ и его возможности
Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков.
Он определяется как метод, применяемый тогда, когда данные наблюдения можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.
Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).
2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным признаком и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции.
Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии.
Величина коэффициентов корреляции служит также оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.
https://www.youtube.com/watch?v=COzEsMocEsI
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия.
Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму.
И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.
Видео:Корреляционно регрессионный анализ примерСкачать
Метод корреляционно-регрессионного анализа
В системе статистической обработки данных и аналитики часто используется сочетание методик корреляции и регрессии.
Создателем корреляционно-регрессионного анализа считается Фрэнсис Гальтон, который разработал теоретическую основу методологии в 1795 году.
В конце 19 века многие европейские ученые в области теории статистики углубили познания в вопросе использования количественных измерителей для отражения связей между явлениями.
Что такое корреляционно-регрессионный анализ (КРА) предприятия?
Корреляционно-регрессионный анализ (КРА) на предприятиях используется для выявления связей между несколькими факторами хозяйственной деятельности и оценки степени взаимозависимости выбранных для анализа критериев. Методика использует два алгоритма действий:
- Корреляция, которая направлена на построение моделей связей.
- Регрессия, используемая для прогнозирования событий на основе наиболее подходящей для ситуации модели связей.
Анализ проводится в несколько шагов:
- постановка задач проведения исследования;
- массовый сбор информации: систематизация статистических данных по конкретным показателям деятельности предприятия в динамике за несколько периодов;
- этап создания модели связей;
- анализ функционирования модели, оценка ее эффективности.
Для проведения КРА необходимо использовать показатели в едином измерителе, все они должны иметь числовое значение.
ОБРАТИТЕ ВНИМАНИЕ! Для достоверности данных и работоспособности модели сведения должны быть собраны за длительный отрезок времени.
Для полноты анализа надо устранить количественные ограничения на показатели модели, должно соблюдаться условие постоянной временной и территориальной структуры рассматриваемой совокупности элементов.
Где используется корреляционно-регрессионный анализ?
Основные ситуации применения КРА:
- Тестирование отношения между несколькими величинами: выявляется, что именно этот показатель является влияющим, а второй – зависимым.
- Определение связи между двумя переменными факторами без уточнения причинно-следственного блока сведений.
- Расчет показателя по изменению значения другого фактора.
Корреляционно-регрессионная методика анализа может применяться для подготовки данных о разных сторонах деятельности компании.
В бизнесе построение моделей зависимости одного показателя от других факторов и дальнейшая эксплуатация выведенной математической формулы позволяют отслеживать оперативное изменение текущей ситуации в выбранном сегменте хозяйствования и быстро принимать управленческие решения.
Например, благодаря КРА можно постоянно отслеживать уровень рыночной стоимости предприятия. Для этого на начальных этапах проводится сбор информации о динамике изменения рыночной стоимости и статистических показателей всех возможных факторов влияния:
- уровень выручки;
- рентабельность;
- размер активов;
- сумма непогашенной дебиторской или кредиторской задолженности;
- резерв сомнительных долгов и др.
Для каждого критерия строится модель, которая выявляет, насколько сильно фактор может влиять на рыночную стоимость бизнес-проекта. Когда все модели построены, оценивается их работоспособность и адекватность.
Из комплекса данных выбирается тот тип взаимосвязей, который отвечает требованиям объективности и достоверности.
На основе полученной схемы связей создается уравнение, которое позволит получать прогнозные данные об изменении рыночной стоимости при условии изменения значения конкретного фактора.
https://www.youtube.com/watch?v=2e6EStpZwIU
Методику можно применять при формировании ценовой политики, составлении бизнес-планов, проработке вопроса о расширении ассортиментного ряда и в других сегментах предпринимательства.
Задачи, виды и показатели корреляционно-регрессионного анализа
Задачи КРА заключаются в:
- идентификации наиболее значимых факторов влияния на конкретный показатель деятельности предприятия;
- количественном измерении тесноты выявленных связей между показателями;
- определении неизвестных причин возникновения связей;
- всесторонней оценке факторов, которые признаны наиболее важными для рассматриваемого показателя;
- выведении формулы уравнения регрессии;
- составлении прогноза возможного результата деятельности при изменении ключевых связанных факторов с учетом возможного влияния других факторных признаков.
КРА подразумевает использование нескольких видов корреляционных и регрессионных методов. Зависимости выявляются при помощи корреляций таких типов:
- парная, если связь устанавливается с участием двух признаков;
- частная – взаимосвязь оценивается между искомым показателем и одним из ключевых факторов, при этом условием задается постоянное значение комплекса других факторов (то есть числовое выражение всех остальных факторов в любых ситуациях будет приниматься за определенную неизменную величину);
- множественная – основу исследования составляет влияние на показатель деятельности не одного фактора, а сразу нескольких критериев (двух и более).
СПРАВОЧНО! Выявленные показатели степени тесноты связей отражаются коэффициентом корреляции.
На выбор коэффициента влияет шкала измерения признаков:
- Шкала номинальная, которая предназначена для приведения описательных характеристик объектов.
- Шкала ординальная нужна для вычисления степени упорядоченности объектов в привязке к одному и более признакам.
- Шкала количественная используется для отражения количественных значений показателей.
Регрессионный анализ пользуется методом наименьших квадратов. Регрессия может быть линейной и множественной. Линейный тип предполагает модель из связей между двумя параметрами.
Например, при наличии таких двух критериев, как урожайность клубники и полив, понятно, что именно объем поступающей влаги будет влиять на объем выращенной и собранной клубники. Если полив будет чрезмерным, то урожай пропадет.
Урожайность же клубники никак не может воздействовать на систему полива.
Множественная регрессия учитывает более двух факторов одновременно. В случае с клубникой при оценке ее урожайности могут использоваться факторы полива, плодородности почвы, температурного режима, отсутствия слизняков, сортовые особенности, своевременность внесения удобрений. Все перечисленные показатели в совокупности оказывают комплексное воздействие на искомое значение – урожайность ягод.
Система показателей анализа формируется критериями классификации. Например, при экстенсивном типе развития бизнеса в качестве показателей могут выступать такие факторы:
- количество сотрудников;
- число заключенных договоров за отчетный период;
- посевные площади;
- прирост поголовья скота;
- расширение дилерской сети;
- объем основных фондов.
При интенсивном типе развития могут применяться следующие показатели:
- производительность труда;
- рентабельность;
- урожайность;
- фондоотдача;
- ликвидность;
- средний объем поставок в отчетном периоде по одному договору.
Оценка
Для оценки достоверности и эффективности модели связей необходимо построить матрицу коэффициентов. Коэффициент в случае парной корреляции вычисляется по формуле:
Диапазон значений коэффициента ограничивается показателями от -1 до +1. Если итоговое значение было получено со знаком плюс, то между рассматриваемыми переменными имеется прямая связь.
Если в результате расчетов значение оказалось отрицательным, то связь будет обратной, то есть при увеличении одного из показателей другой связанный с ним фактор будет уменьшаться.
Пример прямой связи – увеличение посевных площадей будет способствовать росту объема собираемой с полей продукции. Пример обратной связи – увеличение посевных площадей сопровождается снижением урожайности.
https://www.youtube.com/watch?v=GWuPhP3AKQc
Качественный аспект тесноты связи между рассматриваемыми в аналитических расчетах показателями можно оценивать, основываясь на шкале Чеддока.
В соответствии с ее нормами связь будет расцениваться как сильная при значении коэффициента корреляции по абсолютным данным величины выше 0,7. Положительный или отрицательный знак сопровождает числовое значение – неважно, ориентироваться необходимо только на число. Если коэффициент после вычислений оказался ниже 0,3, то связь можно считать слабой.
Для дальнейших этапов анализа выбираются факторы с высокой степенью связанности. Все остальные критерии, для которых установлена слабая связь, отбрасываются. На основании полученных сведений определяется вид математического уравнения регрессии. Рассчитывается численное значение оценки параметров регрессии, определяются качества полученной модели регрессии.
Видео:Корреляционно-регрессионный анализ. ЭтапыСкачать
Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа :
Корреляционно-регрессионный анализ – это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения.
Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету.
Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.
Что такое корреляционная диаграмма?
Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка.
Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно.
Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат).
Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.
Допущения и упрощения
Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.
Линейная корреляция Пирсона
Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1.
Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа.
Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.
Свойства и предостережения
Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:
- Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
- Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
- Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.
Коэффициент ранговой корреляции Спирмана
Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.
Корреляционно-регрессионный анализ: пример
Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.
https://www.youtube.com/watch?v=G7oTUL5T3G8
Данный тип анализа имеет следующие преимущества:
- Непараметрическая форма отношений между исследуемыми величинами.
- Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.
Единственное требование данного типа анализа – это необходимость конвертации исходных данных.
Проблемы применения
В основе корреляционно-регрессионного анализа лежат следующие предположения:
- Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
- В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
- При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
- Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.
Зависимость и причинно-следственная связь
Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями.
Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы.
Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.
Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной.
Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы.
Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.
Зачем использовать регрессионный анализ?
Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром.
Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи.
В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:
- Выбор правильной модели с помощью метода наименьших квадратов.
- Выведение уравнения, описывающего влияние изменения независимой переменной на другую.
Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.
Линейная и множественная регрессия
Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии.
Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков.
Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.
https://www.youtube.com/watch?v=XbufBZnq3oo
Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:
- Зависимость между независимой и влияющими на нее характеристиками является линейной.
- Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
- Гомоскедастичность и нормальность рядов чисел.
Применение корреляционно-регрессионного анализа
Существует три основных случая использования данного метода:
- Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
- Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
- Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.
Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.
🎥 Видео
Математика #1 | Корреляция и регрессияСкачать
Корреляционно-регрессионный анализСкачать
РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16Скачать
Множественная регрессия в ExcelСкачать
Корреляционно-регрессионный анализ. Функциональная и корреляционная связиСкачать
Видео-лекция к практическому заданию "Корреляционно-регрессионная модель в MS Excel"Скачать
Корреляционный анализСкачать
Эконометрика. Линейная парная регрессияСкачать
Регрессия. Регрессионный анализ в ExcelСкачать
РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12Скачать
Множественная регрессияСкачать
Расчет коэффициента корреляции в ExcelСкачать
Линейная регрессия в Python за 13 МИН для чайников [#Машинное Обучения от 16 летнего Школьника]Скачать
Эконометрика Линейная регрессия и корреляцияСкачать
Лекция 7 Регрессионный и корреляционный анализСкачать
Коэффициент корреляции Пирсона в ExcelСкачать
Тема 6 Регрессионный анализСкачать