Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/05cc2e9a3cf48bd0745ee94d5a29686c to your computer and use it in GitHub Desktop.
Save anonymous/05cc2e9a3cf48bd0745ee94d5a29686c to your computer and use it in GitHub Desktop.
Пример слабой корреляционной зависимости график

Пример слабой корреляционной зависимости график


Пример слабой корреляционной зависимости график



Корреляция, корреляционная зависимость
Рис. 8.2. Сильная корреляционная зависимость.
Виды зависимостей. Корреляционный анализ


























Понятия корреляции и регрессии появились в середине XIX в. Второй термин от лат. Функциональная, статистическая и корреляционная зависимости. В естественных науках часто речь идет о функциональной зависимости связи , когда каждому значению одной переменной соответствует вполне определенное значение другой. Функциональная зависимость может иметь место как между детерминированными неслучайными переменными например, зависимость скорости падения в вакууме от времени и т. В естествознание в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное условное распределение другой переменной. Такая зависимость связь получила название статистической или стохастической, вероятностной. Возникновение понятия статистической связи обусловливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т. Статистическая зависимость между двумя переменными, при которой каждому значению одной переменной соответствует определенное условное математическое ожидание среднее значение другой, называется корреляционной. Иначе, корреляционной зависимостью между двумя переменными величинами называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой. Корреляционная зависимость может быть представлена в виде:. Сравнивая различные виды зависимости между Х и Y , можно сказать, что с изменением значений переменной X при функциональной зависимости однозначно изменяется определенное значение переменной Y , при корреляционной — определенное среднее значение условное математическое ожидание Y , а при статистической — определенное условное распределение переменной Y. Таким образом, из рассмотренных зависимостей наиболее общей выступает статистическая зависимость. Каждая корреляционная зависимость является статистической, но не каждая статистическая зависимость является корреляционной. Функциональная зависимость представляет частный случай корреляционной об этом речь еще пойдет ниже. Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида 7. На первый взгляд подходящим измерителем тесноты связи Y от X является коэффициент регрессии b yx ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяется Y , когда X увеличивается на одну единицу. Однако b yx зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в раз, если величину основных производственных фондов X выразить не в млн. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s. В этой системе величина. Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции или просто коэффициентом корреляции. Очевидно, что в случае а зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б , так как точки корреляционного поля а дальше отстоят от линии регрессии, чем точки поля б. Нетрудно видеть, что r совпадает по знаку с b yx а значит, и с b xy. При прямой обратной связи увеличение одной из переменных ведет к увеличению уменьшению условной групповой средней другой. Отсюда видно, что формула для r симметрична относительно двух переменных, то есть переменные Х и Y можно менять местами. Найдя произведение обеих частей равенств 8. Вычислить коэффициент корреляции между величиной основных производственных фондов X и суточной выработкой продукции У по данным табл. Итак, связь между рассматриваемыми переменными прямая и достаточно тесная ибо r близок к 1. Коэффициент корреляции между этими признаками оказался равным 0,8, а средний объем валовой продукции предприятий составил 40 млн. Теперь по формуле 7. Отметим другие модификации формулы для расчета коэффициента корреляции r, полученные из 8. Для практических расчетов наиболее удобна формула 8. Отметим основные свойства коэффициента корреляции при достаточно большом объеме выборки n , аналогичные свойствам коэффициента корреляции двух случайных величин. Коэффициент корреляции принимает значения на отрезке [-1,1], то есть. Если все значения переменных увеличить уменьшить на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится. Угол между двумя прямыми регрессии. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии Y по X и X по Y параллельны осям координат. Вид множества случайных величин, для которого линейная корреляционная связь отсутствует. Так, например, для зависимостей, представленных на рис. Однако по расположению точек корреляционного поля отчетливо просматривается взаимосвязь между переменными, отличная от линейной корреляционной. Так, в случае а - это нелинейная корреляционная почти функциональная зависимость; в случае б - статистическая зависимость, проявляющаяся в данном случае в том, что с изменением х групповые средние у x не меняются, а меняется лишь рассеяние точек поля относительно линии регрессии. Нелинейная корреляционная связь между. Однако при достаточно большом n их можно распространить и на r. Основные положения корреляционного анализа. Корреляционный анализ корреляционная модель - метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа, как отмечено выше, состоит в выявлении связи между случайными переменными путем точечной и интервальной оценок различных парных, множественных, частных коэффициентов корреляции. Дополнительная задача корреляционного анализа являющаяся основной в регрессионном анализе заключается в оценке уравнений регрессии одной переменной по другой. Рассмотрим простейшую модель корреляционного анализа - двумерную. Плотность совместного нормального распределения двух переменных Х и У имеет вид: Ранее, в курсе теории вероятностей было, показано, что при совместном нормальном законе распределения случайных величин X и Y 8. Генеральная совокупность в определенном смысле аналогична понятию случайной величины и ее закону распределения, поэтому для вышеназванных параметров используется и другая терминология: В этом случае получим знакомые нам формулы для определения выборочного коэффициента корреляции r 8. Выше те же формулы получены иначе — на основе применения метода наименьших квадратов. Совпадение результатов объясняется некоторыми ценными свойствами оценок метода наименьших квадратов. Проверка значимости и интервальная оценка параметров связи. Обычно в этих случаях проверяется гипотеза H 0 об отсутствии линейной корреляционной связи между переменными в генеральной совокупности, то есть H 0: При справедливости этой гипотезы статистика. Поэтому гипотеза H 0 отвергается, то есть выборочный коэффициент корреляции r значимо существенно отличается от нуля, если. Статистика критерия по 8. Поэтому прибегают к специально подобранным функциям от r, которые сходятся к хорошо изученным распределениям. Чаще всего для подбора функции применяют z -преобразование Фишера: Распределение z уже при небольших n является приближенно нормальным с математическим ожиданием. Поэтому вначале строят доверительный интервал для M z: При ее отсутствии переход может быть осуществлен по формуле: Z -преобразование Фишера может быть применено при проверке различных гипотез относительно коэффициента корреляции. А для проверки существенности значимости различия двух коэффициентов корреляции r 1 и r 2 , полученных по выборкам объемов n 1 и n 2 то есть - для проверки гипотезы H 0: При достаточных объемах выборки больших 10 можно считать, что при выполнении соответствующих нулевых гипотез статистики 8. Так как коэффициент корреляции X и Y значим см. Вначале определим средние квадратические отклонения переменных:. Проверяемая гипотеза H 0: В качестве альтернативной возьмем гипотезу H 1: Корреляционное отношение и индекс корреляции. Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости. Для получения такого показателя вспомним правило сложения дисперсий, обозначения которых приведены в табл. Остаточной дисперсией измеряют ту часть вариаций колеблемости Y , которая возникает из-за изменчивости неучтенных факторов, не зависящих от X. Межгрупповая дисперсия выражает ту часть вариации Y , которая обусловлена изменчивостью X. Аналогично вводится эмпирическое корреляционного отношение X по Y:. Отметим основные свойства корреляционных отношений при достаточно большом объеме выборки n:. Корреляционное отношение есть неотрицательная величина, не превосходящая 1: Показатель R yx получил название теоретического корреляционного отношения или индекса корреляции Y по X. Подобно R yx вводится и индекс корреляции X по Y:. Покажем, что в случае линейной модели 7. Теперь, учитывая формулы дисперсии, коэффициентов регрессии 7. Коэффициент детерминации R 2 , равный квадрату индекса корреляции для парной линейной модели — r 2 , показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной. Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии см. Индекс корреляции R двух переменных значим, если значение статистики. Частоты интервалов n i указаны в предпоследней графе той же таблицы. Для удобства расчеты представим в табл. Поэтому оправдано сделанное выше предположение о линейной корреляционной зависимости между переменными. Как и следовало ожидать, R yx оказался равным r небольшое расхождение объясняется округлением промежуточных результатов при вычислении R yx. Поэтому в случае линейной связи нет смысла вычислять R yx , а достаточно ограничиться вычислением r. Аналогично проверяется значимость R yx. Понятие о многомерном корреляционной анализе. Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных. Пусть имеется совокупность случайных переменных X 1 , X 2 , В этом случае матрицу. Эта задача решается определением матрицы выборочных коэффициентов корреляции:. В многомерном корреляционном анализе рассматривают две типовые задачи:. Эти задачи решаются с помощью множественных и частных коэффициентов корреляции. Выборочный множественный, или совокупный, коэффициент корреляции R i , Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом. С помощью множественного коэффициента корреляции по мере приближения R к 1 делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R 2 , называемая выборочным множественным или совокупным коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных. Можно показать, что множественный коэффициент корреляции значимо отличается от нуля, если значение статистики. Если переменные коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении элиминировании влияния одной или нескольких других переменных. Выборочным частным коэффициентом корреляции между переменными X i и X j при фиксированных значениях остальных р - 2 переменных называется выражение. Частный коэффициент корреляции r ij , Кроме того, r ij , Поэтому значимость частного коэффициента корреляции r ij , Для исследования зависимости между производительностью труда X 1 , возрастом X 2 и производственным стажем Х 3 была произведена выборка из рабочих одной и той же специальности. Вычисленные парные коэффициенты корреляции оказались значимыми и составили: Для оценки значимости R 1,23 по 8. Тем более будут значимы большие коэффициенты r 13,2 и r 23,1 в этом можно убедиться таким же образом. Это вполне объяснимо, если рассматривать возраст только как показатель работоспособности организма на определенном этапе его жизнедеятельности. Подобным образом могут быть интерпретированы и другие частные коэффициенты корреляции. Задача научного исследования состоит в отыскании причинных зависимостей. Только знание истинных причин явлений позволяет правильно истолковывать наблюдаемые закономерности. Однако корреляция как формальное статистическое понятие сама по себе не вскрывает причинного характера связи. С помощью корреляционного анализа нельзя указать, какую переменную принимать в качестве причины, а какую — в качестве следствия. Например, рассматривая корреляционную связь между суточной выработкой продукции и величиной основных производственных фондов см. Но, с другой стороны, необходимость повышения суточной выработки продукции может повлечь за собой увеличение размера основных производственных фондов. Между урожайностью сельскохозяйственных культур и погодными условиями температурой, количеством осадков и т. Но здесь не возникает сомнений, какая переменная является следствием, а какая — причиной. Иногда при наличии корреляционной связи ни одна из переменных не может рассматриваться причиной другой например, зависимость между весом и ростом человека. Наконец, возможна ложная корреляция нонсенс-корреляция , то есть чисто формальная связь между переменными, не находящая никакого объяснения и основанная лишь на количественном соотношении между ними таких примеров в статистической литературе приводится немало. Поэтому при логических переходах от корреляционной связи между переменными к их причинной взаимообусловленности необходимо глубокое проникновение в сущность анализируемых явлений. Не существует общеупотребительного критерия проверки определяющего требования корреляционного анализа — нормальности многомерного распределения переменных. Многомерный корреляционный анализ позволяет с помощью корреляционной матрицы 8. До сих пор мы анализировали зависимости между количественными переменными, измеренными в так называемых количественных шкалах, то есть в шкалах с непрерывным множеством значений, позволяющих выявить, на сколько или во сколько раз проявление признака у одного объекта больше меньше , чем у другого например, производительность труда, себестоимость продукции и т. Вместе с тем на практике часто встречаются с необходимостью изучения связи между ординальными порядковыми переменными, измеренными в так называемой порядковой шкале. В этой шкале можно установить лишь порядок, в котором объекты выстраиваются по степени проявления признака например, качество жилищных условий, тестовые баллы, экзаменационные оценки и т. Оказывается, что в таких случаях проблема оценки тесноты связи разрешима, если упорядочить, или ранжировать, объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Например, объекту с наименьшим проявлением значением признака присваивается ранг 1, следующему за ним - ранг 2 и т. Объекты можно располагать и в порядке убывания проявления значений признака. Если объекты ранжированы по двум признакам, то имеется возможность оценить тесноту связи между признаками, основываясь на рангах, то есть тесноту ранговой корреляции. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, можно показать, что. При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака. Объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов. При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:. По результатам тестирования 10 студентов по двум дисциплинам A и В на основе набранных баллов получены следующие ранги табл. Разности рангов и их квадраты поместим в последних двух строках табл. Поэтому по формуле 8. Находим по формуле 8. Связь между оценками двух дисциплин достаточно тесная. Коэффициент ранговой корреляции Кендалла находится по формуле: Для определения К необходимо ранжировать объекты по одной переменной в порядке возрастания рангов 1, 2, Статистика К равна общему числу инверсий нарушений порядка, когда большее число стоит слева от меньшего в ранговой последовательности ранжировке r 1 , r 2 , Поясним вычисление рангового коэффициента корреляции Кендалла на примере. В результате анкетного обследования для 10 важнейших видов оборудования, используемого судоводителями во время вахты, получены следующие ранги по важности оборудования X и по частоте его использования Y см. В последней строке табл. Из пар чисел перестановок 9, 10 , 9, 8 , 9, 7 , 9, 5 инверсии нарушения порядка, когда большее число стоит слева от меньшего имеются у трех последних пар, то есть число инверсий равно 3. Теперь по формуле 8. Вычислим по формуле 8. Связь между рассматриваемыми переменными умеренная. Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации. Такие задачи возникают, например, при анализе экспертных оценок, когда необходимо установить меру их согласованности. В качестве такого измерителя используют коэффициент конкордации согласованности рангов Кендалла W , определяемый по формуле: Группа из 5 экспертов оценивает качество изделий, изготовленных на 7 предприятиях. Их предпочтения представлены в табл. В итоговой строке табл. Общая сумма рангов равна В предпоследней строке табл. Коэффициент конкордации по формуле 8. Таким образом, существует достаточно тесная согласованность мнений экспертов. Корреляционный анализ может быть использован и при оценке взаимосвязи качественных категоризованных признаков переменных , представленных в так называемой номинальной шкале, в которой возможно лишь различение объектов по возможным состояниям, градациям например, пол, социальное положение, профессия и т. Функциональная, статистическая и корреляционная зависимости В естественных науках часто речь идет о функциональной зависимости связи , когда каждому значению одной переменной соответствует вполне определенное значение другой. Корреляционная зависимость может быть представлена в виде: Коэффициент корреляции Перейдем к оценке тесноты корреляционной зависимости. Вначале определим средние квадратические отклонения переменных: Аналогично вводится эмпирическое корреляционного отношение X по Y: Подобно R yx вводится и индекс корреляции X по Y: Эта задача решается определением матрицы выборочных коэффициентов корреляции: В многомерном корреляционном анализе рассматривают две типовые задачи: При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, можно показать, что и по формуле При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:


Корреляционный анализ


Корреляционная связь и корреляционная зависимость. Отличие функциональной и вероятностной связи зависимости. Зависимая и независимая переменная в эксперименте. Форма, направление и сила корреляционной связи. Классификация корреляционных связей по степени силы и по степени значимости. Понятие линейной и ранговой корреляции. Метод ранговой корреляции Спирмена r s. Ограничения метода, его достоинства и недостатки. Графическое представление метода ранговой корреляции. Алгоритм расчета коэффициента ранговой корреляции. Несмотря на наличие ссылок по тексту, автор все же рекомендует прочесть раздел целиком - для более последовательного понимания материала. Корр еляция — мера согласованности одного признака с другим, с несколькими, либо взаимная согласованность группы признаков. Корр еляционная связь отражает тот факт, что изменения одного признака находятся в некотором соответствии с изменениями другого признака. Корреляционная же зависимость указывает на причинно-следственную связь изменений двух признаков, что, строго говоря, не всегда соответствует действительности, так как корреляционные методы не выявляют этой причинности, а лишь указывают на наличие некоторого соответствия. Признаки могут находиться не только во взаимной зависимости друг от друга, но и оба в зависимости от какого-либо третьего воздействия, не включенного в область рассмотрения. Таким образом, более корректно употреблять понятие корреляционная связь. Корр еляционная связь носит характер вероятностной. Важно отличать такую зависимость даже если мы рискуем пользоваться этим термином от функциональной зависимости. Функция, во-первых, непрерывна, тогда как при корреляционной зависимости значения, принимаемые признаком, дискретны. Во-вторых, функциональная зависимость предполагает взаимно однозначное соответствие аргумента х и функции f х , вероятностная же зависимость допускает некий условный диапазон, в который предположительно с такой-то долей вероятности попадает значение признака у i при значении х i признака х. Признаки, которые мы измеряем, и которые, по нашему предположению, могут меняться под заданным воздействием, называются зависимыми переменными. Иными словами, при принятом нами постоянстве одних переменных независимых , фиксировано изменив их, мы предполагаем некоторое неизвестное заранее изменение исследуемых переменных зависимых. Это деление, как уже было сказано, условно, так как не известно доподлинно, какой именно из признаков влияет на другой. Корреляционные связи различаются по следующим характеристикам: По форме — зависимость может быть линейной и нелинейной. Направление указывает только на уменьшение-увеличение одного при изменении другого, но не более! По силе — сила связи не зависит от направления и определяется абсолютной величиной коэффициента корреляции r. Классификация корреляционных связей по степени силы. Первая из классификаций ориентирована только на величину коэффициента корреляции, а вторая определяет, какого уровня значимости достигает данная величина коэффициента корреляции при данном объеме выборки. Чем больше объем выборки, тем меньшей величины коэффициента корреляции оказывается достаточно для того, чтобы корреляция была признана достоверной. В результате, при малом объеме выборки и сильная корреляция может оказаться недостоверной. Это объясняется большой возможностью обнаружения случайных связей, поскольку число всех сочетаний в малых выборках также мало. В то же время, при больших объемах выборки даже слабая корреляция между какими либо признаками может оказаться достоверной. Предположим, что в первой из них ежедневно рождается детей, во второй только Однажды девочек родилось вдвое больше, чем мальчиков. Спрашивается, для какой больницы данное событие более вероятно? Ответ очевиден для статистика, однако, он не столь очевиден неискушенному. Конечно, такое событие гораздо более вероятно для маленькой больницы. Объяснение этого факта состоит в том, что вероятность случайного отклонения от среднего возрастает с уменьшением объема выборки. Линейная и ранговая корреляция. Метод линейной корреляции корреляции Пирсона применяется для определения меры соответствия двух признаков, выраженных количественно, иными словами, - для численных величин. Это параметрический метод, который как и прочие параметрические требует соответствия распределения данного исследуемого признака закону нормального распределения. В отличие от этого метода, метод ранговой корреляции корреляция Спирмена применим к любым количественно измеренным или ранжированным данным. Этот метод способен, в отличие от других, измерять согласованность изменения разных признаков у одного испытуемого или выявлять совпадения индивидуальных ранговых показателей у двух испытуемых; или у испытуемого и усредненный показатель некой группы; или какие-либо показатели в сравнении двух групп. Метод ранговой корреляции Спирмена позволяет определить силу и направление корреляционной связи между двумя признаками или двумя иерархиями признаков. Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы. Такими рядами могут быть: А Два признака, измеренные в одной и той же группе переменных наиболее часто в этом качестве выступает группа людей, которых принято тогда именовать испытуемыми или респондентами. Естественно, под переменными подразумеваются не сами люди, а данные ими ответы на те или иные вопросы. Б две индивидуальн ые ие рархии признаков, выявленные у двух испытуемых по одному и тому же набору признаков скажем, по ответам на пункты анкеты или теста. В Две группов ые ие рархии признаков например, соответствие каких-либо выборов, сделанных одной группой людей выборам другой группы. Г Индивидуальная и групповая иерархии признаков например, сопоставление индивидуальной иерархии жизненных ценностей сотрудника усредненному мнению группы на этот же счет; сопоставление последовательности товаров, которые приобрели бы в среднем жители города А и города Б при условии получения премии, на которую заранее не рассчитывали. Ограничения метода ранговой корреляции. По каждой переменной должно быть представлено не менее 5 наблюдений. Коэффициент ранговой корреляции Спирмена r s при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений. В случае несоблюдения такого условия вносится поправка на одинаковые ранги будет дано ниже. Помимо этих ограничений, следует так же помнить об ограничениях корреляционного метода вообще — невозможность обнаружения причинной связи между явлениями. При увеличении А, В может меняться как в сторону увеличения, так и в сторону уменьшения. Рисунок 16 — В — пример сильной корреляции с коэффициентом Увеличение признака А сопровождается пропорциональным уменьшением признака В. Алгоритм расчета ранговой корреляции. Занести ранги во второй столбец таблицы по порядку номеров признаков. В первом к тому моменту уже находятся номера или имена исследуемых признаков. S d 2 — квадратов разностей между рангами;. N — количество признаков, участвовавших в ранжировании. Если r s превышает критическое значение или, по крайней мере, равен ему, - корреляция достоверно отличается от нуля. Образец таблицы для внесения данных: Ранги переменной А по порядку. Ранги переменной В по порядку. Предположим, что мы располагаем выборкой данных о какой-то группе объектов. Пусть эти объекты обладают общими родовыми особенностями примерно одинаковы. Пусть, к тому же, у каждого из объектов можно количественно измерить, как минимум, два каких-либо параметра. При этих обстоятельствах открывается возможность для подсчета линейной корреляции между двумя или более признаками, присущими этим объектам. Например, такими выборками данных могут служить сведения о: Во всех этих примерах имеется возможность определить корреляцию, то есть — степень согласованности в изменении двух признаков. Ввиду того, что расчет линейной корреляции проводится с использованием средних значений и дисперсий, следует также помнить, что эта процедура относится к разряду параметрических методов и, соответственно, требует нормальности распределения признака. Подробней об этом будет сказано ниже. Также следует помнить, что никакая корреляция вообще не устанавливает зависимости одного обстоятельства от другого , а лишь является мерой совместной вариации двух величин. И, наконец, линейная корреляция потому и называется линейной, что способна дать ответ о взаимосвязи изменений того и иного свойства объекта только тогда, когда возрастание-убывание значения признака происходит по линейному закону график — прямая линия. Графическое представление линейной корреляции. Пусть в нашем распоряжении имеется N тигров, каждый из которых любезно предоставил возможность измерить длину своего тела и длину хвоста. На второй части рисунка тигров много — так, что они представляют собой некую фигуру на поле диаграммы. Если теперь абстрагироваться от тигров и перейти к элементам выборки третья часть рисунка , то можно сказать, что точки, соответствующие этим элементам выстраиваются вдоль некоей воображаемой лини или вписываются в некую криволинейную фигуру. Отсюда следует, что чем меньше площадь этой фигуры, тем в большей согласованности находятся между собой сопоставляемые признаки, то есть больше коэффициент их кореляции. Уже на второй части рисунка можно построить такую воображаемую линию. Таким образом, длина хвостов наших гипотетических тигров находится в согласии с размерами тела, хотя в этой компании имеются также длиннохвостые и короткохвостые представители. Возвратимся к третьей части рисунка и будем далее называть такой рисунок диаграммой рассеяния. Итак, каждый элемент выборки обладает двумя свойствами сопоставляемыми признаками , и может быть описан посредством задания двух его координат — Х и У. При этом всегда это имеет смысл, если распределение близко к нормальному можно подсчитать среднее значение для всех Х и для всех У. Таким образом, каждую точку на диаграмме можно полностью описать, указав величину ее отклонения от средних Х и У. Если теперь суммировать произведения отклонений по всем элементам выборки, то получим величину: Эта сумма будет велика и положительна, когда Х и У сильно связаны прямой взаимосвязью, и велика и отрицательна, в случае обратной взаимосвязи. Сама по себе эта сумма не пригодна в качестве меры взаимосвязи, поскольку учитывает количество элементов выборки зависит от числа пар значений. Полученная величина S xy называется ковариацией. Признаки, между которыми рассчитывается взаимосвязь, могут быть измерены в разных единицах, иметь различные средние и дисперсии. Например, исследователя интересует взаимосвязь между ростом и весом солдат некоего отделения см. Вес измеряется в килограммах , а рост — в сантиметрах. Все эти обстоятельства обязывают в качестве меры взаимосвязи избрать такую , которая не зависела бы ни от измерительных единиц, ни от средних, ни от дисперсий. Полученная величина называется коэффициентом корреляции. Процедура расчета линейной корреляции с помощью программы SPSS. Прежде, чем приступить к работе, необходимо напомнить о правильной организации файла данных: В случае линейной корреляции всегда в столбцах переменных будут располагаться сопоставляемые величины например, рост и вес солдат, IQ и возраст респондента, длина и ширина листа растения и т. Каждая из сопоставляемых характеристик, естественно, должна занять свой определенный столбец. Имеет значение лишь соблюдение этого условия, располагать же сами строки, то есть наблюдения можно в любой последовательности. Для наглядности значения можно сортировать средствами самой программы Данные — Сортировка регистров — сортировать по… — что не повлияет на результат вычислений. Она не должна оказаться строковой string , а оставаться числовой numeric. SPSS не делает различий между данными, выраженными в интервальной шкале и шкале равных отношений, и применяет в расчетах одни и те же алгоритмы: Процедура расчета осуществляется путем выполнения последовательности действий: Анализ — Корреляция — Двумерно. Некоторые аспекты подсчета коэффициента корреляции. Ниже без доказательства будут приведены некоторые положения по подсчету коэффициента линейной корреляции. В случае линейной функциональной зависимости между Х и У коэффициент корреляции между ними равен единице по абсолютной величине. Это означает, что экспериментальные данные для удобства можно перемножать или складывать с константами. Важно только, чтобы все данные выборки были подвергнуты одинаковым преобразованиям. Если исследовательская задача требует нахождения дисперсии суммы или разности двух переменных, между которыми известен коэффициент корреляции, то положительная корреляция способствует увеличению дисперсии такой суммы, а отрицательная — уменьшению. Если при измерениях допущены ошибки погрешности , то это обстоятельство уменьшает коэффициент кореляции между Х и У , по сравнению с тем, какой был бы получен при возможности использовать истинные значения измерений. Увеличение объема выборки не исправляет такого положения если, разумеется, продолжать измерять что-либо прежними средствами. Например, при измерении набора каких-либо одинаковых деталей, произведенных портновским клеенчатым метром, мы получим каждый раз большие отклонения в ту или иную сторону, чем, если бы мерили рулеткой, штангенциркулем. Десять, сто, тысяча замеров не изменят положения вещей, поскольку метр растягивается, недостаточно точно градуирован, и т. Ошибка, таким образом, не нейтрализуется со временем. Если в выборку объектов, для которых установлен коэффициент корреляции между признаками Х и У поместить такиме, для которых корреляция по Х и У отсутствует, итоговый коэффициент корреляции уменьшится по абсолютной величине. Это относится, как к линейной, так и к ранговой корреляции. То обстоятельство, что два признака изменяются согласованно, может зависеть и от влияния третьей причины на оба сопоставляемых признака. Пусть имеются два ряда случайных чисел две перменные с набором значений: Возьмем теперь еще один случайный ряд Z: Вследствие этого третий ряд окажет некоторое одинаковое воздействие на два первых ряда, и коэффициент корреляции между ними станет больше: Третий ряд выступил в этом примере в качестве общей причины, корреляция между Х и У обусловлена теперь не собственным сходством этих рядов, а влиянием Z. В случае же наличияу этих признаков разнонаправленной ассимметрии максимальный коэффициент корреляции бывает равен 0,6 — 0,7. Для более корректной содержательной интерпретации коэффициента кореляции необходимо строить каждый раз диаграммы рассеяния. Графики — Рассеяние — Простой. Ошибка при интерпретации даже еще при подсчете коэффициента корреляции может быть допущена и в том случае, когда в ыборке присутствуют аномальные значения очевидно большие или очевидно низкие. Они могут возникать, во-первых, из-за неоднородности исследуемых элементов выборки. Во-вторых, - из-за ошибок. Например, снятые показания какого-либо прибора для удобства делились на три, но одно из наблюдений забыли пересчитать. В результате появится ряд, подобный этому: Одной такой ошибки оказывается достаточно для того, чтобы коэффициент корреляции очень существенно увеличился. Ложная корреляция может также возникать при неслучайном отборе наблюдений для подсчета. Этот пункт некоторым образом противоположен предыдущему первой части. Если там утверждалось, что аномальные значения желательно исключать из рассмотрения, то этот пункт предлагает делать это с осторожностью, чтобы своим умышленным влиянием не исказить подлинное положение вещей.


Определение понятию клинический признак
Метаболическая диета результаты фото до и после
Dlx ma mb 1 15 инструкция
Файл d3d9 dll
Your mail перевод на русский
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment