Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/d280060d9ad378bc35410664636c7774 to your computer and use it in GitHub Desktop.
Save anonymous/d280060d9ad378bc35410664636c7774 to your computer and use it in GitHub Desktop.
Понятие ранга в статистике

Понятие ранга в статистике


Понятие ранга в статистике



Случай одинаковых рангов
Ранжирование данных
52. Непараметрические показатели тесноты взаимосвязи. Спирмен. Кендалл.


























Статистика в узком смысле — это измеримая числовая функция от выборки , не зависящая от неизвестных параметров распределения. В широком смысле термин математическая статистика обозначает область знаний и соответствующие ей учебные дисциплины , в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических количественных или качественных данных. Пусть задана случайная выборка наблюдений. Как правило, поскольку речь идет о задачах математической статистики , распределение элементов этой выборки известно исследователю не полностью например, содержит неизвестные числовые параметры. Статистикой называется произвольная измеримая функция выборки , которая не зависит от неизвестных параметров распределения. Условие измеримости статистики означает, что эта функция является случайной величиной , то есть определены вероятности ее попадания в интервалы и другие борелевские множества на прямой. Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении оценки и прочие статистические выводы. Предположим, что имеется числовая выборка , элементы которой имеют нормальное распределение. Допустим, что значение параметра математического ожидания известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения неизвестно и его требуется оценить. Для этого может быть использована следующая статистика:. Однако если значение параметра также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически например, доказывать, что математическое ожидание равно , однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра строится другим способом см. Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения являются числовыми,. В последние годы активно развивается также статистика объектов нечисловой природы. Несмещённые оценки центральных моментов:. Если плотность распределения симметрична, то. Если правый хвост распределения тяжелее, то. Выборочный коэффициент асимметрии используется для проверки распределения на симметричность , а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности. Нормальное распределение имеет нулевой эксцесс,. Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. При любом фиксированном значение можно рассматривать как статистику. Порядковые статистики основаны на вычислении вариационного ряда , который получается из исходной выборки путём упорядочивания её элементов по возрастанию:. Значение называется k -й порядковой статистикой. Выборочный -квантиль при есть. Значение называется рангом элемента выборки , если. Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов , а не от их значений. Переход от значений к их рангам позволяет строить непараметрические статистические тесты , которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические тесты. Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при. Линейная ранговая статистика в общем случае имеет вид. Математическая статистика Прикладная статистика Популярные и обзорные статьи. Статистика функция выборки Материал из MachineLearning. Просмотры Статья Обсуждение Просмотр История. Личные инструменты Представиться системе. Навигация Заглавная страница Сообщество Новости Последние правки Случайная статья Справка Инструктаж Вопросы и ответы ToDo. Энциклопедия анализа данных Популярные и обзорные статьи Публикации Полезные ссылки. Инструменты Ссылки сюда Связанные правки Загрузить файл Спецстраницы Версия для печати Постоянная ссылка. Содержание 1 Определение 1.


РАНГОВАЯ СТАТИСТИКА это:


Краткий обзор непараметрических процедур Описание непараметрических процедур на примерах Стартовая панель модуля Непараметрические статистики Таблицы частот 2 х 2: Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыбррочный критерий Колмогорова—Смирнова ANOVA Краскела—Уоллиса и медианный тест Критерий знаков Критерий Вилкоксона ANOVA Фридмана и коэффициент конкордации, или согласия, Кендалла Q-критерий Кохрена Описательные статистики Медиана Мода Геометрическое среднее Гармоническое среднее Дисперсия и стандартное отклонение Размах Квартильный размах Асимметрия Эксцесс Одним из факторов, ограничивающих применения критериев, основанных на предположении нормальности, является объем выборки. До тех пор пока выборка достаточно большая например, или больше наблюдений , можно считать, что выборочное распределение нормально, даже если вы не уверены, что распределение переменной в популяции является нормальным. Тем не менее, если выборка мала, эти критерии следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако нет способа проверить это предположение на малой выборке. Использование критериев, основанных на предположении нормальности, кроме того, ограничено шкалой измерений см. Такие статистические методы, как t-критерий, регрессия и т. Однако имеются ситуации, когда данные, скорее, просто ранжированы измерены в порядковой шкале , чем измерены точно. Типичный пример дают рейтинги сайтов в Интернет: Зная рейтинги, мы можем сказать, что число посетителей одного сайта больше числа посетителей другого, но насколько больше, сказать уже нельзя. Представьте, вы имеете 5 сайтов: А, В, С, D, Е, которые располагаются на 5 первых мест. Пусть в текущем месяце мы имели следующую расстановку: А, В, С, D, E, а в предыдущем месяце: Спрашивается, произошли существенные изменения в рейтингах сайтов или нет? В данной ситуации, очевидно, мы не можем использовать t-критерий, чтобы сравнить эти две группы данных, и переходим в область специфических вероятностных вычислений а любой статистический критерий содержит в себе вероятностную калькуляцию! Мы рассуждаем примерно следующим образом: В этих рассуждениях мы используем лишь ранги или перестановки сайтов и никак не используем конкретный вид распределения числа посетителей на них. Для анализа малых выборок и для данных, измеренных в бедных шкалах, применяют непараметрические методы. По существу, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива. Вообще, подход к статистическим критериям в анализе данных должен быть прагматическим и не отягощен лишними теоретическими рассуждениями. Имея в своем распоряжении компьютер с системой STATISTICA, вы легко примените к своим данным несколько критериев. Зная о некоторых подводных камнях методов, вы путем экспериментирования выберете верное решение. Развитие сюжета довольно естественно: Однако следует помнить, что он основан на предположении нормальности и равенстве дисперсий в каждой группе. Освобождение от этих предположений приводит к непараметрическим тестам, которые особенно полезны для малых выборок. Далее имеются две ситуации, связанные с исходными данными: Развитие t-критерия приводит к дисперсионному анализу, который используется, когда число сравниваемых групп больше двух. Соответствующее развитие непараметрических процедур приводит к непараметрическому дисперсионному анализу, правда, существенно более бедному, чем классический дисперсионный анализ. Для оценки зависимости, или, выражаясь несколько высокопарно, степени тесноты связи, вычисляют коэффициент корреляции Пирсона. Строго говоря, его применение имеет ограничения, связанные, например, с типом шкалы, в которой измерены данные, и нелинейностью зависимости, поэтому в качестве альтернативы используются также непараметрические, или так называемые ранговые, коэффициенты корреляции, применяемые, например, для ранжированных данных. Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий хи-квадрат Пирсона с различными вариациями и поправками на точность. Итак, по существу имеется всего несколько типов критериев и процедур, которые нужно знать и уметь использовать в зависимости от специфики данных. Вам нужно определить, какой критерий следует применять в конкретной ситуации. Непараметрические методы наиболее приемлемы, когда объем выборок мал. Различия между независимыми группами. Если имеются две выборки например, мужчины и женщины , которые нужно сравнить относительно некоторого среднего значения, например, среднего давления или количества лейкоцитов в крови, то можно использовать t-тест для независимых выборок. Непараметрическими альтернативами этому тесту являются критерий серий Валъда—Волъфовица, Манна—Уитни [7-тест и двухвыборочный критерий Колмогорова— Смирнова. Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке, например, медицинские показатели одних и тех же пациентов до и после приема лекарства, то обычно используется t-критерий для зависимых выборок. Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ ANOVA с повторными измерениями. Альтернативным непараметрическим методом является Ранговый дисперсионный анализ Фридмана и Q-критерий Кохрена. Для того чтобы оценить зависимость между двумя переменными, обычно вычисляют коэффициент корреляции Пирсона. Непараметрическими аналогами коэффициента корреляции Пирсона являются коэффициенты ранговой корреляции Спирмена R, статистика Кендалла и коэффициент Гамма более подробно см. Прозрачный способ построения парных коэффициентов корреляции из обобщенного коэффициента корреляции предложил Daniels Daniels Н. Обобщенный коэффициент корреляции определяется формулой:. Если переменные ранжированы, то мы работаем с рангами. Упорядочим значения X i по возрастанию, то есть построим вариационный ряд этих величин. Номер величины Х i в этом ряде называется ее рангом и обозначается R i. Затем упорядочим значения Y i в порядке возрастания. Номер величины Y ii в этом ряде называется ее рангом и обозначается S i. Коэффициент ранговой корреляции Спирмена вычисляется как обобщенный коэффициент парной корреляции с заменой наблюдений их рангами. Итак, мы ясно видим, что идея всех корреляций возникает из одного и того же источника. Если имеется более двух переменных, то используют коэффициент конкорда-ции Кендалла. Например, он применяется для оценки согласованности мнений независимых экспертов судей , например, баллов, выставленных одному и тому же участнику конкурса. Если имеются две категориальные переменные, то для оценки степени зависимости используют стандартные статистики и соответствующие критерии для таблиц сопряженности: Нелегко дать простой и однозначный совет, касающийся использования этих процедур. Каждая имеет свои достоинства и свои недостатки. Например, двухвыборочный критерий Колмогорова—Смирнова чувствителен не только к различию в положении двух распределений, но также и к форме распределения. Фактически он чувствителен к любому отклонению от гипотезы однородности, но не указывает, с каким именно отклонением мы имеем дело. Критерий Вилкоксона предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если этого сделать нельзя, то используют критерий знаков, который учитывает лишь знаки разностей сравниваемых величин. В общем, если результат исследования является важным и наблюдений немного например, отвечает на вопрос — оказывает ли людям помощь определенная очень дорогая и болезненная лекарственная терапия? Возможно, результаты тестирования разными тестами будут различны. В таком случае следует попытаться понять, почему разные тесты дали разные результаты. С другой стороны, непараметрические тесты имеют меньшую мощность, чем их параметрические конкуренты, и если важно обнаружить даже слабые эффекты например, при выяснении, является ли данная пищевая добавка опасной для здоровья , следует провести многократные испытания и особенно внимательно выбирать статистику критерия. Типичный пример таких таблиц — определение, например, числа мужчин и женщин, предпочитающих рекламу ПЕПСИ или КОКИ, или числа заболевших и не заболевших людей из числа сделавших и не сделавших прививки, и т. Итак, одна переменная — ПОЛ, другая переменная — НАПИТОК. Первая переменная имеет 2 уровня принимает 2 значения — мужчина, женщина. Вторая переменная, НАПИТОК, также имеет 2 уровня, например, ПЕПСИ или КОКА. Укажем на важное методологическое отличие использования слова связь зависимость в повседневной жизни и в анализе данных см. Обычно мы говорим, что два признака А и В связаны между собой, если они часто встречаются вместе. В анализе данных дается строгое определение: Или переходя на язык теории вероятностей, Р АХВ должна быть больше Р АХ не-В. Оценкой вероятности является частота. В приведенной выше таблице пусть признак А — пол, признак В — напиток, принимающий, например, два значения: Пусть a, b — частоты в первой строке, с, d — частот во второй строке. Теперь нам нужно понять, существенно или нет различие в частотах. Статистические критерии, реализованные в этом диалоге, как раз и позволяют это сделать. В данном случае различие, конечно, несущественно или, как говорят в анализе данных, незначимо. Следовательно, признаки независимы, — пол не связан с выбором напитка. Опция 2x2 может быть использована как альтернатива корреляциям, если обе рассматриваемые переменные являются категориальными. Дополнительно к стандартному критерию хи-квадрат Пирсона и скорректированному хи-квадрат V-квадрат вычисляются следующие статистики:. Классическая статистика хи-квадрат Пирсона замечательна тем, что ее распределение приближается распределением хи-квадрат, для которого имеются подробные таблицы. Процентные точки распределения хи-квадрат могут быть также эффективно вычислены в системе STATISTICA с помощью вероятностного калькулятора. Статистика фи-квадрат представляет собой меру связи между номинальными или категориальными переменными, значения которых нельзя упорядочить. Предположим, что оба фактора в таблице независимы. Замечательно, что эта вероятность вычисляется точно, подсчетом всех возможных таблиц, которые можно построить, основываясь на данных маргинальных частотах. Это и делается в критерии Фишера. STATISTICA вычисляет р-уровни одностороннего и двустороннего критерия Фишера. Если сумма частот небольшая, то лучше использовать точный критерий Фишера вместо критерия хи-квадрат. Если сумма частот больше 40, то можно применять критерий хи-квадрат с поправкой на непрерывность. Однако эти рекомендации не универсальны см. Исследуются 30 человек, совершивших преступления. У каждого из преступников есть брат-близнец. Спрашивается, имеется ли связь между род ственными отношениями и преступлением см. Данные приведены в таблице:. Проверяемая гипотеза состоит в том, что зависимости между родством и преступностью нет. Альтернативная гипотеза заключается в следующем: Заметьте — это односторонняя альтернатива, т. Так как в данных имеются ячейки с малыми частотами 2 и 3 , то для улучшения точности критерия хи-квадрат используем поправку Йетса. Точное значение одностороннего критерия Фишера равно 0, см. Оба эти результата высокозначимы, следовательно, мы отвергаем исходную гипотезу об отсутствии зависимости между родством и преступлением в пользу альтернативы: Заметьте, что сумма всех частот в таблице меньше 40, но оба критерия, точный Фишера и хи-квадрат Йетса, дают почти одинаковые результаты. Этот критерий применяется, когда частоты в таблице 2x2 получены по зависимым выборкам. Например, когда наблюдения фиксируются до и после воздействия на одном и том же экспериментальном материале. STATISTICА включает также модуль Логлинейный анализ, позволяющий выполнить полный логлинейный анализ многовходовых таблиц сопряженности. STATISTICA содержит программу на STATISTICA BASIC для вычисления критерия Ментела—Хенцела файл Ma. Обратитесь к комментариям в программе Manthaen. Процедура предлагает пользователю ввести две переменные: Для проверки согласия наблюдаемых и ожидаемых частот вычисляется критерий хи-квадрат. Следующий пример основан на данных искусственных об авариях на шоссе данные содержатся в файле Accident. Данные записывались с интервалом, равным месяцу, в и годах. Допустим, что в году были потрачены значительные средства с тем, чтобы улучшить безопасность движения на этом шоссе. Если затраченные средства ни к чему не привели нулевая гипотеза , то число несчастных случаев в году могло бы прогнозироваться на том же уровне, что и в м при условии, что общее число машин на трассе и интенсивность движения не менялись. Таким образом, данные за год рассматриваются здесь как ожидаемые значения, данные за год — как наблюдаемые. После запуска модуля Непараметрические статистики и распределения откройте файл Accident. Из таблицы ясно видно, что снижение числа аварий в году по сравнению с годом высокозначимо. Заметим, что в нижней части таблицы результатов показано общее число аварий за каждый год Сумма ; разности между наблюдаемыми и ожидаемыми значениями даны в третьем столбце, квадраты разностей, деленные на ожидаемые значения слагаемые хи-квадрат , — в четвертом столбце. Обратите внимание на число степеней свободы ее распределения хи-квадрат, в этом примере оно равно Опция позволяет вычислить три различные альтернативы коэффициенту корреляции Пирсона: После выбора опции на экране появится диалоговое окно, в котором можно выбрать переменные и определенный тип корреляции для вычисления. Можно вычислить одну непараметрическую корреляцию или матрицу непараметрических корреляций. Следующий пример основывается на данных файл Striving. Двенадцать студентов ответили на вопрос анкеты, чтобы оценить связь между двумя переменными: Авторитарность Adorno и др. Цель исследования состояла в том, чтобы выяснить, зависимы, в действительности, эти две переменные или нет. В появившемся диалоговом окне нажмите кнопку переменные и выберите Authorit как первую переменную, Striving — как вторую переменную. Модуль Непараметрические статистики и распределения вычисляет также корреляционные матрицы. В этом примере выберите просто Спирмена R и Подробный отчет. Вы видите, что корреляция между двумя шкалами высокозначима, и можно сделать вывод, что индивидуумы, имеющие внутреннюю установку на авторитарность, в свою очередь, стремятся к борьбе за свое положение в обществе при условии, что анкета адекватна данному исследованию , тем самым подтверждается концепция Адорно. Авторитаризм — внутренняя установка ее трудно непосредственно измерить. В отличие от этого борьба за положение в обществе и продвижение по иерархической лестнице наблюдается отчетливо. Итак, между властностью и карьеризмом имеется отчетливая зависимость. Вы можете визуализировать найденную зависимость двумя способами. Интересно, что эта корреляция меньше ранговой корреляций Спирмена Спирмена R равно 0, Статистики Кендалла тay и Гамма. Для сравнения вернитесь в окно Непарамет рические корреляции и выберите опцию Статистика тay Кендалла а также опцию Гамма. Обе статистики Кендалла тay и Гамма будут вычислены и окажутся равными 0, Как было сказано ранее, эти статистики тесно связаны между собой, но отличаются от статистики Спирмена. Статистику Спирмена R можно представить себе как вычисленную по рангам корреляцию Пирсона, т. Статистики Кендалла тay и Гамма скорее оценивают вероятности, точнее, разность между вероятностью того, что наблюдаемые значения переменных имеют один и тот же порядок, и вероятностью того, что порядок различный. Опция вычисляет только корреляции между переменными, заданными в первом списке, с переменными, заданными во втором списке. Опция вычисляет корреляции для одного списка переменных квадратная матрица. Этот график полезен тем, что он позволяет быстро оценить и сравнить распределения выбранных переменных и форму зависимости между ними например, коэффициент ранговой корреляции R Спирмена может измерять нелинейную монотонную зависимость между переменными. Данные имеют тот же вид, что и в t-критерии для независимых выборок. Файл должен содержать группирующую независимую переменную, принимающую, по крайней мере, два различных значения кода , чтобы однозначно определить, к какой группе относится каждое наблюдение в файле данных. Программа открывает диалоговое окно выбора группирующей переменной и списка зависимых переменных переменных, по которым две группы сравниваются между собой , а также кодов для группирующей переменной опция Коды. Критерий серий Вальда—Вольфовица устроен следующим образом. Представьте, что вы хотите сравнить мужчин и женщин по некоторому признаку. Вы можете упорядочить данные, например, по возрастанию, и найти те случаи, когда субъекты одного и того же пола примыкают друг к другу в построенном вариационном ряде иными словами, образуют серию. В противном случае две группы мужчины и женщины отличаются друг от друга, то есть не являются однородными. Критерий предполагает, что рассматриваемые переменные являются непрерывными и измерены, по крайней мере, в порядковой шкале. Критерий серий Вальда—Вольфовица проверяет гипотезу о том, что две независимые выборки извлечены из двух популяций, которые в чем-то существенно различаются между собой, иными словами, различаются не только средними, но также формой распределения. Нулевая гипотеза состоит в том, что обе выборки извлечены из одной и той же популяции, то есть данные однородны. Критерий Манна—Уитни представляет непараметрическую альтернативу t-критерию для независимых выборок. Опция предполагает, что данные расположены таким же образом, что в и t-критерии для независимых выборок. В частности, файл должен содержать группирующую переменную, имеющую, по крайней мере, два разных кода для однозначной идентификации принадлежности каждого наблюдения к определенной группе. Критерий U Манна—Уитни предполагает, что рассматриваемые переменные измерены, по крайней мере, в порядковой шкале ранжированы. Заметим, что во всех ранговых методах делаются поправки на совпадающие ранги. Интерпретация теста, по существу, похожа на интерпретацию результатов t-критерия для независимых выборок за исключением того, что U-критерий вычисляется как сумма индикаторов парного сравнения элементов первой выборки с элементами второй выборки. U-критерий — наиболее мощная чувствительная непараметрическая альтернатива t-критерию для независимых выборок; фактически, в некоторых случаях он имеет даже большую мощность, чем t-критерий см. Формально статистика Манна—Уитни вычисляется как:. Таким образом, статистика U считает общее число тех случаев, в которых элементы второй группы, например, мужчины, превосходят элементы первой группы, например, женщин. Критерий Колмогорова—Смирнова — это непараметрическая альтернатива t-кри-терию для независимых выборок. Формально он основан на сравнении эмпирических функций распределения двух выборок. Данные имеют такую же организацию, как в t-критерии для независимых выборок. Файл должен содержать кодовую независимую переменную, имеющую, по крайней мере, два различных кода для однозначного определения, к какой группе принадлежит каждое наблюдение. Опция открывает диалоговое окно выбора кодовой переменной и списка зависимых переменных переменных, по которым две группы сравниваются между собой , а также кодов, используемых в кодовой переменной для идентификации двух групп опция Коды. Критерий Колмогорова—Смирнова проверяет гипотезу о том, что выборки извлечены из одной и той же популяции, против альтернативной гипотезы, когда выборки извлечены из разных популяций. Иными словами, проверяется гипотеза однородности двух выборок. Однако в отличие от параметрического i-критерия для независимых выборок и от U-критерия Манна—Уитни см. Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыборочный критерий Колмогорова—Смирнова. Все эти критерии представляют собой альтернативы t-критерию для независимых выборок. Пример основан на исследовании агрессивности четырехлетних мальчиков и девочек Siegel, S. Данные содержатся в файле Aggressn. Двенадцать мальчиков и двенадцать девочек наблюдались в течение минутной игры; агрессивность каждого ребенка оценивалась в баллах в терминах частоты и степени проявления агрессивности и суммировалась в один индекс агрессивности, который вычислялся для каждого ребенка. После запуска модуля Непараметрические статистики откройте электронную таблицу с данными файл Aggressn. Нажмите кнопку Переменные и выберите переменную Пол — Gender как группирующую и переменную Aggressn как зависимую. Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой. Как видно из таблицы результатов, различие между агрессивностью мальчиков и девочек в этом исследовании высокозначимо. Нажмите кнопку Переменные и выберите переменную Пол — Gender как группирующую и переменную Aggressn — как зависимую. Заметьте, что стандартные отклонения в обеих группах не равны см. График по умолчанию для этих тестов — диаграмма размаха. Вы можете построить его двумя способами: Далее программа попросит выбрать переменные. В этом примере выберите обе переменные. Затем выберите тип графика в окне Диаграмма размаха: На диаграмме размаха для каждой переменной показаны: Из графика видно, что мальчики более агрессивны, чем девочки. Для того чтобы увидеть распределение зависимой переменной, разбитой на группы, нажмите кнопку Категоризованная гистограмма. Эти два теста являются непараметрическими альтернативами однофакторного дисперсионного анализа. Мы применяем t-критерий, чтобы сравнить средние значения двух переменных. Если переменных больше двух, то применяется дисперсионный анализ. Английское сокращение дисперсионного анализа — ANOVA analysis of variation. Критерий Краскела—Уоллиса основан на рангах а не на исходных наблюдениях и предполагает, что рассматриваемая переменная непрерывна и измерена как минимум в порядковой шкале. Таким образом, интерпретация критерия схожа с интерпретацией параметрической однофакторной ANOVA за исключением того, что этот критерий основан на рангах, а не на средних значениях. Пример основан на данных, представленных в книге Hays Statistics 3rd ed. CBS College Publishing, которые содержатся в файле Kruskaista. Файл содержит результаты исследования маленьких детей, которые случайным образом приписывались к одной из трех экспериментальных групп. Каждому ребенку предлагалась серия парных тестов, например, давались два мяча: Далее ребенка просили выбрать зеленый мяч, если он делал правильный выбор, то получал вознаграждение. В первой группе тестом была форма группа 1-Форма — 1-Fonri , во второй — цвет группа2-Цвет — 2-Соlor , в третьей — размер 3-Размер — 3-Size предмета. Зависимая переменная, показанная во втором столбце, — это число испытаний, которые потребовались каждому ребенку, чтобы получить вознаграждение. После запуска модуля Непараметрические статистики и распределения и выбора файла KruskaLsta выберите опцию ANOVA Краскела—Уолли-са и медианный тест, чтобы открыть диалоговое окно Дисперсионный анализ Крас-кела—Уоллиса и медианный тест. Далее нажмите кнопку Переменные и выберите переменную Conditn как независимую и переменную Perfrmnc — как зависимую. Нажмите кнопку Коды и выберите все коды для независимой переменной нажмите кнопку Все. Диалоговое окно Д исперсионный анализ Краскела-Уоллиса и медианный тест появится на экране:. В диалоговом окне нажмите ОК для начала анализа. Результаты ранговой ANOVA Краскела—Уоллиса будут показаны в первой таблице результатов, результаты медианного теста — во второй. Таким образом, характеристики различных экспериментальных групп значимо отличаются друг от друга. Напомним, что процедура Краскела—Уоллиса, по существу, является дисперсионным анализом, основанным на рангах. Суммы рангов для каждой группы показаны в правом столбце таблицы результатов. Наибольшая ранговая сумма самое худшее выполнение теста относится к Размеру — Size это тот параметр, который надо различить, чтобы получить вознаграждение. Наименьшая ранговая сумма лучшее выполнение относится к Форме — Form. В таблице результатов показано число детей в каждой группе, число попыток которых меньше или равно общей медианы, и число наблюдений, лежащих выше общей медианы. И вновь оказывается, что наибольшее число испытуемых с числом попыток до получения вознаграждения выше общей медианы относятся к группе Размер — Size. Таким образом, медианный тест также подтверждает гипотезу, согласно которой форма предмета наиболее легко различается детьми, тогда как размер различается хуже всего. Его можно построить двумя способами: Далее программа попросит выбрать переменные для графика. Затем выберите тип статистики для графика в окне Диаграмма размаха: Отчетливо видно, что выполнение теста в группе Форма — Form было лучше любого другого; медиана числа испытаний при этом условии ниже, чем при любом другом. Самое худшее выполнение, как отчетливо видно из графиков, относится к группе Размер — Size. Критерий применяется в ситуациях, когда исследователь проводит два измерения например, при разных условиях одних и тех же субъектов и желает установить наличие или отсутствие различия результатов. Для применения этого критерия требуются очень слабые предположения например, однозначная определенность медианы для разности значений. Не нужно никаких предположений о природе или форме распределения. Критерий основан на интуитивно ясных соображениях. Подсчитаем количество положительных разностей между значениями переменной А и значениями переменной В. При нулевой гипотезе отсутствие эффекта обработки число положительных разностей имеет биномиальное распределение со средним, равным половине объема выборки положительных разностей будет примерно столько же, сколько отрицательных. Основываясь на биномиальном распределении, можно вычислить критические значения. Для малых объемов выборки n меньше 20 предпочтительнее использовать значения, табулированные Siegel and Castellan Nonparametric statistics for the behavioral sciences 2nded. McGraw-НШ, чтобы оценить статистическую значимость результатов. Критерий Вилкоксона парных сравнений является непараметрической альтернативой t-критерию для зависимых выборок. После выбора опции на экране появится диалоговое окно, в котором можно выбрать переменные из двух списков. Каждая переменная первого списка сравнивается с каждой переменной второго списка. Это то же самое расположение данных, что и в f-критерии зависимые выборки в модуле Основные статистики и таблицы. Предполагается, что рассматриваемые переменные ранжированы. W — статистика Вилкоксона равна сумме рангов элементов второй выборки в общем вариационном ряду двух выборок. Итак, наблюдения двух групп объединяются, строится общий вариационный ряд и вычисляется сумма рангов второй группы в построенном ряде. Требования к критерию Вилкоксона более строгие, чем к критерию знаков. Однако если они удовлетворены, то критерий Вилкоксона имеет большую мощность, чем критерий знаков. ANOVA Фридмана — это непараметрическая альтернатива однофакторному дисперсионному анализу с повторными измерениями. Коэффициент конкордации согласия Кендалла — аналог R Спирмена непараметрический коэффициент корреляции между двумя переменными , когда число переменных больше двух. В следующем файле приведены рейтинги, выставленные пятью каталогам программ независимыми экспертами. Определить, можно ли на основании оценок экспертов сделать вывод о значимых различиях между каталогами. Можно ли доверять экспертам? Иными словами, согласованы их оценки или нет зависимы или нет эксперты? Если нет, то вы, очевидно, не можете доверять их оценкам. Гипотезу о том, что эксперты согласованы в большей степени, чем можно было бы ожидать из-за чисто случайных совпадений их мнений, можно проверить с помощью коэффициента конкордации Кендалла. После запуска модуля Непараметрические статистики и распределения и выбора файла cataloge. Теперь нажмите OK , таблица с результатами появится на экране. Можно отметить, что между каталогами имеются высокозначимые различия. Дополнительно также видно, что эксперты, выставившие оценки, согласованы друг с другом — конкордация Кендалла равна 0,57 среднее ранговых корреляций равно 0, График по умолчанию для этих таблиц результатов — диаграмма размаха. В этом примере выберите все 20 переменных. Q-критерий Кохрена — это развитие критерия хи-квадрата Макнемара. Критерий проверяет, значимо или нет различаются между собой несколько сравниваемых переменных, принимающих значения После выбора опции Q-критерий Кохрена в стартовой панели программа предложит определить список переменных и коды, идентифицирующие две категории или два уровня факторов. Реализация критерия в системе STATISTICA предполагает, что переменные закодированы как единицы и нули, и коды, определенные пользователем, соответственно преобразуются в эти значения только для данного анализа, сам по себе файл не будет изменен. Выбор этой опции позволяет вычислить разнообразные описательные статистики: Пользователь может также вычислить заданные процентили. Эти опции дополняют опции основных статистик. Дополнительно стандартные описательные статистики минимум, Максимум, среднее, число наблюдений , а также описанные ниже статистики вычисляются для каждой переменной. Медиана разбивает выборку на две равные части. Пятьдесят процентов наблюдений лежит ниже медианы, пятьдесят процентов — выше медианы. Если значение медианы существенно отличается от среднего, то распределение скошено более подробно см. Мода — это максимально часто встречающееся значение в выборке. Частота встречаемости также отображается. Если имеется несколько значений с максимальной частотой, то распределение мулътимодалъно. Если каждое значение встречается лишь одни раз, программа делает запись: Геометрическое среднее полезно, например, если шкала измерений нелинейная. STATISTICA вычисляет геометрическое среднее с помощью логарифмического преобразования: Если переменная содержит отрицательные значения или нуль 0 , геометрическое среднее вычислить нельзя. Гармоническое среднее иногда используют для усреднения частот. Гармоническое среднее вычисляется по формуле: Если переменная содержит нуль 0 , гармоническое среднее вычислить нельзя. Выборочная дисперсия и стандартное отклонение — наиболее часто используемые меры изменчивости вариации данных. Дисперсия вычисляется как сумма квадратов отклонений значений переменной от выборочного среднего, деленная на п-1 но не на п. Стандартное отклонение вычисляется как корень квадратный из оценки дисперсии. Квартальный размах, по определению, равен: Асимметрия — это характеристика формы распределения. Распределение скошено влево, если значение асимметрии отрицательно. Распределение скошено вправо, если асимметрия положительна. Асимметрия стандартного нормального распределения равна 0. Асимметрия связана с третьим моментом и определяется как: Эксцесс — это характеристика формы распределения, а именно мера остроты его пика относительно нормального распределения, эксцесс которого равен 0. Как правило, распределения с более острым пиком, чем у нормального, имеют положительный эксцесс; распределения, пик которых менее острый, чем пик нормального распределения, имеют отрицательный эксцесс. Эксцесс связан с четвертым моментом и определяется формулой:. Главная Лента событий Форум Блоги Работа. Только один брат преступник. Подписка Есть Идея, Предложение по сайту?


Приказ минтранса 152 от 18 сентября 2008
Рассказ шишки фыфки
Нарисоватьна руку тату хной
Мыло с нуля горячим способом
Облазит спина что делать
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment