Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/b9f5b54c35838132667d37b8af6bc1fe to your computer and use it in GitHub Desktop.
Save anonymous/b9f5b54c35838132667d37b8af6bc1fe to your computer and use it in GitHub Desktop.
Выборочный метод вычисление числовых характеристик

Выборочный метод вычисление числовых характеристик



Ознакомление со способами построения одномерных статистических рядов и способами их графического изображения. Вычисление основных числовых и функциональных характеристик выборки. Понятия генеральной совокупности и выборки из неё являются первоначальными в статистике. Строгие определения пришли из теории вероятностей, хотя терминология математической статистики отличается от терминологии теории вероятностей. В математической статистике вместо случайной величины принято говорить о генеральной совокупности ГС , как о спектре[1] значений подразумеваемой случайной величины. И вместо распределения случайной величины рассуждают о распределении ГС в интегральной или дифференциальной форме. Под интегральной формой понимается функция распределения , а под дифференциальной формой имеется в виду плотность распределения для непрерывной ГС, либо ряд распределения для дискретной ГС. При нестрогом подходе, под ГС понимают множество всех объектов некоторого наблюдения в совокупности с множеством всех значений этого наблюдения, соответствующих каждому объекту. А под выборкой объёма n понимают множество из n объектов, реально подвергшихся наблюдению, в совокупности с n значениями наблюдения для каждого объекта. Например, социолог, изучающий мнение избирателей, под генеральной совокупностью понимает множество всех избирателей данной страны, а под выборкой объёма n — множество из n человек, которых он опросил. Мы будем иметь в виду и такую точку зрения на ГС. В статистике о распределении ГС всегда что-нибудь неизвестно, и целью статистического анализа как раз является восстановление недостающей информации. Как правило, выборка подразумевается обычной , т. Основная задача статистики — получить обоснованные выводы о свойствах ГС, анализируя извлечённую из неё выборку. Описать закон распределения ГС, подобрать значения параметров этого закона, оценить всевозможные коэффициенты корреляции, если имеется несколько выборок, одинаково ли распределены ГС или нет, одинаковы ли определённые числовые характеристики этих генеральных совокупностей или нет и т. Все перечисленные вопросы сформулированы на языке ТВ. От статистики требуют ответы и на другие вопросы, можно ли утверждать, что новое лекарство эффективнее излечивает от некоторой болезни, чес старое? Какой будет численность населения страны в следующем году? Существует ли связь между значениями предела прочности и предела текучести различных марок стали? Чтобы ответить на подобные вопросы, нужно уметь строить подходящие вероятностные модели для реальных ситуаций. А для этого нужно уметь представлять выборку в подходящем для изучения виде. Возникает задача описания и представления выборки. Результаты наблюдений x1, x2,. Небольшие выборки удобно представлять в виде таблицы из двух строк. В первой строке записывают элементы выборки они называются вариантами , расположенные в порядке возрастания. Во второй строке записывают частоты вариант. Частотой варианты называется число, равное количеству повторений варианты в выборке. Описанная таблица называется таблицей частот или статистическим рядом распределения выборки. Записать в виде вариационного и статистического рядов выборку 5, 3, 7, 10, 5, 5, 2, 10, 7, 2, 7, 7, 4, 2, 4. Определить размах выборки [с. Упорядочив элементы выборки по возрастанию, получим вариационный ряд: Разность между максимальным и минимальным элементами выборки называется размахом выборки:. Различными в заданной выборке являются элементы 2, 3, 4, 5, 7, 10; и их частоты соответственно равны 3, 1, 2, 3, 4, 2. Следовательно, статистический ряд исходной выборки можно записать в виде следующей таблицы. С производственной линии случайным образом 36 раз отбирали 10 единиц некоторого изделия. Определим частоты появления вариант и построим таблицу частот:. Отметим, что таблица относительных частот напоминает таблицу вероятностей дискретной случайной величины. Встречается и такое название этой таблицы: На основании выборочных значений можно строить эмпирические аналоги характеристик случайной величины, как функциональных — функции и плотности распределения, так и числовых — параметров и моментов распределения. Оценки параметров распределения являются функциями от выборочных значений и называются статистиками. Выборочная функция распределения ступенчатая, со скачками в точках xi, является аналогом генеральной функции распределения F x. Наиболее важную из содержащихся в распределении информации можно охарактеризовать при помощи численных величин, отвечающих на следующие вопросы:. Какая величина, лежащая в диапазоне наблюдённых значений, лучше всего характеризует наблюдения? В какой мере рассеивание, имеющее место по обеим сторонам от некоторого центрального значения, отличается от симметричного? Математическое ожидание есть характеристика расположения значений случайной величины, среднее значение ее распределения. В этом качестве математическое ожидание служит некоторым "типичным" параметром распределения и его роль аналогична роли координаты центра тяжести распределения массы в механике. Основным условием использования того или иного вида средних является определенная качественная однородность изучаемой совокупности объектов. Главной определяющей чертой такой однородности является справедливость предположения о том, что вариация рассматриваемого признака носит характер случайности по отношению к тем условиям, которые определяют основные черты характеризуемого с помощью средней распределения. Другими словами, отклонения значений признака от среднего уровня в однородной совокупности можно считать случайными. Используя различные средние в социологических исследованиях , необходимо иметь в виду, что выбор среднего в значительной мере зависит от типа тех шкал, по которым получены исходные данные. Средняя арифметическая особо чувствительна к экстремальным выделяющимся значениям в одном из направлений, которые называются смещенными данными. Выделяющиеся большие значения увеличивают среднюю выше уровня действительного представляющего точку центра распределения данных. Особо малые значения признаков имеют противоположный эффект. Иногда для того чтобы исключить влияние экстремальных единиц данных, рассчитывается усеченная средняя. Экстремальные наблюдения не влияют на медиану и моду, но эти показатели не столь полезны в дальнейшем математическом и статистическом анализе. Средняя геометрическая лучше других подходит, когда подсчитываются "средние" темпы прироста в течение нескольких временных периодов. Медиана — это такое значение признака, которое приходится на середину вариационного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака больше медианы, другая — меньше медианы. Для интервального ряда с равными интервалами величина медианы определяется так:. Для вычисления медианы используем функцию МЕДИАНА. В скобках указываем диапазон ячеек для которых мы находим данные характеристики. Среднее и дисперсия не отражают всех особенностей кривой распределения. Одной из них является симметрия или асимметрия кривой распределения относительно, проходящей через центр тяжести. В любом симметричном распределении центральный момент произвольного порядка равен нулю. Поэтому простейший из нечетных моментов — центральный момент третьего порядка — может в первом приближении служить характеристикой асимметрии распределения. Асимметрия или коэффициент асимметрии термин был впервые введён Пирсоном, является мерой несимметричности распределения. Если этот коэффициент отчетливо отличается от 0, распределение является асимметричным. Плотность нормального распределения симметрична относительно среднего. Оценка коэффициента асимметрии выборочный коэффициентом асимметрии вычисляется по формуле 2. При положительном значении — правая ветвь более пологая, чем левая. И, наоборот, при отрицательном значении коэффициента асимметрии. Эксцесс термин был впервые введен Пирсоном, или точнее, коэффициент эксцесса измеряет "пикообразность" распределения. Если эксцесс значимо отличен от 0, то функция плотности либо имеет более закругленный, либо более острый пик, чем пик плотности нормального распределения. Функция плотности нормального распределения имеет эксцесс равный 0. В качестве характеристики слаженности кривой распределения около её моды используют безразмерный коэффициент эксцесса:. Оценка эксцесса выборочный эксцесс вычисляется по формуле 2. Нормальное распределение имеет нулевой эксцесс. Положительное значение указывает на то, что кривая распределения в окрестности моды имеет более острую вершину, чем кривая нормального распределения с тем же средним и дисперсией. Отрицательное значение указывает на более плоский характер вершины по сравнению с соответствующей кривой нормального закона распределения. В случае положительной асимметрии распределение имеет длинную правую ветвь. Средняя величина дохода больше медианы, которая в свою очередь больше моды. Значение средней больше медианы и моды, потому что на нее повлияли несколько очень больших значений доходов. Отрицательная асимметрия проявляется в виде более длинной левой ветви, а величина средней меньше медианы и моды. Большинство наблюдений распределения имеют значения больше средней, но величина средней снижается из-за нескольких очень малых наблюдений. Статистическим аналогом функции распределения , или эмпирической функцией распределения выборки, является ступенчатая функция со скачками высотой в каждой точке xi:. Если имеется статистический ряд распределения см. Построение эмпирической функции распределения позволяет детально сравнить теорию с выборочными результатами. При больших значениях n строить затруднительно, поэтому выборки часто подвергаются группировке. При этом отдельные выборочные значения не даются, а указываются лишь число выборочных значений попавших в интервалы некоторого определённого разбиения. Её график получил название гистограммы. Величина пропорциональна относительной частоте попадания случайной величины в j - й интервал, поэтому она является случайной величиной. При построении гистограммы разбивают область значений на интервалы классы и для каждого интервала определяют частоту попадания в него выборочных значений. Гистограмму строят как ступенчатую функцию, которая на каждом интервале принимает постоянное значение, которое определяется по формуле 1. По виду гистограмма представляет собой фигуру из смежных столбиков, с основаниями на интервалах классах группировки. Причём высота каждого столбика, пропорциональна частоте наблюдений в его интервале и обратно пропорциональна длине интервала и объёму выборки n при этом площадь столбика получается равной относительной частоте, а площадь гистограммы равной единице. При разбиении на интервалы рекомендуется принимать длину интервала постоянной: Значениям выборки xi, попавшим в один и тот же интервал j , присваивается значение середины данного интервала. При выборе ширины интервала при фиксированном n необходимо по возможности учитывать следующие положения:. Число интервалов k обычно колеблется от 5 до В зависимости от величины n можно использовать следующие рекомендации [1]:. На практике количество интервалов и их размеры подбираются также с учётом, чтобы в каждом было не менее пяти наблюдений за исключением, возможно, крайних интервалов. Минимальное число интервалов должно быть равным пяти, т. Это связано с тем, что согласно центральной предельной теореме сумма случайных величин имеет приближённо нормальное распределение на практике число случайных величин достаточно взять не менее пяти. По одной выборке можно построить множество гистограмм, варьируя n , k , h , поэтому за исключением случаев, когда n велико, гистограмма может употребляться лишь для грубого сравнения, в то время как эмпирическая функция распределения может быть использована для всякого детального сравнения с теоретическим распределением. В статистических пакетах при построении гистограммы высоту столбиков, как правило, выбирают равной частоте попадания ni см. Для наглядности, сгруппированные статистические ряды представляются графиком и диаграммой. Наиболее распространёнными графиками являются полигон и гистограмма. Для построения гистограммы выборки на оси абсцисс откладываются частичные интервалы , на каждом из которых строится прямоугольник с высотой. Если на гистограмме частностей соединить середины интервалов, то полученная замкнутая ломанная образует полигон распределения частностей. Для анализа содержания меди в новом месторождении было отобрано 80 проб. Результаты анализов в граммах занесены в таблицу Определяем длину частичного интервала. За начало первого интервала примем величину, равную. Группировка исходных данных сведена в таблицу, в каждый интервал включались те значения, числовые значения которых больше нижней границы интервала. Для данного примера коэффициент асимметрии положителен, следовательно, график функции плотности распределения имеет правую ветвь более пологую, чем левая см. Все предыдущие вычисления показывают, что для подсчета числовых характеристик выборки, построения гистограмм требуется большой объём вычислений, поэтому для статистического анализа широко используются различные статистические пакеты [4]. Запускаем пакет Statgraphics [5] и выберем пиктограмму Untitled в левом нижнем углу рабочего поля и инициализируем новую электронную таблицу для ввода данных. Появится окно для задания анализируемой переменной рис. Далее, на дополнительной панели. На экране появится окно с полученными результатами. Для того чтобы расширить выводимый список, нажмите правую копку мыши и выберите из контекстного меню пункт Pane Options. Откроется диалоговое окно, изображённое на рис. This table shows summary statistics for X. It includes measures of central tendency, measures of variability, and measures of shape. Of particular interest here are the standardized skewness and standardized kurtosis, which can be used to determine whether the sample comes from a normal distribution. In this case, the standardized skewness value is within the range expected for data from a normal distribution. The standardized kurtosis value is within the range expected for data from a normal distribution. Эта таблица показывает сводную статистику для X. Он включает меры центральной тенденции, меры изменчивости, а также меры по форме. Особый интерес здесь стандартизированных асимметричности и эксцесса стандартизированы, которые могут быть использованы для определения образцов происходит от нормального распределения. В этом случае, стандартизированные значения асимметрии находится в пределах ожидаемых данных для нормального распределения. Стандартизированные значения эксцесса находится в пределах ожидаемых данных для нормального распределения. Осуществим процедуру группирования, используя возможности пакета Statgraphics. Активизируем диалоговое окно для выбора табличных опций с помощью пиктограммы и выбираем процедуру Frequency Tabulation. На экране отобразится окно с результатом распределения частот. Для того чтобы изменить параметры распределения задать число интервалов, нижнюю и верхнюю границу , в контекстном меню выберите пункт Pane Option рис. Можно построить гистограммы двух типов. Эмпирическая функция распределения содержания меди гистограмма накопленной относительной частоты в процентах. Перечень вопросов для самопроверки степени подготовленности к данной лабораторной работе. Какую числовую характеристику генеральной совокупности характеризует выборочное среднее, выборочное среднее квадратичное отклонение, выборочные коэффициенты асимметрии и эксцесса? Учебное пособие для втузов. Spectrum видимое, видение ] — совокупность всех значений какой-либо величины, характеризующей систему или процесс. Вычисление основных числовых характеристик выборки. Статистическим рядом распределения называют таблицу 1 вида Таблица 1 Значения выборки, xi x1 x2. Разность между максимальным и минимальным элементами выборки называется размахом выборки: Подписаться на рассылку Pandia. Интересные новости Важные темы Обзоры сервисов Pandia. Основные порталы, построенные редакторами. Бизнес и финансы Бизнес: Каталог авторов частные аккаунты. Все права защищены Мнение редакции может не совпадать с мнениями авторов. Минимальная ширина экрана монитора для комфортного просмотра сайта: Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на support pandia. О проекте Справка О проекте Сообщить о нарушении Форма обратной связи. Авторам Открыть сайт Войти Пожаловаться. Архивы Все категории Архивные категории Все статьи Фотоархивы. Лента обновлений Педагогические программы. Правила пользования Сайтом Правила публикации материалов Политика конфиденциальности и обработки персональных данных При перепечатке материалов ссылка на pandia.


Smart baby watch q50 как настроить время
Оценка стоимости акционерного общества
Готовые квартиры в ипотеку спб
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment