ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.12.2023
Просмотров: 35
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
1
СТАТИСТИЧЕСКАЯ ОБРАБОТКА ОДНОМЕРНОЙ ВЫБОРКИ
Цель работы – получение основных навыков обработки одномерной выборки в пакетах MS Excel и MATLAB.
Пакет MS Excel отлично подходит для простых задач вычисления числовых характеристик выборки. Для вычисления выборочных числовых характеристик средствами MS Excel можно использовать встроенные функции категории «Статистические».
Функция СРЗНАЧ возвращает значение выборочного среднего
x
, функция ДИСП позволяет получить значение оценки дисперсии
2
x
S
, а при помощи функции ДИСПР можно получить значение дисперсии
2
x
S .
Функция
СТАНДОТКЛОН вычисляет выборочное среднеквадратическое отклонение
x
S
, а функция СТАНДОТКЛОНП дает возможность получить значение среднеквадратического отклонения
x
S
Значение выборочного момента корреляции (ковариацию)
XY
Vˆ можно рассчитать, используя функцию КОВАР, а выборочный коэффициент корреляции
xy
r
можно вычислить, обратившись к функции КОРРЕЛ.
В то же время, при вычислении выборочных числовых характеристик в
MS Excel можно воспользоваться возможностями пакета анализа. Процедура действий в этом случае, следующая:
1. Открыть меню Сервис и выбрать Анализ данных.
2. Указать необходимую строку в списке Инструменты анализа.
3. Ввести входной и выходной диапазоны ячеек и установить необходимые параметры.
Так, например, для одновременного вычисления выборочного среднего и дисперсии, а также других характеристик выборки, может быть использована процедура «Описательная статистика». Эта процедура позволяет получить очень полный статистический отчет. Для выполнения процедуры необходимо:
2 1. Выполнить команду Сервис – Анализ данных, в появившемся списке
«Инструменты анализа» выбрать строку «Описательная статистика» и нажать
«Ок».
2. В появившемся диалоговом окне указать входной диапазон анализируемых данных.
3. Указать входной диапазон, т.е. указать адрес ячейки на листе.
4. В разделе Группировка установить переключатель в положение «по столбцам».
5. Установить флажок в поле «Итоговая статистика», нажать ОК.
В результате проведенного анализа в указанном выходном диапазоне для каждого столбца данных выводятся следующие статистические характеристики:
1. среднее (выборочное среднее
x
),
2. стандартная ошибка (величина
n
S
x
),
3. медиана (выборочная квантиль второго порядка),
4. мода (наиболее часто повторяющееся выборочное значение),
5. стандартное отклонение (величина
x
S ),
6. дисперсия выборки (выборочная дисперсия
2
x
S
),
7. эксцесс (оценка коэффициентов эксцесса),
8. асимметричность (оценка коэффициента асимметрии),
9. интервал (размах выборки min max
x
x
),
10. минимум (наименьшее выборочное значение min
x
),
11. максимум (наибольшее выборочное значение max
x
),
12. сумма (сумма всех выборочных значений),
13. счет (объем выборки).
Этапы выполнения работы
3 1. Получение допуска к работе. Необходимо переписать данные своего варианта N (см. приведенные ниже варианты заданий к работе №1, выборка объемом 50)
2. Выполнить аналитически от руки или в электронном виде:
2.1. Построение вариационного и статистического рядов, найти размах выборки;
2.2. Построение таблицы абсолютных и относительных частот группированной выборки, расчет интервалов провести по формуле Стерджеса;
2.3. Построить эмпирическую функцию распределения, гистограмму, полигон частот.
3. Средствами MS Excel и MATLAB найти оценки математического ожидания, дисперсии (смещенной и несмещенной), медианы и моды.
Построить графики эмпирической функции распределения, гистограмму и полигон частот.
Решение задачи в пакете MATLAB
Для начала нам необходима выборка, с которой можно работать. В данном примере мы ее сгенерируем сами. Обратите внимание, что у каждого студента выборка уже задана вариантом задания, и ее не нужно будет генерировать. clear all close all clc
% Генерация выборки, для дальнейшей работы
% мат. ожидание генерируемой выборки mu = 0;
% Среднеквадратическое отклонение sigma = 1;
% Объем выборки n = 50;
% Генерация нормально распределенных случайных чисел
4
X = normrnd(mu,sigma,n,1);
% Генерация лог-нормально распределенных
% случайных чисел
% Данная выборка является в нашем случае
% входной x = exp(X);
Далее построим вариационный ряд, определим количество интервалов и найдем абсолютную частоту попадания элемента выборки в каждый из интервалов.
% Построение вариационного ряда x = sort(x);
% Поиск минимального и максимального
% элементов выборки xmax = max(x); xmin = min(x);
% Определим количество интервалов
% по формуле Стерджесса b = 3.332; r = ceil(1+b*log10(n));
% Длина интервала stp = (xmax-xmin)/r;
% Определяем середины интервалов centr = []; centr(1) = xmin+(stp/2); for i=2:1:r centr(i) = centr(i-1)+stp; end
% Определяем абсолютную частоту k1 = xmin; i = 1; while i<=r k2 = 0; for j=1:n if
(x(j)>=k1) & (x(j)<=k1+stp) k2 = k2+1; end end freqn(i) = k2;
5 k1 = xmin+stp*i; i = i+1; end
Рассчитаем числовые характеристики выборки и выведем их на экран, при помощи следующего программного кода:
% Числовые характеристики выборки:
% Выборочное среднее m = mean(x);
% Дисперсия
D = var(x);
% Ср. кв. отклонение
SKO = std(x);
% Мода moda = mode(x);
% Медиана med = median(x);
% Коэффициент эксцесса kurt = kurtosis(x);
% Коэффициент асимметрии skew = skewness(x);
% Вывод значений fprintf(
'Максимальное значение = %f\n'
,xmax); fprintf(
'Минимальное значение = %f\n'
,xmin); fprintf(
'Количество интервалов = %f\n'
,r); fprintf(
'Длина одного интервала = %f\n'
,r); fprintf(
'Выборочное среднее = %f\n'
,m); fprintf(
'Выборочная дисперсия = %f\n'
,D); fprintf(
'Ср. кв. отклонение = %f\n'
,SKO); fprintf(
'Мода = %f\n'
,moda); fprintf(
'Медиана = %f\n'
,med); fprintf(
'Коэффициент эксцесса = %f\n'
,kurt); fprintf(
'Коэффициент асимметрии = %f\n'
,skew);
Далее построим полигон частот, гистограмму и эмпирическую функцию распределения, которые показаны на рис. 1-3 соответственно.
% Построение полигона частот figure() plot(centr,freqn/n,
'r-o'
) xlabel(
'Интервалы'
); ylabel(
'Относительная частота'
)
6 grid on
% Построение гистограммы figure() histogram(x,r) xlabel(
'Интервалы'
); ylabel(
'Частота'
) grid on
% Построение эмпирической
% функции распределения figure() ecdf(x)
% Подпись оси 0X
xlabel(
'x'
)
% Подпись оси 0Y
ylabel(
'F(x)'
)
% Добавление сетки на график grid on
Рис. 1. Полигон частот
7
Рис. 2. Гистограмма
Рис. 3. Эмпирическая функция распределения
Выполнение работы в Excel в данной лабораторной работе мы пропустим, Excel по умолчанию не предоставляет возможности
8 автоматизации процессов поиска интервалов, и выполнение работы в нем напоминает процесс аналитического расчет характеристик.
Варианты заданий
Варианты заданий можно найти по ссылке на Google диске. https://drive.google.com/file/d/1d8r76nK9odzfmhCMtnQD4iZ-o-
6nlZeL/view?usp=sharing
Требования к содержанию отчета
1. Титульный лист.
2. Цель работы.
3. Аналитический расчет необходимых параметров на отдельном листе бумаги.
4. Расчет параметров в пакете MS Excel
5. Расчет параметров в пакете MATLAB
6. Графики гистограммы, полигона частот и эмпирической функции распределения.
7. Выводы по проделанной работе.
1
СТАТИСТИЧЕСКАЯ ОБРАБОТКА ОДНОМЕРНОЙ ВЫБОРКИ
Цель работы – получение основных навыков обработки одномерной выборки в пакетах MS Excel и MATLAB.
Пакет MS Excel отлично подходит для простых задач вычисления числовых характеристик выборки. Для вычисления выборочных числовых характеристик средствами MS Excel можно использовать встроенные функции категории «Статистические».
Функция СРЗНАЧ возвращает значение выборочного среднего
x
, функция ДИСП позволяет получить значение оценки дисперсии
2
x
S
, а при помощи функции ДИСПР можно получить значение дисперсии
2
x
S .
Функция
СТАНДОТКЛОН вычисляет выборочное среднеквадратическое отклонение
x
S
, а функция СТАНДОТКЛОНП дает возможность получить значение среднеквадратического отклонения
x
S
Значение выборочного момента корреляции (ковариацию)
XY
Vˆ можно рассчитать, используя функцию КОВАР, а выборочный коэффициент корреляции
xy
r
можно вычислить, обратившись к функции КОРРЕЛ.
В то же время, при вычислении выборочных числовых характеристик в
MS Excel можно воспользоваться возможностями пакета анализа. Процедура действий в этом случае, следующая:
1. Открыть меню Сервис и выбрать Анализ данных.
2. Указать необходимую строку в списке Инструменты анализа.
3. Ввести входной и выходной диапазоны ячеек и установить необходимые параметры.
Так, например, для одновременного вычисления выборочного среднего и дисперсии, а также других характеристик выборки, может быть использована процедура «Описательная статистика». Эта процедура позволяет получить очень полный статистический отчет. Для выполнения процедуры необходимо:
2 1. Выполнить команду Сервис – Анализ данных, в появившемся списке
«Инструменты анализа» выбрать строку «Описательная статистика» и нажать
«Ок».
2. В появившемся диалоговом окне указать входной диапазон анализируемых данных.
3. Указать входной диапазон, т.е. указать адрес ячейки на листе.
4. В разделе Группировка установить переключатель в положение «по столбцам».
5. Установить флажок в поле «Итоговая статистика», нажать ОК.
В результате проведенного анализа в указанном выходном диапазоне для каждого столбца данных выводятся следующие статистические характеристики:
1. среднее (выборочное среднее
x
),
2. стандартная ошибка (величина
n
S
x
),
3. медиана (выборочная квантиль второго порядка),
4. мода (наиболее часто повторяющееся выборочное значение),
5. стандартное отклонение (величина
x
S ),
6. дисперсия выборки (выборочная дисперсия
2
x
S
),
7. эксцесс (оценка коэффициентов эксцесса),
8. асимметричность (оценка коэффициента асимметрии),
9. интервал (размах выборки min max
x
x
),
10. минимум (наименьшее выборочное значение min
x
),
11. максимум (наибольшее выборочное значение max
x
),
12. сумма (сумма всех выборочных значений),
13. счет (объем выборки).
Этапы выполнения работы
3 1. Получение допуска к работе. Необходимо переписать данные своего варианта N (см. приведенные ниже варианты заданий к работе №1, выборка объемом 50)
2. Выполнить аналитически от руки или в электронном виде:
2.1. Построение вариационного и статистического рядов, найти размах выборки;
2.2. Построение таблицы абсолютных и относительных частот группированной выборки, расчет интервалов провести по формуле Стерджеса;
2.3. Построить эмпирическую функцию распределения, гистограмму, полигон частот.
3. Средствами MS Excel и MATLAB найти оценки математического ожидания, дисперсии (смещенной и несмещенной), медианы и моды.
Построить графики эмпирической функции распределения, гистограмму и полигон частот.
Решение задачи в пакете MATLAB
Для начала нам необходима выборка, с которой можно работать. В данном примере мы ее сгенерируем сами. Обратите внимание, что у каждого студента выборка уже задана вариантом задания, и ее не нужно будет генерировать. clear all close all clc
% Генерация выборки, для дальнейшей работы
% мат. ожидание генерируемой выборки mu = 0;
% Среднеквадратическое отклонение sigma = 1;
% Объем выборки n = 50;
% Генерация нормально распределенных случайных чисел
4
X = normrnd(mu,sigma,n,1);
% Генерация лог-нормально распределенных
% случайных чисел
% Данная выборка является в нашем случае
% входной x = exp(X);
Далее построим вариационный ряд, определим количество интервалов и найдем абсолютную частоту попадания элемента выборки в каждый из интервалов.
% Построение вариационного ряда x = sort(x);
% Поиск минимального и максимального
% элементов выборки xmax = max(x); xmin = min(x);
% Определим количество интервалов
% по формуле Стерджесса b = 3.332; r = ceil(1+b*log10(n));
% Длина интервала stp = (xmax-xmin)/r;
% Определяем середины интервалов centr = []; centr(1) = xmin+(stp/2); for i=2:1:r centr(i) = centr(i-1)+stp; end
% Определяем абсолютную частоту k1 = xmin; i = 1; while i<=r k2 = 0; for j=1:n if
(x(j)>=k1) & (x(j)<=k1+stp) k2 = k2+1; end end freqn(i) = k2;
5 k1 = xmin+stp*i; i = i+1; end
Рассчитаем числовые характеристики выборки и выведем их на экран, при помощи следующего программного кода:
% Числовые характеристики выборки:
% Выборочное среднее m = mean(x);
% Дисперсия
D = var(x);
% Ср. кв. отклонение
SKO = std(x);
% Мода moda = mode(x);
% Медиана med = median(x);
% Коэффициент эксцесса kurt = kurtosis(x);
% Коэффициент асимметрии skew = skewness(x);
% Вывод значений fprintf(
'Максимальное значение = %f\n'
,xmax); fprintf(
'Минимальное значение = %f\n'
,xmin); fprintf(
'Количество интервалов = %f\n'
,r); fprintf(
'Длина одного интервала = %f\n'
,r); fprintf(
'Выборочное среднее = %f\n'
,m); fprintf(
'Выборочная дисперсия = %f\n'
,D); fprintf(
'Ср. кв. отклонение = %f\n'
,SKO); fprintf(
'Мода = %f\n'
,moda); fprintf(
'Медиана = %f\n'
,med); fprintf(
'Коэффициент эксцесса = %f\n'
,kurt); fprintf(
'Коэффициент асимметрии = %f\n'
,skew);
Далее построим полигон частот, гистограмму и эмпирическую функцию распределения, которые показаны на рис. 1-3 соответственно.
% Построение полигона частот figure() plot(centr,freqn/n,
'r-o'
) xlabel(
'Интервалы'
); ylabel(
'Относительная частота'
)
6 grid on
% Построение гистограммы figure() histogram(x,r) xlabel(
'Интервалы'
); ylabel(
'Частота'
) grid on
% Построение эмпирической
% функции распределения figure() ecdf(x)
% Подпись оси 0X
xlabel(
'x'
)
% Подпись оси 0Y
ylabel(
'F(x)'
)
% Добавление сетки на график grid on
Рис. 1. Полигон частот
7
Рис. 2. Гистограмма
Рис. 3. Эмпирическая функция распределения
Выполнение работы в Excel в данной лабораторной работе мы пропустим, Excel по умолчанию не предоставляет возможности
8 автоматизации процессов поиска интервалов, и выполнение работы в нем напоминает процесс аналитического расчет характеристик.
Варианты заданий
Варианты заданий можно найти по ссылке на Google диске. https://drive.google.com/file/d/1d8r76nK9odzfmhCMtnQD4iZ-o-
6nlZeL/view?usp=sharing
Требования к содержанию отчета
1. Титульный лист.
2. Цель работы.
3. Аналитический расчет необходимых параметров на отдельном листе бумаги.
4. Расчет параметров в пакете MS Excel
5. Расчет параметров в пакете MATLAB
6. Графики гистограммы, полигона частот и эмпирической функции распределения.
7. Выводы по проделанной работе.