Файл: Миллатов Мейрамбек АиУ22 Используя датасет diamonds из ggplot2 найдите 1вашему мнению, обусловлена разница в этих количествах.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 10.01.2024
Просмотров: 114
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Миллатов Мейрамбек АиУ-22
Используя датасет diamonds из ggplot2 найдите:
1вашему мнению, обусловлена разница в этих количествах?
Чтобы найти количество бриллиантов в датасете diamonds с весом 0,99 карата и 1 карат, можно использовать следующий код:
Этот код показывает, что в датасете diamonds имеется 23 бриллиантов с весом 0,99 карата и 1558 бриллиантов с весом 1 карат.
Разница в количестве бриллиантов с весом 0,99 карата и 1 карат может быть обусловлена несколькими факторами. Например, производители бриллиантов могут специально избегать производства бриллиантов с весом 0,99 карата в пользу бриллиантов с весом 1 карат, так как бриллианты с круглым весом обычно стоят дороже. Кроме того, потребители могут предпочитать бриллианты с круглым весом из-за их восприятия как более редких и ценных. Таким образом, разница в количестве бриллиантов с весом 0,99 карата и 1 карат может быть обусловлена как производственными, так и потребительскими факторами.
какая из переменных набора данных diamonds наиболее важна для прогнозирования цены бриллианта? Как эта переменная коррелирует с переменной cut? Почему комбинация этих двух соотношений приводит к тому, что бриллианты худшего качества оказываются более дорогими?
В наборе данных diamonds цена бриллианта записана в переменной price. Эта переменная наиболее важна для прогнозирования цены бриллианта, так как цена напрямую зависит от веса, огранки, цвета и прозрачности бриллианта, и это именно те переменные, которые присутствуют в наборе данных.
Переменная cut отражает качество огранки бриллианта. Чем выше качество огранки, тем бриллиант считается более ценным. Чтобы посмотреть, как переменная cut коррелирует с ценой бриллианта, можно использовать функцию ggplot из пакета ggplot2.
Комбинация переменных price и cut приводит к тому, что бриллианты худшего качества оказываются более дорогими в сравнении с бриллиантами более высокого качества. Это может быть связано с тем, что бриллианты с худшей огранкой часто имеют больший вес и размер, чем бриллианты с более высоким качеством огранки, что приводит к более высокой цене. Кроме того, спрос на бриллианты с худшей огранкой может быть выше, что также может повысить их цену.
установите пакет ggstance и создайте горизонтальную диаграмму размаха. Как это соотносится с использованием функции coord_flip() ?
Для установки пакета ggstance можно использовать следующий код:
install.packages("ggstance")
Функция coord_flip() можно использовать для поворота графика на 90 градусов, чтобы переменная, которая была изначально на оси y, стала на оси x. В данном случае это переменная cut. Например, следующий код создаст ту же горизонтальную диаграмму размаха, но с использованием функции coord_flip():
установите пакет lvplot и попытайтесь использовать функцию geom_lv () для отображения распределения цены бриллиантов в зависимости от качества огранки. Как вы интерпретируете эти графики?
После установки пакета lvplot можно использовать функцию geom_lv() для создания графика распределения цены бриллиантов в зависимости от качества огранки. Например, следующий код создаст такой график:
График созданный с помощью geom_lv() - это график распределения сгруппированных значений переменной price по переменной cut. В этом графике используются ящик с усами (аналогично графику размаха), а также график плотности вероятности (kernel density), который показывает распределение цены бриллиантов в каждой категории качества огранки.
Интерпретация такого графика заключается в том, что он позволяет сравнить распределение цены бриллиантов в разных категориях качества огранки. Например, по этому графику можно увидеть, что цена бриллиантов с наилучшим качеством огранки (категория "Ideal") имеет более широкое распределение и в целом более высокие цены, чем бриллианты с более низким качеством огранки (например, категория "Fair"). Также можно увидеть, что цены в категориях "Good" и "Very Good" имеют более узкое распределение, чем в категории "Ideal", но в целом более высокие цены, чем в категориях "Fair" и "Poor".
Таким образом, график, созданный с помощью geom_lv(), позволяет получить более детальное представление о распределении цены бриллиантов в зависимости от категории качества огранки, чем просто использование графика размаха.
визуализируйте распределение переменной carat, используя price в качестве группирующей переменной.
Для визуализации распределения переменной carat в зависимости от price можно использовать график "ящик с усами" (boxplot) с цветовым разделением по группам. Для этого можно воспользоваться функцией ggplot из пакета ggplot2:
Этот код создаст график, на котором каждая группа цен будет представлена ящиком с усами, где вертикальная линия внутри ящика соответствует медиане, границы ящика - первому и третьему квартилям, а усы - минимальному и максимальному значениям, не превышающим 1.5 межквартильных расстояний.
Цвет ящиков и усов будет отображать цену бриллиантов: чем темнее цвет, тем выше цена. Таким образом, мы можем оценить, как распределение весов бриллиантов меняется в зависимости от их стоимости.
сравните распределение переменной price для крупных и небольших бриллиантов. Соответствуют ли результаты этого сравнения вашим ожиданиям или что-то в них вызывает у вас удивление?
Для сравнения распределения переменной price для крупных и небольших бриллиантов можно использовать график плотности (density plot) с разделением по размеру камней. Для этого можно воспользоваться функцией ggplot из пакета ggplot2:
Этот код создаст график, на котором каждый график плотности будет представлен для каждого типа огранки (cut), с разделением по размеру камней. Каждый график будет показывать, как распределение цен меняется в зависимости от размера бриллианта.
Если результаты сравнения показывают, что распределение цен значительно отличается для крупных и небольших бриллиантов, то это может вызвать удивление. Возможно, крупные бриллианты имеют более высокую цену, чем ожидалось, или наоборот, что цены на небольшие бриллианты выше, чем ожидалось. Если же результаты сравнения показывают, что распределение цен похоже для крупных и небольших бриллиантов, то это может быть ожидаемым результатом.
объедините две изученные вами методики для визуализации комбинированного распределения переменных cut, carat и price.
Для объединения двух методик для визуализации комбинированного распределения переменных cut, carat и price можно использовать трехмерную диаграмму рассеяния (3D scatter plot), которая позволяет одновременно отобразить все три переменные на одном графике. Для создания такого графика можно воспользоваться пакетом plotly и функцией plot_ly().
Этот код создаст 3D scatter plot, где каждая точка на графике представляет бриллиант с определенными значениями переменных carat, price и cut. Цвет точек будет соответствовать типу огранки (cut).
Такой график позволяет одновременно рассмотреть взаимосвязь между тремя переменными и увидеть, как они взаимодействуют друг с другом. Например, можно заметить, что бриллианты с высокими значениями переменной carat и переменной price находятся в основном в категории Ideal и Premium, а бриллианты с более низкими значениями переменных carat и price распределены более равномерно по всем категориям огранки.
Таким образом, 3D scatter plot позволяет получить более полное представление о взаимосвязи между переменными cut, carat и price, чем при использовании отдельных методик для каждой переменной.
двухмерные графики проявляют выбросы, которые на одномерных графиках остаются невидимыми. Некоторые точки имеют необычные сочетания значений х и у, что заставляет считать их выбросами, хотя взятые по отдельности значения х и у вполне обычны.
ggplot(data = diamonds) +
geom_point(mapping = aes(x = x, у = y)) +
coord_cartesian(xlim = c(4, 11), ylim = c(4, 11))
Почему в данном случае это легче заметить на диаграмме рассеяния, чем на диаграмме, использующей карманы?
Диаграмма рассеяния позволяет наглядно увидеть связь между двумя переменными и выявить выбросы, которые проявляются в виде отдельных точек, отклоняющихся от остальных значений. Визуализация с помощью карманов не позволяет также наглядно выделить отдельные значения и сравнить их со всеми остальными в наборе данных. Карманы показывают только основные статистические показатели распределения переменной (медиану, квартили, минимум и максимум), но не учитывают отдельные значения, которые могут быть далеко от среднего значения. Поэтому диаграмма рассеяния является более подходящим инструментом для выявления выбросов и необычных сочетаний значений переменных.
сравните распределение переменной price для крупных и небольших бриллиантов. Соответствуют ли результаты этого сравнения вашим ожиданиям?
Для сравнения распределения переменной price для крупных и небольших бриллиантов можно воспользоваться, например, разбиением на две группы по медианному значению веса карат (равному 0.7 карат).
Чтобы получить два поднабора данных (для крупных и небольших бриллиантов), можно использовать следующий код:
Затем можно построить гистограммы распределения цен для крупных и небольших бриллиантов:
Ожидается, что крупные бриллианты будут стоить значительно больше, чем небольшие, так как вес является одним из основных факторов, влияющих на стоимость бриллианта. Результаты могут отличаться в зависимости от выбранного порога для разделения на группы.
объедините две изученные вами методики для визуализации комбинированного распределения переменных cut, carat и price.
Для визуализации комбинированного распределения переменных cut, carat и price можно использовать трехмерный график. Для этого можно использовать библиотеку plotly, которая позволяет создавать интерактивные графики.
Вот пример кода:
Используя датасет flights из nycflights13 найдите:
авиарейсы, опережающие график на 15 минут в 50% случаев, и авиарей¬сы, отстающие от графика на 15 минут в 50% случаев;
Для нахождения авиарейсов, опережающих график на 15 минут в 50% случаев, и авиарейсов, отстающих от графика на 15 минут в 50% случаев, можно использовать функцию quantile для вычисления 50-го процентиля для разницы между фактическим временем прибытия/вылета и запланированным временем прибытия/вылета.