Файл: Тема Основы языка Python.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 04.12.2023

Просмотров: 131

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

159
Если значением индекса является True, то элемент сохраняется в фильтруемом массиве. Если значением этого индекса является False, этот элемент исключается из фильтруемого массива.
Рис. 221. Фильтрация массива
NumPy позволяет искать в массиве определенное значение и возвращать соответствующие индексы. Для поиска в массиве используется метод where() (рис. 222).
Рис. 222. Поиск элементов в массиве
В NumPy еще много полезных функций, позволяющих хранить и обрабатывать данные. Полную информацию о них можно найти в официальном руководстве: https://numpy.org/doc/.

160
3.3. Python Matplotlib
Matplotlib – библиотека на языке программирования Python для визуализации данных двумерной и трехмерной графикой. Получаемые изображения могут быть использованы в качестве иллюстраций в публикациях. Далее будут представлены примеры использования различных графиков.
Точечный график
Scatteplot – это классический и фундаментальный вид диаграммы, используемый для изучения взаимосвязи между двумя переменными. Если есть несколько групп в данных, можно визуализировать каждую группу в другом цвете. В matplotlib легко сделать это, используя plt.scatterplot() (рис.
223, 224).
Рис. 223. Программный код для построения графика

161
Рис. 224. Результат выполнения программного кода
Пузырьковая диаграмма с захватом группы
Иногда хочется показать группу точек внутри границы, чтобы подчеркнуть их важность. В этом примере мы получаем записи из фрейма данных, которые должны быть выделены, и передаем их в encircle(), описанный в приведенном ниже коде (рис. 225, 226).

162
Рис. 225. Программный код для построения графика

163
Рис. 226. Результат выполнения программного кода
График линейной регрессии best fit
Если вы хотите понять, как две переменные изменяются по отношению друг к другу, лучше всего подойдет линия best fit. На графике ниже показано, как best fit выделяется среди различных групп данных. Чтобы отключить группировки и просто нарисовать одну линию best fit для всего набора данных, нужно удалить параметр hue='cyl' из sns.lmplot() ниже (рис. 227,
228).

164
Рис. 227. Программный код для построения графика
Рис. 228. Результат выполнения программного кода

165
Кроме того, можно показать линию best fit для каждой группы в отдельном столбце, установив параметр col=groupingcolumn внутри sns.lmplot() (рис. 229, 230).
Рис. 229. Программный код для построения графика
Рис. 230. Результат выполнения программного кода


166
Stripplot
Часто несколько точек данных имеют одинаковые значения X и Y. В результате несколько точек наносятся друг на друга и скрываются. Чтобы избежать этого, нужно слегка раздвинуть точки, чтобы можно было видеть их по отдельности. Это удобно делать с помощью стрипплота (stripplot())
(рис. 231, 232).
Рис. 231. Программный код для построения графика
Рис. 232. Результат выполнения программного кода

167
График подсчета (Counts Plot)
Другим вариантом, позволяющим избежать проблемы наложения точек, является увеличение размера точки в зависимости от того, сколько точек лежит в этом месте. Таким образом, чем больше размер точки, тем больше концентрация точек вокруг нее (рис. 233, 234).
Рис. 233. Программный код для построения графика

168
Рис. 234. Результат выполнения программного кода
Построчная гистограмма
Построчные гистограммы имеют гистограмму вдоль переменных осей
X и Y. Это используется для визуализации отношений между X и Y вместе с одномерным распределением X и Y по отдельности. Этот график часто используется в анализе данных (EDA) (рис. 235, 236).
Рис. 235. Программный код для построения графика

169
Рис. 236. Результат выполнения программного кода
Boxplot
Boxplot служит той же цели, что и построчная гистограмма. Тем не менее этот график помогает точно определить медиану, 25-й и 75-й персентили X и Y (рис. 237, 238).

170
Рис. 237. Программный код для построения графика

171
Рис. 238. Результат выполнения программного кода
Диаграмма корреляции
Диаграмма корреляции используется для визуального просмотра метрики корреляции между всеми возможными парами числовых переменных в наборе данных (или двумерном массиве) (рис. 239, 240).
Рис. 239. Программный код для построения графика

172
Рис. 240. Результат выполнения программного кода
Парный график
Часто используется в исследовательском анализе, чтобы понять взаимосвязь между всеми возможными парами числовых переменных. Это обязательный инструмент для двумерного анализа (рис. 241–244).

173
Рис. 241. Программный код для построения графика
Рис. 242. Результат выполнения программного кода

174
Рис. 243. Программный код для построения графика
Рис. 244. Результат выполнения программного кода
Расходящиеся столбцы
Чтобы увидеть, как элементы меняются в зависимости от одной метрики, и визуализировать порядок и величину этой дисперсии,

175 расходящиеся столбцы – отличный инструмент. Он помогает быстро дифференцировать производительность групп в ваших данных, является достаточно интуитивным и мгновенно передает смысл (рис. 245, 246).
Рис. 245. Программный код для построения графика


176
Рис. 246. Результат выполнения программного кода
Расходящиеся точки
График расходящихся точек похож на расходящиеся столбцы. Однако отсутствие столбцов уменьшает степень контрастности и несоответствия между группами (рис. 247, 248).

177
Рис. 247. Программный код для построения графика

178
Рис. 248. Результат выполнения программного кода
Расходящаяся диаграмма Lollipop с маркерами
Lollipop обеспечивает гибкий способ визуализации расхождения, делая акцент на любых значимых точках данных, на которые вы хотите обратить внимание (рис. 249, 250).

179
Рис. 249. Программный код для построения графика

180
Рис. 250. Результат выполнения программного кода
Диаграмма площади
Раскрашивая область между осью и линиями, диаграмма площади подчеркивает пики и впадины. Такая диаграмма позволяет оценить продолжительности максимумов и минимумов.
Чем больше продолжительность максимумов, тем больше площадь под линией (рис. 251,
252).

181
Рис. 251. Программный код для построения графика

182
Рис. 252. Результат выполнения программного кода
Упорядоченная гистограмма
Упорядоченная гистограмма эффективно передает порядок ранжирования элементов. Добавив значение показателя над диаграммой, пользователь получает точную информацию от самой диаграммы (рис. 253,
254).

183
Рис. 253. Программный код для построения графика

184
Рис. 254. Результат выполнения программного кода