Файл: Import pandas as pd data pd read csv('datasetsvisits csv', sep't').pptx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 04.12.2023
Просмотров: 122
Скачиваний: 5
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Задания
1 .
import pandas as pd
data = pd.read_csv('/datasets/visits.csv', sep='\t')
Причиной коротких заездов может быть то, что водители нечаянно заезжают на АЗС, которые не работают по ночам. Если это действительно так, то вы увидите связь между короткими заездами и временем прибытия. Чтобы проверить эту гипотезу, измените тип столбца date_time на более удобный тип для даты.
Методом pd.to_datetime() переведите значения столбца date_time в таблице data в объекты datetime. В параметре format= укажите строку, соответствующую текущему формату date_time, с помощью специальных обозначений.
Выведите на экран первые пять строк data, чтобы проверить, что получилось.
*Поместите в data['date_time'] результат работы метода pd.to_datetime(). В аргументе format должен быть указан формат даты: '%Y%m%dT%H%M%S'. Методом head() выведите на экран первые пять строк data.
2.
import pandas as pd
data = pd.read_csv('/datasets/visits.csv', sep='\t')
Напомним, что в датафрейме записано время UTC. Московское рассчитывают как UTC + 3 часа.
Создайте столбец data['local_time'] и сохраните в нём сдвинутое на 3 часа время из столбца data['date_time']. Напечатайте первые 5 строк таблицы data.
*Передайте в pd.Timedelta() аргумент hours=3. Первые 5 строк выведите на экран методом head().
3
import pandas as pd
data = pd.read_csv('/datasets/visits.csv', sep='\t')
Данные, связанные со временем, лучше округлять до той величины, которой будет достаточно для детального анализа. Чтобы проанализировать взаимосвязь между временем прибытия на АЗС и продолжительностью заезда, точность до минут и секунд не нужна. Округлите время до часов.
Выполните следующие шаги:
Создайте новый столбец date_hour и передайте ему значения столбца local_time, округлённые до часов.
Выведите первые пять строк data, чтобы проверить результаты.
*К данным столбца local_time примените метод dt.round(). Передайте методу строку 1H. Присвойте результат столбцу date_hour.
4
import pandas as pd
data = pd.read_csv('/datasets/visits.csv', sep='\t')
data['date_time'] = pd.to_datetime(
data['date_time'], format='%Y-%m-%dT%H:%M:%S'
)
data['local_time'] = data['date_time'] + pd.Timedelta(hours=3)
Снова создайте переменную sample, записав в неё срез из данных по АЗС с id == '3c1e4c52'. Обратите внимание, что на этот раз в sample войдут все форматы времени.
Пользуясь данными sample, постройте график зависимости продолжительности заправки от времени заезда. За основу возьмите соответствующие столбцы time_spent и local_time. Оси X присвойте значения столбца local_time, а оси Y — значения столбца time_spent.
Проверьте, всё ли верно отображено на графике:
Каждый элемент обозначен точкой.
Диапазон оси Y указан от 0 до 1000.
Добавлены сетки.
Размер графика 12х6 дюймов.
*Методом query() получите нужный срез. Сохраните результат в sample.
Методу plot() задайте параметры: x, y, ylim, style, grid, figsize.