Файл: Import pandas as pd data pd read csv('datasetsvisits csv', sep't').pptx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 04.12.2023

Просмотров: 122

Скачиваний: 5

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Задания


1 .

import pandas as pd

data = pd.read_csv('/datasets/visits.csv', sep='\t')

Причиной коротких заездов может быть то, что водители нечаянно заезжают на АЗС, которые не работают по ночам. Если это действительно так, то вы увидите связь между короткими заездами и временем прибытия. Чтобы проверить эту гипотезу, измените тип столбца date_time на более удобный тип для даты.

Методом pd.to_datetime() переведите значения столбца date_time в таблице data в объекты datetime. В параметре format= укажите строку, соответствующую текущему формату date_time, с помощью специальных обозначений.

Выведите на экран первые пять строк data, чтобы проверить, что получилось.

*Поместите в data['date_time'] результат работы метода pd.to_datetime(). В аргументе format должен быть указан формат даты: '%Y%m%dT%H%M%S'. Методом head() выведите на экран первые пять строк data.

2.

import pandas as pd

data = pd.read_csv('/datasets/visits.csv', sep='\t')

Напомним, что в датафрейме записано время UTC. Московское рассчитывают как UTC + 3 часа.

Создайте столбец data['local_time'] и сохраните в нём сдвинутое на 3 часа время из столбца data['date_time']. Напечатайте первые 5 строк таблицы data.

*Передайте в pd.Timedelta() аргумент hours=3. Первые 5 строк выведите на экран методом head().

3

import pandas as pd

data = pd.read_csv('/datasets/visits.csv', sep='\t')

Данные, связанные со временем, лучше округлять до той величины, которой будет достаточно для детального анализа. Чтобы проанализировать взаимосвязь между временем прибытия на АЗС и продолжительностью заезда, точность до минут и секунд не нужна. Округлите время до часов.

Выполните следующие шаги:

Создайте новый столбец date_hour и передайте ему значения столбца local_time, округлённые до часов.

Выведите первые пять строк data, чтобы проверить результаты.

*К данным столбца local_time примените метод dt.round(). Передайте методу строку 1H. Присвойте результат столбцу date_hour.

4

import pandas as pd

data = pd.read_csv('/datasets/visits.csv', sep='\t')

data['date_time'] = pd.to_datetime(

data['date_time'], format='%Y-%m-%dT%H:%M:%S'

)

data['local_time'] = data['date_time'] + pd.Timedelta(hours=3)

Снова создайте переменную sample, записав в неё срез из данных по АЗС с id == '3c1e4c52'. Обратите внимание, что на этот раз в sample войдут все форматы времени.

Пользуясь данными sample, постройте график зависимости продолжительности заправки от времени заезда. За основу возьмите соответствующие столбцы time_spent и local_time. Оси X присвойте значения столбца local_time, а оси Y — значения столбца time_spent.


Проверьте, всё ли верно отображено на графике:

Каждый элемент обозначен точкой.

Диапазон оси Y указан от 0 до 1000.

Добавлены сетки.

Размер графика 12х6 дюймов.

*Методом query() получите нужный срез. Сохраните результат в sample.

Методу plot() задайте параметры: x, y, ylim, style, grid, figsize.