Файл: Средства разработки клиентских программ (разработка клиентской программы).pdf
Добавлен: 19.06.2023
Просмотров: 87
Скачиваний: 3
Результат третьего этапа преобразования в транспонированном виде (для удобства представления в тексте работы) представлен в таблице 7.
Таблица 7 – Результат второго этапа преобразования данных
order_id |
1923 |
add_date |
08.06.2012 |
deliv_date |
04.01.2018 |
deliv_type |
Курьер по Москве |
amount |
800.00 |
customer_name |
Пробный заказа |
customer_email |
1@1.ruu |
customer_tel |
123456 |
customer_addr |
1111 gh |
item_id |
488 |
item_name |
Моделирующая маска для упругости бюста |
item_price |
800.00 |
cnt |
10 |
art |
32501 |
add_time |
20:47 |
add_day |
Пятница |
deliv_time |
18:31 |
deliv_day |
Четверг |
isWoman |
True |
isMan |
False |
sex |
0 |
Category |
Для тела |
Subcategory |
Увлажнение тела |
После того, как получена необходимая структура данных, необходимо нормализовать сами значения.
Пропуски в данных. Ранее в аналитической части было выбрано действие для каждого поля, в котором будет встречаться пропущенное значение). Всего строк в изначальной выгрузке – 12343, детальное описание действий по нормализации указано в таблице 8.
Таблица 8 – Результаты анализа пропущенных значений
К-во пропусков |
% от общего к-ва |
Описание действия |
|
Id заказа |
0 |
0 |
- |
Имя покупателя |
0 |
0 |
- |
Дата оформления заказа |
0 |
0 |
- |
Сумма заказа |
0 |
0 |
- |
Тип доставки |
84 |
0,0068 |
Поскольку значение мало, тип был определен вручную по адресу. |
Id товара |
15 |
0,0012 |
Исключено 15 строк |
Категория товара |
0 |
0 |
- |
Стоимость товара |
0 |
0 |
- |
Количество позиций одного товара в заказе |
0 |
0 |
- |
Адрес доставки |
- |
- |
Не участвует в анализе |
Телефон |
144 |
0,0117 |
Исключено 144 строки |
|
0 |
0 |
- |
Согласно проведенному анализу можно сказать, что данные обладают хорошей полнотой. Всего 226 строк из 12343 были исключены из выборки.
Выбросы. На этапе анализа была определена статистическая последовательность поиска выбросов, которая должна быть применена к переменной «сумма заказа», поскольку именно она исследуется, результаты указаны в таблице 9.
Таблица9– Анализ выбросов
Медиана |
1399,79 |
Минимум |
500 |
Q1 |
910 |
Q2 |
1399,79 |
Q3 |
2220,94 |
Максимум |
15015 |
Межквартильный диапазон |
1310,94 |
Внутренние границы (мин) |
-1799 |
Внутренние границы (макс) |
4187,35 |
Внешние границы (мин) |
-3022,82 |
Внешние границы (макс) |
6153,76 |
Значения, не входящие в границы (к-во) |
281 строка |
Согласно проведенному анализу, потенциально 281 строка не входит во внешние границы массива, а значит потенциально является выбросом. Несмотря на теоретическое обоснование, из выборки были исключены только 2 строки, со значением суммы заказа 100000000 и 28602 поскольку эти строки слишком сильно выходят за определенные границы. Остальные превышения допустимы, учитывая, что в период 2012-2014 гг. клиенты покупали активнее в связи с отсутствием кризиса.
ГЛАВА 2 РАЗРАБОТКА КЛИЕНТСКОЙ ПРОГРАММЫ
2.1Анализ качественных переменных
На рисунке 2 представлена разбивка категорий товара по сумме заказа за весь период существования интернет-магазина. Из гистограммы видно, что категории, которые приносят больше прибыли – это средства для волос, лица и тела.
Рисунок 3 – Продажи по категориям за весь период
Из детализированного анализа категорий по годам видно, что преобладание средств волос сохраняется, а на второе место в 2017г. выходит категория средств для тела, а средства для лица теперь занимают третье место. Именно эти 3 категории являются наиболее перспективными для продвижения.
Результат анализа количества заказанных товаров по категориям не совпадает с продажами и представлен на рисунке 3. По количеству проданных товарных единиц на первое место выходит категория средств для тела. Это может означать, что товары для тела, которые наиболее часто приобретаются имеют меньшую стоимость, чем средства для волос. Наиболее детальную информацию о конкретных продуктах, предоставит выполненный АВС анализ.
Рисунок 4 – Количество по категориям за весь период
При анализе объема продаж по годам можно заметить, что объем снижается. И для определения конкретной причины необходим анализ вторичных данных, которые покажут текущую ситуацию на рынке. Если глобальные предпосылки к снижению объема продаж отсутствуют, то необходимо искать причину во внутренних процессах интернет-магазина.
Анализ сезонности количества проданных товаров на рисунке 4 показал, что товары для волос и для тела одинаково хорошо продаются вне зависимости от сезона, а товары для лица продаются лучше в осенний период. В связи с этим стоит заниматься продвижением товаров для лица в осенний период.
Рисунок 5 – Количество по сезонам
Анализ сезонности продаж на рисунке 5 показывает, что средства для тела одинаково хорошо продаются вне зависимости от сезона, средства для лица имеют небольшое повышение весной и осенью, а средства для волос немного популярнее летом и осенью. Эта информация также важна для организации промо и продвижения товара. Какие конкретно товары стоит продвигать в определенные сезоны также ясно их АВС анализа, который дает детализацию до конкретного товара.
Рисунок 6 – Продажи по сезонам
В интернет-магазине есть 2 способа доставки товара: курьером по Москве и отправка по почте. Согласно проведенному анализу, больше продается товаров с типом доставки курьером по Москве, но сумма продаж по почте России тоже значительна, что иллюстрирует рисунок 6. Смещение в сторону клиентов из Москвы может быть связано с неравномерными доходами населения по регионам России.
Рисунок 7 – Продажи по типу доставки
Из рисунка 7 видно, что пол клиентов магазина преимущественно женский. Значение 0 соответствует ситуации, когда имя либо не указано, либо его невозможно автоматически определить по базе имен.
Рисунок 8 – Количество заказанных товаров среди мужчин и женщин
Из рисунка 8 видно, что продажи не зависят от дня недели, в который был сделан заказ.
Рисунок 9 – Продажи по дням недели
2.2Взаимосвязь между качественными переменными
Для анализа взаимосвязи качественные значения были переведены в числовые.
В таблице 19 приведена корреляционная матрица, согласно которой сильная связь между независимыми характеристиками временного ряда отсутствует, поэтому они могут быть добавлены в прогнозную модель.
Таблица 18 – Связь между независимыми переменными
amount |
year |
autm |
winter |
summer |
|
1.0000 |
0.0403 |
0.0426 |
-0.0243 |
-0.0313 |
amount |
1.0000 |
-0.0896 |
0.0617 |
-0.0404 |
year |
|
1.0000 |
-0.3235 |
-0.3233 |
autm |
||
1.0000 |
-0.3547 |
winter |
|||
1.0000 |
summer |
||||
spring |
byPostOfRussia |
isWoman |
|||
0.0153 |
-0.0934 |
0.0394 |
amount |
||
0.0652 |
-0.0370 |
-0.1009 |
year |
||
-0.3124 |
0.0374 |
0.0079 |
autm |
||
-0.3427 |
0.0075 |
0.0408 |
winter |
||
-0.3425 |
-0.0076 |
0.0161 |
summer |
||
1.0000 |
-0.0362 |
-0.0659 |
spring |
||
1.0000 |
-0.0052 |
byPostOfRussia |
|||
1.0000 |
isWoman |
2.3Анализ вторичных данных
Вторичные данные не подвергаются автоматической обработке, поэтому необходимо из выбранных источников вторичных данных получить описание потребительского поведения и состояния отрасли.
Согласно данным компании PWC за 2016г. [15] Россия находится в состоянии продолжительной рецессии. В соответствии с результатами опроса потребители ощущают влияние кризиса значительно более остро, чем в 2015г и изменили свое отношение к процессу потребления:
1) более критически настроены по отношению к тому, что они покупают и какие услуги им предоставляют, что приводит к переходу в другие магазины или предъявлению претензий;