天池盐城汽车上牌预测

上牌预测这题是一个时序预测,需要根据车管所历史上每天的上牌的记录,预测未来某天的汽车上牌量。需要选手利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几,来预测5个汽车品牌未来每天的上牌总数。复赛将挑选出10个汽车品牌,仍旧给出品牌每天的上牌数,当天是星期几,来预测10个汽车品牌未来每天的上牌数。赛题与数据

数据说明

前三个字段是特征变量,“cnt”是目标变量。数据经过严格脱敏,所以选手看到的”cnt”并非真值;字段”date”, “brand”用数字代替;字段”day_of_week”是真实的数据。

字段数据类型说明
dateint日期,经过脱敏,用数字表示
day_of_weekint表示星期几
brandint汽车品牌
cntint上牌数

思路

与之前的“智能制作”相反,本题是特征数量太少,需要自己添加一些特征维度。时序预测,时间是最重要的维度,但是题目给的准确的信息只有星期几,date信息是经过脱敏的,无法反应年份、月份、日期等重要信息,所以要想办法构造出准确的时间序列。

开始的想法是通过一些特征构造方法比如对date进行取平方、取对数等,构造一些新的特征,希望通过这些扩充的特征之间的运算,能够表示出真实日期的一些信息,从而能够被模型学得。但是经过尝试,效果并不好。

数据分析

通过简单的画图,可以直观感受周几对上牌量的的影响。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as snstrain=pd.read_csv("fusai_train_20180227.txt",sep="\t")_=train.groupby(["date","day_of_week"]).cnt.sum()sns.barplot(data=_,x="day_of_week",y="cnt")

一周内数量的差别

过程

这个比赛正好是在春节的时


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部