天池盐城汽车上牌预测
上牌预测这题是一个时序预测,需要根据车管所历史上每天的上牌的记录,预测未来某天的汽车上牌量。需要选手利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几,来预测5个汽车品牌未来每天的上牌总数。复赛将挑选出10个汽车品牌,仍旧给出品牌每天的上牌数,当天是星期几,来预测10个汽车品牌未来每天的上牌数。赛题与数据
数据说明
前三个字段是特征变量,“cnt”是目标变量。数据经过严格脱敏,所以选手看到的”cnt”并非真值;字段”date”, “brand”用数字代替;字段”day_of_week”是真实的数据。
| 字段 | 数据类型 | 说明 |
|---|---|---|
| date | int | 日期,经过脱敏,用数字表示 |
| day_of_week | int | 表示星期几 |
| brand | int | 汽车品牌 |
| cnt | int | 上牌数 |
思路
与之前的“智能制作”相反,本题是特征数量太少,需要自己添加一些特征维度。时序预测,时间是最重要的维度,但是题目给的准确的信息只有星期几,date信息是经过脱敏的,无法反应年份、月份、日期等重要信息,所以要想办法构造出准确的时间序列。
开始的想法是通过一些特征构造方法比如对date进行取平方、取对数等,构造一些新的特征,希望通过这些扩充的特征之间的运算,能够表示出真实日期的一些信息,从而能够被模型学得。但是经过尝试,效果并不好。
数据分析
通过简单的画图,可以直观感受周几对上牌量的的影响。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as snstrain=pd.read_csv("fusai_train_20180227.txt",sep="\t")_=train.groupby(["date","day_of_week"]).cnt.sum()sns.barplot(data=_,x="day_of_week",y="cnt")
过程
这个比赛正好是在春节的时
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
