使用ARIMA算法进行时间序列预测。

2023-08-04 23:25:01

本文以行健宏扬中国为例，提取数据，使用ARIMA算法进行时间序列预测。

爬取数据

# 抓取行健宏扬中国基金
from bs4 import BeautifulSoup
import requests

headers = {'Accept':'text/javascript, application/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.8',
'Connection':'keep-alive',
'Cookie':'vjuids=148cf0186.15e03abf2ac.0.c311af0ddaa6c; ADVS=358187b0bd1a65; ASL=17431,000pn,7010519170105191; jrj_uid=15060593555978DJcIwmvnb; jrj_z3_newsid=723; ADVC=35686f6caeedf3; WT_FPC=id=2ef30c6a0af7eaf3a501506059355507:lv=1506063782501:ss=1506063782501; channelCode=3763BEXX; ylbcode=24S2AZ96; vjlast=1503300154.1506059356.23; Hm_lvt_a07bde197b7bf109a325eebaee445939=1506059356; Hm_lpvt_a07bde197b7bf109a325eebaee445939=1506063783',
'Host':'fund.jrj.com.cn',
'Referer':'http://fund.jrj.com.cn/archives,968006,jjjz.shtml',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',
'X-Requested-With':'XMLHttpRequest'}

params = {'fundCode':'968006',
'obj':'obj',
'date':2017}

r = requests.get('http://fund.jrj.com.cn/json/archives/history/netvalue?',params=params,headers=headers)
r.encoding ='utf-8'
mydata = r.text

存储数据

# 从字符串中提取标准json格式数据
table = mydata[8:]

# 将字符串转为json，不用手动解析
myJson = json.loads(table)

# 提取净值数据
myJson['fundHistoryNetValue']

from pymongo import MongoClient

db = MongoClient('localhost',27017)['fund']
collect = db.get_collection('hjhy')
collect.insert(myJson['fundHistoryNetValue'])
print('done')

提取&处理数据

from pymongo import MongoClient
import pandas as pd
import time,datetime

db = MongoClient('localhost',27017)['fund']
data = dict()

for item in db.get_collection('hjhy').find():
data[datetime.datetime.fromtimestamp(time.mktime(time.strptime(item['enddate'],'%Y-%m-%d')))] = item['accum_net']

使用ARIMA模型预测

1.构建时间序列

# 构建时间序列
my_series = pd.Series(data, data.keys())

# 处理数据类型，将Str转换为float
my_series = my_series.apply(lambda x: float(x))

# 按日期生序排序
my_series = my_series.sort_index()

2.查看趋势图

自此基金成立至今，价格增长趋势变化。

%pylab
# plot(my_series)
my_series.plot()

直接使用plot(my_series)会多画出来一条首尾相连接的直线。还是使用my_series.plot()调用对象自身的plot方法吧。

3.进行差分操作

from matplotlib import pyplot as plt

# 一阶差分
fig = plt.figure()
diff1 = my_series.diff(1)
diff1.plot()

# 二阶差分
fig = plt.figure()
diff2 = my_series.diff(2)
diff2.plot()

4.一阶差分

5.二阶差分

6.查看描述性统计

# 一阶差分描述性统计
diff1.dropna(inplace=True)
diff1.describe()

每一次做差分，都会产生一个NA，所以要记得剔除NA。下面的结果是diff1的描述性统计：

# 二阶差分描述性统计
diff2.dropna(inplace=True)
diff2.describe()

下面的结果是diff2的描述性统计：

所以做一次差分就够了。

7.确定p, q参数值

import statsmodels.api as sm

fig = plt.figure()

ax0 = fig.add_subplot(211)
fig = sm.graphics.tsa.plot_acf(diff1, lags=30, ax=ax0)

ax1 = fig.add_subplot(212)
fig = sm.graphics.tsa.plot_pacf(diff1, lags=30, ax=ax1)

这是一阶差分的自相关与偏相关的趋势图，虽然一阶差分的平稳度要比二阶差分略好，但p>0，MR(q)截尾；q>0，AR(p)截尾。

选择使用二阶差分，二阶差分的自相关与偏相关趋势图如下所示：

5.预测

from statsmodels.tsa.arima_model import ARIMA

model = ARIMA(history_price, (12, 2, 1)).fit()

model.forecast(10)[0]

实际值

预测值

array([ 1.41013409, 1.4134152 , 1.41570651, 1.41638723, 1.42131414, 1.42299673, 1.42647455, 1.42795939, 1.43099336, 1.43316138])

欢迎大家围观，长按识别二维码，关注“数据分析手记”～

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > python设计jieba_python实现jieba库分词制作词云
下一篇 > 续集：OLT中的ONU终端数据的自动下发实现方法(光猫数据自动下发)

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

使用ARIMA算法进行时间序列预测。

相关文章