MovieLens数据集1M .源代码解析

2023-11-23 02:14:28

# -*- coding: utf-8 -*-
"""
Created on Fri May 20 18:00:43 2022@author: lenovo
"""import pandas as pdunames=['user_id','gender','age','occupation','zip']users=pd.read_table('D:\OneDrive\桌面\ml-1m/users.dat',sep='::',header=None,names=unames,engine='python')rnames=['user_id','movie_id','rating','timestamp']ratings=pd.read_table('D:\OneDrive\桌面\ml-1m/ratings.dat',sep='::',header=None,names=rnames,engine='python')mnames=['movie_id','title','genres']'''
注：
 
pandas.read_csv(“data.csv”)默认情况下，会把数据内容的第一行默认为字段名标题。
为了解决这个问题，我们添加“header=None”，告诉函数，我们读取的原始文件数据没有列索引,因此，read_csv为自动加上列索引.pd.read_table()对应txt文件
pd.read_csv()对应csv文件sep参数代表分隔符，它与print()函数一起使用以指定参数之间的分隔符。engine参数用于指定pandas读取文件时的解析引擎，有C和Python两种，C比较块，而Python特性比较多， 你sep使用了多个字符， C引擎是不支持的，所以会指定Python'''movies=pd.read_table('D:\OneDrive\桌面\ml-1m/movies.dat',sep='::',header=None,names=mnames,engine='python', encoding='ISO-8859-1')'''pandas.read_table将各个表分别读到一个pandas DataFrame对象中'''
'''
print(users[:5])
print(ratings[:5])
print(movies[:1])
print(ratings)
''''''pd.merge合并 '''
data=pd.merge(pd.merge(ratings,users),movies)
#print(type(data))'''
注：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True, indicator=False,validate=None)
括号里的均为可执行参数left: 拼接的左侧DataFrame对象
right: 拼接的右侧DataFrame对象
on: 要加入的列或索引级别名称。 必须在左侧和右侧DataFrame对象中找到。 如果未传递且left_index和right_index为False，则DataFrame中的列的交集将被推断为连接键。
left_on:左侧DataFrame中的列或索引级别用作键。 可以是列名，索引级名称，也可以是长度等于DataFrame长度的数组。
right_on: 左侧DataFrame中的列或索引级别用作键。 可以是列名，索引级名称，也可以是长度等于DataFrame长度的数组。
left_index: 如果为True，则使用左侧DataFrame中的索引（行标签）作为其连接键。 对于具有MultiIndex（分层）的DataFrame，级别数必须与右侧DataFrame中的连接键数相匹配。
right_index: 与left_index功能相似。
sort: 按字典顺序通过连接键对结果DataFrame进行排序。 默认为True，设置为False将在很多情况下显着提高性能
''''''data.pivot_table方法 生成一个DataFrame'''mean_ratings=data.pivot_table('rating',index='title',columns='genres',aggfunc='mean')
print(mean_ratings[:5])'''
aggfunc参数可以设置我们对数据聚合时进行的函数操作。当我们未设置aggfunc时，它默认aggfunc='mean'计算均值。
'''ratings_by_title=data.groupby('title').size()
print(ratings_by_title[:10])
'''
groupby函数主要的作用是进行数据的分组以及分组后地组内运算
'''active_titles=ratings_by_title.index[ratings_by_title>=250]
print(active_titles)'''ix换位loc'''
mean_ratings=mean_ratings.loc[active_titles]
print(mean_ratings)'''对F列降序排列'''
'''sort_index()换为sort_values()'''
top_female_ratings=mean_ratings.sort_values(by='title',ascending=False)
print(top_female_ratings[:10])'''计算评分分歧'''
mean_ratings['diff']=mean_ratings['M']-mean_ratings['F']
sorted_by_diff=mean_ratings.sort_values(by='diff')
print(sorted_by_diff[:15])
print(sorted_by_diff[::-1][:15])'''根据电影名称分组的得分数据的标准差'''
rating_std_by_title=data.groupby('title')['rating'].std()'''根据active_titles进行过滤'''
rating_std_by_title=rating_std_by_title.loc[active_titles]'''根据值对Series进行降序排列'''
'''Python3.6之后的版本已经没有order属性了，尝试使用sort_values()方法就好了。'''
print(rating_std_by_title.sort_values(ascending=False)[:10])

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 【rar压缩】安装了WinRAR之后，右键没有压缩选项，怎么办？
下一篇 > Osg 源代码结构和主要的类

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

MovieLens数据集1M .源代码解析

相关文章