mysql随机分层抽样_数据抽样及样本不均衡处理

一、数据抽样

抽样的组织形式有:

(1)简单随机抽样:按等概率原则直接从总体中抽取样本。该方法适用于个体分布均匀的场景。

(2)分层抽样:先对总体分组,再从每组中随机抽样。该方法适用于带有分类逻辑属性的数据。

(3)等距抽样:先将总体中的每个个体按顺序编号,计算抽样间隔,然后按照固定间隔抽取个体。该方法适用于个体分布均匀或呈现明显的均匀分布规律,无明显趋势或周期性规律的数据。

(4)整群抽样:将总体分为若干部分,(每个部分称为一群),以群为单位随机抽样,跟其他三种方法的不同在于该方法抽取的是群,而不是数据个体。

#读入数据

1 importnumpy as np2 importpandas as pd3 importrandom4 df=pd.read_csv(r'E:\data analysis\test\test2.csv')5 print(df.head(3))

id  var0  var1  var2  var3  var4  var5  var6  var7  var8

0  16144     1    14    13     5    25     5    45     6     1

1  16145     1    15    14     6    26     1     6     7     1

2  16146     1    16    15     7    27     2     1     8

#简单随机抽样

1 df_srs=pd.DataFrame.sample(df,n=20)2 print(df_srs.head(3))3 print(len(df_srs))

id  var0  var1  var2  var3  var4  var5  var6  var7  var8

99   17090     1    75     6    19    23     9     2     4     5

30   17021     1     6     5    19    55    16     8     9     2

107  17098     0     1    14     1    31    17     2    12     5

20

#等距抽样

1 sample_count=20

2 df_count=df.shape[0]3 width=df_c


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部