k--Means

2023-08-28 07:40:24

前面我们大致介绍了一些回归、预测算法，它们都属于监督学习算法的范畴，今天我们将接触到一种无监督学习的算法k--Means算法。这个算法很好理解。k就代表要要分的多少个类，每个类都聚到一堆，怎么算同一类呢？既然同一类都到一堆了，肯定是根据距离来进行计算的。首先我们需要随机选取k个点，然后算出数据集中各个点距离哪一个点最近就属于那一类。一次遍历之后需要重新确定k个点的位置，再次遍历。直到符合最终条件为止。接下来就看一下这个算法的实现过程：数据下载（提取码：7023）

from numpy import *def loadDataSet(fileName):     dataMat = []             fr = open(fileName)for line in fr.readlines():curLine = line.strip().split('\t')fltLine = map(float,curLine)dataMat.append(fltLine)return dataMatdef distEclud(vecA, vecB):return sqrt(sum(power(vecA - vecB, 2))) 
def randCent(dataSet, k):n = shape(dataSet)[1]centroids = mat(zeros((k,n)))for j in range(n):minJ = min(dataSet[:,j]) rangeJ = float(max(dataSet[:,j]) - minJ)centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))return centroids

这里的第一个函数还是数据处理不再解释，第二个函数计算两个向量的欧氏距离。第三个函数用于给数据集构建一个包含k个随机质心的集合。该函数首先接受一个数据集和需要聚类的个数，然后求出数据集中每组数据中有多少属性在for循环中需要计算出每个属性列中的最大值和最小值，以及他们的差，这样做是为了，在随机选取质心的时候能够保证选取的质心在数据集的边缘内部。最后返回生成的质心矩阵。

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):m = shape(dataSet)[0]clusterAssment = mat(zeros((m,2)))centroids = createCent(dataSet, k)clusterChanged = Truewhile clusterChanged:clusterChanged = Falsefor i in range(m):minDist = inf; minIndex = -1for j in range(k):distJI = distMeas(centroids[j,:],dataSet[i,:])if distJI < minDist:minDist = distJI; minIndex = jif clusterAssment[i,0] != minIndex: clusterChanged = TrueclusterAssment[i,:] = minIndex,minDist**2print centroidsfor cent in range(k):ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]centroids[cent,:] = mean(ptsInClust, axis=0)return centroids, clusterAssment

上面的代码用来进行K--Mean算法实现，首先算出数据集中有多少组数据，然后建立一个矩阵用来存放训练数据被分配到的位置以及到质心的距离。接下来就是随机生成k个质心，clusterChanged是一个结束分配的标志。接下来进入循环第一个for循环遍历所有的数据minDist表示到质心的距离，minIndex表示索引值，接下来的循环计算点到各个质心的距离，并将它归到距离质心最近的那一类。if语句用于判断所有数据是不是在上次分完之后不再改变，最后一个for循环用于改变质心的距离，这里用属于这一类的所有数据的平均值来决定新的质心的位置。直到所有质心的位置不再改变。组后返回聚类的结果。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > k个代表
下一篇 > 华氏度-摄氏度-开尔文--温度转换

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

k--Means

相关文章