Archive for ‘Data Mining’ Category

2011/12/12

在上一篇博客里提到了一个简单的聚类算法kmeans。这里是用C语言写的一个命令行的版本,它似乎可以运行,也能产生结果,不过我也没有仔细验证过是否正确 :-)    这里是在GitHub上托管的源代码。 使用方法以Linux环境为例,首先make一下,生成可执行文件kmeans 然后 ./kmeans  input.csv  ouput.csv  3   random  means input.csv和ouput.csv是输入数据和输出数据文件,CSV文件不神秘,用文本编辑器打开看就是几行点坐标数据。 3是指定要把点集分成几个类。 中心点Center计算有两种方式:1.mean(均值); 2.median(中位数) 初始化方法有以下两种方式:1.random partition(随机初始化); 2.k-means++(Knuth的弟子想出的方法)

19,552 views
2011/11/18

K-means Clustering Algorithm 中文名也许叫“K均值聚类算法”,是统计学和数据挖掘领域中常用的一种算法。维基百科上是这样介绍的:k-means clustering is a method of cluster analysis which aims to partition n observations into k clusters in which each observation belongs to the cluster with the nearest mean

16,640 views