聚类外部评价指标聚类内部指标

关于聚类外部评价指标，聚类内部指标这个很多人还不知道，今天源源来为大家解答以上的问题，现在让我们一起来看看吧！

聚类外部评价指标聚类内部指标

1、一年前需要用聚类算法时，自己从一些sklearn文档和博客粗略整理了一些相关的知识，记录在电子笔记里备忘，现在发到网上，当时就整理的就很乱，以后有空慢慢把内容整理、完善，用作备忘。

2、之前把电影标签信息的聚类结果作为隐式反馈放进SVD++中去训练，里面有两个小例子利用条件熵定义的同质性度量：sklearn.metrics.homogeneity_score:每一个聚出的类仅包含一个类别的程度度量。

3、每一个类别被指向相同聚出的类的程度度量。

4、sklearn.metrics.v_measure_score:上面两者的一种折衷：v = 2 * (homogeneity * completeness) / (homogeneity + completeness)可以作为聚类结果的一种度量。

5、sklearn.metrics.adjusted_rand_score:调整的兰德系数。

6、ARI取值范围为[-1,1],从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度sklearn.metrics.adjusted_mutual_info_score:调整的互信息。

7、利用基于互信息的方法来衡量聚类效果需要实际类别信息，MI与NMI取值范围为[0,1],AMI取值范围为[-1,1]。

8、在scikit-learn中， Calinski-Harabasz Index对应的方法是metrics.calinski_harabaz_score.CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到。

9、从而，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。

10、silhouette_sample对于一个样本点(b - a)/max(a, b)a平均类内距离，b样本点到与其最近的非此类的距离。

11、silihouette_score返回的是所有样本的该值,取值范围为[-1,1]。

12、这些度量均是越大越好K-means算法应该算是最常见的聚类算法，该算法的目的是选择出质心，使得各个聚类内部的inertia值最小化，计算方法如下：inertia可以被认为是类内聚合度的一种度量方式，这种度量方式的主要缺点是：（1）inertia假设数据内的聚类都是凸的并且各向同性（ convex and isotropic），各项同性是指在数据的属性在不同方向上是相同的。

13、数据并不是总能够满足这些前提假设的，所以当数据事细长簇的聚类，或者不规则形状的流形时，K-means算法的效果不理想。

14、（2）inertia不是一种归一化度量方式。

15、一般来说，inertia值越小，说明聚类效果越好。

16、但是在高维空间中，欧式距离的值可能会呈现迅速增长的趋势，所以在进行K-means之前首先进行降维操作，如PCA等，可以解决高维空间中inertia快速增长的问题，也有主意提高计算速度。

17、K-means算法可以在足够长的时间内收敛，但有可能收敛到一个局部最小值。

本文到这结束，希望上面文章对大家有所帮助。

聚类外部评价指标聚类内部指标

友情链接百度权重≥5符合友链交换

联系我们

聚类外部评价指标 聚类内部指标

相关推荐

友情链接 百度权重≥5符合友链交换

联系我们

聚类外部评价指标聚类内部指标

友情链接百度权重≥5符合友链交换