当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python SciPy hierarchy.fclusterdata用法及代码示例


本文简要介绍 python 语言中 scipy.cluster.hierarchy.fclusterdata 的用法。

用法:

scipy.cluster.hierarchy.fclusterdata(X, t, criterion='inconsistent', metric='euclidean', depth=2, method='single', R=None)#

使用给定指标对观察数据进行聚类。

将n-by-m数据矩阵X中的原始观测值聚类(m维中的n个观测值),使用欧几里德距离度量计算原始观测值之间的距离,使用单链接算法执行层次聚类,并使用不一致性方法形成平面聚类t 作为cut-off 阈值。

返回一个长度为 n 的一维数组 TT[i] 是原始观测值i 所属的平面簇的索引。

参数

X (N, M) ndarray

N × M 数据矩阵,在 M 维中具有 N 个观测值。

t 标量
对于标准‘inconsistent’, ‘distance’或‘monocrit’,

这是形成扁平集群时应用的阈值。

对于 ‘maxclust’ 或 ‘maxclust_monocrit’ 标准,

这将是请求的最大集群数。

criterion str,可选

指定形成扁平簇的标准。有效值为‘inconsistent’(默认)、‘distance’ 或‘maxclust’ 簇形成算法。有关说明,请参阅 fcluster

metric str 或函数,可选

用于计算成对距离的距离度量。有关说明和链接,请参阅distance.pdist,以验证与链接方法的兼容性。

depth 整数,可选

不一致性计算的最大深度。有关详细信息,请参阅 inconsistent

method str,可选

要使用的链接方法(单个、完整、平均、加权、中值质心、病房)。有关详细信息,请参阅 linkage 。默认为“single”。

R ndarray,可选

不一致矩阵。如果未通过,将在必要时进行计算。

返回

fclusterdata ndarray

长度为 n 的向量。 T[i] 是原始观测值 i 所属的平面簇数。

注意

此函数类似于 MATLAB 函数 clusterdata

例子

>>> from scipy.cluster.hierarchy import fclusterdata

这是一种方便的方法,它抽象了在典型 SciPy 的层次聚类工作流程中执行的所有步骤。

>>> X = [[0, 0], [0, 1], [1, 0],
...      [0, 4], [0, 3], [1, 4],
...      [4, 0], [3, 0], [4, 1],
...      [4, 4], [3, 4], [4, 3]]
>>> fclusterdata(X, t=1)
array([3, 3, 3, 4, 4, 4, 2, 2, 2, 1, 1, 1], dtype=int32)

此处的输出(对于数据集 X 、距离阈值 t 和默认设置)是四个集群,每个集群具有三个数据点。

相关用法


注:本文由纯净天空筛选整理自scipy.org大神的英文原创作品 scipy.cluster.hierarchy.fclusterdata。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。