當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python SciPy hierarchy.fclusterdata用法及代碼示例


本文簡要介紹 python 語言中 scipy.cluster.hierarchy.fclusterdata 的用法。

用法:

scipy.cluster.hierarchy.fclusterdata(X, t, criterion='inconsistent', metric='euclidean', depth=2, method='single', R=None)#

使用給定指標對觀察數據進行聚類。

將n-by-m數據矩陣X中的原始觀測值聚類(m維中的n個觀測值),使用歐幾裏德距離度量計算原始觀測值之間的距離,使用單鏈接算法執行層次聚類,並使用不一致性方法形成平麵聚類t 作為cut-off 閾值。

返回一個長度為 n 的一維數組 TT[i] 是原始觀測值i 所屬的平麵簇的索引。

參數

X (N, M) ndarray

N × M 數據矩陣,在 M 維中具有 N 個觀測值。

t 標量
對於標準‘inconsistent’, ‘distance’或‘monocrit’,

這是形成扁平集群時應用的閾值。

對於 ‘maxclust’ 或 ‘maxclust_monocrit’ 標準,

這將是請求的最大集群數。

criterion str,可選

指定形成扁平簇的標準。有效值為‘inconsistent’(默認)、‘distance’ 或‘maxclust’ 簇形成算法。有關說明,請參閱 fcluster

metric str 或函數,可選

用於計算成對距離的距離度量。有關說明和鏈接,請參閱distance.pdist,以驗證與鏈接方法的兼容性。

depth 整數,可選

不一致性計算的最大深度。有關詳細信息,請參閱 inconsistent

method str,可選

要使用的鏈接方法(單個、完整、平均、加權、中值質心、病房)。有關詳細信息,請參閱 linkage 。默認為“single”。

R ndarray,可選

不一致矩陣。如果未通過,將在必要時進行計算。

返回

fclusterdata ndarray

長度為 n 的向量。 T[i] 是原始觀測值 i 所屬的平麵簇數。

注意

此函數類似於 MATLAB 函數 clusterdata

例子

>>> from scipy.cluster.hierarchy import fclusterdata

這是一種方便的方法,它抽象了在典型 SciPy 的層次聚類工作流程中執行的所有步驟。

>>> X = [[0, 0], [0, 1], [1, 0],
...      [0, 4], [0, 3], [1, 4],
...      [4, 0], [3, 0], [4, 1],
...      [4, 4], [3, 4], [4, 3]]
>>> fclusterdata(X, t=1)
array([3, 3, 3, 4, 4, 4, 2, 2, 2, 1, 1, 1], dtype=int32)

此處的輸出(對於數據集 X 、距離閾值 t 和默認設置)是四個集群,每個集群具有三個數據點。

相關用法


注:本文由純淨天空篩選整理自scipy.org大神的英文原創作品 scipy.cluster.hierarchy.fclusterdata。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。