hclust(d, method = "complete", members = NULL)
## S3 method for class 'hclust'
plot(x, labels = NULL, hang = 0.1, check = TRUE,
axes = TRUE, frame.plot = FALSE, ann = TRUE,
main = "Cluster Dendrogram",
sub = NULL, xlab = NULL, ylab = "Height", ...)
d |
由 |
method |
要使用的聚集方法。這應該是 |
members |
x |
hang |
標簽應懸掛在繪圖其餘部分下方的繪圖高度的分數。負值將導致標簽從 0 開始下垂。 |
check |
邏輯表明如果 |
labels |
樹葉標簽的字符向量。默認情況下使用原始數據的行名稱或行號。如果 |
axes, frame.plot, ann |
邏輯標誌如 |
main, sub, xlab, ylab |
... |
進一步的圖形論證。例如, |
此函數使用正在聚類的 對象的一組不同點來執行層次聚類分析。最初,每個對象都被分配到自己的簇,然後算法迭代地進行,在每個階段加入兩個最相似的簇,一直持續到隻剩下一個簇為止。在每個階段,根據所使用的特定聚類方法,通過Lance-Williams相異性更新公式重新計算聚類之間的距離。
提供了多種不同的聚類方法。 Ward 的最小方差方法旨在尋找緊湊的球形簇。完全鏈接方法發現相似的簇。單鏈接方法(與最小生成樹密切相關)采用“朋友的朋友”聚類策略。其他方法可以被視為針對具有介於單鏈接方法和完全鏈接方法之間的特征的聚類。但請注意,方法 "median"
和 "centroid"
不會導致單調距離測量,或者等效地,生成的樹狀圖可能具有難以解釋的所謂反轉或反轉,但請注意 Legendre 和 Legendre (2012) 中的三分法。
在 Ward 聚類文獻中發現了兩種不同的算法。選項使用的那個"ward.D"
在R版本 3.0.3)才不是實施 Ward (1963) 聚類標準,而選項"ward.D2"
實施該標準(Murtagh 和 Legendre 2014)。對於後者,不同之處在於平方集群更新之前。注意agnes(*, method="ward")
對應於hclust(*, "ward.D2")
如果 members != NULL
,則 d
被視為簇之間的相異矩陣,而不是單例之間的相異矩陣,並且 members
給出每個簇的觀測值數量。這樣,層次聚類算法可以“從樹狀圖的中間開始”,例如,為了重建樹的切口上方的部分(參見示例)。僅對於有限數量的距離/鏈接組合,可以有效地計算簇之間的差異(即,無需 hclust
在分層集群顯示中,每次合並時都需要做出決定,以指定哪個子樹應位於左側,哪個子樹應位於右側。由於對於 hclust
中使用的算法是對子樹進行排序,以便更緊密的簇位於左側(左子樹的最後一次(即最近一次)合並的值低於右子樹的最後一次合並的值)。單個觀測值是可能的最緊密的簇,並且涉及兩個觀測值的合並按觀測序列號將它們按順序排列。 觀察存在 合並,因此聚類樹或樹狀圖中的葉子有 可能的排序。
hclust 類的對象,說明聚類過程生成的樹。該對象是一個包含組件的列表:
merge |
height |
一組 |
order |
給出適合繪圖的原始觀察值的排列的向量,從某種意義上說,使用此排序和矩陣 |
labels |
每個被聚類的對象的標簽。 |
call |
產生結果的調用。 |
method |
已使用的聚類方法。 |
dist.method |
用於創建 |
對象有 print
、 plot
和 identify
(請參閱 identify.hclust
)方法和 rect.hclust()
方法 "centroid"
### Example 1: Violent crime rates by US state
hc <- hclust(dist(USArrests), "ave")
plot(hc, hang = -1)
## Do the same with centroid clustering and *squared* Euclidean distance,
## cut the tree into ten clusters and reconstruct the upper part of the
## tree from the cluster centers.
hc <- hclust(dist(USArrests)^2, "cen")
memb <- cutree(hc, k = 10)
cent <- NULL
for(k in 1:10){
cent <- rbind(cent, colMeans(USArrests[memb == k, , drop = FALSE]))
hc1 <- hclust(dist(cent)^2, method = "cen", members = table(memb))
opar <- par(mfrow = c(1, 2))
plot(hc, labels = FALSE, hang = -1, main = "Original Tree")
plot(hc1, labels = FALSE, hang = -1, main = "Re-start from 10 clusters")
### Example 2: Straight-line distances among 10 US cities
## Compare the results of algorithms "ward.D" and "ward.D2"
mds2 <- -cmdscale(UScitiesD)
plot(mds2, type="n", axes=FALSE, ann=FALSE)
text(mds2, labels=rownames(mds2), xpd = NA)
hcity.D <- hclust(UScitiesD, "ward.D") # "wrong"
hcity.D2 <- hclust(UScitiesD, "ward.D2")
opar <- par(mfrow = c(1, 2))
plot(hcity.D, hang=-1)
plot(hcity.D2, hang=-1)
The hclust
function is based on Fortran code
contributed to STATLIB by F. Murtagh.
