diana
位於 cluster
包(package)。 說明
計算數據集的分裂層次聚類,返回類 diana
的對象。
用法
diana(x, diss = inherits(x, "dist"), metric = "euclidean", stand = FALSE,
stop.at.k = FALSE,
keep.diss = n < 100, keep.data = !diss, trace.lev = 0)
參數
x |
數據矩陣或 DataFrame ,或相異矩陣或對象,具體取決於 對於矩陣或 DataFrame ,每行對應一個觀察值,每列對應一個變量。所有變量都必須是數字。允許缺失值 ( 在相異矩陣的情況下, |
diss |
邏輯標誌:如果為 TRUE( |
metric |
字符串,指定用於計算觀測值之間差異的度量。 |
stand |
邏輯性;如果為真,則在計算差異之前對 |
stop.at.k |
邏輯或整數,默認為 |
keep.diss , keep.data |
邏輯指示是否應將差異和/或輸入數據 |
trace.lev |
指定算法期間打印診斷的跟蹤級別的整數。默認 |
細節
diana
在 Kaufman 和 Rousseuw (1990) 的第 6 章中有完整說明。它在計算分裂層次結構方麵可能是獨一無二的,而大多數其他用於層次聚類的軟件都是聚合的。此外,diana
提供了(a)除法係數(參見diana.object
),用於測量找到的聚類結構的數量; (b) 橫幅,一種新穎的圖形顯示(參見plot.diana
)。
diana
- 算法構建一個聚類層次結構,從包含所有 n 個觀察值的一個大聚類開始。聚類被劃分,直到每個聚類僅包含一個觀察值。
在每個階段,選擇直徑最大的簇。 (簇的直徑是其任意兩個觀測值之間最大的差異。)
為了劃分所選簇,該算法首先尋找其最不同的觀測值(即,與所選簇的其他觀測值具有最大的平均差異)。此觀察啟動"splinter group"。在後續步驟中,算法會重新分配更接近 "splinter group" 而非 "old party" 的觀測值。結果是將所選簇劃分為兩個新簇。
值
代表聚類的"diana"
類的對象;此類具有以下通用函數的方法: print
、 summary
、 plot
。
此外,類"diana"
繼承自"twins"
。因此,泛型函數pltree
可用於diana
對象,並且as.hclust
和as.dendrogram
方法可用。
合法的 diana
對象是包含以下組件的列表:
order |
一個向量,給出原始觀察值的排列以允許繪圖,從某種意義上說,聚類樹的分支不會交叉。 |
order.lab |
類似於 |
height |
具有分裂前簇直徑的向量。 |
dc |
分裂係數,衡量數據集的聚類結構。對於每個觀測值 i,用 |
merge |
(n-1) x 2 矩陣,其中 n 是觀測值的數量。 |
diss |
類 |
data |
包含原始或標準化測量值的矩陣,具體取決於函數 |
例子
data(votes.repub)
dv <- diana(votes.repub, metric = "manhattan", stand = TRUE)
print(dv)
plot(dv)
## Cut into 2 groups:
dv2 <- cutree(as.hclust(dv), k = 2)
table(dv2) # 8 and 42 group members
rownames(votes.repub)[dv2 == 1]
## For two groups, does the metric matter ?
dv0 <- diana(votes.repub, stand = TRUE) # default: Euclidean
dv.2 <- cutree(as.hclust(dv0), k = 2)
table(dv2 == dv.2)## identical group assignments
str(as.dendrogram(dv0)) # {via as.dendrogram.twins() method}
data(agriculture)
## Plot similar to Figure 8 in ref
## Not run: plot(diana(agriculture), ask = TRUE)
也可以看看
agnes
也可用於背景和參考; cutree
(和 as.hclust
)用於分組提取; daisy
、dist
、plot.diana
、twins.object
。
相關用法
- R daisy 相異矩陣計算
- R summary.clara “clara”對象的摘要方法
- R pluton 鈈同位素成分批次
- R votes.repub 總統選舉中共和黨候選人的投票
- R agnes 凝聚嵌套(層次聚類)
- R print.mona MONA 對象的打印方法
- R print.clara CLARA 對象的打印方法
- R mona 二元變量的單論分析聚類
- R plot.diana 分裂層次聚類圖
- R plot.mona 一元分裂層次聚類的旗幟
- R bannerplot 繪圖橫幅(層次聚類)
- R plot.partition 數據集分區圖
- R summary.agnes “agnes”對象的摘要方法
- R pltree 繪製層次聚類的聚類樹
- R summary.mona “mona”對象的摘要方法
- R plantTraits 植物物種性狀數據
- R plot.agnes 凝聚層次聚類圖
- R print.agnes AGNES 對象的打印方法
- R chorSub Kola 數據 C 範圍的子集
- R pam 圍繞 Medoid 進行分區
- R volume.ellipsoid 計算(橢球體的)體積
- R clusplot (分區對象的)雙變量聚類圖
- R print.pam PAM 對象的打印方法
- R clara 集群大型應用程序
- R agnes.object 聚合嵌套 (AGNES) 對象
注:本文由純淨天空篩選整理自R-devel大神的英文原創作品 DIvisive ANAlysis Clustering。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。