本文简要介绍python语言中 sklearn.cluster.FeatureAgglomeration
的用法。
用法:
class sklearn.cluster.FeatureAgglomeration(n_clusters=2, *, affinity='euclidean', memory=None, connectivity=None, compute_full_tree='auto', linkage='ward', pooling_func=<function mean>, distance_threshold=None, compute_distances=False)
聚合特征。
递归地合并一对特征集群。
在用户指南中阅读更多信息。
- n_clusters:整数,默认=2
要查找的集群数。如果
distance_threshold
不是None
,则它必须是None
。- affinity:str 或可调用,默认='euclidean'
用于计算链接的度量。可以是“euclidean”、“l1”、“l2”、“manhattan”, “cosine” 或‘precomputed’。如果链接是“ward”,则只接受“euclidean”。
- memory:带有joblib.Memory 接口的str 或对象,默认=None
用于缓存树计算的输出。默认情况下,不进行缓存。如果给出一个字符串,它是缓存目录的路径。
- connectivity:类似数组或可调用,默认=无
连接矩阵。为每个特征定义遵循给定数据结构的相邻特征。这可以是连接矩阵本身或将数据转换为连接矩阵的可调用对象,例如从
kneighbors_graph
派生的。默认值为None
,即层次聚类算法是非结构化的。- compute_full_tree:‘auto’ 或布尔值,默认='auto'
在
n_clusters
处尽早停止树的构建。如果集群的数量与特征的数量相比不小,这对于减少计算时间很有用。此选项仅在指定连接矩阵时有用。还要注意,当改变集群的数量并使用缓存时,计算完整的树可能是有利的。如果distance_threshold
不是None
,则它必须是True
。默认情况下compute_full_tree
为 “auto”,当distance_threshold
不是None
或n_clusters
低于 100 或0.02 * n_samples
之间的最大值时,它等效于True
。否则,“auto” 等价于False
。- linkage:{“ward”, “complete”, “average”, “single”},默认=”ward”
使用哪个链接标准。链接标准确定在特征集之间使用哪个距离。该算法将合并使该标准最小化的集群对。
- “ward” 最小化被合并的集群的方差。
- “complete” 或最大链接使用两组所有特征之间的最大距离。
- “average” 使用两组每个特征的距离的平均值。
- “single” 使用两组所有特征之间距离的最小值。
- pooling_func:可调用,默认=np.mean
这会将聚集特征的值组合成一个值,并且应该接受一个形状为 [M, N] 的数组和关键字参数
axis=1
,并将其缩减为一个大小为 [M] 的数组。- distance_threshold:浮点数,默认=无
链接距离阈值,超过该阈值,集群将不会被合并。如果不是
None
,则n_clusters
必须是None
并且compute_full_tree
必须是True
。- compute_distances:布尔,默认=假
即使不使用
distance_threshold
,也会计算集群之间的距离。这可用于进行树状图可视化,但会引入计算和内存开销。
- n_clusters_:int
算法找到的聚类数。如果
distance_threshold=None
,它将等于给定的n_clusters
。- labels_:(n_features,) 的类似数组
每个特征的聚类标签。
- n_leaves_:int
层次树中的叶子数。
- n_connected_components_:int
图中连接组件的估计数量。
- n_features_in_:int
拟合期间看到的特征数。
- feature_names_in_:ndarray 形状(
n_features_in_
,) 拟合期间看到的特征名称。仅当
X
具有全为字符串的函数名称时才定义。- children_:形状类似数组 (n_nodes-1, 2)
每个非叶节点的子节点。小于
n_features
的值对应于作为原始样本的树的叶子。大于或等于n_features
的节点i
是非叶节点,并且具有子节点children_[i - n_features]
。或者在 i-th 迭代中,children[i][0] 和 children[i][1] 合并形成节点n_features + i
。- distances_:形状类似数组 (n_nodes-1,)
children_
中对应位置的节点之间的距离。仅在使用distance_threshold
或compute_distances
设置为True
时计算。
参数:
属性:
例子:
>>> import numpy as np >>> from sklearn import datasets, cluster >>> digits = datasets.load_digits() >>> images = digits.images >>> X = np.reshape(images, (len(images), -1)) >>> agglo = cluster.FeatureAgglomeration(n_clusters=32) >>> agglo.fit(X) FeatureAgglomeration(n_clusters=32) >>> X_reduced = agglo.transform(X) >>> X_reduced.shape (1797, 32)
相关用法
- Python sklearn FeatureUnion用法及代码示例
- Python sklearn FeatureHasher用法及代码示例
- Python sklearn FactorAnalysis用法及代码示例
- Python sklearn FastICA用法及代码示例
- Python sklearn FunctionTransformer用法及代码示例
- Python sklearn jaccard_score用法及代码示例
- Python sklearn WhiteKernel用法及代码示例
- Python sklearn CalibrationDisplay.from_predictions用法及代码示例
- Python sklearn VotingRegressor用法及代码示例
- Python sklearn gen_batches用法及代码示例
- Python sklearn ExpSineSquared用法及代码示例
- Python sklearn MDS用法及代码示例
- Python sklearn adjusted_rand_score用法及代码示例
- Python sklearn MLPClassifier用法及代码示例
- Python sklearn train_test_split用法及代码示例
- Python sklearn RandomTreesEmbedding用法及代码示例
- Python sklearn GradientBoostingRegressor用法及代码示例
- Python sklearn GridSearchCV用法及代码示例
- Python sklearn log_loss用法及代码示例
- Python sklearn r2_score用法及代码示例
- Python sklearn ndcg_score用法及代码示例
- Python sklearn ShrunkCovariance用法及代码示例
- Python sklearn SelfTrainingClassifier用法及代码示例
- Python sklearn load_svmlight_file用法及代码示例
- Python sklearn make_pipeline用法及代码示例
注:本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.cluster.FeatureAgglomeration。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。