本文简要介绍python语言中 sklearn.covariance.EllipticEnvelope
的用法。
用法:
class sklearn.covariance.EllipticEnvelope(*, store_precision=True, assume_centered=False, support_fraction=None, contamination=0.1, random_state=None)
用于检测高斯分布式数据集中异常值的对象。
在用户指南中阅读更多信息。
- store_precision:布尔,默认=真
指定是否存储估计的精度。
- assume_centered:布尔,默认=假
如果为 True,则计算鲁棒位置和协方差估计的支持,并从中重新计算协方差估计,而不使数据居中。对于处理均值显著为零但不完全为零的数据很有用。如果为 False,则使用 FastMCD 算法直接计算鲁棒位置和协方差,无需额外处理。
- support_fraction:浮点数,默认=无
要包含在原始 MCD 估计的支持中的点的比例。如果没有,support_fraction 的最小值将在算法中使用:
[n_sample + n_features + 1] / 2
。范围是 (0, 1)。- contamination:浮点数,默认=0.1
数据集的污染量,即数据集中异常值的比例。范围是 (0, 0.5]。
- random_state:int、RandomState 实例或无,默认=无
确定用于打乱数据的伪随机数生成器。传递 int 以获得跨多个函数调用的可重现结果。请参阅词汇表。
- location_:ndarray 形状 (n_features,)
估计坚固的位置。
- covariance_:ndarray 形状(n_features,n_features)
估计的稳健协方差矩阵。
- precision_:ndarray 形状(n_features,n_features)
估计的伪逆矩阵。 (仅当store_precision 为真时存储)
- support_:ndarray 形状 (n_samples,)
已用于计算位置和形状的稳健估计的观测值掩码。
- offset_:浮点数
用于从原始分数定义决策函数的偏移量。我们有关系:
decision_function = score_samples - offset_
。偏移量取决于污染参数,并以这样一种方式定义,即我们在训练中获得预期的异常值(决策函数 < 0 的样本)数量。- raw_location_:ndarray 形状 (n_features,)
校正和重新加权之前的原始稳健估计位置。
- raw_covariance_:ndarray 形状(n_features,n_features)
校正和重新加权之前的原始稳健估计协方差。
- raw_support_:ndarray 形状 (n_samples,)
在校正和重新加权之前,已用于计算位置和形状的原始稳健估计的观测值掩码。
- dist_:ndarray 形状 (n_samples,)
训练集(称为
fit
)观测值的马哈拉诺比斯距离。- n_features_in_:int
拟合期间看到的特征数。
- feature_names_in_:ndarray 形状(
n_features_in_
,) 拟合期间看到的特征名称。仅当
X
具有全为字符串的函数名称时才定义。
参数:
属性:
注意:
来自协方差估计的异常值检测可能会在高维设置中中断或表现不佳。特别是,人们将始终注意使用
n_samples > n_features ** 2
。参考:
- 1
Rousseeuw, P.J., Van Driessen, K. “最小协方差行列式估计的快速算法” Technometrics 41(3), 212 (1999)
例子:
>>> import numpy as np >>> from sklearn.covariance import EllipticEnvelope >>> true_cov = np.array([[.8, .3], ... [.3, .4]]) >>> X = np.random.RandomState(0).multivariate_normal(mean=[0, 0], ... cov=true_cov, ... size=500) >>> cov = EllipticEnvelope(random_state=0).fit(X) >>> # predict returns 1 for an inlier and -1 for an outlier >>> cov.predict([[0, 0], ... [3, 3]]) array([ 1, -1]) >>> cov.covariance_ array([[0.7411..., 0.2535...], [0.2535..., 0.3053...]]) >>> cov.location_ array([0.0813... , 0.0427...])
相关用法
- Python sklearn ElasticNetCV用法及代码示例
- Python sklearn ElasticNet用法及代码示例
- Python sklearn ElasticNet.path用法及代码示例
- Python sklearn ElasticNetCV.path用法及代码示例
- Python sklearn ExpSineSquared用法及代码示例
- Python sklearn ExtraTreeClassifier用法及代码示例
- Python sklearn ExtraTreesRegressor用法及代码示例
- Python sklearn ExtraTreeRegressor用法及代码示例
- Python sklearn ExtraTreesClassifier用法及代码示例
- Python sklearn EmpiricalCovariance用法及代码示例
- Python sklearn Exponentiation用法及代码示例
- Python sklearn jaccard_score用法及代码示例
- Python sklearn WhiteKernel用法及代码示例
- Python sklearn CalibrationDisplay.from_predictions用法及代码示例
- Python sklearn VotingRegressor用法及代码示例
- Python sklearn gen_batches用法及代码示例
- Python sklearn MDS用法及代码示例
- Python sklearn adjusted_rand_score用法及代码示例
- Python sklearn MLPClassifier用法及代码示例
- Python sklearn train_test_split用法及代码示例
- Python sklearn RandomTreesEmbedding用法及代码示例
- Python sklearn GradientBoostingRegressor用法及代码示例
- Python sklearn GridSearchCV用法及代码示例
- Python sklearn log_loss用法及代码示例
- Python sklearn r2_score用法及代码示例
注:本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.covariance.EllipticEnvelope。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。