本文简要介绍
pyspark.ml.evaluation.ClusteringEvaluator
的用法。用法:
class pyspark.ml.evaluation.ClusteringEvaluator(*, predictionCol='prediction', featuresCol='features', metricName='silhouette', distanceMeasure='squaredEuclidean', weightCol=None)
聚类结果评估器,它需要两个输入列:预测和特征。该度量使用平方欧几里得距离计算轮廓度量。
轮廓是验证集群内一致性的一种度量。它的范围在 1 和 -1 之间,其中接近 1 的值意味着集群中的点靠近同一集群中的其他点,而远离其他集群的点。
2.3.0 版中的新函数。
例子:
>>> from pyspark.ml.linalg import Vectors >>> featureAndPredictions = map(lambda x: (Vectors.dense(x[0]), x[1]), ... [([0.0, 0.5], 0.0), ([0.5, 0.0], 0.0), ([10.0, 11.0], 1.0), ... ([10.5, 11.5], 1.0), ([1.0, 1.0], 0.0), ([8.0, 6.0], 1.0)]) >>> dataset = spark.createDataFrame(featureAndPredictions, ["features", "prediction"]) ... >>> evaluator = ClusteringEvaluator() >>> evaluator.setPredictionCol("prediction") ClusteringEvaluator... >>> evaluator.evaluate(dataset) 0.9079... >>> featureAndPredictionsWithWeight = map(lambda x: (Vectors.dense(x[0]), x[1], x[2]), ... [([0.0, 0.5], 0.0, 2.5), ([0.5, 0.0], 0.0, 2.5), ([10.0, 11.0], 1.0, 2.5), ... ([10.5, 11.5], 1.0, 2.5), ([1.0, 1.0], 0.0, 2.5), ([8.0, 6.0], 1.0, 2.5)]) >>> dataset = spark.createDataFrame( ... featureAndPredictionsWithWeight, ["features", "prediction", "weight"]) >>> evaluator = ClusteringEvaluator() >>> evaluator.setPredictionCol("prediction") ClusteringEvaluator... >>> evaluator.setWeightCol("weight") ClusteringEvaluator... >>> evaluator.evaluate(dataset) 0.9079... >>> ce_path = temp_path + "/ce" >>> evaluator.save(ce_path) >>> evaluator2 = ClusteringEvaluator.load(ce_path) >>> str(evaluator2.getPredictionCol()) 'prediction'
相关用法
- Python pyspark Column.withField用法及代码示例
- Python pyspark Column.eqNullSafe用法及代码示例
- Python pyspark Column.desc_nulls_first用法及代码示例
- Python pyspark Column.rlike用法及代码示例
- Python pyspark Column.substr用法及代码示例
- Python pyspark Column.when用法及代码示例
- Python pyspark Column.isNotNull用法及代码示例
- Python pyspark CoordinateMatrix.entries用法及代码示例
- Python pyspark CategoricalIndex.categories用法及代码示例
- Python pyspark Column.bitwiseAND用法及代码示例
- Python pyspark CategoricalIndex.rename_categories用法及代码示例
- Python pyspark Column.isNull用法及代码示例
- Python pyspark CoordinateMatrix.numCols用法及代码示例
- Python pyspark CategoricalIndex.map用法及代码示例
- Python pyspark Column.between用法及代码示例
- Python pyspark CategoricalIndex用法及代码示例
- Python pyspark CategoricalIndex.as_unordered用法及代码示例
- Python pyspark Column.contains用法及代码示例
- Python pyspark ChiSqSelector用法及代码示例
- Python pyspark CoordinateMatrix.toRowMatrix用法及代码示例
- Python pyspark Column.cast用法及代码示例
- Python pyspark Column.like用法及代码示例
- Python pyspark Column.endswith用法及代码示例
- Python pyspark CategoricalIndex.remove_categories用法及代码示例
- Python pyspark CategoricalIndex.remove_unused_categories用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.evaluation.ClusteringEvaluator。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。