本文简要介绍
pyspark.ml.stat.Summarizer
的用法。用法:
class pyspark.ml.stat.Summarizer
用于 MLlib 向量的向量化统计的工具。此包中的方法为 DataFrame 中包含的 Vector 提供各种统计信息。此类允许用户选择他们想要为给定列提取的统计信息。
2.4.0 版中的新函数。
例子:
>>> from pyspark.ml.stat import Summarizer >>> from pyspark.sql import Row >>> from pyspark.ml.linalg import Vectors >>> summarizer = Summarizer.metrics("mean", "count") >>> df = sc.parallelize([Row(weight=1.0, features=Vectors.dense(1.0, 1.0, 1.0)), ... Row(weight=0.0, features=Vectors.dense(1.0, 2.0, 3.0))]).toDF() >>> df.select(summarizer.summary(df.features, df.weight)).show(truncate=False) +-----------------------------------+ |aggregate_metrics(features, weight)| +-----------------------------------+ |{[1.0,1.0,1.0], 1} | +-----------------------------------+ >>> df.select(summarizer.summary(df.features)).show(truncate=False) +--------------------------------+ |aggregate_metrics(features, 1.0)| +--------------------------------+ |{[1.0,1.5,2.0], 2} | +--------------------------------+ >>> df.select(Summarizer.mean(df.features, df.weight)).show(truncate=False) +--------------+ |mean(features)| +--------------+ |[1.0,1.0,1.0] | +--------------+ >>> df.select(Summarizer.mean(df.features)).show(truncate=False) +--------------+ |mean(features)| +--------------+ |[1.0,1.5,2.0] | +--------------+
相关用法
- Python pyspark Series.asof用法及代码示例
- Python pyspark Series.to_frame用法及代码示例
- Python pyspark Series.rsub用法及代码示例
- Python pyspark Series.mod用法及代码示例
- Python pyspark Series.str.join用法及代码示例
- Python pyspark Series.str.startswith用法及代码示例
- Python pyspark Series.dt.is_quarter_end用法及代码示例
- Python pyspark Series.dropna用法及代码示例
- Python pyspark Series.sub用法及代码示例
- Python pyspark Series.sum用法及代码示例
- Python pyspark Series.gt用法及代码示例
- Python pyspark Series.iloc用法及代码示例
- Python pyspark Series.explode用法及代码示例
- Python pyspark Series.str.slice_replace用法及代码示例
- Python pyspark Series.dt.is_month_end用法及代码示例
- Python pyspark Series.plot.barh用法及代码示例
- Python pyspark Series.between用法及代码示例
- Python pyspark Series.floordiv用法及代码示例
- Python pyspark Series.describe用法及代码示例
- Python pyspark Series.ndim用法及代码示例
- Python pyspark Series.str.rjust用法及代码示例
- Python pyspark Series.loc用法及代码示例
- Python pyspark SparkConf用法及代码示例
- Python pyspark Series.add_prefix用法及代码示例
- Python pyspark Series.truediv用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.stat.Summarizer。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。