本文简要介绍
pyspark.ml.stat.ChiSquareTest.test
的用法。用法:
static test(dataset, featuresCol, labelCol, flatten=False)
使用数据集执行 Pearson 独立性测试。
2.2.0 版中的新函数。
在 3.1.0 版中更改:添加了可选
flatten
争论。- dataset:DataFrame
DataFrame 分类标签和分类特征。实值特征将被视为每个不同值的分类特征。
- featuresCol:str
数据集中特征列的名称,类型为
Vector
(VectorUDT
)。- labelCol:str
数据集中标签列的名称,任何数字类型。
- flatten:布尔型,可选
如果为真,则展平返回的数据帧。
- DataFrame
DataFrame 包含针对标签的每个函数的测试结果。如果 flatten 为 True,则此 DataFrame 将包含每个要素一行以及以下字段:
featureIndex: int
pValue: float
degreesOfFreedom: int
statistic: float
如果 flatten 为 False,则此DataFrame 将包含具有以下字段的单行:
pValues: Vector
degreesOfFreedom: Array[int]
statistics: Vector
这些字段中的每一个都具有每个特征的一个值。
参数:
返回:
例子:
>>> from pyspark.ml.linalg import Vectors >>> from pyspark.ml.stat import ChiSquareTest >>> dataset = [[0, Vectors.dense([0, 0, 1])], ... [0, Vectors.dense([1, 0, 1])], ... [1, Vectors.dense([2, 1, 1])], ... [1, Vectors.dense([3, 1, 1])]] >>> dataset = spark.createDataFrame(dataset, ["label", "features"]) >>> chiSqResult = ChiSquareTest.test(dataset, 'features', 'label') >>> chiSqResult.select("degreesOfFreedom").collect()[0] Row(degreesOfFreedom=[3, 1, 0]) >>> chiSqResult = ChiSquareTest.test(dataset, 'features', 'label', True) >>> row = chiSqResult.orderBy("featureIndex").collect() >>> row[0].statistic 4.0
相关用法
- Python pyspark ChiSqSelector用法及代码示例
- Python pyspark Column.withField用法及代码示例
- Python pyspark Column.eqNullSafe用法及代码示例
- Python pyspark Column.desc_nulls_first用法及代码示例
- Python pyspark Column.rlike用法及代码示例
- Python pyspark Column.substr用法及代码示例
- Python pyspark Column.when用法及代码示例
- Python pyspark Column.isNotNull用法及代码示例
- Python pyspark CoordinateMatrix.entries用法及代码示例
- Python pyspark CategoricalIndex.categories用法及代码示例
- Python pyspark Column.bitwiseAND用法及代码示例
- Python pyspark CategoricalIndex.rename_categories用法及代码示例
- Python pyspark Column.isNull用法及代码示例
- Python pyspark CoordinateMatrix.numCols用法及代码示例
- Python pyspark CategoricalIndex.map用法及代码示例
- Python pyspark Column.between用法及代码示例
- Python pyspark ClusteringEvaluator用法及代码示例
- Python pyspark CategoricalIndex用法及代码示例
- Python pyspark CategoricalIndex.as_unordered用法及代码示例
- Python pyspark Column.contains用法及代码示例
- Python pyspark CoordinateMatrix.toRowMatrix用法及代码示例
- Python pyspark Column.cast用法及代码示例
- Python pyspark Column.like用法及代码示例
- Python pyspark Column.endswith用法及代码示例
- Python pyspark CategoricalIndex.remove_categories用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.stat.ChiSquareTest.test。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。