本文簡要介紹
pyspark.ml.stat.ChiSquareTest.test
的用法。用法:
static test(dataset, featuresCol, labelCol, flatten=False)
使用數據集執行 Pearson 獨立性測試。
2.2.0 版中的新函數。
在 3.1.0 版中更改:添加了可選
flatten
爭論。- dataset:DataFrame
DataFrame 分類標簽和分類特征。實值特征將被視為每個不同值的分類特征。
- featuresCol:str
數據集中特征列的名稱,類型為
Vector
(VectorUDT
)。- labelCol:str
數據集中標簽列的名稱,任何數字類型。
- flatten:布爾型,可選
如果為真,則展平返回的數據幀。
- DataFrame
DataFrame 包含針對標簽的每個函數的測試結果。如果 flatten 為 True,則此 DataFrame 將包含每個要素一行以及以下字段:
featureIndex: int
pValue: float
degreesOfFreedom: int
statistic: float
如果 flatten 為 False,則此DataFrame 將包含具有以下字段的單行:
pValues: Vector
degreesOfFreedom: Array[int]
statistics: Vector
這些字段中的每一個都具有每個特征的一個值。
參數:
返回:
例子:
>>> from pyspark.ml.linalg import Vectors >>> from pyspark.ml.stat import ChiSquareTest >>> dataset = [[0, Vectors.dense([0, 0, 1])], ... [0, Vectors.dense([1, 0, 1])], ... [1, Vectors.dense([2, 1, 1])], ... [1, Vectors.dense([3, 1, 1])]] >>> dataset = spark.createDataFrame(dataset, ["label", "features"]) >>> chiSqResult = ChiSquareTest.test(dataset, 'features', 'label') >>> chiSqResult.select("degreesOfFreedom").collect()[0] Row(degreesOfFreedom=[3, 1, 0]) >>> chiSqResult = ChiSquareTest.test(dataset, 'features', 'label', True) >>> row = chiSqResult.orderBy("featureIndex").collect() >>> row[0].statistic 4.0
相關用法
- Python pyspark ChiSqSelector用法及代碼示例
- Python pyspark Column.withField用法及代碼示例
- Python pyspark Column.eqNullSafe用法及代碼示例
- Python pyspark Column.desc_nulls_first用法及代碼示例
- Python pyspark Column.rlike用法及代碼示例
- Python pyspark Column.substr用法及代碼示例
- Python pyspark Column.when用法及代碼示例
- Python pyspark Column.isNotNull用法及代碼示例
- Python pyspark CoordinateMatrix.entries用法及代碼示例
- Python pyspark CategoricalIndex.categories用法及代碼示例
- Python pyspark Column.bitwiseAND用法及代碼示例
- Python pyspark CategoricalIndex.rename_categories用法及代碼示例
- Python pyspark Column.isNull用法及代碼示例
- Python pyspark CoordinateMatrix.numCols用法及代碼示例
- Python pyspark CategoricalIndex.map用法及代碼示例
- Python pyspark Column.between用法及代碼示例
- Python pyspark ClusteringEvaluator用法及代碼示例
- Python pyspark CategoricalIndex用法及代碼示例
- Python pyspark CategoricalIndex.as_unordered用法及代碼示例
- Python pyspark Column.contains用法及代碼示例
- Python pyspark CoordinateMatrix.toRowMatrix用法及代碼示例
- Python pyspark Column.cast用法及代碼示例
- Python pyspark Column.like用法及代碼示例
- Python pyspark Column.endswith用法及代碼示例
- Python pyspark CategoricalIndex.remove_categories用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.ml.stat.ChiSquareTest.test。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。