本文整理匯總了Python中pyspark.ml.feature.StringIndexer.show方法的典型用法代碼示例。如果您正苦於以下問題:Python StringIndexer.show方法的具體用法?Python StringIndexer.show怎麽用?Python StringIndexer.show使用的例子?那麽, 這裏精選的方法代碼示例或許可以為您提供幫助。您也可以進一步了解該方法所在類pyspark.ml.feature.StringIndexer
的用法示例。
在下文中一共展示了StringIndexer.show方法的1個代碼示例,這些例子默認根據受歡迎程度排序。您可以為喜歡或者感覺有用的代碼點讚,您的評價將有助於係統推薦出更棒的Python代碼示例。
示例1: StructField
# 需要導入模塊: from pyspark.ml.feature import StringIndexer [as 別名]
# 或者: from pyspark.ml.feature.StringIndexer import show [as 別名]
StructField("C14", DoubleType(), True),
StructField("C15", DoubleType(), True),
StructField("C16", DoubleType(), True),
StructField("C17", DoubleType(), True),
StructField("C18", DoubleType(), True),
StructField("C19", DoubleType(), True),
StructField("C20", DoubleType(), True),
StructField("C21", DoubleType(), True)
])
from pyspark.ml.feature import StringIndexer
## Index labels, adding metadata to the label column.
## Fit on whole dataset to include all labels in index.
data = StringIndexer(inputCol="click", outputCol="label").fit(data).transform(data)
data.show()
## 可產生另一個檔案.transform(data)不一定要在(data)檔案裡
#labelIndexer ===> data
# RFormula
from pyspark.ml.feature import RFormula
## RFormula: string input colums will be one-hot encoded, and numeric columns will be cast to doubles.
##特徵值要被修正formula" "
formula = RFormula(
formula="label ~ banner_pos + app_id + site_category + site_id + site_domain + device_type + device_conn_type",
#formula="label ~ banner_pos + app_id + site_category + site_id + site_domain + C14 + C17 + C18 + C19 + C21", #0.707636
#formula="label ~ banner_pos + site_id + site_domain + C14 + C17 + C21", #0.7
featuresCol="features",
labelCol="label")
formula_data = formula.fit(data).transform(data)