本文簡要介紹
pyspark.ml.feature.MinMaxScaler
的用法。用法:
class pyspark.ml.feature.MinMaxScaler(*, min=0.0, max=1.0, inputCol=None, outputCol=None)
使用列匯總統計將每個特征單獨重新縮放到一個公共範圍 [min, max],這也稱為min-max 標準化或重新縮放。特征 E 的重新縮放值計算為,
重新縮放(e_i) = (e_i - E_min) /(E_max - E_min) * (max - min) + min
對於 E_max == E_min 的情況,Rescaled(e_i) = 0.5 * (max + min)
版本 1.6.0 中的新函數。
注意:
由於零值可能會轉換為非零值,因此即使對於稀疏輸入,轉換器的輸出也將是DenseVector。
例子:
>>> from pyspark.ml.linalg import Vectors >>> df = spark.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], ["a"]) >>> mmScaler = MinMaxScaler(outputCol="scaled") >>> mmScaler.setInputCol("a") MinMaxScaler... >>> model = mmScaler.fit(df) >>> model.setOutputCol("scaledOutput") MinMaxScalerModel... >>> model.originalMin DenseVector([0.0]) >>> model.originalMax DenseVector([2.0]) >>> model.transform(df).show() +-----+------------+ | a|scaledOutput| +-----+------------+ |[0.0]| [0.0]| |[2.0]| [1.0]| +-----+------------+ ... >>> minMaxScalerPath = temp_path + "/min-max-scaler" >>> mmScaler.save(minMaxScalerPath) >>> loadedMMScaler = MinMaxScaler.load(minMaxScalerPath) >>> loadedMMScaler.getMin() == mmScaler.getMin() True >>> loadedMMScaler.getMax() == mmScaler.getMax() True >>> modelPath = temp_path + "/min-max-scaler-model" >>> model.save(modelPath) >>> loadedModel = MinMaxScalerModel.load(modelPath) >>> loadedModel.originalMin == model.originalMin True >>> loadedModel.originalMax == model.originalMax True >>> loadedModel.transform(df).take(1) == model.transform(df).take(1) True
相關用法
- Python pyspark MinHashLSH用法及代碼示例
- Python pyspark MultiIndex.size用法及代碼示例
- Python pyspark MultiIndex.hasnans用法及代碼示例
- Python pyspark MultiIndex.to_numpy用法及代碼示例
- Python pyspark MultiIndex.levshape用法及代碼示例
- Python pyspark MultiIndex.max用法及代碼示例
- Python pyspark MultiIndex.drop用法及代碼示例
- Python pyspark MultiIndex.min用法及代碼示例
- Python pyspark MultiIndex.unique用法及代碼示例
- Python pyspark MultiIndex.rename用法及代碼示例
- Python pyspark MultiIndex.value_counts用法及代碼示例
- Python pyspark MatrixFactorizationModel用法及代碼示例
- Python pyspark MultiIndex.values用法及代碼示例
- Python pyspark MultiIndex.difference用法及代碼示例
- Python pyspark MultiIndex.sort_values用法及代碼示例
- Python pyspark MLUtils.loadLibSVMFile用法及代碼示例
- Python pyspark MultiIndex.spark.transform用法及代碼示例
- Python pyspark MaxAbsScaler用法及代碼示例
- Python pyspark MultiIndex.T用法及代碼示例
- Python pyspark MultiIndex用法及代碼示例
- Python pyspark MultiIndex.ndim用法及代碼示例
- Python pyspark MulticlassClassificationEvaluator用法及代碼示例
- Python pyspark MultiIndex.copy用法及代碼示例
- Python pyspark MultiIndex.to_frame用法及代碼示例
- Python pyspark MultiIndex.shape用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.ml.feature.MinMaxScaler。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。