當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark VectorSizeHint用法及代碼示例

本文簡要介紹 pyspark.ml.feature.VectorSizeHint 的用法。

用法:

class pyspark.ml.feature.VectorSizeHint(*, inputCol=None, size=None, handleInvalid='error')

將大小信息添加到向量列的元數據的特征轉換器。 VectorAssembler 需要其輸入列的大小信息,如果沒有此元數據,則無法在流數據幀上使用。

2.3.0 版中的新函數。

注意

VectorSizeHint 修改 inputCol 以包含大小元數據,並且沒有 outputCol。

例子

>>> from pyspark.ml.linalg import Vectors
>>> from pyspark.ml import Pipeline, PipelineModel
>>> data = [(Vectors.dense([1., 2., 3.]), 4.)]
>>> df = spark.createDataFrame(data, ["vector", "float"])
>>>
>>> sizeHint = VectorSizeHint(inputCol="vector", size=3, handleInvalid="skip")
>>> vecAssembler = VectorAssembler(inputCols=["vector", "float"], outputCol="assembled")
>>> pipeline = Pipeline(stages=[sizeHint, vecAssembler])
>>>
>>> pipelineModel = pipeline.fit(df)
>>> pipelineModel.transform(df).head().assembled
DenseVector([1.0, 2.0, 3.0, 4.0])
>>> vectorSizeHintPath = temp_path + "/vector-size-hint-pipeline"
>>> pipelineModel.save(vectorSizeHintPath)
>>> loadedPipeline = PipelineModel.load(vectorSizeHintPath)
>>> loaded = loadedPipeline.transform(df).head().assembled
>>> expected = pipelineModel.transform(df).head().assembled
>>> loaded == expected
True

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.ml.feature.VectorSizeHint。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。