当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark VectorSizeHint用法及代码示例


本文简要介绍 pyspark.ml.feature.VectorSizeHint 的用法。

用法:

class pyspark.ml.feature.VectorSizeHint(*, inputCol=None, size=None, handleInvalid='error')

将大小信息添加到向量列的元数据的特征转换器。 VectorAssembler 需要其输入列的大小信息,如果没有此元数据,则无法在流数据帧上使用。

2.3.0 版中的新函数。

注意

VectorSizeHint 修改 inputCol 以包含大小元数据,并且没有 outputCol。

例子

>>> from pyspark.ml.linalg import Vectors
>>> from pyspark.ml import Pipeline, PipelineModel
>>> data = [(Vectors.dense([1., 2., 3.]), 4.)]
>>> df = spark.createDataFrame(data, ["vector", "float"])
>>>
>>> sizeHint = VectorSizeHint(inputCol="vector", size=3, handleInvalid="skip")
>>> vecAssembler = VectorAssembler(inputCols=["vector", "float"], outputCol="assembled")
>>> pipeline = Pipeline(stages=[sizeHint, vecAssembler])
>>>
>>> pipelineModel = pipeline.fit(df)
>>> pipelineModel.transform(df).head().assembled
DenseVector([1.0, 2.0, 3.0, 4.0])
>>> vectorSizeHintPath = temp_path + "/vector-size-hint-pipeline"
>>> pipelineModel.save(vectorSizeHintPath)
>>> loadedPipeline = PipelineModel.load(vectorSizeHintPath)
>>> loaded = loadedPipeline.transform(df).head().assembled
>>> expected = pipelineModel.transform(df).head().assembled
>>> loaded == expected
True

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.feature.VectorSizeHint。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。