本文简要介绍
pyspark.ml.feature.Interaction
的用法。用法:
class pyspark.ml.feature.Interaction(*, inputCols=None, outputCol=None)
实现特征交互变换。该转换器采用 Double 和 Vector 类型的列,并输出它们的特征交互的扁平向量。为了处理交互,我们首先 one-hot 编码任何名义特征。然后,生成特征cross-products的向量。
例如,给定输入特征值
Double(2)
和Vector(3, 4)
,如果所有输入特征都是数字,则输出将为Vector(6, 8)
。如果第一个特征是具有四个类别的名义特征,则输出将为Vector(0, 0, 0, 0, 3, 4, 0, 0)
。3.0.0 版中的新函数。
例子:
>>> df = spark.createDataFrame([(0.0, 1.0), (2.0, 3.0)], ["a", "b"]) >>> interaction = Interaction() >>> interaction.setInputCols(["a", "b"]) Interaction... >>> interaction.setOutputCol("ab") Interaction... >>> interaction.transform(df).show() +---+---+-----+ | a| b| ab| +---+---+-----+ |0.0|1.0|[0.0]| |2.0|3.0|[6.0]| +---+---+-----+ ... >>> interactionPath = temp_path + "/interaction" >>> interaction.save(interactionPath) >>> loadedInteraction = Interaction.load(interactionPath) >>> loadedInteraction.transform(df).head().ab == interaction.transform(df).head().ab True
相关用法
- Python pyspark Int64Index用法及代码示例
- Python pyspark Index.is_monotonic_decreasing用法及代码示例
- Python pyspark Index.values用法及代码示例
- Python pyspark Index.drop_duplicates用法及代码示例
- Python pyspark IndexedRowMatrix.computeGramianMatrix用法及代码示例
- Python pyspark Index.value_counts用法及代码示例
- Python pyspark Index.map用法及代码示例
- Python pyspark Index.equals用法及代码示例
- Python pyspark Index.argmin用法及代码示例
- Python pyspark Index.argmax用法及代码示例
- Python pyspark Index.item用法及代码示例
- Python pyspark Index.insert用法及代码示例
- Python pyspark Index.nlevels用法及代码示例
- Python pyspark Index.min用法及代码示例
- Python pyspark Index.copy用法及代码示例
- Python pyspark Index用法及代码示例
- Python pyspark Index.difference用法及代码示例
- Python pyspark Index.to_list用法及代码示例
- Python pyspark Index.shape用法及代码示例
- Python pyspark Index.dropna用法及代码示例
- Python pyspark Index.repeat用法及代码示例
- Python pyspark Index.notna用法及代码示例
- Python pyspark Index.has_duplicates用法及代码示例
- Python pyspark IndexedRowMatrix.numRows用法及代码示例
- Python pyspark Index.max用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.feature.Interaction。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。