当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch ParagraphAggregator用法及代码示例


本文简要介绍python语言中 torchdata.datapipes.iter.ParagraphAggregator 的用法。

用法:

class torchdata.datapipes.iter.ParagraphAggregator(source_datapipe: IterDataPipe[Tuple[str, T_co]], joiner: Callable = <function _default_line_join>)

参数

  • source_datapipe-带有文件名和行元组的 DataPipe

  • joiner-将行列表连接在一起的函数

将同一文件中的文本行聚合到单个段落中(函数名称:lines_to_paragraphs)。具体来说,它接受由文件名和行的元组组成的DataPipe。对于每个元组,它检查文件名是否与前一个元组的文件名匹配。如果是,它将当前行与现有段落连接起来。如果文件名不匹配,则生成现有段落并开始新段落。

示例

>>> from torchdata.datapipes.iter import IterableWrapper
>>> source_dp = IterableWrapper(
>>>                 [("file1", "Line1"), ("file1", "Line2"), ("file2", "Line2,1"), ("file2", "Line2,2"), ("file2", "Line2,3")]
>>>             )
>>> para_agg_dp = source_dp.lines_to_paragraphs(joiner=lambda ls: " ".join(ls))
>>> list(para_agg_dp)
[('file1', 'Line1 Line2'), ('file2', 'Line2,1 Line2,2 Line2,3')]

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchdata.datapipes.iter.ParagraphAggregator。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。