当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python BeautifulSoup Tag get_text方法用法及代码示例


Beautiful Soup 的 Tag.get_text() 方法返回标记内的文本。

例子

考虑以下 HTML 文档:

my_html = """
       <div>
              <p>I like tea.</p>
              <p>I like <b>soup</b>.</p>
              I like soda.
       </div>
"""
soup = BeautifulSoup(my_html)

提取原始文本

要提取所有文本:

print(soup.get_text())



              I like tea.
              I like soup.
              I like soda.

请注意,由于间距,您最终会得到尴尬的结构。

提取剥离的文本

为了解决间距尴尬的问题,添加strip=True参数:

print(soup.get_text(strip=True))



I like tea.I likesoup.I like soda.

这看起来干净多了。

指定分隔符

要使用 "**" 作为分隔符连接文本的各个部分:

print(soup.get_text("**", strip=True))



I like tea.**I like**soup**.**I like soda.

为了解释输出,回想一下我们的 HTML 文档的中间行如下:

<p>I like <b>soup</b>.</p>

每对开始和结束标记都将替换为您指定的分隔符 - 仅此而已。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 BeautifulSoup Tag | get_text method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。