Beautiful Soup 的 Tag.get_text()
方法返回标记内的文本。
例子
考虑以下 HTML 文档:
my_html = """
<div>
<p>I like tea.</p>
<p>I like <b>soup</b>.</p>
I like soda.
</div>
"""
soup = BeautifulSoup(my_html)
提取原始文本
要提取所有文本:
print(soup.get_text())
I like tea.
I like soup.
I like soda.
请注意,由于间距,您最终会得到尴尬的结构。
提取剥离的文本
为了解决间距尴尬的问题,添加strip=True
参数:
print(soup.get_text(strip=True))
I like tea.I likesoup.I like soda.
这看起来干净多了。
指定分隔符
要使用 "**"
作为分隔符连接文本的各个部分:
print(soup.get_text("**", strip=True))
I like tea.**I like**soup**.**I like soda.
为了解释输出,回想一下我们的 HTML 文档的中间行如下:
<p>I like <b>soup</b>.</p>
每对开始和结束标记都将替换为您指定的分隔符 - 仅此而已。
相关用法
- Python BeautifulSoup Tag contents属性用法及代码示例
- Python BeautifulSoup Tag string属性用法及代码示例
- Python BeautifulSoup Tag decompose方法用法及代码示例
- Python BeautifulSoup Tag strings属性用法及代码示例
- Python BeautifulSoup Tag children属性用法及代码示例
- Python BeautifulSoup Tag stripped_strings属性用法及代码示例
- Python BeautifulSoup Tag clear方法用法及代码示例
- Python BeautifulSoup Tag descendants属性用法及代码示例
- Python Tableau TableauAuth用法及代码示例
- Python Django Tan用法及代码示例
- Python Tableau TaskItem用法及代码示例
- Python Thread join()用法及代码示例
- Python Django TodayArchiveView用法及代码示例
- Python Tensorflow asin()用法及代码示例
- Python Django TransactionNow用法及代码示例
- Python Thread run()用法及代码示例
- Python TextBlob.correct()用法及代码示例
- Python Tuple len()用法及代码示例
- Python Tensorflow math.accumulate_n()用法及代码示例
- Python Tensorflow cosh()用法及代码示例
- Python Pandas Timestamp构造函数用法及代码示例
- Python Django TransactionTestCase.reset_sequences用法及代码示例
- Python Tuple min()用法及代码示例
- Python Thread setName()用法及代码示例
- Python TextCalendar prmonth()用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 BeautifulSoup Tag | get_text method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。