当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python Pandas Series.str.startswith()用法及代码示例


Python是进行数据分析的一种出色语言,主要是因为以数据为中心的Python软件包具有奇妙的生态系统。 Pandas是其中的一种,使导入和分析数据更加容易。

Pandas startswith()是另一种在系列或 DataFrame 中搜索和过滤文本数据的方法。此方法类似于Python的startswith()方法,但参数不同,并且仅适用于Pandas对象。因此,.str必须在每次调用此方法之前加上前缀,以便编译器知道它与默认函数不同。

用法:Series.str.startswith(pat, na=nan)

参数:
pat:要搜索的字符串。 (不接受正则表达式)
na:用于设置序列中的值为NULL时应显示的内容。

返回类型:布尔序列,为True,其中值的开头是传递的字符串。

要下载代码中使用的CSV,请点击此处。

在以下示例中,使用的 DataFrame 包含一些NBA球员的数据。下面是任何操作之前的数据帧图像。

范例1:返回布尔系列
在此示例中,使用str.startswith()函数检查元素在字符串的开头是否具有“G”。返回一个布尔序列,该序列在字符串开头具有“G”的索引位置处为真。

# importing pandas module  
import pandas as pd 
  
# reading csv file from url  
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") 
  
# String to be searched in start of string  
search ="G"
  
# boolean series returned 
data["College"].str.startswith(search)

输出:
如输出图像中所示,布尔系列在索引位置处具有True,在该位置上,College列在开始时具有“G”。也可以通过查看原始数据帧的图像进行比较。


范例2:处理NULL值
数据分析中最重要的部分是处理Null值。从上面的输出图像中可以看出,布尔序列在“学院”列中的值为空或NaN的地方都具有NaN。如果将此布尔系列传递到数据帧中,则会产生错误。因此,需要使用na参数来处理NaN值。也可以将其设置为字符串,但是由于布尔序列用于传递和返回各自的值,因此应仅将其设置为布尔值。在此示例中,na Parameter设置为False。因此,无论“学院”列的值为Null,Bool系列将存储False而不是NaN。之后,该系列将再次传递到 DataFrame 以仅显示True值。

# importing pandas module  
import pandas as pd 
  
# reading csv file from url  
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") 
  
# String to be searched in start of string  
search ="G"
  
# boolean series returned with False at place of NaN 
bool_series = data["College"].str.startswith(search, na = False) 
  
# displaying filtered dataframe 
data[bool_series]

输出:
如输出图像中所示,数据帧具有在College列中的字符串开头具有“G”的行。由于na参数设置为False,因此不会显示NaN值。



相关用法


注:本文由纯净天空筛选整理自Kartikaybhutani大神的英文原创作品 Python | Pandas Series.str.startswith()。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。