Python Pandas Series.str.startswith()用法及代码示例

Python是进行数据分析的一种出色语言，主要是因为以数据为中心的Python软件包具有奇妙的生态系统。 Pandas是其中的一种，使导入和分析数据更加容易。

Pandas startswith()是另一种在系列或 DataFrame 中搜索和过滤文本数据的方法。此方法类似于Python的startswith()方法，但参数不同，并且仅适用于Pandas对象。因此，.str必须在每次调用此方法之前加上前缀，以便编译器知道它与默认函数不同。

用法：Series.str.startswith(pat, na=nan)

参数：
pat:要搜索的字符串。 (不接受正则表达式)
na:用于设置序列中的值为NULL时应显示的内容。

返回类型：布尔序列，为True，其中值的开头是传递的字符串。

要下载代码中使用的CSV，请点击此处。

在以下示例中，使用的 DataFrame 包含一些NBA球员的数据。下面是任何操作之前的数据帧图像。

范例1：返回布尔系列
在此示例中，使用str.startswith()函数检查元素在字符串的开头是否具有“G”。返回一个布尔序列，该序列在字符串开头具有“G”的索引位置处为真。

# importing pandas module  
import pandas as pd 
  
# reading csv file from url  
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") 
  
# String to be searched in start of string  
search ="G"
  
# boolean series returned 
data["College"].str.startswith(search)

输出：
如输出图像中所示，布尔系列在索引位置处具有True，在该位置上，College列在开始时具有“G”。也可以通过查看原始数据帧的图像进行比较。

范例2：处理NULL值
数据分析中最重要的部分是处理Null值。从上面的输出图像中可以看出，布尔序列在“学院”列中的值为空或NaN的地方都具有NaN。如果将此布尔系列传递到数据帧中，则会产生错误。因此，需要使用na参数来处理NaN值。也可以将其设置为字符串，但是由于布尔序列用于传递和返回各自的值，因此应仅将其设置为布尔值。在此示例中，na Parameter设置为False。因此，无论“学院”列的值为Null，Bool系列将存储False而不是NaN。之后，该系列将再次传递到 DataFrame 以仅显示True值。

# importing pandas module  
import pandas as pd 
  
# reading csv file from url  
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") 
  
# String to be searched in start of string  
search ="G"
  
# boolean series returned with False at place of NaN 
bool_series = data["College"].str.startswith(search, na = False) 
  
# displaying filtered dataframe 
data[bool_series]

输出：
如输出图像中所示，数据帧具有在College列中的字符串开头具有“G”的行。由于na参数设置为False，因此不会显示NaN值。

相关用法

注：本文由纯净天空筛选整理自Kartikaybhutani大神的英文原创作品 Python | Pandas Series.str.startswith()。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。