Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统。 Pandas是其中的一种,使导入和分析数据更加容易。
数据分析的重要部分是分析重复值并将其删除。 Pandas duplicated()方法仅有助于分析重复值。它返回一个布尔序列,仅对唯一元素而言为True。
用法:
DataFrame.duplicated(subset=None, keep='first')
参数:
-
subset:取得一列或列标签列表。默认值为无。传递列后,它将仅将它们视为重复项。
keep:控制如何考虑重复值。它只有三个不同的值,默认值为“第一”。
->如果为“第一个”,则它将第一个值视为唯一值,并将其余相同的值视为重复值。
->如果为“ last”,则它将last值视为唯一值,并将其余相同的值视为重复值。
->如果为False,则将所有相同的值视为重复项。
要下载使用的CSV文件,请单击此处。例1:返回布尔序列
在下面的示例中,根据“名字”列中的重复值返回布尔系列。
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("employees.csv")
# sorting by first name
data.sort_values("First Name", inplace = True)
# making a bool series
bool_series = data["First Name"].duplicated()
# displaying data
data.head()
# display data
data[bool_series]
输出:
如输出图像中所示,由于keep参数的默认值为“ first”,因此,无论何时出现名称,第一个都将被视为“唯一”,并且会被视为“重复”。
范例2:删除重复项
在此示例中,keep参数设置为False,以便仅采用唯一值,并从数据中删除重复值。
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("employees.csv")
# sorting by first name
data.sort_values("First Name", inplace = True)
# making a bool series
bool_series = data["First Name"].duplicated(keep = False)
# bool series
bool_series
# passing NOT of bool series to see unique values only
data = data[~bool_series]
# displaying data
data.info()
data
输出:
由于duplicated()方法对于重复项返回False,因此采用该系列的NOT来查看数据帧中的唯一值。
相关用法
- Python pandas.map()用法及代码示例
- Python Pandas Series.str.len()用法及代码示例
- Python Pandas.factorize()用法及代码示例
- Python Pandas TimedeltaIndex.name用法及代码示例
- Python Pandas dataframe.ne()用法及代码示例
- Python Pandas Series.between()用法及代码示例
- Python Pandas DataFrame.where()用法及代码示例
- Python Pandas Series.add()用法及代码示例
- Python Pandas.pivot_table()用法及代码示例
- Python Pandas Series.mod()用法及代码示例
- Python Pandas Dataframe.at[ ]用法及代码示例
- Python Pandas Dataframe.iat[ ]用法及代码示例
- Python Pandas.pivot()用法及代码示例
- Python Pandas dataframe.mul()用法及代码示例
- Python Pandas.melt()用法及代码示例
注:本文由纯净天空筛选整理自Kartikaybhutani大神的英文原创作品 Python | Pandas Dataframe.duplicated()。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。