給定一個帶有列”BoolCol”的DataFrame,如何找到滿足條件”BoolCol” == True的DataFrame的索引
目前有迭代的方式來做到這一點:
for i in range(100,3000):
if df.iloc[i]['BoolCol']== True:
print i,df.iloc[i]['BoolCol']
這雖然可行,但不是標準的 Pandas 方式。經過一番研究,我目前正在使用這個代碼:
df[df['BoolCol'] == True].index.tolist()
這個給了我一個索引列表,但跟我想要的不匹配,當檢查:
df.iloc[i]['BoolCol']
其結果實際上是False!
如何使用正確的 Pandas 方式做到這一點?
最佳解決方法
df.iloc[i]
返回df
的第i
行。 i
不引用索引標簽,i
是從0開始的索引。
相反,屬性index
返回實際的索引標簽,而不是數字row-indices:
df.index[df['BoolCol'] == True].tolist()
或者等同地,
df.index[df['BoolCol']].tolist()
通過使用帶有”unusual”索引的DataFrame,可以非常清楚地看到差異:
df = pd.DataFrame({'BoolCol': [True, False, False, True, True]},
index=[10,20,30,40,50])
In [53]: df
Out[53]:
BoolCol
10 True
20 False
30 False
40 True
50 True
[5 rows x 1 columns]
In [54]: df.index[df['BoolCol']].tolist()
Out[54]: [10, 40, 50]
如果你想使用索引,
In [56]: idx = df.index[df['BoolCol']]
In [57]: idx
Out[57]: Int64Index([10, 40, 50], dtype='int64')
那麽您可以使用loc
而不是iloc
選擇行:
In [58]: df.loc[idx]
Out[58]:
BoolCol
10 True
40 True
50 True
[3 rows x 1 columns]
請注意,loc
也可以接受布爾數組:
In [55]: df.loc[df['BoolCol']]
Out[55]:
BoolCol
10 True
40 True
50 True
[3 rows x 1 columns]
如果您有一個布爾數組mask
,並且需要序數索引值,則可以使用np.flatnonzero
來計算它們:
In [110]: np.flatnonzero(df['BoolCol'])
Out[112]: array([0, 3, 4])
使用df.iloc
按順序索引選擇行:
In [113]: df.iloc[np.flatnonzero(df['BoolCol'])]
Out[113]:
BoolCol
10 True
40 True
50 True