在熊猫数据帧上按条件有效地增加值

html5 • 2022年11月8日 am9:31 • 问答

我有一个熊猫数据框，我想在其中比较Var1和Var2

import pandas as pd 
  
data = [['foo', 'foo', 1613030200], 
        ['foo', 'foo', 1613030300], ['foo', 'bar', 1613030400], 
        ['foo', 'foo', 1613030500], ['foo', 'foo', 1613030600], ['bar', 'foo', 1613030700],
        ['foo', 'foo', 1613030800], ['foo', 'foo', 1613030900], ['foo', 'foo', 1613030985]] 
   
df = pd.DataFrame(data, columns = ['Var1', 'Var2', 'ts']) 
   
df

这个想法是添加一个单独的列，称为group仅当在一段时间之间Var1和Var2一段时间内检测到更改时才会增加 1 （从最早的时间戳开始）。

输出看起来像这样：

    Var1    Var2    ts  group
0   foo foo 1613030200  0
1   foo foo 1613030300  0
2   foo bar 1613030400  1
3   foo foo 1613030500  1
4   foo foo 1613030600  1
5   bar foo 1613030700  2
6   foo foo 1613030800  2
7   foo foo 1613030900  2
8   foo foo 1613030985  2

我曾尝试使用 lambda 函数进行递增，但这会引发错误：

counter = 0
df[['Var1','Var2']].apply(lambda x: counter +=1 if x['Var1']!=x['Var2'] else counter, axis=1)

是否有一种有效的方法可以通过涉及检查 python 中的多列（没有 for 循环）的条件在行上递增？在 SQL 中，可以使用窗口函数完成等效操作，例如：

SUM(
 CASE WHEN Var1 <> Var2 THEN 1 ELSE 0 END
  ) OVER (ORDER BY ts) AS group

回答

看起来只是一个cumsum：

df['groups'] = df['Var1'].ne(df['Var2']).cumsum()

输出：

  Var1 Var2          ts  groups
0  foo  foo  1613030200       0
1  foo  foo  1613030300       0
2  foo  bar  1613030400       1
3  foo  foo  1613030500       1
4  foo  foo  1613030600       1
5  bar  foo  1613030700       2
6  foo  foo  1613030800       2
7  foo  foo  1613030900       2
8  foo  foo  1613030985       2

以上是在熊猫数据帧上按条件有效地增加值的全部内容。

THE END

二维码

一个改变DNA核苷酸字母的程序

< <上一篇

如何在Python中拆分列表元素

下一篇>>

搜索内容

在熊猫数据帧上按条件有效地增加值

回答

目录

目录

推荐文章

最新文章