2016-08-03 65 views
0

我工作的大熊猫据帧和mysql,我的表是关于像时间序列,如何避免在熊猫数据框上插入重复的行?

symbol_id date  close 
1   2016-6-1 123 
1   2016-6-2 133 
1   2016-6-3 143 
2   2016-6-1 23 
2   2016-6-2 33 
2   2016-6-3 43 

当断言新的数据框到表中,我使用

df.to_sql(name='symbol_test1', con=engine, if_exists = 'replace', index=True) 
+0

问题是什么?你期待什么,你收到什么结果? – Alex

回答

0

假设你要删除重复项,你可以这样做

df.drop_duplicates(subset='symbol_id') 

如果你没有指定任何子集参数,那么它默认检查行级重复。

有选项,以第一次出现或最后出现等 请参考: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html

+0

是否意味着我需要将数据框导出到python工作区,然后在与expoted dataframe比较之后删除重复的数据? –

+0

我假设您在问题中提到的数据已经在数据框中。我不明白你说的是什么意思_“通过与表示的数据帧比较后删除重复的内容?”_ @weiWu –

+0

对不起。也许我没有足够清晰地提出我的问题。前面的数据框存储在mysql数据库中,我需要从网络中取出最新的数据框并存储最新的数据,这就是我的意思。 –