2016-04-25 121 views
-2

我有一个表,其中的字段有: -的Python/MySQL的避免重复插入

  1. ID(自动increantal)
  2. 标题(实际文本数据)
  3. 标志(是或否,基于一些其他业务逻辑)

现在,我想继续在这个表中使用python插入数据。我有一个网址抓取工具,可以抓取给定网页的网址。问题是,我每隔10分钟阅读一次该页面以查看任何新链接。在当前的设置中,抓取工具提供了URL并且我正在插入,但是我想检查链接是否已经可用,那么它不应该被插入。例如: -

凌晨1点 - 找到10个链接。上午2点 - 找到10个链接(其中2个是新的)。所以python应该只插入2个新链接,而不是其他8个链接。

表礼仪的大小现在是10K条记录。所以我需要一个逻辑来解决这个问题。请帮忙。

回答

1

在链接列上创建​​。

和使用INSERT IGNORE声明以避免重复。

+0

是的,这工作。谢谢 –