-2
我有一个表,其中的字段有: -的Python/MySQL的避免重复插入
- ID(自动increantal)
- 标题(实际文本数据)
- 标志(是或否,基于一些其他业务逻辑)
现在,我想继续在这个表中使用python插入数据。我有一个网址抓取工具,可以抓取给定网页的网址。问题是,我每隔10分钟阅读一次该页面以查看任何新链接。在当前的设置中,抓取工具提供了URL并且我正在插入,但是我想检查链接是否已经可用,那么它不应该被插入。例如: -
凌晨1点 - 找到10个链接。上午2点 - 找到10个链接(其中2个是新的)。所以python应该只插入2个新链接,而不是其他8个链接。
表礼仪的大小现在是10K条记录。所以我需要一个逻辑来解决这个问题。请帮忙。
是的,这工作。谢谢 –