我正在研究一些PHP代码,它将从远程广播页面抓取音乐播放列表 - 这意味着它不断更新。 我想在我的数据库中存储曲目历史记录。网页抓取:如何检测列表中的新项目?
我的问题是,我需要检测时,新条目已被添加到远程曲目列表,因为他们知道:
- 我不知道多久远程页面将被更新
- 我不不知道远程页面上显示了多少曲目。有时它会是一条单曲,有时候会是几十条。
- 同一曲目可能会出现好几次。
例如,抓住页面,第一次时,我会得到这样的数据:
- 死组合 - 爱喜Olhar阙儿阿SóTEU
- 迈伦&Ë - 如果我给你我的爱
- 胡佛菲尼克 - Badaboum
- 阿兰尚福尔 - BAMBOU - Pilooski/Jayvich重奏
- 威廉·奥尼伯 - 原子弹
- 柯蒂斯梅菲尔德 - 移动上了 - 扩展版
- 莫斯戴夫 - 脂肪藏宝女士
- 本站Minaj - 感觉我自己
- 披露 - 你&我(水槽混音)
- 奥蒂斯雷丁 - 我的女孩 - 修复单
然后在第二次我会得到:
- 查尔斯阿森纳沃尔 - Emmenez MOI
- 莫斯戴夫 - 脂肪藏宝女士
- Rag'n'Bone人 - 人
- 伯纳德·拉维利尔斯 - IDEES noires
- 朱利安克莱尔 - 马偏好
- 滚石乐队 - 只是你的傻瓜
- Dead Combo - Esse Olhar Que EraSóTeu
- 迈伦&Ë - 如果我给你我的爱
- 胡佛菲尼克 - Badaboum
- 阿兰尚福尔 - BAMBOU - Pilooski/Jayvich重奏
正如你所看到的,第二次,我得到了条目7 - > 10似乎与第一次相同(所以参赛作品1-> 6是新作品);第2首曲目已经在第一个列表中播放过了,但似乎已经重播了。
这里的新条目将是:
- 查尔斯阿森纳沃尔 - 带我
- 莫斯戴夫 - 脂肪藏宝女士
- Rag'n'Bone人 - 人
- Lavilliers - 思想黑
- 朱利安克莱尔 - 我的选择
- 滚石乐队 - 只需哟乌尔傻瓜
我存储在表中的轨道入口,并在另一个轨道的历史。表
结构跟踪表的
| ID | artist | title | album |
--------------------------------------------------
| 12 | Mos Def | Ms. Fat Booty | |
结构跟踪历史
| ID | track ID | time |
------------------------------------------
| 24 | 12 | 2016-07-03 13:40:26 |
你有我能怎么我们处理任何想法?
谢谢!
@Veve:我不明白这一点...什么ü意味着什么呢? – gordie