2011-01-13 102 views
3

我想获取文章的主要图像,就像Facebook发布链接时一样(但没有选择图像部分)。我们需要处理的数据是整个页面HTML作为变量。每次运行此功能时,页面& URL都会有所不同。使用PHP获取主文章图像

是否有任何图书馆或课程特别擅长获取内容的主体,就像Instapaper会有什么帮助?

+0

请解释一下你的意思“的内容主体”和“制品的主要形象”是什么。你如何确定什么是“主”? DIV中的第一张或最大图片占用了屏幕上最多的空间? – rik 2011-01-13 12:49:25

+0

当我说内容的主体时,我指的是文章的自我,文章,新闻故事。而通过主图像,通常是文章标题旁边的图像。 – PaulAdamDavis 2011-01-13 12:56:49

回答

2

您可以使用PHP DOM类来解析HTML页面。它很容易让你抓住第一张图片和h1文字。

你也可以更高级的使用它,比如循环遍历p标签,找到第一个具有超过X个字符的p标签,并将其用于主文本。或者你可以抓住元标签并获得描述。

这里有大约一百万种不同的方式,但PHP DOM可能是您最初想要的。

http://us.php.net/manual/en/book.dom.php