我想知道如何从网站使用PHP刮掉源代码的内容。我曾尝试使用http://simplehtmldom.sourceforge.net/,也看着How do you parse and process HTML/XML in PHP?我仍然很难从源代码获取信息。正如你所看到的,源代码的主页面包含作者的链接列表,其中包括年份和写入的书籍数量。PHP:如何从网站源页面提取内容或抓取数据集
<div id="fleft">
<ul>
<li><a href="http://www.books.com/john-smith/index.html">John Smith (2011-2012)</a> : 11 books
<li><a href="http://www.books.com/bobby-bob/index.html">Bobby Bob (2011-2012)</a> : 89 books
....
</ul>
</div>
我点击约翰史密斯它会打开约翰史密斯写的书籍列表。
<h1>John Smith (11 Books)</h1>
<div id="fleft">
<ul>
<li><a href="http://www.books.com/john-smith/best-book.html">Best Book</a>
<li><a href="http://www.books.com/john-smith/other-best-book.html">Other Best Book</a>
....
</ul>
</div>
我点击书“最好的书”之一,它会显示书的标题和aurther和本书的整个故事。
<div id="bookbox">
<h1>Book : Best Book</h1>
<h2>Aurther : John Smith</h2>
<pre>
story of the best book......
.......
....
the end
</pre>
我希望能够抓住所有的作者姓名,他们的年份,书籍列表以及书籍内容。实际上就是数据集。有人可以帮助我或向我展示php的代码示例以实现此目的。我想创建一个所有作者姓名,年份,他们创建的书籍,书籍标题,类别,书籍内容等信息的数据库。
有大量的资源可以找到;尝试“PHP屏幕刮” –
@Jonathan Spooner你能给我一个这种情况的例子=) – merrill
你可以告诉我们你的代码与simplehtmldom,所以我们可以看到它为什么不工作 – bumperbox