2017-04-26 98 views
1

我在提取有关某些产品的信息的网站,但我遇到了价格方面的问题。我的代码如下:由R下载的源代码和网站源代码的差异

> enlace<-"http://www.carulla.com/products/0000687608965009/Crema+Dental+Sensitive+Proalivio+Colgate" 
> download.file(enlace, destfile = "scrapedpage.html", quiet=TRUE) 
> doc<-read_html("scrapedpage.html") 
> # description 
> toString(xml_find_all(doc,xpath=paste0('//*[@id="pdpProduct"]/div[3]/h3'))) 
[1] "<h3 class=\"pdpInfoProductName\" itemprop=\"name\">Crema Dental Sensitive Proalivio Colgate</h3>" 
> # reference 
> toString(xml_find_all(doc,xpath=paste0('//*[@id="pdpProduct"]/div[3]/p'))) 
[1] "<p class=\"pdpInfoProductRef\">\r\n\t\t\t\t\t\t\t\t\tPresentación:C \r\n\t\t\t\t\t\t\t\t\tPLU:739983</p>" 
> # prices 
> toString(xml_find_all(doc,xpath=paste0('//*[@id="pdpProduct"]/div[3]/div[1]/div[2]/h4'))) 
[1] "" 

我在原来的页面,在那里我找到这个检查源代码这样的信息:

<div class="pdpInfoProduct pull-left"> 
      <h3 class="pdpInfoProductName" itemprop="name">Crema Dental Sensitive Proalivio Colgate</h3> 
      <h2 class="pdpInfoProductBrand" itemprop="brand">COLGATE</h2> 
      <p class="pdpInfoProductRef"> 
           Presentación:C&nbsp; 
           PLU:739983</p> 
         <div class="pdpInfoProductPrices"> 
       <div class="pull-right"> 
          <div class="pro-big-Ovalo"> 
           <p>25%</p> 
          </div> 
         </div> 
        <div class="pdpInfoProductPrice" itemprop="offers" itemscope itemtype="http://schema.org/Offer"> 

       <meta itemprop="priceCurrency" content="COP" /> 
        <meta itemprop="price" content="17213.0" /> 
        <h4 class="priceOffer"> 
         $17.213</h4> 
        <h6 class="before">Antes: <span class="strikeText"> 
           $22.950</span> 
         </h6> 
        </div> 
      </div> 

我感兴趣的信息是17.213 $,但是当我尝试下载其中R的源代码,我得到如下:

> con2<-url(enlace,"r") 
> x<-readLines(con2) 
> close(con2) 
> x[1270:1285] 
[1] "\t\t\t\t\t\t\t\t\tPLU:739983</p>"                                     
[2] "\t\t\t\t\t\t\t<div class=\"pdpInfoProductPrices\">\t"                               
[3] "\t\t\t\t\t<div class=\"pdpInfoProductPrice\" itemprop=\"offers\" itemscope itemtype=\"http://schema.org/Offer\">"                
[4] "\t\t\t\t\t"                                         
[5] "\t\t\t\t\t<meta itemprop=\"priceCurrency\" content=\"COP\" />"                            
[6] "      <meta itemprop=\"price\" content=\"\" />"                          
[7] "\t\t\t\t\t\t<h4 class=\"price\">"                                    
[8] "\t\t\t\t\t\t\t</h4>"                                       
[9] "\t\t\t\t\t\t</div>"                                       
[10] "\t\t\t\t</div>"                                        
[11] "\t\t\t\t"                                         
[12] "\t\t\t\t\t\t\t\t\t"                                        
[13] "\t\t\t\t\t\t\t\t\t\t\t\t\t <div class=\"product-seller row-fluid\">"                             
[14] "\t\t\t\t  <!-- +++++ Carulla Seller +++++ -->            "                   
[15] "        <p> Vendido por: &nbsp Carulla</p>                          " 
[16] "     </div>" 

即,我获得\吨\吨\吨\吨\吨\吨\吨,而不是17.213 $。

我会非常感谢您的帮助。

回答

0

该网站可能会检查UA和Cookie,以防止您执行您正在做的事。我只是试图用wget下载它,并且只是平坦地出现了403 Forbidden错误。

现在,网络抓取的想法已经过时了,至少对于商业网页而言。有一些解决方法(例如,您可以检查download.file()的帮助,并阅读wget和curl的联机帮助页以了解如何更改UA并导入cookie),但是如果您确实想要按比例,您可能需要查看浏览器脚本,然后将该数据导入到R中。

请记住,您正在执行网站所有者不希望您执行的操作。总之,这与R几乎无关。