2012-09-06 52 views
1

为什么我无法读取readLines中的下载文件?我如何阅读它?readLines函数丢失内容显示小部分

url="http://www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm" 
txt=download.file(url,destfile="stock") 
> file1=readLines("stock",encoding="big5") 
Warning messages: 
1: In readLines("stock", encoding = "big5") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "big5") : 
incomplete final line found on 'stock' 
> file1=readLines("stock",encoding="gbk") 
Warning messages: 
1: In readLines("stock", encoding = "gbk") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "gbk") : 
incomplete final line found on 'stock' 
> file1=readLines("stock",encoding="gb2132") 
Warning messages: 
1: In readLines("stock", encoding = "gb2132") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "gb2132") : 
incomplete final line found on 'stock' 
> file1=readLines("stock",encoding="gb18030") 
Warning messages: 
1: In readLines("stock", encoding = "gb18030") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "gb18030") : 
incomplete final line found on 'stock' 

该文件只包含部分内容,很多内容丢失,为什么?

+2

我意识到英语可能不会成为您的第一语言,但请在将来尝试更多地关注您的拼写和语法。 – joran

+2

尝试在文本编辑器中打开文件“stock”。这可能是一个编码问题:尝试阅读readline的帮助页面,了解如何控制编码。要理解编码,请参阅stackoverflow上关于它的成千上万页。 –

回答

0

该文件包含18行,我的R读取所有这18行。我怀疑你试图忽略文本文件和HTML文件之间的区别。要提取HTML表格,您需要使用诸如this之类的内容。

+0

当您下载该文件时,将其打开,该文件至少包含1800行。 –

+0

不是,当文件被解释为文本时,该文件中恰好有18行。其余的是HTML - http://en.wikipedia.org/wiki/HTML – themel

+0

好吧,股票文件是一个html文件,现在,我想阅读它作为一个文本与'readLines(“股票”)',为什么我不能? –