readLines函数丢失内容显示小部分

为什么我无法读取readLines中的下载文件？我如何阅读它？readLines函数丢失内容显示小部分

url="http://www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm" 
txt=download.file(url,destfile="stock") 
> file1=readLines("stock",encoding="big5") 
Warning messages: 
1: In readLines("stock", encoding = "big5") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "big5") : 
incomplete final line found on 'stock' 
> file1=readLines("stock",encoding="gbk") 
Warning messages: 
1: In readLines("stock", encoding = "gbk") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "gbk") : 
incomplete final line found on 'stock' 
> file1=readLines("stock",encoding="gb2132") 
Warning messages: 
1: In readLines("stock", encoding = "gb2132") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "gb2132") : 
incomplete final line found on 'stock' 
> file1=readLines("stock",encoding="gb18030") 
Warning messages: 
1: In readLines("stock", encoding = "gb18030") : 
invalid input found on input connection 'stock' 
2: In readLines("stock", encoding = "gb18030") : 
incomplete final line found on 'stock'

该文件只包含部分内容，很多内容丢失，为什么？

来源

2012-09-06 Dd Pp

我意识到英语可能不会成为您的第一语言，但请在将来尝试更多地关注您的拼写和语法。 – joran

尝试在文本编辑器中打开文件“stock”。这可能是一个编码问题：尝试阅读readline的帮助页面，了解如何控制编码。要理解编码，请参阅stackoverflow上关于它的成千上万页。 –

该文件包含18行，我的R读取所有这18行。我怀疑你试图忽略文本文件和HTML文件之间的区别。要提取HTML表格，您需要使用诸如this之类的内容。

来源

2012-09-06 06:36:38 themel

当您下载该文件时，将其打开，该文件至少包含1800行。 –

不是，当文件被解释为文本时，该文件中恰好有18行。其余的是HTML - http://en.wikipedia.org/wiki/HTML – themel

好吧，股票文件是一个html文件，现在，我想阅读它作为一个文本与'readLines（“股票”）'，为什么我不能？ –

readLines函数丢失内容显示小部分

回答

相关问题