我有一个大字符串(一个RSS文章更准确),我想在特定的startIndex和endIndex中获取单词。字符串提供了子字符串方法,但只使用整数作为其参数。我的开始和结束索引是long类型的。Java:与长类型参数的String.substring()
从long类型的开始和结束索引中获取字的最佳方式是什么?
我的第一个解决方案是开始修剪字符串并将其取下,以便我可以使用整数。不喜欢去哪里。然后我看着Apache Commons Lang但没有找到任何东西。任何好的解决方案
谢谢。
更新:
只是提供多一点的信息。
我正在使用名为General Architecture for Text Engineering (GATE)的工具,它扫描字符串并返回注释列表。注释包含一个单词类型(Person,Location等)以及该单词的开始和结束索引。
对于RSS,我使用ROME,它读取RSS提要并在String中包含文章的正文。
为什么你不以块读取数据集并使用常规子字符串(int,int)? – 2010-09-23 11:30:11
出于好奇,这些字符串究竟有多大? – Pointy 2010-09-23 11:31:50
你真的得到8 GB的RSS文章吗? – Roman 2010-09-23 11:33:26