2011-10-31 55 views
0

我想解析HTML网页(特别是谷歌的搜索结果页) 寻找特定的计数器字符串regexpression [R]“关于52883038结果”

“关于*许多成果”

其中*many的范围可以从0到999999999999结果

grep的( “关于[0-9]的结果”,文件)

我想不出如何将数字范围(包括逗号)合并到正则表达式中。任何人都可以澄清?我查找过类似的问题,但他们的代码不适用于此任务。

我猜想介绍某种通配符“。”但我不认为我正确地使用它 我脑子里想的结构是

任何#时报{{#任何时间([0-9])}}

解决自己的问题... 没有必须在所有

看中 “关于*结果”

正常工作

回答

0

根据页面的内容,你的*工作,但可能会得到一个很长的和不正确的字符串。

如果你想确保你得到的只是数字,尝试:

"About ([0-9]+|[0-9]{1,3}(,[0-9]{3})*) results" 

我和grep -E测试,它会给你拆组数字:

About 10000000 results 

以及作为使用英式/英式惯例的分组号码:

About 100,000 results 

但非非数字:

About a bajillion results 

或严重分组编号:

About 100,0 results