2010-09-11 59 views
1

我试图解析雅虎问答饲料 - http://answers.yahoo.com/rss/allq 的问题是,标题有正则表达式来简化雅虎问答订阅标题

【类别】:开放性问题:

在每一个标题,我做不想要...我想写一个正则表达式来删除这个...

任何我们可以做的,以消除所有的字母在开始[和第一:应该这样做。

:之后还有一个空格,我们也需要删除它。

感谢您的提前,我也会尝试自己找到解决方案。

回答

1

您是否考虑过使用Yahoo的YQL服务来解析此提要(或其他网页)?

他们已经有样品查询,为您在雅虎找到答案数据:

(只是一个供参考的情况下,你不知道这项便利服务。我用它来代替RegEx的屏幕抓取。)

+0

太好了。万分感谢!两个答案都很棒! – foxybagga 2010-09-12 13:23:33

+0

感谢您的提示约翰。这很有帮助! – foxybagga 2010-10-06 22:47:34

1

以下的正则表达式应该做的工作:

^\[.*?: 

用法示例在C#:

string resultString = Regex.Replace(subjectString, @"^\[.*?: ", ""); 

它的作用是启动与[托架,直到它匹配采取任何字符:和采取follwing空间。

希望这会有所帮助, Tom。

感谢@cmptrgeekken指出非贪婪的东西!

+1

可能想制作'。*?',所以这是一个非贪婪的匹配。否则,如果标题本身有一个冒号,这个正则表达式会删除所有第二个冒号 – cmptrgeekken 2010-09-11 15:35:01

+0

谢谢指出! – RoXX 2010-09-11 15:57:36