我是一个开始尝试解析处理草图中的HTML文件的程序员。 (顺便说一下,如果你不知道Processing,它会编译成Java并使用相同的正则表达式函数)。我已经使用SimpleML将HTML文件正确地捕获为单个字符串。我试图捕捉数据来自表,就像这样:在处理草图中使用正则表达式的帮助?
<th>Name</th>
<th>John F. Kennedy</th>
<th>Lyndon Johnson</th>
<th>Richard Nixon</th>
等
我想候选人的姓名解析出到一个数组(去掉了“名”)。
所以我第一次尝试
candidates = match(rawString,"<th>.*</th>");
其返回的整个列表。
然后我试图
candidates = match(rawString,"<th>.{1,50}</th>");
仅返回
<th>Name</th>
的处理文档说:
如果有组在正规表达式(由多组括号的指定),那么每个数组的内容将返回到数组中。正则表达式匹配的元素[0]返回整个匹配的字符串,并且匹配组从第一个元素开始(第一个组为[1],第二个为[2],依此类推)。
所以现在我一直想组和量词的各种组合,如:
candidates = match(rawString,"(<th>.{1,50}</th>)*");
但必须有一些概念作品我没有得到,因为没有什么工作。似乎这应该很容易,对吧?
支具抗正则表达式和HTML的人群 – 2010-12-05 15:27:18