2011-04-04 33 views
0

我正在处理大量由5K多个不同实体准备的文档。我试图做的一件事是确定一个盒子是否被检查过。编制者需要通过检查五个不同框中的一个来指示一些信息。试图编写一些代码来确定是否在html页面中检查了框

问题是编写者自己决定如何在html中显示一个复选框。他们的一些表示很有趣。他们主要依靠wingdings作为字体指令。这里有几个类型的选中的复选框的我发现迄今

'serif">S</font>' 
'wingdings">x</font>' 
'&#252;' 
'&#253;' 
'&#254;' 


<font style="font-family: Wingdings; font-variant: normal">&#254;</font> 

的一段代码,我上面粘贴的文件被打开时与IE浏览器的变体将显示一个确认框,它会呈现什么否则当文档用Firefox,Safari或Chrome打开时。

下面是另一个例子

<div style="DISPLAY: block; MARGIN-LEFT: 0pt; TEXT-INDENT: 0pt; MARGIN-RIGHT: 0pt" align="center"><font style="DISPLAY: inline; FONT-SIZE: 10pt; FONT-FAMILY: times new roman">THE DATA THAT HAS THE CHECKED BOX <font style="DISPLAY: inline; FONT-FAMILY: wingdings 2, serif">R</font></font></div> 

所以我想最简单的形式,我的问题是

有什么python中“知道”是

<font style="DISPLAY: inline; FONT-FAMILY: wingdings 2, serif">R</font> 

这是一个检查框?然后进一步扩展 - 是否有什么'知道'这个几乎每一个检查框可以呈现在HTML代码中的方式?

我要说明的是,当我检查的字体元素的文本,我得到一个Unicode [R

我希望这是更清晰。

+0

对我们所问的没有任何意义。请更改您的问题,并以较少的blabla来达到这个程度......具体的问题是什么 - 将其归结为两个句子。 – 2011-04-04 01:57:43

+0

相反,如果任何人有另一种方式,我可以考虑这个问题,将不胜感激。 – PyNEwbie 2011-04-04 02:08:55

+0

你真正的问题是什么?将其缩减为两个句子... – 2011-04-04 02:11:14

回答

0

我看到它的方式,它看起来像这样。

'S'的ascii值是83.如果在wingdings上查找83,就会得到“小滴”。 Unicode等效的“滴”是。

'x'的ascii值是120.在wingdings上查看120,您会看到“清晰”。 Unicode⌧。

252是wingding“checkbld”,unicode✓。

253是狂怒 “boxxmarkbld” 的unicode☒

254是狂怒 “boxcheckbld” 的unicode☑。

“R”是根据字体家庭wingdings2,ASCII 82,和unicode等效☑

注显示:这只是一个猜测哪个是哪个。不要听我的话。 我认为这将是如此,因为它似乎是有道理的。我的来源是Here (wingdings)Here (wingdings2)

解决方案评论:[√](左括号,amp,磅,8730,分号,右括号)。 &#8730被解释为U + 221A,分号是“结束语句”类型字符。根据fileformat.info,U + 221A是平方根符号,位于python u'\ u221a'中。这应该可以解决你的问题。

我给出的所有答案都是纯粹的猜测和猜测,尽管通过链接和python2.7验证了字符代码和等价物。1的chr()和ord()。

相关问题