List1
以下是使用Python 2.7在图像上使用OCR处理创建的。如何从包含多余字符的文本文件中提取日期?
List1 = ["ERNR'W\xe2\x80\x98IWW/ftfi M '* \xe2\x80\x98\r\n", '\xe2\x80\x98 L n 4\r\n', 'May 2001\r\n', '31 Thursday ,_,,\r\n', '(161-214)\r\n', '0700\r\n']
它包括我希望过滤掉的信息,特别是日期信息,即Thursday 31 May 2001
。
我试图在名单拆分项目获得这个名单:
["'*", '(161-214)', ',_,,', '0700', '2001', '31', '4', 'L', 'M', 'May', 'Thursday', 'n']
我有一年没有问题过滤掉,一个月或一周的日子,所以我可以实现Thursday May 2001
。 但是,我无法想出一个过滤月份的日期的方法 - 在这个例子中,区分多余的'4'和所需的'31'。
月中的某一天(此处为31)总是出现在星期几的旁边。 有没有办法可以用这个事实来提取'31'?
因此,简而言之,我怎么能从List1
得到Thursday 31 May 2001
(以任何顺序)?
Eric Duminil。这很快,非常有帮助。我可以用它来得到我想要的。 –