2016-09-06 86 views
0

我正在尝试解析python中的pdf并将报价提取到字符串中。我能够在引文中提取文本,但我也想在报价开始前提取名称。 例如: 考虑这个在报价之前提取字符串

Ziblatt,Daniel。 “重新思考联邦制的起源:19世纪欧洲的谜题,理论和证据”,

我能够提取一切引文,但我想要提取名称。 这是我使用的代码..请帮助

def quotes(x): 
    quoted = re.compile('"[^"]*"') 
    for value in quoted.findall(x): 
     print value 

回答

1

捕获数据的双引号前应该工作:

def quotes(x): 
    quoted = re.compile('(.+)"[^"]+"') 
    for value in quoted.findall(x): 
     print value.strip() 

我得到这个输出中:

>>> quotes(text) 
'Ziblatt, Daniel. 2004.'