我有一个相当简单的文档(用于任务的政府策略),其中包含标题,普通文本,然后是项目符号点(这是他们希望实施的策略)。仅使用R或Python从PDF中提取项目符号点
我可以从.pdf
中读取和提取页面或标题,并将其转换为.txt
,但我只想将文本(整段)保留在项目符号点内,这正是我所感兴趣的。估计有一些方法可以做到这一点,因为它们可能会被子弹点本身识别出来。
是否有足够简单的方法在R和/或Python中执行此操作?我不熟悉其他编程语言或解析方法。
编辑:只需很快地将基本文本转换为HTML(使用https://wordtohtml.net)在页面上,它似乎将项目符号点为<li>
,我猜测会很容易解析。有没有简单的方法将整个262页的文档转换为HTML格式,并保存<li>
格式,可能是R/python格式?或者你知道一种PDF方式 - 因为至少有一个步骤可以做到这一点 - 对于我的问题?
你看过'pdftools'包吗?它有一个'pdf_text'函数,它至少应该能够读取原始文本。您必须查看输出结果是否可以删除标题和普通文本。取决于格式的一致性,正则表达式可能会帮助您。 – Mako212
好主意。是的,我收到了原始文本。下面是一段摘录:\ n \ n•改变一个家庭的家庭,多少个家庭,dos \ nfuncionáriospúblicos和dos pensionistas; \ n “' '\ n'表示换行。假设它的写法完美,我想要的是在'•'和'; \ n'之间,因为导致项目符号点的句子以':\ n'结尾。 但创建数据框时,我每页有1行。之后,我需要将每个项目符号分组到自己的行中。 –
听起来像你在正确的轨道上。如果你有其他的字符串在 – Mako212