1
我刚开始使用Python 3,冲进了以下问题:如何阅读的不同目录中的txt文件的内容和重命名等文件,根据
我从网上下载了我的论文的不同期刊的PDF文件的一个很好的协议,但他们都是以他们的DOI命名,而不是以“作者(年) - 标题”的格式。 将文档保存在不同的目录,根据期刊的名称和数量,例如:
/Journal 1/
/Vol. 1/
file1.pdf
file1.txt
file2.pdf
file2.txt
filen.pdf
filen.txt
/Vol. 2/
file1.pdf
file1.txt
/Journal 2/
...
因为我不知道如何阅读与Python中的PDF内容,我写了一个很短的bash脚本,将PDF转换为简单的TXT文件。 pdf和txt文件具有不同的文件扩展名。
我想重新命名所有的PDF文件,幸运的是每个文件的连续文本中都有一个字符串,我可以使用。该变量的字符串位于两个静态字符串之间:
"Cite this article as: " AUTHOR/YEAR/TITLE ", Journal name".
我如何使Python进入每个目录,阅读TXT/PDF内容,提取两个固定字符串之间的变量字符串,然后重命名适当的PDF文件?
如果有人知道如何用Python 3做到这一点,我会非常感激。
有些宽泛真的。涉及很多步骤。你究竟在哪一点卡住了? – usr2564301
如果您在acrobat中打开PDF文件并在文件/属性下查找,这些元数据字符串中是否包含这些文件? –
不,它们不在元字符串中。 我被困在循环目录+所有文件,然后重命名文件。 要找到我使用的字符串: '(blablablabla(*)blablablabla”,S) '进口re' 'S = blablablablaAUTHORblablabla'' '结果= re.search'' – Telefonmann