如何从LaTeX文档中提取重要的文本内容

我需要提取纯文本内容来自我在LaTeX中撰写的论文文档中的自动反抄袭检查。我只知道“草稿”选项，这是不够的。如何从LaTeX文档中提取重要的文本内容

我应该忽略：

它也很高兴删除所有的参考。输出应该是一个普通的（UTF-8编码）文本文件。

有没有简单的方法来做到这一点？我真的不喜欢手动逐页复制它。

2011-01-29 odiroot

让我猜测 - 您所在机构的反剽窃软件仅适用于MSWord文档和纯文本文件？ – Spacedman 2011-01-29 14:30:44

好猜Spacedman，但只有纯文本。我想这是合理的，因为自动化不是那么容易。 – odiroot 2011-01-29 15:54:44

您可能会在[TeX SE站点]（http://tex.stackexchange.com）上获得更多答案。 – frabjous 2011-02-01 20:40:48

您可以尝试使用评论软件包（或十几种选择之一）将等式，图形，表格等转换为评论环境和\ renewcommand \ footnote [1] {}以删除脚注。 \ pagestyle {空}应该删除页面标题等，所以对结果运行pdftotext应该接近你想要的。

2011-01-29 14:07:47

是：untex，一个简单的C脚本。你也可以看看detex。

2011-01-29 14:04:31 huitseeker

我试过detex，它确实有帮助，但仍然产生了很多cruft。不管怎么说，还是要谢谢你。 – odiroot 2011-01-29 14:54:53

您可以使用文档转换器，如pandoc，或将输出的PDF转换为类似Calibre之类的纯文本。

2011-02-01 20:42:34 frabjous

通常你需要对文本做了一些乳胶加工，说你有

\ newcommand * {\ SO} {StackOverflow的\ {指数StackOverflow上} \ xspace}

...

我花了很多时间在\ SO，等等等等 ....

这里只是过滤掉文本段落不会给一个信息L当它包含任何宏时，它会收到预期的结果。

因此试图直接从* .tex文件中提取东西通常会留下很多结果。因此，对胶乳加工的产量进行处理通常会更好。我会建议将胶乳转换为HTML，然后从HTML转换为文本。您可能需要一些手动清理，但我认为它应该相对接近。

2011-02-01 22:34:33 hlovdal

尽管已经提到了克雷克斯，但还有另一个项目旨在改进它。它被称为opendetex，给它一看！

2011-02-04 03:03:28

回答