2014-10-02 55 views
1

我一直在关于Dspace的一个项目 我一直在使用安然邮件语料库(从CMU源下载)。Dspace Enron搜索工具

我的问题是:

  1. 我想利用600K电子邮件整个集合,然后生成一个仓库使他们的搜索

每封邮件的手动进元是不是一个可行的选择因为它们是数百万人! Dspace中的导入工具可以提供任何帮助吗?或者是否有要编辑的文件?

我需要一些可行和快速的方法:我该怎么做才能给系统提供这么多邮件?

  1. 第二个问题:可以将任何集合中的附加文件编入索引吗?我的意思是我可以搜索文件搜索工具的内容吗?

回答

1

如果要编辑或导入大量数据,可以使用批量元数据编辑。它非常适合导入元数据值,但必须稍后手动添加文件。 有关更多信息,请致电https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFiles

关于第二个问题,有一个索引支持文件名为“Filter-media”的过程。它支持Adobe PDF,HTML,文本,Microsoft Word和Microsoft Powerpoint。你可以编写一个java类来索引其他格式来满足你的需求。 它执行/ bin/dspace filter-media,应该添加为cron。