0

我想执行的文件(txt文件,.PDF,.JPEG,.IMG等)的二元分类分为两类:可打印和非打印。本质上,我们学校为俱乐部提供免费打印服务,但现实情况是,许多俱乐部滥用免费打印并最终打印他们的作业,论文等,这些打印成本高达数千美元的墨水和纸张。因此,我们希望采取一些无监督的方法,通过确定文件是否具有与俱乐部相关的高概率(例如生物物理论文,没有生物物理学俱乐部!)来帮助限制这一点。查找功能,可打印或不打印

所以这是一个非常简单的二元分类问题。我不是在寻找低层次的实现细节或者我应该使用哪种ML算法,而是我应该如何发现相关的功能,然后才能进行培训等。

我的第一个想法是收集所有学生在图书馆打印的文件。这个想法是,如果你有真正的俱乐部印刷,你会在俱乐部印刷中心免费做,而不是在图书馆付钱。这将是一个庞大的数据集,假设在库上打印的每个文档都被分配了不可打印/俱乐部材料类别。不幸的是,由于隐私问题,学校非常自由并且反对允许这样做,因此如果没有法律风险,这不是一种真正的选择。

类似想法的办法是收集到绑定的课程/学校的工作,例如,文档课程大纲,在线可用课程文件(家庭作业,论文等),并对其进行特征提取/选择。假设是学生会滥用印刷来普遍印刷与其学习相关的材料。

虽然.PDF和.txt基于文档这种方式应该有合理的表现,我在研究如何基于图像文件进行分类,除了可能使用文档和其他元数据的标题损失。一个聪明的违规者可以简单地将他们所有的文本文件转换为图像格式来绕过这个系统。然而,这超出了这个问题的范围,应该保存以备将来的问题/研究。目前范围仅仅是基于文本的文档。

注意,有做类似的题目前面的问题,但我是非常具体的,我认为它可能带来的东西像电影审查分级可能没有面临挑战。

回答

0

我只想留下评论,但它结束的方式比我想象的要长。

虽然这是一个有趣的问题,但我不确定ML会为您提供您所需的容易。

首先你的分类问题是类型A vs the WorldA没有严格的界定。除非你确切地知道俱乐部打印什么样的东西,否则你不能真正地说新材料属于该类别或不属于该类别。

当你需要组装足够大的训练集以覆盖任何可以或不能打印的东西时,这将证明特别困难。这样的任务将是非常乏味的,正如你所说的,你不可能获得俱乐部通常打印的东西,所以充其量,你的训练集中会出现很大的班级失衡。

因为我们的目标是让系统自动化(无论如何,如果存在人际交互,检查将要打印的内容比制作ML算法更快,以提供人类无论如何都必须进行调查的分数)假阳性和假阴性的数量也会有问题。有些俱乐部将无法打印他们有权使用的东西。

正如你所说,通过分类​​和Not Course Material可以大大简化问题。为此,我将着眼于BoW,因为在论文或课程材料中某些词语比其他词语更为现实(远程技术上的一切)。单词的数量以及文件的整体大小看起来似乎是明智的事情。结构通常也是特别的:提取这样的东西可能是一个好主意:“少于x个单词的行数”,“每页行数”,“图片数量”(如果这是你可以从中提取的东西文件),...

对于图片要检查的主要事情是,如果这是一个扫描的东西(通常他们会扫描和打印课程相关的东西我猜),因为该图像的格式已经是很好的指示,但我没有看到其他特别“与课程相关”的东西。所以对于我来说,如果你不能准确地定义你的两个类中的一个,不要去分类或将问题减少到你可以真正定义的东西(课程相关的东西)。

0

如果您能够编辑学生不被允许打印的“黑名单”文档,则可以实施多层拒绝机制。

我建议这3个层次:

  1. 比较他们想与黑名单上的文件的所有MD5的数据库来打印文件的MD5。
  2. 如果1)通过,比较重复1)但在页面级别,而不是在文档级别(也许他们只想打印几页而不是整个文档)。
  3. 如果2)通过,您可以使用图像相似性方法(如SSIM)将他们想要打印的页面与黑名单文档文档的页面进行比较。如果您在他们想要打印的页面和其中一个黑名单项目之间打印得分较高,并相应地更新您的md5数据库。
  4. 如果3)通过:print!

约SSIM的几句话:这种方法是相当稳健的噪音,所以即使谁补充某种niose到图像智能学生将被抓到 但是:

  • 你必须找到从页面和文档数据库中提取感兴趣区域(ROI)的正确方法(如果两个ROI位于页面的两个不同区域,SSIM将为负)
  • SSIM可能会很慢!这里需要一个C实现。
  • 我认为SSIM不是旋转不变的,因此如果他们颠倒打印页面(除非你有一个聪明的方法来旋转页面),检查将失败。