我想执行的文件(txt文件,.PDF,.JPEG,.IMG等)的二元分类分为两类:可打印和非打印。本质上,我们学校为俱乐部提供免费打印服务,但现实情况是,许多俱乐部滥用免费打印并最终打印他们的作业,论文等,这些打印成本高达数千美元的墨水和纸张。因此,我们希望采取一些无监督的方法,通过确定文件是否具有与俱乐部相关的高概率(例如生物物理论文,没有生物物理学俱乐部!)来帮助限制这一点。查找功能,可打印或不打印
所以这是一个非常简单的二元分类问题。我不是在寻找低层次的实现细节或者我应该使用哪种ML算法,而是我应该如何发现相关的功能,然后才能进行培训等。
我的第一个想法是收集所有学生在图书馆打印的文件。这个想法是,如果你有真正的俱乐部印刷,你会在俱乐部印刷中心免费做,而不是在图书馆付钱。这将是一个庞大的数据集,假设在库上打印的每个文档都被分配了不可打印/俱乐部材料类别。不幸的是,由于隐私问题,学校非常自由并且反对允许这样做,因此如果没有法律风险,这不是一种真正的选择。
类似想法的办法是收集到绑定的课程/学校的工作,例如,文档课程大纲,在线可用课程文件(家庭作业,论文等),并对其进行特征提取/选择。假设是学生会滥用印刷来普遍印刷与其学习相关的材料。
虽然.PDF和.txt基于文档这种方式应该有合理的表现,我在研究如何基于图像文件进行分类,除了可能使用文档和其他元数据的标题损失。一个聪明的违规者可以简单地将他们所有的文本文件转换为图像格式来绕过这个系统。然而,这超出了这个问题的范围,应该保存以备将来的问题/研究。目前范围仅仅是基于文本的文档。
注意,有做类似的题目前面的问题,但我是非常具体的,我认为它可能带来的东西像电影审查分级可能没有面临挑战。