2016-08-24 59 views
0

在此先感谢您的帮助。简而言之,我被要求帮助我的组织每5年重复一次认证流程。我们需要编译的文档大约有50页(总共150个左右的问题),所以我们希望尽可能重复我们在上一轮中制作的内容。文件相似度的网络模型

问题:在这最后一轮的改变问题的顺序和措辞,但不完全(例如,“请描述你的组织的承诺,多样性”与“什么样的政策到位,以保证组织的多样性? “)。因此,我们需要一种方法来找出旧轮图上哪些问题到新一轮,或者至少大部分(他们不需要是完美匹配,只是相似)。

我的想法是建立一个双边网络,旧的问题和新的问题作为网络的顶点集。在他们的问题或答案中,边缘将通过一些词重叠度量来加权。

有谁知道如何开始解决这个问题?

再一次,谢谢你,你提供的任何帮助可能会节省数小时的时间。

PS - 我完全接受替代解决方案。如果有帮助,下面是关于如何对问题进行建模的初步想法。

an example solution

回答

1

首先想到的是:对于50页的工作,您可以通过只用人工来节省更多的时间。但是,如果你的团队中有一位优秀的数据科学家,那么你可以试试gensim。比较两种不同短语的最新技术是词嵌入。您可以将其视为通过对数百万个文档进行培训将单词转换为高维矢量(从200到1000维)。

例如,如果你的字符串是“人机交互”,你会寻找类似的东西。

[(2, 0.99844527), # The EPS user interface management system 
(0, 0.99809301), # Human machine interface for lab abc computer applications 
(3, 0.9865886), # System and human system engineering testing of EPS 
(1, 0.93748635), # A survey of user opinion of computer system response time 
(4, 0.90755945), # Relation of user perceived response time to error measurement 
(8, 0.050041795), # Graph minors A survey 
(7, -0.098794639), # Graph minors IV Widths of trees and well quasi ordering 
(6, -0.1063926), # The intersection graph of paths in trees 
(5, -0.12416792)] # The generation of random binary unordered trees 

来自:https://radimrehurek.com/gensim/tut3.html