1

我有一个关于文本处理任务,我不知道如何从不同的表中某些列合并成一个表将两个id结合到一个新表中?

因此,这里的情况: 我有一个名为listid_doc表,title列 然后我创建一个名为term_list的新表,其中包含结果字词列表,当我对list标题进行文本处理时。

term_list表具有id_term,term,dfidf列。最后,我想有一台名为term_freq具有tfidid_termid_doc,和normalized_tf

例如: 表list是这样的:

id_doc    titles 
    11  information retrieval system 
    12   operating system 
    13   business information 

term_list是下面这个样子:

id_term  term   df idf 
    21  information  2  -- 
    22  retrieval  1  -- 
    23  system  2  -- 
    24  operating  1  -- 
    25  business  1  -- 

我想问一下如何创建一个表term_freq这样表becom像这样?

id id_term  id_doc tf  normalized_tf 
31  21   11  1   -- 
32  22   11  1   -- 
33  23   11  1   -- 
34  24   12  1   -- 
35  23   12  1   -- 
36  25   13  1   -- 
37  21   13  1   -- 

主要的问题是我必须参加id_termid_doc到一个表一个id_doc有关系的几个id_term,但我不知道如何关联,因为listterm_list没有任何类似的列。

请帮助:(

回答

0

可以在term_list遍历行:

SELECT id_term, term FROM term_list 

每个term化妆:

SELECT id_doc FROM list WHERE titles LIKE "term" 

,并保存在对表term_freqid_termid_doc