我试图读取一个文本文件并使用textmining包创建术语文档矩阵。我可以创建术语文档矩阵,我需要逐行添加每行。问题是我想一次包含整个文件。以下代码中缺少什么?提前感谢您的任何建议?从文本文件创建术语文档矩阵
import textmining
def term_document_matrix_roy_1():
'''-----------------------------------------'''
with open("data_set.txt") as f:
reading_file_line = f.readlines() #entire content, return list
print reading_file_line #list
reading_file_info = [item.rstrip('\n') for item in reading_file_line]
print reading_file_info
print reading_file_info [1] #list-1
print reading_file_info [2] #list-2
'''-----------------------------------------'''
tdm = textmining.TermDocumentMatrix()
#tdm.add_doc(reading_file_info) #Giving error because of readlines
tdm.add_doc(reading_file_info[0])
tdm.add_doc(reading_file_info[1])
tdm.add_doc(reading_file_info[2])
for row in tdm.rows(cutoff=1):
print row
示例文本文件:“data_set.txt”包含以下信息:
让我们写一些Python代码
到目前为止,这本书主要探讨特设检索的过程。
一路上我们将学习一些重要的机器学习技巧。
输出将成为术语文档矩阵,基本上出现一个特定单词的次数。 输出图像:http://postimg.org/image/eidddlkld/
你没有真正问过一个问题。你得到的输出是什么?你在期待什么?什么不行?什么是错误信息? – 2013-05-10 11:42:08
正如我在问题中提到的那样,我从文本文件中逐行添加一个数组,但是如何添加整个文件内容。所以它从文本文件中逐行读取并显示术语文档矩阵?谢谢 – J4cK 2013-05-10 12:34:37
@Burhan Khalid问题现在已更新为图像。 – J4cK 2013-05-10 20:06:33