2016-12-06 132 views
0

嗨我想分类数据集使用naivebayesclassifier.For为此我想使用外部数据集,我已经从google.this数据集下载包含两个文件夹的正面评论和负面评论。每个文件夹包含1000个.txt文件。如何在Python代码中将该文件导入为一个训练数据集。我是机器学习的新手,所以我对此没有多少想法。请帮助我。python中的机器学习外部数据集学习

回答

0

您可以使用os.listdir,从(https://docs.python.org/2/library/os.html),例如:

import os 
fileList = os.listdir('train_directory') 
for file in fileList: 
    # add content of file to dataset. 
+0

os.listdir代码为works.thanks想guiding.I读取每一个文本文件,并提取所有积极的话并标记词作为正在结束。下面的代码,但它显示错误,说明0_9.txt这个文件名不存在,但它在文件夹posfilenames = os.listdir(“C:/ Users/Sharmili/Desktop/movie_reviews/pos”) 打印(posfilenames)文件名在posfilenames: f =打开(文件名,'r') reviews = f.read() pos_reviews = reviews.split() pos_reviews.append((create_word_feature(words),“positive”)) print(len(pos_reviews)) –

+0

您能否请我帮助我 –

+0

您需要使用f = open(dir +“/”+ filename) –