2016-12-16 43 views
0

我试图刮一个博客的评论,并决定它是否是情感和信息。我试图检查一个字符串属于哪个文本文件

我找到了最常用的名词(前10名)。

之后,我做了两个txt文件。

第一个文件包含情感名词。第二个文件包含信息名词。

最后,我想知道博客是否有更多的情感名词或更多的信息性名词。我需要为最后一道工序制定哪些代码?

+0

文件有多大?如果文件很小并且可以很容易地处理,那么只需将这两个文件作为字典导入,然后用计数器在python中写入循环,如果字典中的单词增加计数器。哪个计数器更高,那是什么博客包含更多 –

+0

你能告诉我粗略的代码吗?请致电 – zzzwww

+0

你有**自己尝试过任何事情吗? SO不是免费的编码服务,你知道吗? –

回答

0
# This is the file where you have your top 10 nouns 
fc = open("words.txt") 
list_blog = [] 
for line in fc: 
    list_blog.append(line.strip()) 

f1 = open("file1.txt") # This is your first file of emotional nouns 
d1 = {} 
c = 0 
for line in fc: 
    c+=1 
    d1[line] = str(c) 

f2 = open("file2.txt") # This is your seconf file of informational nouns 
d2 = {} 
c = 0 
for line in fc: 
    c+=1 
    d2[line] = str(c) 

count1 = 0 
count2 = 0 
count3 = 0 

for i in list_blog: 
    if i in d1: 
     count1+=1 
    elif i in d2: 
     count2+=1 
    else: 
     count3+=1 

print(count1,count2,count3) 

有可能是把它写一个更好的办法,但我只是写的很快,所以它不是最高效的代码

相关问题