2011-11-18 64 views
2

我需要训练一个神经网络以将某些文本文档分类为布尔类(NN具有一个输出为“是”或“否”值)。
是否有任何算法来查找最佳输入参数(例如词的存在,词语,句子和/或频率/重复词& ...)?
如果不是,你可以给我一个起点来找到这些参数(我应该如何选择它们)?查找用于分类文本文档的神经网络输入参数

感谢

+1

理想情况下,以上所有!如果你可以给神经网络的单词,术语,单词n-gram,字母n-gram等,那么你可以给它更多的输入来做出决定。给出NN句子或任何大于词汇的词汇可能没有意义。然而,你拥有的输入越多,算法运行得越慢,所以你必须调整它,直到你得到满意的结果。尽管你可以建立另一个AI算法来为神经网络提供不同的输入,但是你最终也会遇到与AI算法相同的问题。 – Kiril

+0

@李瑞克:我不是说给NN一个句子。我的意思是给布尔输入,显示是否存在术语,...和/或一个单词的重复次数,...并且我没有考虑超过10-15个输入 – RYN

+1

我的答案不会改变很多......没有一种算法可以为你优化(除非你建立另一个AI算法来完成它),所以你应该尝试用所有可能提高精度的东西来调整NN。这是一个乏味的过程,我不知道解决它的方法。 – Kiril

回答

1

我知道的标准方法是使用的字/项的载体,并将其分配使用的学习或统计算法阴性或阳性得分。即使感知器学习应该足够了,你只需要一组好的和消极的例子。

我知道所有垃圾邮件过滤器的工作方式。他们工作得很好。