我有一组书籍的对象,班组长书定义如下:Java的文本分类问题
Class Book{
String title;
ArrayList<tags> taglist;
}
凡冠军是书的标题,例如:的Javascript傻瓜。
和标记列表是我们的示例的标签列表:的Javascript,jQuery的,“网站开发”,...
正如我说的是有一个帐套谈论不同的事情:IT,生物,历史,... 每本书都有一个标题和描述它的一套标签..
我不得不automaticaly那些书分为分割出的主题,例如:
IT书籍:
- 的Java傻瓜
- 的Javascript傻瓜
- 学习Flash 30天
- C++编程
史书:
- 世界大战
- 美国在1960年 本
- 马丁·路德·金的生活
生物学书籍:
- ....
难道你们知道的分类算法/方法申请那样的问题?
一种解决方案是使用外部API定义文本的范畴,但这里的问题是,书是不同的语言:法语,西班牙语,英语..
是的,但有是书籍之间的一些共同标签:( – Youssef 2010-05-12 19:03:43
相关问题:http://stackoverflow.com/questions/2781752/naive-bayesian-for-topic-detection-using-bag-of-words-approach/2783356#2783356 – dmcer 2010-05-12 19:26:41
不错谢谢你(y) – Youssef 2010-05-12 21:22:47