2012-06-15 22 views
-4

我试图从组购买网站来建立一个数据提取算法来构建一个交易的agregator。首先,我需要一个能够提取标题,价格,折扣,图像,坐标的算法。Naive bayes python-php-javascript-node

我有解决方案的图像,折扣和坐标,但标题和类别识别我需要创建一个朴素贝叶斯算法。什么是最好的语言来做到这一点:PHP?蟒蛇? JS? Node.js的?

我需要什么来创建算法?

带有示例的模型? 等我给100个标题,然后给所有的网站内容从一些网站和脚本可以识别什么是句子是一个标题?

所以我不需要一个字。我需要一个句子,这句话有时候是<h1> - <h2>,还有其他的。

回答

0

我认真听不懂多少您的文章,但由于朴素贝叶斯东西在这里非常普遍要求对SO,我创建了一个简单的代码可以在不Python中的任何附加库(类似NLTK)使用(并也比NLTK训练快)。你可以找到它here

+0

我upade我的问题.. –

相关问题