machine-learning

4热度

1回答

我正尝试使用IDF分数在我非常庞大的文档中找到有趣的短语。我基本上需要像亚马逊的统计不可能的短语，即区分一个文件和所有其他短语我遇到的问题是，我的数据中有一些（3,4） - 有超高IDF实际上包含组件unigrams和bigrams，它们的idf非常低。例如，“你从未尝试过”具有非常高的idf，而每个组件unigrams的idf都很低。我需要来使用一个函数可以获取n-gram及其所有组件（

4热度

1回答

罕见事件检测

有没有对人们用于罕见事件检测的算法有什么好的参考？另外，如何考虑时间因素？如果我有一个连续数据点告诉某事（t_1到t_n）的情况，如何将这个因素归入正常的机器学习场景？任何指针将不胜感激。

0热度

2回答

matlab中的最小二乘svm

哪个ls-svm工具箱可以在matlab中使用？你推荐哪个实现？

9热度

4回答

负载均衡和调度算法

所以这里是我的问题：我有几个不同的配置服务器。我有不同的计算（工作）;我可以预测每个工作大约需要多长时间才能被计算。另外，我有优先权。我的问题是如何保持99-100％的所有机器加载并以最好的方式安排工作。每台机器一次可以进行多次计算。作业被推送到机器上。中央机器知道每台机器的当前负载。另外，我想在这里分配一些机器学习，因为我会知道每个作业的统计数据（开始，完成，CPU负载等）。如何以最佳方式

1热度

4回答

MATLAB中的特征选择方法？

我想在MATLAB中使用SVM进行一些文本分类，并且真的想知道MATLAB是否有任何特征选择方法（Chi Sq。，MI，....），因为我想尝试各种方法并保持最佳方法，我没有时间来实施所有这些。这就是为什么我在MATLAB中寻找这样的方法。有人知道吗？

7热度

1回答

实值输入深信念网络（RBMs）的问题

我想重新创建自动编码olivetti face dataset的Reducing the dimensionality of data with neural networks中报告的结果，并修改了MNIST数字matlab code的版本，但我有一些困难。似乎无论我对时代，速度或动量的数量做了多少调整，叠加的RBM都进入微调阶段，出现大量误差，因此在微调阶段未能大幅提高。我在另一个实数数据集上也

2热度

2回答

用于iPhone的NaïveBayes分类器？

有谁知道是否有包含NaïveBayes分类器的iPhone库？

0热度

3回答

如何为推荐系统培训神经网络？

我已经建立了一个反向传播的ANN作为图书推荐系统。我在网络中只有一个隐藏层，输入层和输出层都是书籍，因为您应该可以输入书籍并获得更多书籍建议。我已经有很多关于用户和他们的评级（1到5）的书的数据。我希望将它带入神经网络（设置所有权重），而不必经历反向传播过程。以某种方式更机械地做到这一点。说每个用户在他们的图书馆中有大约100本已评级的图书，我如何为它们设置权重？用户图书馆中的图书如何与用户

5热度

6回答

从文本中提取语义/文体特征

我想知道哪些可以帮助我从文本中提取语义特征的开放源代码工具（用于java/python）&。语义特征的例子是形容词 - 名词比率，特定的词性标签序列（形容词后面跟着名词：adj | nn）等等。文体特征的例子是独特词语的数量，代词数量等。目前，我只知道Word to Web Tools，它将文本块转换为基本向量空间模型。我知道一些文本挖掘包，比如GATE，NLTK，Rapid Miner， Ma

29热度

3回答

将文档分类为

我已经有大约300k个文档存储在Postgres数据库中，并且标记了主题类别（共有大约150个类别）。我还有另外150k文件还没有分类。我试图找到对它们进行编程分类的最佳方法。我一直在探索NLTK及其朴素贝叶斯分类器。看起来像一个很好的起点（如果你可以提出一个更好的分类算法来完成这项任务，我就会全神贯注）。我的问题是，我没有足够的RAM来一次训练所有150种类/ 300k文档的NaiveBay