supervised-learning

    -1热度

    1回答

    我有大约数千名存放在8个不同的文件夹TXT文本文件被标记为主题类别(实际上,他们是1,2,3类...)。我还有另外80个尚未分类的txt文档。我试图找到将它们分类的最佳方法。 我已经完成了文本分割并删除了英文字母(因为他们是中国人文本)。什么我要做什么? 我可以得到具有最高TF-IDF值的单词,但不知道下一步该怎么做。似乎我应该将这些文本转换为矢量并训练一个分类器,但我不知道如何。

    0热度

    2回答

    我正在研究和阅读一些使用SOM算法的论文。我不明白人们将他们的数据集分解为SOM的训练/测试集的逻辑。我的意思是,例如,当使用C4.5决策树时,经过训练的结构包括一些新的数据集(测试)来分类数据时应用的规则。但是,系统通过SOM进行培训后会生成什么样的规则或类似的规则?如果我将100%的数据应用于SOM系统,而不是30%先进行培训,然后再使用70%进行测试,那将会有什么不同呢?提前感谢您的回答。

    1热度

    1回答

    我目前正在运行将某些文档分类为某些预定义类集的任务。为此,我依赖Multinomial朴素贝叶斯,它适用于大多数类别,如棒球,运动或太空。 但是,如何找出某些人的电影或传记等类别的文章? MNB主要运用一揽子文字行话的方式。这就是为什么很容易检测到棒球文章,因为它们将包含大量的棒球术语。但是,电影或传记文章包含非常少的行话。电影文件只会描述电影,或对其进行审查,并仅针对该电影特定的文字。因此,关于

    6热度

    2回答

    我想计算我的分类器的AUC,精度和准确度。 我正在监督学习: 这是我的工作代码。 此代码适用于二进制类,但不适用于多类。 请假设你有一个二进制类一个数据帧: sample_features_dataframe = self._get_sample_features_dataframe() labeled_sample_features_dataframe = retrieve_labeled_s

    2热度

    1回答

    我很想找到一个数据集,如“英语相关性判断文件列表”: http://trec.nist.gov/data/qrels_eng 此数据集包含一个标记,对查询和文件。 然而,它依赖于非自由文集,名为“数据 - 英文文档”: http://trec.nist.gov/data/docs_eng.html 你知道任何免费的数据集(S)类似的这一个? 旁注:该数据集将用于建立基于神经网络的信息检索系统的研究

    0热度

    1回答

    训练R中隐马尔可夫模型是否可能? 我有一组观察及其相应的标签。我需要训练HMM以获得马尔可夫参数(即转换概率矩阵,发射概率矩阵和初始分布)。所以,我可以预测未来的观察结果。 换句话说,我需要与Forward_Backward算法相反。

    -1热度

    1回答

    我正在为我的项目使用Standford Classifier。 这个项目需要训练数据来调整算法,然后测试数据以将文本输入分类为类别。 所以测试和训练数据的格式是制表符分隔的文本,这意味着预测器-TAB- input text 该软件打印输出到stdout(命令行)。 无论如何输出到一个文本文件? 我搜查了javadoc的项目网站,我发现this one http://image.prntscr.c

    0热度

    1回答

    基本上我试图自动化评分建模工作流程,并遇到输入从循环产生的结果从smbinning()的问题,因此记录在名单。结果本身就是一个列表,所以我列出了一堆列表。当我尝试将结果(连续变量的存储区)添加到数据框中时出现问题。我发现无法提供进入列表级别所需的语法。我尝试通过引用列号来解决此问题,并试图从循环中传递相应的列表名称。我得到的错误是: [.data.frame(df,,col_id)中的错误:选择了

    0热度

    1回答

    我喜与神经网络,现在玩。我做了那种本教程的重新实现的: http://www.ai-junkie.com/ann/evolved/nnt5.html,但随着鱼类和食品也有不同的编程语言。但重点是一样的。 我有一堆鱼(20)和一堆foos(40)。每条鱼都有大脑(神经网络(我将从现在开始使用ANN))。目前,神经网络不使用backprop,并通过遗传alghoritm进行训练。它工作正常。我想通过使

    -1热度

    1回答

    我确定在这里有人经历过类似这样的事情......我有一个包含4个类的数据集,其中一个是3%的表示,我认为它是代表不足,所以我做了一些重采样方法,但你猜怎么了?它的分类精度没有改变,除了在没有重采样方法的情况下,分类精度最多只有1或2%! 因此,我想知道数据中3%的班级代表是否可以被视为代表性不足?