knn

    0热度

    1回答

    。 如果我将训练集分成n个部分,那么对每个部分运行knn算法(k = 1)。之后,我比较每个部分的结果。它会给我一样的结果,就像我在整个训练集中运行1-nn一样吗? 例如: N = 4分频训练上4份训练集的集成4份 运行1-NN算法后,我已经从第2部分从第3部分得到的A点从第1部分,B点,C和D部分。然后,我可以比较从T到A,B,C和D的距离,以确定T属于哪个类别?

    2热度

    3回答

    我有一个np数组,X的大小为1000 x 1000,其中每个元素都是实数。我想查找np数组每行中每个点的5个最近点。这里距离度量可以是abs(x-y)。我试图做 for i in range(X.shape[0]): knn = NearestNeighbors(n_neighbors=5) knn.fit(X[i]) for j in range(X.shape[1

    2热度

    1回答

    我试图实现我自己的kNN分类器。我已经成功地实现了某些东西,但它是慢得令人难以置信...... def euclidean_distance(X_train, X_test): """ Create list of all euclidean distances between the given feature vector and all other featur

    0热度

    1回答

    作为一项任务,我必须创建自己的kNN分类器,而不使用for循环。我设法使用scipy.spatial.KDTree找到测试集中每个向量的最近邻居,然后使用scipy.stats.mode返回预测类的列表。然而,当这个集合的大小非常大时,这需要很长的时间。例如,我创建了下面的示例this page import numpy as np from sklearn.model_selection im

    0热度

    1回答

    我想使用 KNeighborsClassifier(N_NEIGHBORS = 15,算法= 'ball_tree',度量= '关系') 但是,我得到的错误 ValueError异常:公制“相关”不是有效的算法“ball_tree” 为什么不能使用ball_tree?我仅限于使用暴力?我有一个巨大的矩阵,并希望避免暴力。但是,我不能传入计算两个向量之间的皮尔森相关性的自定义度量标准,因为三角不等式

    0热度

    1回答

    我正在执行一些数据的knn分析。我有两个分类(超过2个因素)和连续数据。我找到了一个解决这种情况的软件包(knncat),但很少有文档解释它是如何工作的。 我希望使用交叉验证(我相信可以通过简单地提供没有培训数据来完成),我遇到了一个问题。我不知道这个软件包是如何对数据进行标准化的。我不知道在使用它之前是否应该对数字数据进行标准化,或者我应该保持原样。 有谁知道knncat如何处理这个问题?或者是

    0热度

    1回答

    其实我试图从系统1发送训练数据到系统2,以便我可以在系统2中进行KNN分类。但是我发现难以发送训练数据非常大。有没有办法通过套接字将庞大的数据从一个系统发送到另一个系统。 系统1个 import sys import time import pickle from sklearn.datasets import load_files from sklearn.neighbors impor

    0热度

    1回答

    以下是错误: Exception in thread "main" java.lang.NoSuchMethodError: breeze.linalg.Vector$.scalarOf()Lbreeze/linalg/support/ScalarOf; at org.apache.spark.ml.knn.Leaf$$anonfun$4.apply(MetricTree.scala:95)

    -1热度

    1回答

    晚安!我试图通过K-nn来实现分类,而不使用任何工具箱,但现在我很难用Matlab来进行分类,所以我不知道该怎么做。我试图对加利福尼亚大学机器学习资源库中的数据集助教评估进行分类。现在,我设法划分了我的训练集,标签集和测试集,并将它们与工具箱分类,但没有它,我完全失去了知识。 你能帮我一下如何开始的想法吗?我一直在寻找一个模板或一个基本代码,但是他们都不能理解我。提前,谢谢!

    0热度

    1回答

    我有一些虚拟数据由99行数据组成,一列是 自由文本数据,一列是cateogry。它已被分类为客户服务或未与客户服务相关。 我将99行数据传递到我的R脚本中,创建了一个语料库,清理并解析了我的数据并将其转换为DocumentTermMatrix。然后我将DTM转换为数据框以便于查看。我将该类别绑定到我的新数据框。然后我将它分为50/50,这样我的训练集中就有50排,我的测试集中有49排。我也拉出了类