approximate

0热度

1回答

我想从语料库中提取类似单词。相似性基于字符串。即，当两个单词串高度相似时，两个单词被提取为相似单词。例如，如果语料库包含：Aras，bahro，arasis，adkpo，bah，aras sd，kio。近义词： 1阿拉，arasis，阿拉SD 2- bahro，呸如何解决这个问题呢？谢谢。

1热度

2回答

如何将结果限制为仅包含那些包含0的数据框行和列？

我正在做R中的近似字符串匹配。我对这种技术并不熟悉，但是因为我想找到x字符串与我的y字符串的部分完全匹配的实例，我只对Levenshtein分数为0感兴趣正确的做法？）。子集结果的最方便的方法是什么？因为我有大约10k列和1k行，我不确定是否有任何方法有效地可视化结果。我对这个问题缺乏机智表示歉意。我只是缺乏经验。

0热度

1回答

名称的近似字符串匹配算法

我正在为以下示例寻找模糊字符串算法：给定现有名称的数据库，如果匹配的准确性高于输入阈值，则将匹配输入匹配到最匹配的名称90％），或以其他方式NA database = [James Bond, Michael Smith] 输入 James L Bond->James Bond JBondL->James Bond Bond,James->James Bond BandJamesk->J

1热度

2回答

近似匹配的位置

我正在研究能够在字符串中进行特定模式的近似匹配的脚本，仅报告这些模式（它们可能会重叠）发起的位置。到目前为止，我获得可以报告的精确匹配的位置的剧本，但没有成功近似的： import re stn = 'KLHLHLHKPLHLHLPHHKLHKLPKPH' pat = 'KLH' matches = re.finditer(r'(?=(%s))' % re.escape(pat), stn

2热度

1回答

MiniTest的assert_in_delta和assert_in_epsilon方法有什么区别？

这里是documentation for assert_in_delta： assert_in_delta(exp, act, delta = 0.001, msg = nil) public 为了比较浮动。除非exp和act在彼此的三角内，否则失败。 assert_in_delta Math::PI, (22.0/7.0), 0.01 这里是documentation for asser

1热度

2回答

近似图案，使用R

我具有如c(1,2,3,4,5)整数的图案，需要在数据来近似匹配作为c(1,10,1,6,3,4,5,1,2,3,4,5,9,10,1,2,3,4,6) 我试图在整数数据和提取的一个序列匹配： pmatch （） all.equal（） grepl（）但他们似乎不支持这种情况。 pattern <- c(1,2,3,4,5) data <- c(1,10,1,6,3,4,5,1,2,3,4,

1热度

1回答

GPU上便宜的近似整数除法

所以，我想在GPU上将一些32位无符号整数除以我不关心如何得到确切的结果。事实上，假设我愿意接受高达2的乘法误差因子，即如果q = x/y，我愿意接受0.5 * q和2 * q之间的任何值。我还没有测量什么，但在我看来，这样的事情（CUDA代码）应该是有用的： __device__ unsigned cheap_approximate_division(unsigned dividend, un

0热度

1回答

用兴趣点近似列表

我希望将此列表近似为6个值，因为您看到这些值是通过一些差异传播的。我绘制在matplotlib中，我得到this。现在我有多个值，我怎么能aprroximate只有6个值 [(61, 148), (61, 149), (61, 150), (62, 147), (62, 148), (62, 149), (62, 150), (63, 147), (63, 148), (63, 149), (63

0热度

2回答

PrestoDB对approx_distinct的支持

我正在评估大型数据（〜100GB）上的分析查询引擎（交互式以及批处理）的分析查询。其中一个要求是低延迟（< = 1秒）的计数不同的查询，其中近似的结果（高达5％的错误）是可以接受的。 PrestoDB似乎支持这与它的approx_distinct（）。据我的理解，它使用HyperLogLog。但是，除非数据以累计形式保存，并且HyperLogLog值必须在运行时进行计算。对于大型数据集，我不认为我

2热度

2回答

寻找一个向量，大致等于一个集合中的所有向量

我有一个300万个向量（每个300个维度），我正在寻找一个新的点在这个300暗淡的空间是近似的从所有其他点（矢量）等距离什么我能做的就是初始化随机向量v，超过v的客观运行的优化：哪里d_xy是向量x之间的距离，向量y，但是这在计算上会非常昂贵。我在寻找一个大约这个问题的解决方案矢量，可以很快找到非常大的矢量集。（或者说会做这样的事情我 - 任何语言的任何库）