approximate

    0热度

    1回答

    我想从语料库中提取类似单词。相似性基于字符串。即,当两个单词串高度相似时,两个单词被提取为相似单词。例如,如果语料库包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。 近义词: 1阿拉,arasis,阿拉SD 2- bahro,呸 如何解决这个问题呢? 谢谢。

    1热度

    2回答

    我正在做R中的近似字符串匹配。我对这种技术并不熟悉,但是因为我想找到x字符串与我的y字符串的部分完全匹配的实例,我只对Levenshtein分数为0感兴趣正确的做法?)。 子集结果的最方便的方法是什么?因为我有大约10k列和1k行,我不确定是否有任何方法有效地可视化结果。我对这个问题缺乏机智表示歉意。我只是缺乏经验。

    0热度

    1回答

    我正在为以下示例寻找模糊字符串算法:给定现有名称的数据库,如果匹配的准确性高于输入阈值,则将匹配输入匹配到最匹配的名称90%),或以其他方式NA database = [James Bond, Michael Smith] 输入 James L Bond->James Bond JBondL->James Bond Bond,James->James Bond BandJamesk->J

    1热度

    2回答

    我正在研究能够在字符串中进行特定模式的近似匹配的脚本,仅报告这些模式(它们可能会重叠)发起的位置。 到目前为止,我获得可以报告的精确匹配的位置的剧本,但没有成功近似的: import re stn = 'KLHLHLHKPLHLHLPHHKLHKLPKPH' pat = 'KLH' matches = re.finditer(r'(?=(%s))' % re.escape(pat), stn

    2热度

    1回答

    这里是documentation for assert_in_delta: assert_in_delta(exp, act, delta = 0.001, msg = nil) public 为了比较浮动。除非exp和act在彼此的三角内,否则失败。 assert_in_delta Math::PI, (22.0/7.0), 0.01 这里是documentation for asser

    1热度

    2回答

    我具有如c(1,2,3,4,5)整数的图案,需要在数据来近似匹配作为c(1,10,1,6,3,4,5,1,2,3,4,5,9,10,1,2,3,4,6) 我试图在整数数据和提取的一个序列匹配: pmatch () all.equal() grepl() 但他们似乎不支持这种情况。 pattern <- c(1,2,3,4,5) data <- c(1,10,1,6,3,4,5,1,2,3,4,

    1热度

    1回答

    所以,我想在GPU上将一些32位无符号整数除以我不关心如何得到确切的结果。事实上,假设我愿意接受高达2的乘法误差因子,即如果q = x/y,我愿意接受0.5 * q和2 * q之间的任何值。 我还没有测量什么,但在我看来,这样的事情(CUDA代码)应该是有用的: __device__ unsigned cheap_approximate_division(unsigned dividend, un

    0热度

    1回答

    我希望将此列表近似为6个值,因为您看到这些值是通过一些差异传播的。我绘制在matplotlib中,我得到this。现在我有多个值,我怎么能aprroximate只有6个值 [(61, 148), (61, 149), (61, 150), (62, 147), (62, 148), (62, 149), (62, 150), (63, 147), (63, 148), (63, 149), (63

    0热度

    2回答

    我正在评估大型数据(〜100GB)上的分析查询引擎(交互式以及批处理)的分析查询。其中一个要求是低延迟(< = 1秒)的计数不同的查询,其中近似的结果(高达5%的错误)是可以接受的。 PrestoDB似乎支持这与它的approx_distinct()。据我的理解,它使用HyperLogLog。但是,除非数据以累计形式保存,并且HyperLogLog值必须在运行时进行计算。对于大型数据集,我不认为我

    2热度

    2回答

    我有一个300万个向量(每个300个维度),我正在寻找一个新的点在这个300暗淡的空间是近似的从所有其他点(矢量)等距离 什么我能做的就是初始化随机向量v,超过v的客观运行的优化: 哪里d_xy是向量x之间的距离,向量y,但是这在计算上会非常昂贵。 我在寻找一个大约这个问题的解决方案矢量,可以很快找到非常大的矢量集。 (或者说会做这样的事情我 - 任何语言的任何库)