2015-10-16 137 views
-2

希望这是正确的地方问这个!模式匹配,多个数据集匹配百分比

我没有开发经验,但我正在寻找人来创建一个web应用程序,可以做什么,据我所知,被称为“模式匹配”。

例如,基本上我想比较两个数据集来计算“重叠”的百分比。

集一:

  1. 一个
  2. 一个

组两个:

  1. 一个
  2. B

但是我想通过很多很多的实例/比较(可能有几十万)来做到这一点。有没有人有任何想法来实现这样的技术和语言等是必要的,以及我可以问什么问题以确保我正在采访的人能够实施它?

感谢您的任何建议!

+0

我很困惑你的问题描述。一个集合包含不同的值,但是你的两个例子都有重复的'A'和'B'。你对他们有什么期望? –

+2

请不要在多个网站..... [DBA](http://dba.stackexchange.com/q/118301/72091)和[DataScience](http://datascience.stackexchange。 com/q/8470) – Erik

+2

我投票结束这个问题作为题外话题,因为它是关于筛选招聘的候选人。 –

回答

0

你用错词了一切......

  • 你的“套”实际上是名单
  • 要计算的相似性,但不比赛他们
  • 有没有在你的问题“模式”的概念

你在找什么是相似度为的列表,但一个非常基本的形式,你只需要,就没有工具或问题可以帮助你,因为它只是计算。人们不写计算的教程。