1

我有一个TCG卡的数据库,我试图决定一个主键。最初,我用代理键解决了这个问题,但是我意识到,有时候,有些卡片是我忘记添加的,例如促销卡片。这是代理键问题,因为它们以最新的自动增量添加到数据库中,并且我不希望它们的ID依赖于它们插入的顺序。我在想也许我可以对一些卡的功能进行散列,并将其用作主键而不是?crc32作为主键的自然键

就拿下面的伪代码:

// set code, date released, collector number, name 
$crc = crc32(implode(',', ['A', '1993-08-03', '232a', 'black lotus'])); 
echo $crc; // 4199975187 

的卡的数量可能只徘徊25K左右,现在和成长每6个月左右100-300。

  1. 以这样的速度,不会有碰撞的权利?
  2. 这是一个很好的做法吗?我有其他好的选择吗?

我知道我可以做的哈希通过将其转换为base 62短,但我将加入到这些用户的库存表所以我想保持这些在int将是最好的选择。

+0

一般来说,“智能钥匙”(例如从连接列产生的钥匙)是一个_bad_想法。你能解释一下为什么'代理钥匙'不能解决你的问题吗?密钥只是一个唯一的数字,如果密钥的值也恰好对应于插入的顺序,它又有什么关系? – hashbrown 2015-03-25 04:06:40

+0

查看应用程序的用户将看到“ID”。最有可能在$ _GET参数中。我不希望他们根据他们的ID猜测卡片插入数据库的顺序。 – voldomazta 2015-03-25 04:11:53

+0

为什么插入顺序对最终用户有影响?这不像你揭露表名或实际秘密。大多数Web应用程序都使用密钥的身份。很大比例在某处公开这些密钥。没什么大不了的。 – Tim 2015-03-25 04:32:18

回答

2

我不同意这样的:

这是与代理键的问题,因为它们被添加到了最新的自动递增的数据库,我不希望自己的ID取决于它们的顺序插入。

ID(正确:“Id”,因为它是一个缩写,而不是初始化)是“Identity”的简称,它具有对每个元素唯一的唯一属性,也就是说,它用于识别每个元素。您不应该附加任何其他含义,因此它随插入顺序单调增加的事实是不相关的,并且通过生成的标识列对数据进行排序没有意义(除非它位于用于查找ID的索引内)。在这种情况下,您应该将Ids视为不透明的手柄。

当然,如果你使用摘要(比如CRC-32),Ids的排序顺序是没有意义的,但实际上比单调递增的Id表现得更少。

您正确识别了散列冲突的风险,CRC-32的范围空间仅为32位,如果您拥有25,000个卡片,则生日问题会告诉我们在如此小的范围内散列冲突的几率空间不是微不足道的。

只需使用自动生成的Id值。 :)

使用计算的散列作为标识符/键具有实用性 - 这就是散列表的工作方式,因为它允许您快速查找某个值,而无需实际搜索所有表(例如查找黑莲花牌,像你一样对其属性进行哈希处理,然后在ID列中查找计算出的哈希值,而不必执行SELECT ... WHERE code = 'A' AND ... AND name = 'black lotus',但它确实需要您先知道每个属性值,并且如果设置了正确的表索引这很快就变得没有意义了。

与使用散列作为主键的主要问题是:

  1. 主键应该是不可变的(“永不更改”)
  2. 现在关键取决于数据
  3. 如果数据发生变化(例如“blcak lotus”变成“Black Lotus”),那么这个密钥是无效的并且必须被重新创建,但是你不能这么做,因为密钥是不可变的......将以前计算的Id无效。

QED :)

+0

很棒的回答。会补充说,良好的主键对于正确的索引非常重要,整数在创建索引时效率更高。 – Tim 2015-03-25 04:46:11

+0

@Tim效率增益今天是微不足道的 - 例如,索引4字节整数值的列的成本与4字节的字符值大致相同 - 甚至可以查看“nvarchar(255)”值 - 非常快速地在一个指数中。即使你微调了它(在大多数数据库应用程序中发生的其他所有事情都是不切实际的情况),但我怀疑你对20个字符左右的字符串会有什么不同。 – Dai 2017-06-28 23:53:22

+0

这在企业级是错误的。有序且均匀分布的密钥的重要性在于,当数据量显着时,以及具有显着的查询流量时,数据库性能日夜不同。如果每秒钟有几百行和几个查询,则任何密钥都可以执行。每秒钟将成千上万个查询扩展到数百万行,并且您的数据库将使用设计不佳的密钥进行融合。 – Tim 2017-06-29 00:28:16

-1

研究此链接: - http://preshing.com/20110504/hash-collision-probabilities/

你会看到,任何 32位散列和25K加重视碰撞近1比10的赔率 - 不管哈希算法有多好。

您需要一种处理冲突或切换到64位散列算法的机制。根据这个 crc collisions at various bit sizes,CRC64似乎是足够好的,有1820万个没有碰撞的样本。

+0

虽然您的哈希注释已被发现,但使用主键的天数哈希值是一个非常糟糕的主意。 – Tim 2015-03-25 04:29:04

+0

@蒂姆 - 表面上你是对的。但我怀疑OP可能有一个有效的散列理由(从他的问题中不明显),无论如何,我想确保这个线程的任何不经意的读者都不会忘记CRC32是一种很好的方法来派生独特的钥匙。 – 2015-03-25 04:43:39