我得到csv文件,读取这些文件并将它们写入到Cassandra。我这样做是为了获得大量数据(每天大约1000万行)文件本身相当小(从100行到1000行)检查数据是否已经存在很多数据
我想要做的是在将数据写入数据库之前进行检查,如果主数据库我即将插入的键已经存在。
我知道我可以用Select count(*) from table where primary key1 = something and key2 is something else
来完成。
但是这很慢,我想检查一个完整的文件,如果它将影响已经在Cassandra中的数据,并且我想(需要)快速。 有没有办法实现我想要的? (或类似的东西,比如每批检查是否会影响行)
你能张贴你的表架构?具体哪个键是一个分区,哪一个是聚类(如果有的话)? – yurgis