我试图将相当大(〜200M文档)documentdb导入到Azure搜索中,但我在〜24小时后发现索引器超时。当索引器重新启动时,它会从头开始重新开始,而不是从开始的位置开始,这意味着我无法在搜索索引中获得超过40M的文档。数据源具有如下高水位标记:将Documentdb导入到Azure搜索时处理索引器超时
var source = new DataSource();
source.Name = DataSourceName;
source.Type = DataSourceType.DocumentDb;
source.Credentials = new DataSourceCredentials(myEnvDef.ConnectionString);
source.Container = new DataContainer(myEnvDef.CollectionName, QueryString);
source.DataChangeDetectionPolicy = new HighWaterMarkChangeDetectionPolicy("_ts");
serviceClient.DataSources.Create(source);
当在小分贝上测试时,高位标记似乎正常工作。
当索引器失败时,是否应该遵守高位标记?如果不是,我该如何索引如此庞大的数据集?
谢谢尤金。以这种方式划分数据的方式并不明显,因此,如果您在此处发现问题,我会密切关注更新。 –
嗨伊恩,对于延迟抱歉 - 我已经看了这个并更新了答案。如果您还有其他问题,请随时通过微软网站eugenesh与我联系。谢谢! –