大数据集空间联合查询优化

2018-07-03 17:16:11

我有一个使用案例，其中两组数据与昂贵的空间谓词连接起来。为了并行化查询，我将空间Universe划分为瓦片（数千个数量级），以便只有属于同一瓦片的记录需要使用空间谓词进行测试。查询如下：

SELECT ST_Area(ST_Intersection(A.polygon, B.polygon))
    / ST_Area(ST_Union( A.polygon, B.polygon))  AS a_ratio
FROM spatial_table_a A
JOIN spatial_table_b B ON ST_Intersects(A.polygon, B.polygon)
WHERE A.tilename = B.tilename;

理想情况下，查询计划应根据tilename散列记录，然后使用索引扫描连接或嵌套循环连接执行空间谓词检查ST_Intersects 。

然而，我现在得到的是一个过早执行空间连接的次优计划。计划如下所示：

->  Hash Join  (cost=759468.44..377874772.26 rows=2610 width=18)
         Hash Cond: "outer"."?column4?" = "inner"."?column4?"
             Join Filter: a.polygon && b.polygon AND _st_intersects(a.polygon, b.polygon)
             ->  Seq Scan on spatial_table_b b  (cost=0.00..409556.95 rows=288816 width=1034)
             ->  Hash  (cost=375827.86..375827.86 rows=283522 width=946)
                   ->  Seq Scan on spatial_table_a a  (cost=0.00..375827.86 rows=283522 width=946)

所以，我的问题是：如何强制查询优化器生成一个更好的计划（基本上改变了连接顺序）？

怎么样：

SELECT ST_Area(ST_Intersection(a, b))
    / ST_Area(ST_Union( a, b))  AS a_ratio
FROM
(
 SELECT a.polygon AS a, b.polygon AS b
 FROM  spatial_table_a A
 JOIN spatial_table_b B 
   ON A.tilename = B.tilename
 OFFSET 0
) AS q
WHERE ST_Intersects(a, b);

这应该强制查询计划者首先加入tilename上的两个表，然后检查两个多边形是否相交。这会给你一个不同的查询计划，但我不确定它是否是你正在查找的查询计划。

链接地址: http://www.djcxy.com/p/93935.html

上一篇: Spatial Join Query Optimization on Large Data Set

下一篇: SQLite3 Database Query Optimization