本发明公开了一种基于二维地理位置信息的数据集分片方法,包括:(1)将每条数据的二维的地理位置信息转化为2进制geoHash值;(2)依据geoHash值进行分片,每个分片有公共的geoHash前缀,并在分片的过程中建立或更新片索引;(3)当有新增数据时,在索引中查找与新增数据具有最长公共geoHash前缀的片,然后将数据插入到该片中,若数据插入导致片的大小超过设定值,则按照(2)对片进行分裂.本发明利用将二维地理位置信息转化为geoHash值后进行数据分片,能尽量的保证地理位置上相邻的数据被分在相同的片上,对基于地理位置的分布式应用有很好的优化作用.
发明专利
CN201410403157.9
2014.08.15
CN104199860A
2014-12-10
吴朝晖 刘娜 陈华钧 郑国轴
浙江大学
G06F17/30(2006.01)I,G,G06,G06F,G06F17
G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/30
一种基于二维地理位置信息的数据集分片方法,所述的数据集中每条数据均含有关于经度和纬度的二维地理位置信息,所述的数据集分片方法包括如下步骤:(1)将数据集中每条数据的二维地理位置信息转换为二进制的GeoHash值;(2)根据所述的GeoHash值对数据集进行分片且每个片中的数据具有公共的GeoHash前缀,并在分片过程中建立并更新片的索引树;(3)当数据集有新增数据时,从所述的索引树中查找出与该新增数据具有最长公共GeoHash前缀的片,并将该新增数据插入该片中;若插入新增数据后,该片的大小超过预设的上限值,则对该片进行分裂并更新索引树.