GIS足迹

用地图装点生活的每个角落。MSN:gisfoot@hotmail.com。QQ交流群:42019368。

« C++学习笔记:C++类和动态内存分配中关于复制构造函数和赋值操作符打造最快的Hash表(和Blizzard的对话) »
2008-5-5 11:39:17 | 发布:gisfoot | 分类:二次开发 | 评论:0 | 引用:0 | 浏览:

哈希表心得

最近我在做一个项目,其中要用到一个数据结构——Hash Table(哈希表),以前只有理论知识,现在实却发现很不简单,所以写下来和大家共分享。

我们知道,哈希表是一个固定大小的数组,数组的每个元素是一个链表(单向或双向)的头指针。如果Key一样,则在一起,如果Key不一样,则不在一起。哈希表的查询是飞快的。因为它不需要从头搜索,它利用Key的“哈希算法”直接定位,查找非常快,各种数据库中的数据结构基本都是它。但带来的问题是,哈希表的尺寸、哈希算法。

哈希表的数组是定长的,如果太大,则浪费,如果太小,体现不出效率。合适的数组大小是哈希表的性能的关键。哈希表的尺寸最好是一个质数,最小的质数尺寸是17。

当然,根据不同的数据量,会有不同的哈希表的大小。对于数据量很时多时少的应用,最好的设计是使用动态可变尺寸的哈希表,那么如果你发现哈希表尺寸太小了,比如其中的元素是哈希表尺寸的2倍时,我们就需要扩大哈希表尺寸,一般是扩大一倍。下面的数库是哈希表变化尺寸时尺寸大小的一个列表。

static int prime_array[] = {
    17,             /* 0 */
    37,             /* 1 */
    79,             /* 2 */
    163,            /* 3 */
    331,            /* 4 */
    673,            /* 5 */
    1361,           /* 6 */
    2729,           /* 7 */
    5471,           /* 8 */
    10949,          /* 9 */
    21911,          /* 10 */
    43853,          /* 11 */
    87719,          /* 12 */
    175447,         /* 13 */
    350899,         /* 14 */
    701819,         /* 15 */
    1403641,        /* 16 */
    2807303,        /* 17 */
    5614657,        /* 18 */
    11229331,       /* 19 */
    22458671,       /* 20 */
    44917381,       /* 21 */
    89834777,       /* 22 */
    179669557,      /* 23 */
    359339171,      /* 24 */
    718678369,      /* 25 */
    1437356741,     /* 26 */
    2147483647      /* 27 (largest signed int prime) */
};               

#define PRIME_ARRAY_SIZE  (28)
 


要使用哈希表,就一定要用一个哈希算法,来确定KEY值,这似乎是个很难的事,下面是一个哈希算法:

typedef struct _hTab{
    hLinks* link;    /* 一个链表 */
    int  num;     /* 成员个数 */
    int  size;    /* 表的尺寸 */
} hTab;

static unsigned int
getHashIndex(hTab *tabPtr, const char *key)
{
    unsigned int ha = 0;
  
    while (*key)
        ha = (ha * 128 + *key++) % tabPtr->size;

    return ha;

}

(其中key是一个字符串,hTab就是一个哈希表结构, tabPtr->size是哈希表数组的大小)

这个算法被实施证明是比较不错的,能够达到分散数据的效果,如果你有更好的算法,欢迎和我交流。(litmouse@km169.net

————
(版权所有,如需转载,请注明出处及作者)

评论

#ovo 发表于2006-09-17 21:15:00  IP: 59.44.116.*
getHashIndex(hTab *tabPtr, const char *key)
{
unsigned int ha = 0;

while (*key)
ha = (ha * 128 + *key++) % tabPtr->size;

return ha;

}


经实际测试,上面这个算法冲突很多,下面这个优于上面这一个:

unsigned long getHashIndex( const char *key, int nTableLength )
{
unsigned long nHash = 0;

while (*key)
{
nHash = (nHash<<5) + nHash + *key++;
}

return ( nHash % nTableLength );
}

---------------------------
MPQ中的Hash算法比上面的要复杂一点,更好一些

 

  • 相关文章:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最近发表

最新评论及回复

友情链接

[Top] Powered By Z-Blog 1.8 Devo Build 80201. Theme FormerDays Design By haphic

ICP备案号正在申请。Copyright ©2008 gis足迹. All Rights Reserved.