本文隶属于专题系列: memcached源码分析

LRU队列:

        之前的《slab内存分配》博文已经写到:一个slab class里面的所有slab分配器只分配相同大小的item,不同的slab class分配不同大小的item。item结构体里面有一个slabs_clsid成员,用来指明自己是属于哪个slab class的。这里把slabs_clsid值相同的item称为是同一类item

        slab分配器负责分配一个item,但这个item并非直接被哈希表进行管理。从《哈希表的删除操作》可以得知,对哈希表中的某一个item进行删除只是简单地将这个item从哈希表的冲突链中删除掉,并没有把item内存归还给slab。实际上,slab分配器分配出去的item是由一个LRU队列进行管理的。当一个item从LRU队列中删除就会归还给slab分配器 。

        LRU队列其实是一个双向链表。memcached里面有多条LRU队列,条数等于item的种类数。所以呢,同一类item(slabs_clsid成员变量值相等)将放到同一条LRU队列中。之所以是双向链表,是因为要方便从前后两个方向插入和遍历链表。下面浏览一下item结构体的部分成员。

typedef struct _stritem {
    struct _stritem *next; //next指针,用于LRU链表
    struct _stritem *prev; //prev指针,用于LRU链表
    struct _stritem *h_next;//h_next指针,用于哈希表的冲突链
    rel_time_t      time;   //最后一次访问时间。绝对时间
	  ...
    uint8_t         slabs_clsid;/* which slab class we're in */
} item;
        接下来阅读管理LRU队列的数据结构。其实是超级简单的,就三个全局数组而已,而且是static数组(开心吧)。
//memcached.h文件
#define POWER_LARGEST  200
//items.c文件
#define LARGEST_ID POWER_LARGEST
static item *heads[LARGEST_ID];//指向每一个LRU队列头
static item *tails[LARGEST_ID];//指向每一个LRU队列尾
static unsigned int sizes[LARGEST_ID];//每一个LRU队列有多少个item

        可以看到这三个数组的大小是和slabclass提供的最大slab class个数是一样的。这样也印证了一个LRU队列就对应一类item。heads[i]指向第i类LRU链表的第一个item,tails[i]则指向了第i类LRU链表的最后一个item,sizes[i]则指明第i类LRU链表有多少个item。由LRU队列和heads和tails构成的结构如下图所示:

        

LRU队列的基本操作:

插入操作:

        假设我们有一个item要插入到LRU链表中,那么可以通过调用item_link_q函数把item插入到LRU队列中。下面是具体的实现代码。

//将item插入到LRU队列的头部
static void item_link_q(item *it) { /* item is the new head */
    item **head, **tail;
    assert(it->slabs_clsid < LARGEST_ID);
    assert((it->it_flags & ITEM_SLABBED) == 0);
    head = &heads[it->slabs_clsid];
    tail = &tails[it->slabs_clsid];
    assert(it != *head);
    assert((*head && *tail) || (*head == 0 && *tail == 0));
	//头插法插入该item
    it->prev = 0;
    it->next = *head;
    if (it->next) it->next->prev = it;
    *head = it;//该item作为对应链表的第一个节点
	//如果该item是对应id上的第一个item,那么还会被认为是该id链上的最后一个item
	//因为在head那里使用头插法,所以第一个插入的item,到了后面确实成了最后一个item
    if (*tail == 0) *tail = it;
    sizes[it->slabs_clsid]++;//个数加一
    return;
}

删除操作:

        有了插入函数,肯定有对应的删除函数。删除函数是蛮简单,主要是处理删除这个节点后,该节点的前后驱节点怎么拼接在一起。

//将it从对应的LRU队列中删除
static void item_unlink_q(item *it) {
    item **head, **tail;
    assert(it->slabs_clsid < LARGEST_ID);
    head = &heads[it->slabs_clsid];
    tail = &tails[it->slabs_clsid];
    if (*head == it) {//链表上的第一个节点
        assert(it->prev == 0);
        *head = it->next;
    }
    if (*tail == it) {//链表上的最后一个节点
        assert(it->next == 0);
        *tail = it->prev;
    }
    assert(it->next != it);
    assert(it->prev != it);
	//把item的前驱节点和后驱节点连接起来
    if (it->next) it->next->prev = it->prev;
    if (it->prev) it->prev->next = it->next;
    sizes[it->slabs_clsid]--;//个数减一
    return;
}

        可以看到无论是插入还是删除一个item,其耗时都是常数。其实对于memcached来说几乎所有的操作时间复杂度都是常数级的。

更新操作:

        为什么要把item插入到LRU队列头部呢?当然实现简单是其中一个原因。但更重要的是这是一个LRU队列!!还记得操作系统里面的LRU吧。这是一种淘汰机制。在LRU队列中,排得越靠后就认为是越少使用的item,此时被淘汰的几率就越大。所以新鲜item(访问时间新),要排在不那么新鲜item的前面,所以插入LRU队列的头部是不二选择。下面的do_item_update函数佐证了这一点。do_item_update函数是先把旧的item从LRU队列中删除,然后再插入到LRU队列中(此时它在LRU队列中排得最前)。除了更新item在队列中的位置外,还会更新item的time成员,该成员指明上一次访问的时间(绝对时间)。如果不是为了LRU,那么do_item_update函数最简单的实现就是直接更新time成员即可。

#define ITEM_UPDATE_INTERVAL 60 //更新频率为60秒
void do_item_update(item *it) {
	//下面的代码可以看到update操作是耗时的。如果这个item频繁被访问,
	//那么会导致过多的update,过多的一系列费时操作。此时更新间隔就应运而生
	//了。如果上一次的访问时间(也可以说是update时间)距离现在(current_time)
	//还在更新间隔内的,就不更新。超出了才更新。
    if (it->time < current_time - ITEM_UPDATE_INTERVAL) {
        mutex_lock(&cache_lock);
        if ((it->it_flags & ITEM_LINKED) != 0) {
            item_unlink_q(it);//从LRU队列中删除
            it->time = current_time;//更新访问时间
            item_link_q(it);//插入到LRU队列的头部
        }
        mutex_unlock(&cache_lock);
    }
}

        memcached处理get命令时会调用do_item_update函数更新item的访问时间,更新其在LRU队列的位置。在memcached中get命令是很频繁的命令,排在LRU队列第一或者前几的item更是频繁被get。对于排在前几名的item来说,调用do_item_update是意义不大的,因为调用do_item_update后其位置还是前几名,并且LRU淘汰再多item也难于淘汰不到它们(一个LRU队列的item数量是很多的)。另一方面,do_item_update函数耗时还是会有一定的耗时,因为要抢占cache_lock锁。如果频繁调用do_item_update函数性能将下降很多。于是memcached就是使用了更新间隔。

        前面讲了怎么在LRU队列中插入和删除一个item,现在讲一下怎么从slab分配器中申请一个item和怎么归还item给slab分配器。

item结构体:

        虽然前面多次提到了item,但item长成什么样子估计读者还是迷迷糊糊的。下面看一下item结构体的完整定义吧,留意英文注释。

#define ITEM_LINKED 1 //该item插入到LRU队列了
#define ITEM_CAS 2 //该item使用CAS
#define ITEM_SLABBED 4 //该item还在slab的空闲队列里面,没有分配出去
#define ITEM_FETCHED 8 //该item插入到LRU队列后,被worker线程访问过
typedef struct _stritem {
    struct _stritem *next;//next指针,用于LRU链表
    struct _stritem *prev;//prev指针,用于LRU链表
    struct _stritem *h_next;//h_next指针,用于哈希表的冲突链
    rel_time_t      time;//最后一次访问时间。绝对时间
    rel_time_t      exptime;//过期失效时间,绝对时间
    int             nbytes;//本item存放的数据的长度   
    unsigned short  refcount;//本item的引用数
    uint8_t         nsuffix;//后缀长度    /* length of flags-and-length string */
    uint8_t         it_flags;//item的属性   /* ITEM_* above */
    uint8_t         slabs_clsid;/* which slab class we're in */
    uint8_t         nkey;//键值的长度       /* key length, w/terminating null and padding */
    /* this odd type prevents type-punning issues when we do
     * the little shuffle to save space when not using CAS. */
    union {
        uint64_t cas;
        char end;
    } data[];
    /* if it_flags & ITEM_CAS we have 8 bytes CAS */
    /* then null-terminated key */
    /* then " flags length\r\n" (no terminating null) */
    /* then data with terminating \r\n (no terminating null; it's binary!) */
} item;

        上面代码里面的英文注释说明了item布局。item结构体的最后一个成员是data[],这样的定义称为柔性数组。柔性数组的一个使用特点是,数据域就存放在数组的后面。memcached的item也是这样使用柔性数组的。上面的item只是定义了item结构体本身的成员,但之前的博文一直用item表示item存储的数据。这样写是合理的。因为item结构体本身和item对应的数据都是存放slab分配器分配的同一块内存里面。在《slab内存分配器》初始化slabclass数组的时候,其分配的内存块大小是sizeof(item) +settings.chunk_size。

        item结构体后面紧接着的是一堆数据,并非仅仅是用户要存储的data,具体如下图所示:

        

        看上面的图可能还不完全清楚明了item以及对应数据的存储形式。我懂的,码农是需要代码才能完全清楚明了的。

#define ITEM_key(item) (((char*)&((item)->data)) \
         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
#define ITEM_suffix(item) ((char*) &((item)->data) + (item)->nkey + 1 \
         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
#define ITEM_data(item) ((char*) &((item)->data) + (item)->nkey + 1 \
         + (item)->nsuffix \
         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
#define ITEM_ntotal(item) (sizeof(struct _stritem) + (item)->nkey + 1 \
         + (item)->nsuffix + (item)->nbytes \
         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
static size_t item_make_header(const uint8_t nkey, const int flags, const int nbytes,
                     char *suffix, uint8_t *nsuffix) {
    /* suffix is defined at 40 chars elsewhere.. */
    *nsuffix = (uint8_t) snprintf(suffix, 40, " %d %d\r\n", flags, nbytes - 2);
    return sizeof(item) + nkey + *nsuffix + nbytes;//计算总大小
}
//key、flags、exptime三个参数是用户在使用set、add命令存储一条数据时输入的参数。
//nkey是key字符串的长度。nbytes则是用户要存储的data长度+2,因为在data的结尾处还要加上"\r\n"
//cur_hv则是根据键值key计算得到的哈希值。
item *do_item_alloc(char *key, const size_t nkey, const int flags,
                    const rel_time_t exptime, const int nbytes,
                    const uint32_t cur_hv) {
    uint8_t nsuffix;
    item *it = NULL;
    char suffix[40];
	//要存储这个item需要的总空间。要注意第一个参数是nkey+1,所以上面的那些宏计算时
	//使用了(item)->nkey + 1
    size_t ntotal = item_make_header(nkey + 1, flags, nbytes, suffix, &nsuffix);
    if (settings.use_cas) {//开启了CAS功能
        ntotal += sizeof(uint64_t);
    }
	//根据大小判断从属于哪个slab
    unsigned int id = slabs_clsid(ntotal);
    if (id == 0)//0表示不属于任何一个slab
        return 0;
	...
	it = slabs_alloc(ntotal, id);//从slab分配器中申请内存
	it->refcount = 1;
	it->it_flags = settings.use_cas ? ITEM_CAS : 0;
    it->nkey = nkey;
    it->nbytes = nbytes;
    memcpy(ITEM_key(it), key, nkey);//这里只拷贝nkey个字节,最后一个字节空着
    it->exptime = exptime;
    memcpy(ITEM_suffix(it), suffix, (size_t)nsuffix);
    it->nsuffix = nsuffix;
	return it;
}

        码农们好好体会上面代码中的几个宏定义以及item_make_header函数。上面的代码还只是超级简单地介绍了do_item_alloc函数,之所以说超级简单是因为这个函数实际上是相当复杂的,完整版本点击这里查看。

        上面简单给出了向slab申请一个item,现在贴出归还item的代码。

//items.c文件
void item_free(item *it) {
    size_t ntotal = ITEM_ntotal(it);
    unsigned int clsid;
    clsid = it->slabs_clsid;
    it->slabs_clsid = 0;
    slabs_free(it, ntotal, clsid);
}
//slabs.c文件
void slabs_free(void *ptr, size_t size, unsigned int id) {
    pthread_mutex_lock(&slabs_lock);
    do_slabs_free(ptr, size, id);//归还给slab分配器
    pthread_mutex_unlock(&slabs_lock);
}

item和哈希表的联系:

        前面的do_item_alloc函数是根据所需的大小申请一个item。从do_item_alloc实现代码来看,它没有把这个item插入到哈希表和LRU队列中。实际上这个任务是由另外的函数实现的。

插入和删除item:

        接下来阅读,如何把item传给哈希表、LRU队列以及如何从哈希表、LRU队列收回item(有时还需要归还给slab的)。

//将item插入到哈希表和LRU队列中,插入到哈希表需要哈希值hv
int do_item_link(item *it, const uint32_t hv) {
	//确保这个item已经从slab分配出去并且还没插入到LRU队列中
    assert((it->it_flags & (ITEM_LINKED|ITEM_SLABBED)) == 0);
	//当哈希表不在为扩展而迁移数据时,就往哈希表插入item
	//当哈希表在迁移数据时,会占有这个锁。
    mutex_lock(&cache_lock);
    it->it_flags |= ITEM_LINKED;//加入 已link标志
    it->time = current_time;
    /* Allocate a new CAS ID on link. */
    ITEM_set_cas(it, (settings.use_cas) ? get_cas_id() : 0);
    assoc_insert(it, hv);//将这个item插入到哈希表中
    item_link_q(it);//将这个item插入到链表中
    refcount_incr(&it->refcount);//引用计数加一
    mutex_unlock(&cache_lock);
    return 1;
}
//从哈希表删除,所以需要哈希值hv
void do_item_unlink(item *it, const uint32_t hv) {
    mutex_lock(&cache_lock);
    if ((it->it_flags & ITEM_LINKED) != 0) {
        it->it_flags &= ~ITEM_LINKED;//减去已link标志
        assoc_delete(ITEM_key(it), it->nkey, hv);//将这个item从哈希表中删除
        item_unlink_q(it);//从链表中删除该item
        do_item_remove(it);//向slab归还这个item
    }
    mutex_unlock(&cache_lock);
}
void do_item_remove(item *it) {
    assert((it->it_flags & ITEM_SLABBED) == 0);
    assert(it->refcount > 0);
    if (refcount_decr(&it->refcount) == 0) {//引用计数等于0的时候归还
        item_free(it);//归还该item给slab
    }
}
        在使用do_item_remove函数向slab归还item时,会先测试这个item的引用数是否等于0。引用数可以简单理解为是否有worker线程在使用这个item。引用数的将会在后面的《 item引用计数》中详细讲解。

        前面的代码中很少使用锁。但实际上前述的item操作都是需要加锁的,因为可能多个worker线程同时操作哈希表和LRU队列。之所以很少看到锁是因为他们都使用了包裹函数(如果看过《UNIX网络编程》,这个概念应该不陌生)。在包裹函数中加锁和解锁。前面的函数中,函数名一般都是以do_作为前缀。其对应的包裹函数名就是去掉前缀do_。锁的介绍不是本博文的任务,后面会有专门的博文介绍锁的使用。

你可能感兴趣的内容
0条评论

dexcoder

这家伙太懒了 <( ̄ ﹌  ̄)>
Owner