集合类总结

HashMap 原理.............................................................................................................1

ArrayList和LinkedList的区别......................................................................................5

HashMap和Hashtable的区别......................................................................................9

ConcurrentHashMap..................................................................................................10

HashMap原理

涉及到的点：

hashing的概念

HashMap中解决碰撞的方法

equals()和hashCode()的应用，以及它们在HashMap中的重要性

不可变对象的好处

HashMap多线程的条件竞争

重新调整HashMap的大小

HashMap是用来存储key-value键值对的数据结构。当我们创建HashMap的时候，如果不指定任何参数，它会为我们创建一个初始容量为16，负载因子为0.75的HashMap (load factor，记录数/数组长度)。当loadFactor达到0.75或指定值的时候，HashMap的总容量自动扩展一倍。

它的底层采用Entry数组来保存所有的key-value对。当需要存储一个Entry对象时，会根据Hash算法(key的hashCode值)来决定其存储位置；当需要取出一个Entry时，也会根据Hash算法找到其存储位置，直接取出该Entry。由此可见：HashMap之所以能快速存、取它所包含的Entry，完全类似于现实生活中母亲从小教我们的：不同的东西要放在不同的位置，需要时才能快速找到它。

如果两个Entry的key的hashCode()返回值相同，那它们的存储位置相同。如果这两个Entry的key通过equals()比较返回true，新添加Entry的value将覆盖集合中原有Entry的value，但key不会覆盖。如果这两个Entry的key通过equals()比较返回false，新添加的Entry将与集合中原有Entry形成Entry链，而且新添加的Entry位于Entry链的头部。我们来看下图：

集合类总结

HashMap底层实现：数组+链表+红黑树
       通常，只使用Entry数组存放键值对，key的hashcode()值决定它的存放位置，equals()方法决定最终的值。
       如果hash算法设计的足够好，是不会发生碰撞冲突的，但实际中肯定不存在这么完美的事情。
       当key的hashcode()相同，equals()方法返回不同时，会在相同的位置上形成一个链表，当链表长度大于8的时候，会转化成红黑树，链表的查找的时间复杂度为O(n)，而红黑树为O(lgn)，会提高查询的性能。
       当Entry数组不足以容纳更多的元素的时候，以负载因子为0.75，数组长度为20来说，当数组元素数到达15的时候，会自动触发一次resize操作，会把旧的数据映射到新的哈希表，数组扩容到原来的2倍。

resize在多线程环境下，可能产生可能产生条件竞争

因为如果两个线程都发现HashMap需要重新调整大小了，它们会同时试着调整大小。
       在调整大小的过程中，存储在链表中的元素的次序会反过来，因为移动到新的bucket位置的时候，HashMap并不会将元素放在链表的尾部，而是放在头部，这是为了避免尾部遍历(tail traversing，否则针对key的hashcode相同的Entry每次添加还要定位到尾节点)。
       如果条件竞争发生了，可能出现环形链表。之后当我们get(key)操作时，就有可能发生死循环。
       另外，既然都有并发的问题了，我们就该使用ConcurrentHashMap了。

不使用HashTable的原因
它使用synchronized来保证线程安全，会锁住整个哈希表。在线程竞争激烈的情况下效率非常低下，当一个线程访问HashTable的同步方法时，其它线程访问HashTable的同步方法只能进入阻塞或轮询状态。

问答流程：

“你用过HashMap吗？”

“什么是HashMap？你为什么用到它？”

几乎每个人都会回答“是的”，然后回答HashMap的一些特性，譬如HashMap可以接受null键值和值，而Hashtable则不能；HashMap是非synchronized;HashMap很快；以及HashMap储存的是键值对等等。这显示出你已经用过HashMap，而且对它相当的熟悉。但是面试官来个急转直下，从此刻开始问出一些刁钻的问题，关于HashMap的更多基础的细节。面试官可能会问出下面的问题：

“你知道HashMap的工作原理吗？”

“你知道HashMap的get()方法的工作原理吗？”

你也许会回答“我没有详查标准的Java API，你可以看看Java源代码或者Open JDK。”“我可以用Google找到答案。”

但一些面试者可能可以给出答案，“HashMap是基于hashing的原理，我们使用put(key, value)存储对象到HashMap中，使用get(key)从HashMap中获取对象。当我们给put()方法传递键和值时，我们先对键调用hashCode()方法，返回的hashCode用于找到bucket位置来储存Entry对象。”这里关键点在于指出，HashMap是在bucket中储存键对象和值对象，作为Map.Entry。这一点有助于理解获取对象的逻辑。如果你没有意识到这一点，或者错误的认为仅仅只在bucket中存储值的话，你将不会回答如何从HashMap中获取对象的逻辑。这个答案相当的正确，也显示出面试者确实知道hashing以及HashMap的工作原理。但是这仅仅是故事的开始，当面试官加入一些Java程序员每天要碰到的实际场景的时候，错误的答案频现。下个问题可能是关于HashMap中的碰撞探测(collision detection)以及碰撞的解决方法：

“当两个对象的hashcode相同会发生什么？”

从这里开始，真正的困惑开始了，一些面试者会回答因为hashcode相同，所以两个对象是相等的，HashMap将会抛出异常，或者不会存储它们。然后面试官可能会提醒他们有equals()和hashCode()两个方法，并告诉他们两个对象就算hashcode相同，但是它们可能并不相等。一些面试者可能就此放弃，而另外一些还能继续挺进，他们回答“因为hashcode相同，所以它们的bucket位置相同，‘碰撞’会发生。因为HashMap使用链表存储对象，这个Entry(包含有键值对的Map.Entry对象)会存储在链表中。”这个答案非常的合理，虽然有很多种处理碰撞的方法，这种方法是最简单的，也正是HashMap的处理方法。但故事还没有完结，面试官会继续问：

“如果两个键的hashcode相同，你如何获取值对象？”

面试者会回答：当我们调用get()方法，HashMap会使用键对象的hashcode找到bucket位置，然后获取值对象。面试官提醒他如果有两个值对象储存在同一个bucket，他给出答案:将会遍历链表直到找到值对象。面试官会问因为你并没有值对象去比较，你是如何确定确定找到值对象的？除非面试者直到HashMap在链表中存储的是键值对，否则他们不可能回答出这一题。

其中一些记得这个重要知识点的面试者会说，找到bucket位置之后，会调用keys.equals()方法去找到链表中正确的节点，最终找到要找的值对象。完美的答案！

注意：这里使用了 equals() 方法

许多情况下，面试者会在这个环节中出错，因为他们混淆了hashCode()和equals()方法。因为在此之前hashCode()屡屡出现，而equals()方法仅仅在获取值对象的时候才出现。一些优秀的开发者会指出使用不可变的、声明作final的对象，并且采用合适的equals()和hashCode()方法的话，将会减少碰撞的发生，提高效率。不可变性使得能够缓存不同键的hashcode，这将提高整个获取对象的速度，使用String，Interger这样的wrapper类作为键是非常好的选择。

如果你认为到这里已经完结了，那么听到下面这个问题的时候，你会大吃一惊。

“如果HashMap的大小超过了负载因子(load factor)定义的容量，怎么办？” 除非你真正知道HashMap的工作原理，否则你将回答不出这道题。默认的负载因子大小为0.75，也就是说，当一个map填满了75%的bucket时候，和其它集合类(如ArrayList等)一样，将会创建原来HashMap大小的两倍的bucket数组，来重新调整map的大小，并将原来的对象放入新的bucket数组中。这个过程叫作rehashing，因为它调用hash方法找到新的bucket位置。

如果你能够回答这道问题，下面的问题来了：
“你了解重新调整HashMap大小存在什么问题吗？”
你可能回答不上来，这时面试官会提醒你当多线程的情况下，可能产生条件竞争(race condition)。

当重新调整HashMap大小的时候，确实存在条件竞争，因为如果两个线程都发现HashMap需要重新调整大小了，它们会同时试着调整大小。在调整大小的过程中，存储在链表中的元素的次序会反过来，因为移动到新的bucket位置的时候，HashMap并不会将元素放在链表的尾部，而是放在头部，这是为了避免尾部遍历(tail traversing)。如果条件竞争发生了，那么就死循环了。这个时候，你可以质问面试官，为什么这么奇怪，要在多线程的环境下使用HashMap呢？：）

热心的读者贡献了更多的关于HashMap的问题：

为什么String, Interger这样的wrapper类适合作为键？ String, Interger这样的wrapper类作为HashMap的键是再适合不过了，而且String最为常用。因为String是不可变的，也是final的，而且已经重写了equals()和hashCode()方法了。其他的wrapper类也有这个特点。不可变性是必要的，因为为了要计算hashCode()，就要防止键值改变，如果键值在放入时和获取时返回不同的hashcode的话，那么就不能从HashMap中找到你想要的对象。不可变性还有其他的优点如线程安全。如果你可以仅仅通过将某个field声明成final就能保证hashCode是不变的，那么请这么做吧。因为获取对象的时候要用到equals()和hashCode()方法，那么键对象正确的重写这两个方法是非常重要的。如果两个不相等的对象返回不同的hashcode的话，那么碰撞的几率就会小些，这样就能提高HashMap的性能。

我们可以使用自定义的对象作为键吗？这是前一个问题的延伸。当然你可能使用任何对象作为键，只要它遵守了equals()和hashCode()方法的定义规则，并且当对象插入到Map中之后将不会再改变了。如果这个自定义对象时不可变的，那么它已经满足了作为键的条件，因为当它创建之后就已经不能改变了。

我们可以使用CocurrentHashMap来代替Hashtable吗？这是另外一个很热门的面试题，因为ConcurrentHashMap越来越多人用了。我们知道Hashtable是synchronized的，但是ConcurrentHashMap同步性能更好，因为它仅仅根据同步级别对map的一部分进行上锁。ConcurrentHashMap当然可以代替HashTable，但是HashTable提供更强的线程安全性。看看这篇博客查看Hashtable和ConcurrentHashMap的区别。

我个人很喜欢这个问题，因为这个问题的深度和广度，也不直接的涉及到不同的概念。

总结HashMap工作原理

HashMap基于hashing原理，我们通过put()和get()方法储存和获取对象。当我们将键值对传递给put()方法时，它调用键对象的hashCode()方法来计算hashcode，让后找到bucket位置来储存值对象。当获取对象时，通过键对象的equals()方法找到正确的键值对，然后返回值对象。HashMap使用链表来解决碰撞问题，当发生碰撞了，对象将会储存在链表的下一个节点中。 HashMap在每个链表节点中储存键值对对象。

当两个不同的键对象的hashcode相同时会发生什么？它们会储存在同一个bucket位置的链表中。键对象的equals()方法用来找到键值对。

ArrayList和LinkedList的区别

ArrayList和Vector使用了数组的实现，可以认为ArrayList或者Vector封装了对内部数组的操作，比如向数组中添加，删除，插入新的元素或者数据的扩展和重定向。

LinkedList使用了循环双向链表数据结构。与基于数组ArrayList相比，这是两种截然不同的实现技术，这也决定了它们将适用于完全不同的工作场景。

LinkedList链表由一系列表项连接而成。一个表项总是包含3个部分：元素内容，前驱表和后驱表，如图所示：

集合类总结

在下图展示了一个包含3个元素的LinkedList的各个表项间的连接关系。在JDK的实现中，无论LikedList是否为空，链表内部都有一个header表项，它既表示链表的开始，也表示链表的结尾。表项header的后驱表项便是链表中第一个元素，表项header的前驱表项便是链表中最后一个元素。

集合类总结

下面以增加和删除元素为例比较ArrayList和LinkedList的不同之处：

（1）增加元素到列表尾端：

在ArrayList中增加元素到队列尾端的代码如下：

publicboolean add(E e){

ensureCapacity(size+1);//确保内部数组有足够的空间

elementData[size++]=e;//将元素加入到数组的末尾，完成添加

return true;

}

ArrayList中add()方法的性能决定于ensureCapacity()方法。ensureCapacity()的实现如下

public vodensureCapacity(int minCapacity){

modCount++;

int oldCapacity=elementData.length;

if(minCapacity>oldCapacity){ //如果数组容量不足，进行扩容

Object[] oldData=elementData;

int newCapacity=(oldCapacity*3)/2+1; //扩容到原始容量的1.5倍

if(newCapacitty<minCapacity) //如果新容量小于最小需要的容量，则使用最小

//需要的容量大小

newCapacity=minCapacity ; //进行扩容的数组复制

elementData=Arrays.copyof(elementData,newCapacity);

}

可以看到，只要ArrayList的当前容量足够大，add()操作的效率非常高的。只有当ArrayList对容量的需求超出当前数组大小时，才需要进行扩容。扩容的过程中，会进行大量的数组复制操作。而数组复制时，最终将调用System.arraycopy()方法，因此add()操作的效率还是相当高的。

LinkedList的add()操作实现如下，它也将任意元素增加到队列的尾端：

publicboolean add(E e){

addBefore(e,header);//将元素增加到header的前面

return true;

}

其中addBefore()的方法实现如下：

privateEntry<E> addBefore(E e,Entry<E> entry){

Entry<E> newEntry = newEntry<E>(e,entry,entry.previous);

newEntry.provious.next=newEntry;

newEntry.next.previous=newEntry;

size++;

modCount++;

return newEntry;

}

可见，LinkeList由于使用了链表的结构，因此不需要维护容量的大小。从这点上说，它比ArrayList有一定的性能优势，然而，每次的元素增加都需要新建一个Entry对象，并进行更多的赋值操作。在频繁的系统调用中，对性能会产生一定的影响。

（2）增加元素到列表任意位置

除了提供元素到List的尾端，List接口还提供了在任意位置插入元素的方法：void add(int index,E element);

由于实现的不同，ArrayList和LinkedList在这个方法上存在一定的性能差异，由于ArrayList是基于数组实现的，而数组是一块连续的内存空间，如果在数组的任意位置插入元素，必然导致在该位置后的所有元素需要重新排列，因此，其效率相对会比较低。

以下代码是ArrayList中的实现：

publicvoid add(int index,E element){

if(index>size||index<0)

throw new IndexOutOfBoundsException(

"Index:"+index+",size:"+size);

ensureCapacity(size+1);

System.arraycopy(elementData,index,elementData,index+1,size-index);

elementData[index] = element;

size++;

}

可以看到每次插入操作，都会进行一次数组复制。而这个操作在增加元素到List尾端的时候是不存在的，大量的数组重组操作会导致系统性能低下。并且插入元素在List中的位置越是靠前，数组重组的开销也越大。

而LinkedList此时显示了优势：

publicvoid add(int index,E element){

addBefore(element,(index==size?header:entry(index)));

}

可见，对LinkedList来说，在List的尾端插入数据与在任意位置插入数据是一样的，不会因为插入的位置靠前而导致插入的方法性能降低。

（3）删除任意位置元素

对于元素的删除，List接口提供了在任意位置删除元素的方法：

public Eremove(int index);

对ArrayList来说，remove()方法和add()方法是雷同的。在任意位置移除元素后，都要进行数组的重组。ArrayList的实现如下：

public Eremove(int index){

RangeCheck(index);

modCount++;

E oldValue=(E) elementData[index];

int numMoved=size-index-1;

if(numMoved>0)

System.arraycopy(elementData,index+1,elementData,index,numMoved);

elementData[--size]=null;

return oldValue;

}

可以看到，在ArrayList的每一次有效的元素删除操作后，都要进行数组的重组。并且删除的位置越靠前，数组重组时的开销越大。

public Eremove(int index){

return remove(entry(index));

}

privateEntry<E> entry(int index){

if(index<0 || index>=size)

throw newIndexOutBoundsException("Index:"+index+",size:"+size);

Entry<E> e= header;

if(index<(size>>1)){//要删除的元素位于前半段

for(int i=0;i<=index;i++)

e=e.next;

}else{

for(int i=size;i>index;i--)

e=e.previous;

}

return e;

}

在LinkedList的实现中，首先要通过循环找到要删除的元素。如果要删除的位置处于List的前半段，则从前往后找；若其位置处于后半段，则从后往前找。因此无论要删除较为靠前或者靠后的元素都是非常高效的；但要移除List中间的元素却几乎要遍历完半个List，在List拥有大量元素的情况下，效率很低。

（4）容量参数

容量参数是ArrayList和Vector等基于数组的List的特有性能参数。它表示初始化的数组大小。当ArrayList所存储的元素数量超过其已有大小时。它便会进行扩容，数组的扩容会导致整个数组进行一次内存复制。因此合理的数组大小有助于减少数组扩容的次数，从而提高系统性能。

public ArrayList(){

this(10);

}

publicArrayList (int initialCapacity){

super();

if(initialCapacity<0)

throw newIllegalArgumentException("Illegal Capacity:"+initialCapacity)

this.elementData=newObject[initialCapacity];

}

ArrayList提供了一个可以制定初始数组大小的构造函数：

publicArrayList(int initialCapacity)

现以构造一个拥有100万元素的List为例，当使用默认初始化大小时，其消耗的相对时间为125ms左右，当直接制定数组大小为100万时，构造相同的ArrayList仅相对耗时16ms。

（5）遍历列表

遍历列表操作是最常用的列表操作之一，在JDK1.5之后，至少有3中常用的列表遍历方式：forEach操作，迭代器和for循环。

Stringtmp;

longstart=System.currentTimeMills(); //ForEach

for(Strings:list){

tmp=s;

}

System.out.println("foreachspend:"+(System.currentTimeMills()-start));

start =System.currentTimeMills();

for(Iterator<String>it=list.iterator();it.hasNext();){

tmp=it.next();

}

System.out.println("Iteratorspend;"+(System.currentTimeMills()-start));

start=System.currentTimeMills();

intsize=;list.size();

for(inti=0;i<size;i++){

tmp=list.get(i);

}

System.out.println("forspend;"+(System.currentTimeMills()-start));

构造一个拥有100万数据的ArrayList和等价的LinkedList，使用以上代码进行测试，测试结果的相对耗时如下表所示：

可以看到，最简便的ForEach循环并没有很好的性能表现，综合性能不如普通的迭代器，而是用for循环通过随机访问遍历列表时，ArrayList表项很好，但是LinkedList的表现却无法让人接受，甚至没有办法等待程序的结束。这是因为对LinkedList进行随机访问时，总会进行一次列表的遍历操作。性能非常差，应避免使用。

HashMap和Hashtable的区别

HashMap是Hashtable的轻量级实现（非线程安全的实现），他们都完成了Map接口，主要区别在于HashMap允许空（null）键值（key）,由于非线程安全，效率上可能高于Hashtable。

HashMap允许将null作为一个entry的key或者value，而Hashtable不允许。

HashMap把Hashtable的contains方法去掉了，改成containsvalue和containsKey。因为contains方法容易让人引起误解。

Hashtable继承自Dictionary类，而HashMap是Java1.2引进的Map interface的一个实现。

最大的不同是，Hashtable的方法是Synchronize的，而HashMap不是，在多个线程访问Hashtable时，不需要自己为它的方法实现同步，而HashMap 就必须为之提供外同步。

Hashtable和HashMap采用的hash/rehash算法都大概一样，所以性能不会有很大的差异。

ConcurrentHashMap

ConcurrentHashMap 和 java.util.Hashtable 类很相似，但 ConcurrentHashMap 能够提供比HashTable 更好的并发性能。在你从中读取对象的时候 ConcurrentHashMap 并不会把整个Map 锁住，而Hashtable操作的时候会进行锁，就连get() 都不能使用，而CurrentHashMap只会将操作的部分锁住。

桶思想：ConcurrentHashMap线程安全的，并且性能高。原因是引入了分段锁（桶）思想。16个桶。

package cn.tarena.map;

import java.util.Hashtable;

import java.util.concurrent.ConcurrentHashMap;

import java.util.concurrent.ConcurrentMap;

import java.util.concurrent.ConcurrentNavigableMap;

import java.util.concurrent.ConcurrentSkipListMap;

import org.junit.Test;

/**

* HashMap 线程不安全，效率高

* HashTable 线程安全，效率低

* ConcurrentHashMap 线程安全的，并且性能高。原因是引入了分段锁（桶）思想。16个桶。

* 所以理论上，ConcurrentHashMap的性能是HashTable的16倍

* @author ysq

public class Demo3 {

@Test

public void testCreate(){

ConcurrentMap map=new ConcurrentHashMap();

map.put(1, 1);

map.put(2,2);

System.out.println("");

}

@Test

public void testNavi(){

//SkipList: 跳跃表时间复杂度：O(log)

//二叉树 b-:

ConcurrentNavigableMap map = new ConcurrentSkipListMap();

map.put("1", 1);

map.put("2", 1);

map.put("3", 1);

map.put("4", 1);

map.put("5", 1);

System.out.println(map.headMap("3").size());

}

ConcurrentHashMap使用锁分段技术有效提高了并发访问率。在 Hashtable 在激烈竞争的并发环境中效率低下的主要原因，就是争抢同一把锁，加入有多把锁，每一把锁用于锁住其中一部分数据，那么当多线程访问不用数据段的数据时，线程间就不会有锁竞争了，可以有效提高锁竞争。而 ConcurrentHashMap 就是使用锁分段技术，将数据分成一段一段的数据，然后为每一段数据配一把锁，当一个线程占用当前锁住的数据的时候，其他的数据是可以背其他的线程进行访问的。

ConcurrentHashMap的结构

集合类总结

ConcurrentHashMap是由 Segment数组结构和HashEntry数组结构组成的。Segment 是一种可重入锁（ReenTrantLock），在ConcurrentHashMap 中扮演锁的角色，HashEntry 用于存储键值对数据，一个 ConcurrentHashMap 里面包含一个Segment数组。最为重要的是 Segment和 HashMap 的结构类似，每个 HashEntry 是一个链表结构。每个 Segment 守护着一个 HashEntry 数组中的元素，当想要对 HashEntry 中的数据进行修改的时候，必须首先获得与它对应的 Segment 的锁。

记住：这把锁是重入锁。

HashMap原理

ArrayList和LinkedList的区别

HashMap和Hashtable的区别

相关推荐