本文总结Java中常用容器的扩容机制,扩容的过程是很耗时的,理解这些容器的扩容机制对开发来说还是很有必要的。
Java中的部分需要扩容的内容总结如下:
第一部分:HashMap,HashSet,Hashtable
第二部分:ArrayList,Vector,CopyOnWriteArrayList
第三部分:StringBuffer,StringBuilder
本文从以下几个方面分析(JDK1.8):
- 初始容量
- 扩容机制
- 同类型之间的对比
1.1 HashMap
HashMap在JDK1.8中 底层数据结构上采用了数组+链表+红黑树。
A. 初始容量默认为1<<4 (16),最大容量为1<<30,源码:
1 | /** |
B. 扩容加载因子为0.75,当HashMap中元素数量大于等于数组长度×加载因子(16×0.75=12) 时,触发扩容,扩容后的数组长度为原来的2倍。Node<K,V>[] resize()方法是扩容的核心源码:
HashMap的扩容可以分为三种情况:
第一种:使用默认构造方法初始化HashMap。从下面resize()源码可以知道HashMap在一开始初始化的时候会返回一个空的table,并且thershold为0。因此第一次扩容的容量为默认值DEFAULT_INITIAL_CAPACITY也就是16。同时threshold = DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR = 12。
第二种:指定初始容量的构造方法初始化HashMap。那么从下面源码可以看到初始容量会等于threshold,接着threshold = 当前的容量(threshold) * DEFAULT_LOAD_FACTOR。
第三种:HashMap不是第一次扩容。如果HashMap已经扩容过的话,那么每次table的容量以及threshold量为原有的两倍。
1 | /** |
1.2 HashSet
初始容量定义:16。因为构造一个HashSet,其实相当于新建一个HashMap,然后取HashMap的Key。
扩容机制和HashMap一样。
1.3 Hashtable
初始容量定义:capacity (11)。
扩容加载因子(0.75),当超出默认长度(int)(11 × 0.75)=8时,扩容为old×2+1。
扩容核心源码rehash():
1 | protected void rehash() { |
小结:HashMap和Hashtable区别
- 继承不同
public class Hashtable extends Dictionary implements Map
public class HashMap extends AbstractMap implements Map
- 同步性
Hashtable 中的方法是同步的,而HashMap中的方法在缺省情况下是非同步的。在多线程并发的环境下,可以直接使用Hashtable,但是要使用HashMap的话就要自己增加同步处理了。
- null键和null值
Hashtable中,key和value都不允许出现null值。
HashMap中,null可以作为键,这样的键只有一个;可以有一个或多个键所对应的值为null。当get()方法返回null值时,即可以表示 HashMap中没有该键,也可以表示该键所对应的值为null。因此,在HashMap中不能由get()方法来判断HashMap中是否存在某个键, 而应该用containsKey()方法来判断。
- 遍历方式
两个遍历方式的内部实现上不同。Hashtable、HashMap都使用了 Iterator。而由于历史原因,Hashtable还使用了Enumeration的方式 。
- 哈希值
Hashtable直接使用对象的hashCode。而HashMap重新计算hash值。
- 扩容
Hashtable中hash数组默认大小是11,增加的方式是 old × 2+1。HashMap中hash数组的默认大小是16, 增加的方式是 old × 2。
2.1 ArrayList
初始容量:10
扩容:oldCapacity + (oldCapacity >> 1),即原集合长度的1.5倍。核心扩容方法grow(),扩容源码:
ArrayList的扩容也可以分为三种情况进行分析:
- 当前数组是由默认构造方法生成的空数组并且第一次添加数据。此时minCapacity等于默认的容量(10)那么根据下面逻辑可以看到最后数组的容量会从0扩容成10。而后的数组扩容才是按照当前容量的1.5倍进行扩容。
- 当前数组是由自定义初始容量构造方法创建并且指定初始容量为0。此时minCapacity等于1那么根据下面逻辑可以看到最后数组的容量会从0变成1。这边可以看到一个严重的问题,一旦我们执行了初始容量为0,那么根据下面的算法前四次扩容每次都 +1,在第5次添加数据进行扩容的时候才是按照当前容量的1.5倍进行扩容。
- 不是第一次扩容,当扩容量(newCapacity)大于ArrayList数组定义的最大值后会调用hugeCapacity来进行判断。如果minCapacity已经大于Integer的最大值(溢出为负数)那么抛出OutOfMemoryError,否则的话根据与MAX_ARRAY_SIZE的比较情况确定是返回Integer最大值还是MAX_ARRAY_SIZE。这边也可以看到ArrayList允许的最大容量就是Integer的最大值(-2的31次方~2的31次方减1)。
1 | private static final int DEFAULT_CAPACITY = 10; //数组默认初始容量 |
2.2 CopyOnWriteArrayList
CopyOnWriteArrayList在做修改操作时,每次都是重新创建一个新的数组,在新数组上操作,最终再将新数组替换掉原数组。因此,在做修改操作时,仍可以做读取操作,读取直接操作的原数组。读和写操作的对象都不同,因此读操作和写操作互不干扰。只有写与写之间需要进行同步等待。另外,原数组被声明为volatile,这就保证了,一旦数组发生变化,则结果对其它线程(读线程和其它写线程)是可见的。
CopyOnWriteArrayList并不像ArrayList一样指定默认的初始容量。它也没有自动扩容的机制,而是添加几个元素,长度就相应的增长多少。CopyOnWriteArrayList适用于读多写少,既然是写的情况少,则不需要频繁扩容。并且修改操作每次在生成新的数组时就指定了新的容量,也就相当于扩容了,所以不需要额外的机制来实现扩容。
小结
- ArrayList与Vector初始容量都为10。
- 扩容机制不同,当超出当前长度时ArrayList扩展为原来的1.5倍,Vector扩容时有一个增量的概念,这个值可以在初始化Vector时作为参数传递,真正的扩容是newCapacity()这个函数,首先它判断增量是否大于0,也就是判断是否有最初设定的增量大小,如果有增量大小,新容量=增量+旧容量,如果没有增量则容量变为原来的两倍。
- ArrayList为非线程安全的,处理效率上较Vector快,若同时考虑线程安全和效率,可以使用 CopyOnWriteArrayList。
3.1 StringBuffer
初始容量定义:16。
扩容:因为StringBuffer extends AbstractStringBuilder,所以实际上是用的是AbstractStringBuilder的扩容方法,先将新容量扩大到value的长度乘以2加2,如果不够则直接扩充到所需的容量大小minCapacity。如果够则还要进行如下判断,如果比Integer的最大值还要大会抛OOM异常;否则,如果比MAX_ARRAY_SIZE大,则创建新容量为minCapacity;如果比MAX_ARRAY_SIZE小,则新容量为MAX_ARRAY_SIZE。扩容核心源码:
1 | /** |
3.2 StringBuilder
同3.1
小结
- StringBuilder是jdk1.5引进的,而StringBuffer在1.0就有了。
- StringBuilder和StringBuffer都是可变的字符串。能够通过append或者insert等方法改动串的内容。
- StringBuffer是线程安全的而StringBuilder不是,因而在多线程的环境下优先使用StringBuffer,而其它情况下推荐使用StringBuilder,由于它更快。
- StringBuilder和StringBuffer都继承自AbstractStringBuilder类,AbStractStringBuilder主要实现了扩容、append、insert方法。StrngBuilder和StringBuffer的相关方法都直接调用的父类。
- StringBuilder和StringBuffer的初始容量都是16,程序猿尽量手动设置初始值。以避免多次扩容所带来的性能问题。
- StringBuilder和StringBuffer的扩容机制是相同的。