Java內(nèi)存映射，上G大文件輕松處理

印度阿三17 2019-08-15

展開全文

內(nèi)存映射文件(Memory-mapped File)，指的是將一段虛擬內(nèi)存逐字節(jié)映射于一個文件，使得應(yīng)用程序處理文件如同訪問主內(nèi)存（但在真正使用到這些數(shù)據(jù)前卻不會消耗物理內(nèi)存，也不會有讀寫磁盤的操作），這要比直接文件讀寫快幾個數(shù)量級。

稍微解釋一下虛擬內(nèi)存（很明顯，不是物理內(nèi)存），它是計算機系統(tǒng)內(nèi)存管理的一種技術(shù)。像施了妖法一樣使得應(yīng)用程序認為它擁有連續(xù)的可用的內(nèi)存，實際上呢，它通常是被分隔成多個物理內(nèi)存的碎片，還有部分暫時存儲在外部磁盤存儲器上，在需要時進行數(shù)據(jù)交換。

內(nèi)存映射文件主要的用處是增加 I/O 性能，特別是針對大文件。對于小文件，內(nèi)存映射文件反而會導(dǎo)致碎片空間的浪費，因為內(nèi)存映射總是要對齊頁邊界，最小單位是 4 KiB，一個 5 KiB 的文件將會映射占用 8 KiB 內(nèi)存，也就會浪費 3 KiB 內(nèi)存。

java.nio 包使得內(nèi)存映射變得非常簡單，其中的核心類叫做 MappedByteBuffer，字面意思為映射的字節(jié)緩沖區(qū)。

01、使用 MappedByteBuffer 讀取文件

假設(shè)現(xiàn)在有一個文件，名叫 cmower.txt，里面的內(nèi)容是：

沉默王二，一個有趣的程序員

PS：哎，改不了王婆賣瓜自賣自夸這個臭毛病了，因為文章被盜得都怕了。

這個文件放在 /resource 目錄下，我們可以通過下面的方法獲取到它：

ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());

Path 既可以表示一個目錄，也可以表示一個文件，就像 File 那樣——當然了，Path 是用來取代 File 的。

然后，從文件中獲取一個 channel（通道，對磁盤文件的一種抽象）。

FileChannel fileChannel = FileChannel.open(path);

緊接著，調(diào)用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer，此類擴展了 ByteBuffer——提供了一些內(nèi)存映射文件的基本操作方法。

MappedByteBuffer mappedByteBuffer = fileChannel.map(mode, position, size);

稍微解釋一下 map 方法的三個參數(shù)。

1）mode 為文件映射模式，分為三種：

MapMode.READ_ONLY（只讀），任何試圖修改緩沖區(qū)的操作將導(dǎo)致拋出 ReadOnlyBufferException 異常。
MapMode.READ_WRITE（讀/寫），任何對緩沖區(qū)的更改都會在某個時刻寫入文件中。需要注意的是，其他映射同一個文件的程序可能不能立即看到這些修改，多個程序同時進行文件映射的行為依賴于操作系統(tǒng)。
MapMode.PRIVATE（私有），對緩沖區(qū)的更改不會被寫入到該文件，任何修改對這個緩沖區(qū)來說都是私有的。

2）position 為文件映射時的起始位置。

3）size 為要映射的區(qū)域的大小，必須是非負數(shù)，不得大于Integer.MAX_VALUE。

一旦把文件映射到內(nèi)存緩沖區(qū)，我們就可以把里面的數(shù)據(jù)讀入到 CharBuffer 中并打印出來。具體的代碼示例如下。

CharBuffer charBuffer = null;
ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
try (FileChannel fileChannel = FileChannel.open(path)) {
 MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, fileChannel.size());
 if (mappedByteBuffer != null) {
 charBuffer = Charset.forName("UTF-8").decode(mappedByteBuffer);
 }
 System.out.println(charBuffer.toString());
} catch (IOException e) {
 e.printStackTrace();
}

由于 decode() 方法的參數(shù)是 MappedByteBuffer，這就意味著我們是從內(nèi)存中而不是磁盤中讀入的文件內(nèi)容，所以速度會非?？?。

02、使用 MappedByteBuffer 寫入文件

假設(shè)現(xiàn)在要把下面的內(nèi)容寫入到一個文件，名叫 cmower1.txt。

沉默王二，《Web全棧開發(fā)進階之路》作者

這個文件還沒有創(chuàng)建，計劃放在項目的 classpath 目錄下。

 Path path = Paths.get("cmower1.txt");

具體位置見下圖所示。

Java內(nèi)存映射，上G大文件輕松處理

然后，創(chuàng)建文件的通道。

FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
 StandardOpenOption.TRUNCATE_EXISTING)

仍然使用的 open 方法，不過增加了 3 個參數(shù)，前 2 個很好理解，表示文件可讀（READ）、可寫（WRITE）；第 3 個參數(shù) TRUNCATE_EXISTING 的意思是如果文件已經(jīng)存在，并且文件已經(jīng)打開將要進行 WRITE 操作，則其長度被截斷為 0。

緊接著，仍然調(diào)用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer。

 MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);

這一次，我們把模式調(diào)整為 MapMode.READ_WRITE，并且指定文件大小為 1024，即 1KB 的大小。然后使用 MappedByteBuffer 中的 put() 方法將 CharBuffer 的內(nèi)容保存到文件中。具體的代碼示例如下。

CharBuffer charBuffer = CharBuffer.wrap("沉默王二，《Web全棧開發(fā)進階之路》作者");
Path path = Paths.get("cmower1.txt");
try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
 StandardOpenOption.TRUNCATE_EXISTING)) {
 MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
 if (mappedByteBuffer != null) {
 mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer));
 }
} catch (IOException e) {
 e.printStackTrace();
}

可以打開 cmower1.txt 查看一下內(nèi)容，確認預(yù)期的內(nèi)容有沒有寫入成功。

03、MappedByteBuffer 的遺憾

據(jù)說，在 Java 中使用 MappedByteBuffer 是一件非常麻煩并且痛苦的事，主要表現(xiàn)有：

1）一次 map 的大小最好限制在 1.5G 左右，重復(fù) map 會增加虛擬內(nèi)存回收和重新分配的壓力。也就是說，如果文件大小不確定的話，就不太友好。

2）虛擬內(nèi)存由操作系統(tǒng)來決定什么時候刷新到磁盤，這個時間不太容易被程序控制。

3）MappedByteBuffer 的回收方式比較詭異。

再次強調(diào)，這三種說法都是據(jù)說，我暫時能力有限，也不能確定這種說法的準確性，很遺憾。

04、比較文件操作的處理時間

嗨，朋友，閱讀完以上的內(nèi)容之后，我想你一定對內(nèi)存映射文件有了大致的了解。但我相信，如果你是一名負責任的程序員，你一定還想知道：內(nèi)存映射文件的讀取速度究竟有多快。

為了得出結(jié)論，我叫了另外三名競賽的選手：InputStream（普通輸入流）、BufferedInputStream（帶緩沖的輸入流）、RandomAccessFile（隨機訪問文件）。

讀取的對象是加勒比海盜4驚濤怪浪.mkv，大小為 1.71G。

1）普通輸入流

public static void inputStream(Path filename) {
 try (InputStream is = Files.newInputStream(filename)) {
 int c;
 while((c = is.read()) != -1) {
 }
 } catch (IOException e) {
 e.printStackTrace();
 }
}

2）帶緩沖的輸入流

public static void bufferedInputStream(Path filename) {
 try (InputStream is = new BufferedInputStream(Files.newInputStream(filename))) {
 int c;
 while((c = is.read()) != -1) {
 }
 } catch (IOException e) {
 e.printStackTrace();
 }
}

3）隨機訪問文件

public static void randomAccessFile(Path filename) {
 try (RandomAccessFile randomAccessFile = new RandomAccessFile(filename.toFile(), "r")) {
 for (long i = 0; i < randomAccessFile.length(); i  ) {
 randomAccessFile.seek(i);
 }
 } catch (IOException e) {
 e.printStackTrace();
 }
}

4）內(nèi)存映射文件

public static void mappedFile(Path filename) {
 try (FileChannel fileChannel = FileChannel.open(filename)) {
 long size = fileChannel.size();
 MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, size);
 for (int i = 0; i < size; i  ) {
 mappedByteBuffer.get(i);
 }
 } catch (IOException e) {
 e.printStackTrace();
 }
}

測試程序也很簡單，大致如下：

long start = System.currentTimeMillis();
bufferedInputStream(Paths.get("jialebi.mkv"));
long end = System.currentTimeMillis();
System.out.println(end-start);

四名選手的結(jié)果如下表所示。

方法時間普通輸入流龜速，沒有耐心等出結(jié)果隨機訪問文件龜速，沒有耐心等下去帶緩沖的輸入流29966內(nèi)存映射文件914

普通輸入流和隨機訪問文件都慢得要命，真的是龜速，我沒有耐心等待出結(jié)果；帶緩沖的輸入流的表現(xiàn)還不錯，但相比內(nèi)存映射文件就遜色多了。由此得出的結(jié)論就是：內(nèi)存映射文件，上G大文件輕松處理。

05、最后

本篇文章主要介紹了 Java 的內(nèi)存映射文件，MappedByteBuffer 是其靈魂，讀取速度快如火箭。另外，所有這些示例和代碼片段都可以在 GitHub（地址如下）上找到——這是一個 Maven 項目，所以它很容易導(dǎo)入和運行。

喜歡這篇文章的話，可以給作者點個喜歡，點下關(guān)注，每天都會分享Java相關(guān)文章！

記得一定要關(guān)注我哦，會不定時的福利贈送，包括整理的面試題，學(xué)習資料，源碼等~~