Hadoop中常出現(xiàn)的錯誤以及解決方法

2013/9/24 16:43:08

Hadoop中常出現(xiàn)的錯誤以及解決方法Hadoop中常出現(xiàn)的錯誤以及解決方法2011-03-18 23:07.4：能夠啟動datanode，但無法訪問，也無法結束的錯誤在重新格式化一個新的分布式文件時，需要將你NameNode上所配置的dfs.name.dir這一namenode用來存放NameNode 持久存儲名字空間及事務日志的本地文件系統(tǒng)路徑刪除，同時將各DataNode上的dfs.data.dir的路徑 DataNode 存放塊數(shù)據(jù)的本地文件系統(tǒng)路徑的目錄也刪除。

linux 下各errno的意義

2013/1/16 14:09:57

K Nearest Neighbor 算法 | 酷殼

2012/9/4 14:57:54

K Nearest Neighbor算法又叫KNN算法，這個算法是機器學習里面一個比較經(jīng)典的算法，總體來說KNN算法是相對比較容易理解的算法。KNN算法和K-Means算法不同的是，K-Means算法用來聚類，用來判斷哪些東西是一個比較相近的類型，而KNN算法是用來做歸類的，也就是說，有一個樣本空間里的樣本分成很幾個類型，然后，給定一個待分類的數(shù)據(jù)，通過計算接近自己最近的K個樣本來判斷這個待分類數(shù)據(jù)屬于哪個分類。我們可以用KNN算法來預測之。

Google Dremel 原理 – 如何能3秒分析1PB | 我自然

2012/8/24 15:08:10

Dremel 是Google 的“交互式”數(shù)據(jù)分析系統(tǒng)。根據(jù)Google公開的論文《Dremel: Interactive Analysis of WebScaleDatasets》可以看到Dremel的設計原理。Google Dremel數(shù)據(jù)模型。Dremel與Hadoop.Dremel的公開論文里面已經(jīng)說的很明白，Dremel不是用來替代MapReduce，而是和其更好的結合。同時Dremel可以用來分析MapReduce的結果集，只需要將MapReduce的OutputFormat修改為Dremel的格式，就可以幾乎不引入額外開銷，將數(shù)據(jù)導入Dremel。

匯編和c只有一步之近

2012/6/12 11:39:10

如下，是實現(xiàn)標準控制臺輸出功能的代碼：[cpp] view plaincopy?.section .rodata str: .ascii "Hello,world.\n" .section .text .globl _main _main: movl $4, %eax # the number of system call movl $1, %ebx # file descriptor, 1 means stdout movl $str, %ecx # string address movl $13, %edx # string length int $0x80 保存為hello.s.// mul __asm__("mov $10, %eax");

slab分配器簡明分析

2012/4/26 19:04:42

slab分配器簡明分析這還是暑假之前寫的總結... 這幾天一個kernel群里老有人問關于slab方面的問題... 所以就在這里把些的總結貼一下... 獻丑了...故相應的數(shù)據(jù)結構有 cache 描述符和 slab 描述符。這個字段是在緩存器中的 slab_full 或者 slab_patial 或者 slab_free 上。例如,如過 Slab 描述符的位置是 Off_Slab,則這個 Slab 描述符以及其后的 kmem_bufctl_t[] 就放在這個通用緩存器組中的某一個緩存器里。

memcached全面剖析–2.理解memcached的內(nèi)存存儲 - idv2

2012/4/26 19:01:31

最近的memcached默認情況下采用了名為Slab Allocator的機制分配、管理內(nèi)存。分配給Slab之后根據(jù)slab的大小切分成chunk。下面說明memcached如何針對客戶端發(fā)送的數(shù)據(jù)選擇slab并緩存到chunk中。memcached中保存著slab內(nèi)空閑chunk的列表，根據(jù)該列表選擇chunk，然后將數(shù)據(jù)緩存于其中。使用memcached的創(chuàng)造著Brad寫的名為memcached-tool的Perl腳本，可以方便地獲得slab的使用情況（它將memcached的返回值整理成容易閱讀的格式）。

正則表達式 awk

2011/7/20 11:02:35

正則表達式 awk1. awk簡介awk是一種編程語言，用于在linux/unix下對文本和數(shù)據(jù)進行處理。3. 模式和操作awk腳本是由模式和操作組成的：pattern {action} 如$ awk ''/root/'' test，或$ awk ''$3 <100'' test。賦值格式：Variable = expression，如$ awk ''$1 ~/test/{count = $2 + $3; printcount}''test,上式的作用是,awk先掃描第一個域，一旦test匹配，就把第二個域的值加上第三個域的值，并把結果賦值給變量count，最后打印出來。

關于編程，大學沒有傳授的10件事

2011/7/19 10:22:53

關于編程，大學沒有傳授的10件事關于編程，大學沒有傳授的10件事。在我抱怨那些我碰到過的代碼十年之久后，我得出了一個精辟的結論，所有的(包括我自己寫的)代碼，都爛。許多客戶并不在乎你在方案中使用了哪些技術，應用程序需不需要做更多的事……我想說的是，我們永遠不應該忘記客戶的立場，有時候，開發(fā)人員為了最佳實踐而在項目工程中過度堅持采用（某些）技術，但要記住，若這些技術無法給客戶帶來價值，那就放棄吧！

InfoQ: Google Technological Details

2011/7/14 13:53:47

Google Plus, the social network from Google, is built mostly onJava and JavaScript while Hangouts, its video conferencing framework,uses a client-server approach.Google Plus or Google+, thelong awaited social network from Google, has recently made its debut,being available to a limited number of users based on invitation.

田克山

2011/7/14 13:11:43

其他團隊的事情，自有其他團隊的負責人應該去做好，這與我的責任沒有關系，并且我也是血肉之軀，精力非常有限，如果你做的事情真如你所講的那么棒；所有的產(chǎn)品及服務的落地點都是用戶，所有運營的核心就是把需要的信息（產(chǎn)品、服務）以他喜歡活習慣至少是可接受的方式放在他的面前，甚至為你講解了一個互聯(lián)網(wǎng)的產(chǎn)業(yè)鏈條為何有市場、產(chǎn)品、運營、BD等以及這些崗位都是在做什么。至于工作方面我的態(tài)度問題，更是完全杜撰的事情。

C ++ 陰暗面

2011/7/13 11:01:15

很好啊，提供兩種選擇構造函數(shù)與析構函數(shù)中的虛函數(shù)調(diào)用，可能會調(diào)用基類的虛函數(shù)，甚至是純虛函數(shù)。// 定義一個string對象string a(); //聲明一個函數(shù)a && b // 如果&&沒被重定義，是短路計算；如果你在派生類中有個函數(shù)的名字和基類中的函數(shù)名字重復，即使函數(shù)原型不一樣，其基類中的函數(shù)都將在派生類中被隱藏。這個不太理解，據(jù)我所知，在構造函數(shù)中拋出異常是構造函數(shù)報錯的一個方法，因為構造函數(shù)本身不返回任何值。

磁盤I/O測試工具Bonnie (轉貼）

2011/7/13 10:55:21

-r 內(nèi)存大小，指定內(nèi)存大小，這樣可以通過-s參數(shù)創(chuàng)建r*2大小的文件，通常用于縮短測試時間，但是需要注意這樣由于內(nèi)存的cache可能導致測試結果的不準確。結束，這是bonnie++作的12項測試，這12項測試依次對應12項結果，而這12項結果又被分為了5大類，分別是Sequential Output（寫測試），Sequential Input（讀測試），Random Seeks（讀寫測試），Sequential Create（順序讀寫文件測試）和Random Create（隨意讀寫文件測試）。

linux性能分析

2011/7/8 15:55:43

linux性能分析sar.sar數(shù)據(jù)收集器是一個位于/usr/lib/sa/sadc的二進制可執(zhí)行文件。簡單的sadc語法是/usr/lib/sa/sadc3605/tmp/sadc.out。/usr/lib/sa/sa1是一個非常簡單的腳本，使用語法sadc -F -L 1 1/var/log/sa/sa##來運行sadc，其中##是某月的日期。這個sar語法顯示sar -f/var/log/ sa/sa21的輸出：在多CPU Linux系統(tǒng)中，sar命令也可以為每個CPU分解該信息，如以下sar -u -P ALL 5 5輸出所示：以下是使用-n DEV選項的sar輸出：

iozone測試文件系統(tǒng)

2011/7/6 10:39:36

iozone測試文件系統(tǒng)iozone測試文件系統(tǒng)。通過iozone測試硬盤性能通過iozone測試硬盤性能 --------------------------------------------------------------- iozone的確是一款不錯的文件系統(tǒng)性能測試工具，可以就文件系統(tǒng)的很多方面作自動測試。/opt/iozone/bin/iozone -Ra測試所有方面,并且生成excel文件上面的命令在執(zhí)行時,最好通過重定向保存到另外一個文件中./opt/iozone/bin/iozone –Rab output.wks.

[譯] NoSQL生態(tài)系統(tǒng)

2011/6/28 14:37:05

Key – 結構化數(shù)據(jù) 存儲。一致性hash下的數(shù)據(jù)備份通常采用下面的方法：將數(shù)據(jù)冗余的存在其歸屬的節(jié)點的順序往下的節(jié)點，例如你的冗余系數(shù)為3（即數(shù)據(jù)會在不同節(jié)點中保存三份），那么如果通過hash計算你的數(shù)據(jù)在A區(qū)間［7，233］，你的數(shù)據(jù)會被同時保存在A，B，C三個節(jié)點上。而范圍分區(qū)時如果某個節(jié)點故障了，它上面的數(shù)據(jù)可以被分配到多個節(jié)點上，而不像在一致性hash時，只能遷移到其順序的后一個節(jié)點，造成下一個節(jié)點的負載飆升。

B樹、B-樹、B 樹、B*樹 - 學習筆記 - 51CTO技術博客

2011/6/24 10:29:59

B+樹的分裂：當一個結點滿時，分配一個新的結點，并將原結點中1/2的數(shù)據(jù)復制到新結點，最后在父結點中增加新結點的指針；B*樹的分裂：當一個結點滿時，如果它的下一個兄弟結點未滿，那么將一部分數(shù)據(jù)移到兄弟結點中，再在原結點插入關鍵字，最后修改父結點中兄弟結點的關鍵字（因為兄弟結點的關鍵字范圍改變了）；B+樹：在B-樹基礎上，為葉子結點增加鏈表指針，所有關鍵字都在葉子結點中出現(xiàn)，非葉子結點作為葉子結點的索引；

Java 序列化的高級認識

2011/6/23 11:03:38

清單 2. 靜態(tài)變量序列化問題代碼。情境：一個子類實現(xiàn)了 Serializable 接口，它的父類都沒有實現(xiàn) Serializable 接口，序列化該子類對象，然后反序列化后輸出父類定義的某變量的數(shù)值，該變量數(shù)值與序列化時的數(shù)值不同。根據(jù)父類對象序列化的規(guī)則，我們可以將不需要被序列化的字段抽取出來放到父類中，子類實現(xiàn)Serializable 接口，父類不實現(xiàn)，根據(jù)父類序列化規(guī)則，父類的字段數(shù)據(jù)將不被序列化，形成類圖如圖 2 所示。

HDFS的JAVA接口API操作實例 - Just My weblog – everyth...

2011/4/6 18:04:33

Delete HDFS fileIn order to delete a file in Hadoop file system, we need the full name (path + name) of the file we want to delete.@72ffbWed Jun 02 18:29:14 CST 2010read [dfs.txt] from hdfs:est hdfs test hdfs test hdfs test hdfs test hdfs test hdfs.[cluster /opt/hadoop/source]$hadoop fs -cat dfs.txttest hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs.

Java NIO 入門學習(讀寫文件) - Java - 拼吾愛程序人生 - 最新編程技術...

2011/4/6 9:54:47

Java NIO 入門學習(讀寫文件) - Java - 拼吾愛程序人生 - 最新編程技術...我們用原有 IO 讀寫文件應該不會陌生了，順帶回顧一下，大致兩種：10. //整個文件內(nèi)容全讀入緩沖區(qū)，即是內(nèi)存映射文件。20.}復制代碼上面程序使用了一個與文件尺寸等大的緩沖區(qū)，正好能一次性把文件內(nèi)容全部讀入內(nèi)存，如果文件過多將是十分耗費的內(nèi)存的，所以我們可能須手工指定某個大小(如 1024,2048) 的緩沖區(qū)，然后分多次讀入文件內(nèi)容到緩沖區(qū)中。