360doc--ShangShujie的文章 http://www.ahfyzs.com/rssperson/11586.aspx 360doc (http://www.ahfyzs.com) zh-cn 360doc--個人圖書館 Hadoop中常出現(xiàn)的錯誤以及解決方法 http://www.ahfyzs.com/content/11/0323/23/23378_104035203.shtml 2013/9/24 16:43:08
Hadoop中常出現(xiàn)的錯誤以及解決方法Hadoop中常出現(xiàn)的錯誤以及解決方法2011-03-18 23:07.4:能夠啟動datanode,但無法訪問,也無法結束的錯誤在重新格式化一個新的分布式文件時,需要將你NameNode上所配置的dfs.name.dir這一namenode用來存放NameNode 持久存儲名字空間及事務日志的本地文件系統(tǒng)路徑刪除,同時將各DataNode上的dfs.data.dir的路徑 DataNode 存放塊數(shù)據(jù)的本地文件系統(tǒng)路徑的目錄也刪除。
linux 下各errno的意義 http://www.ahfyzs.com/content/13/0109/15/1317564_259163520.shtml 2013/1/16 14:09:57
K Nearest Neighbor 算法 | 酷殼 http://www.ahfyzs.com/content/12/0904/14/11586_234235492.shtml 2012/9/4 14:57:54
K Nearest Neighbor算法又叫KNN算法,這個算法是機器學習里面一個比較經(jīng)典的算法, 總體來說KNN算法是相對比較容易理解的算法。KNN算法和K-Means算法不同的是,K-Means算法用來聚類,用來判斷哪些東西是一個比較相近的類型,而KNN算法是用來做歸類的,也就是說,有一個樣本空間里的樣本分成很幾個類型,然后,給定一個待分類的數(shù)據(jù),通過計算接近自己最近的K個樣本來判斷這個待分類數(shù)據(jù)屬于哪個分類。我們可以用KNN算法來預測之。
Google Dremel 原理 – 如何能3秒分析1PB | 我自然 http://www.ahfyzs.com/content/12/0824/15/11586_232093513.shtml 2012/8/24 15:08:10
Dremel 是Google 的“交互式”數(shù)據(jù)分析系統(tǒng)。根據(jù)Google公開的論文《Dremel: Interactive Analysis of WebScaleDatasets》可以看到Dremel的設計原理。Google Dremel數(shù)據(jù)模型。Dremel與Hadoop.Dremel的公開論文里面已經(jīng)說的很明白,Dremel不是用來替代MapReduce,而是和其更好的結合。同時Dremel可以用來分析MapReduce的結果集,只需要將MapReduce的OutputFormat修改為Dremel的格式,就可以幾乎不引入額外開銷,將數(shù)據(jù)導入Dremel。
匯編和c只有一步之近 http://www.ahfyzs.com/content/12/0612/11/11586_217638003.shtml 2012/6/12 11:39:10
如下,是實現(xiàn)標準控制臺輸出功能的代碼:[cpp] view plaincopy?.section .rodata str: .ascii "Hello,world.\n" .section .text .globl _main _main: movl $4, %eax # the number of system call movl $1, %ebx # file descriptor, 1 means stdout movl $str, %ecx # string address movl $13, %edx # string length int $0x80 保存為hello.s.// mul __asm__("mov $10, %eax");
slab分配器簡明分析 http://www.ahfyzs.com/content/12/0426/19/11586_206747071.shtml 2012/4/26 19:04:42
slab分配器簡明分析這還是暑假之前寫的總結... 這幾天一個kernel群里老有人問關于slab方面的問題... 所以就在這里把些的總結貼一下... 獻丑了...故相應的數(shù)據(jù)結構有 cache 描述符和 slab 描述符。這個字段是在緩存器中的 slab_full 或者 slab_patial 或者 slab_free 上。例如,如過 Slab 描述符的位置是 Off_Slab,則這個 Slab 描述符以及其后的 kmem_bufctl_t[] 就放在這個通用緩存器組中的某一個緩存器里。
memcached全面剖析–2.理解memcached的內(nèi)存存儲 - idv2 http://www.ahfyzs.com/content/08/0820/23/15643_1560953.shtml 2012/4/26 19:01:31
最近的memcached默認情況下采用了名為Slab Allocator的機制分配、管理內(nèi)存。分配給Slab之后根據(jù)slab的大小切分成chunk。下面說明memcached如何針對客戶端發(fā)送的數(shù)據(jù)選擇slab并緩存到chunk中。memcached中保存著slab內(nèi)空閑chunk的列表,根據(jù)該列表選擇chunk,然后將數(shù)據(jù)緩存于其中。使用memcached的創(chuàng)造著Brad寫的名為memcached-tool的Perl腳本,可以方便地獲得slab的使用情況(它將memcached的返回值整理成容易閱讀的格式)。
正則表達式 awk http://www.ahfyzs.com/content/11/0720/11/11586_134660337.shtml 2011/7/20 11:02:35
正則表達式 awk1. awk簡介awk是一種編程語言,用于在linux/unix下對文本和數(shù)據(jù)進行處理。3. 模式和操作awk腳本是由模式和操作組成的:pattern {action} 如$ awk ''/root/'' test,或$ awk ''$3 <100'' test。賦 值格式:Variable = expression,如$ awk ''$1 ~/test/{count = $2 + $3; printcount}''test,上式的作用是,awk先掃描第一個域,一旦test匹配,就把第二個域的值加上第三個域的值,并把結果賦值給變量count,最后打印出來。
關于編程,大學沒有傳授的10件事 http://www.ahfyzs.com/content/11/0719/10/11586_134436294.shtml 2011/7/19 10:22:53
關于編程,大學沒有傳授的10件事關于編程,大學沒有傳授的10件事。在我抱怨那些我碰到過的代碼十年之久后,我得出了一個精辟的結論,所有的(包括我自己寫的)代碼,都爛。許多客戶并不在乎你在方案中使用了哪些技術,應用程序需不需要做更多的事……我想說的是,我們永遠不應該忘記客戶的立場,有時候,開發(fā)人員為了最佳實踐而在項目工程中過度堅持采用(某些)技術,但要記住,若這些技術無法給客戶帶來價值,那就放棄吧!
InfoQ: Google Technological Details http://www.ahfyzs.com/content/11/0714/13/11586_133507840.shtml 2011/7/14 13:53:47
Google Plus, the social network from Google, is built mostly onJava and JavaScript while Hangouts, its video conferencing framework,uses a client-server approach.Google Plus or Google+, thelong awaited social network from Google, has recently made its debut,being available to a limited number of users based on invitation.
田克山 http://www.ahfyzs.com/content/11/0714/13/11586_133500508.shtml 2011/7/14 13:11:43
其他團隊的事情,自有其他團隊的負責人應該去做好,這與我的責任沒有關系,并且我也是 血肉之軀,精力非常有限,如果你做的事情真如你所講的那么棒;所有的產(chǎn)品及服務的落地點都是用戶,所有運營的核心就是把需要的信息(產(chǎn)品、服務)以他喜歡活習慣至少 是可接受的方式放在他的面前,甚至為你講解了一個互聯(lián)網(wǎng)的產(chǎn)業(yè)鏈條為何有市場、產(chǎn)品、運營、BD等以及這些崗位都是在做什么。至于工作方面我的態(tài)度問題,更是完全杜撰的事情。
C ++ 陰暗面 http://www.ahfyzs.com/content/11/0713/11/11586_133264832.shtml 2011/7/13 11:01:15
很好啊,提供兩種選擇 構造函數(shù)與析構函數(shù)中的虛函數(shù)調(diào)用,可能會調(diào)用基類的虛函數(shù),甚至是純虛函數(shù)。// 定義一個string對象string a(); //聲明一個函數(shù)a && b // 如果&&沒被重定義,是短路計算;如果你在派生類中有個函數(shù)的名字和基類中的函數(shù)名字重復,即使函數(shù)原型不一樣,其基類中的函數(shù)都將在派生類中被隱藏。這個不太理解,據(jù)我所知,在構造函數(shù)中拋出異常是構造函數(shù)報錯的一個方法,因為構造函數(shù)本身不返回任何值。
磁盤I/O測試工具Bonnie (轉貼) http://www.ahfyzs.com/content/11/0713/10/11586_133263372.shtml 2011/7/13 10:55:21
-r 內(nèi)存大小,指定內(nèi)存大小,這樣可以通過-s參數(shù)創(chuàng)建r*2大小的文件,通常用于縮短測試時間,但是需要注意這樣由于內(nèi)存的cache可能導致測試結果的不準確。結束,這是bonnie++作的12項測試,這12項測試依次對應12項結果,而這12項結果又被分為了5大類,分別是Sequential Output(寫測試),Sequential Input(讀測試),Random Seeks(讀寫測試),Sequential Create(順序讀寫文件測試)和Random Create(隨意讀寫文件測試)。
linux性能分析 http://www.ahfyzs.com/content/11/0708/15/11586_132351034.shtml 2011/7/8 15:55:43
linux性能分析sar.sar數(shù)據(jù)收集器是一個位于/usr/lib/sa/sadc的二進制可執(zhí)行文件。簡單的sadc語法是/usr/lib/sa/sadc3605/tmp/sadc.out。/usr/lib/sa/sa1是一個非常簡單的腳本,使用語法sadc -F -L 1 1/var/log/sa/sa##來運行sadc,其中##是某月的日期。這個sar語法顯示sar -f/var/log/ sa/sa21的輸出:在多CPU Linux系統(tǒng)中,sar命令也可以為每個CPU分解該信息,如以下sar -u -P ALL 5 5輸出所示:以下是使用-n DEV選項的sar輸出:
iozone測試文件系統(tǒng) http://www.ahfyzs.com/content/11/0706/10/11586_131779873.shtml 2011/7/6 10:39:36
iozone測試文件系統(tǒng)iozone測試文件系統(tǒng)。通過iozone測試硬盤性能 通過iozone測試硬盤性能 --------------------------------------------------------------- iozone的確是一款不錯的文件系統(tǒng)性能測試工具,可以就文件系統(tǒng)的很多方面作自動測試。/opt/iozone/bin/iozone -Ra測試所有方面,并且生成excel文件上面的命令在執(zhí)行時,最好通過重定向保存到另外一個文件中./opt/iozone/bin/iozone –Rab output.wks.
[譯] NoSQL生態(tài)系統(tǒng) http://www.ahfyzs.com/content/11/0628/14/11586_130115300.shtml 2011/6/28 14:37:05
Key – 結構化數(shù)據(jù) 存儲。一致性hash下的數(shù)據(jù)備份通常采用下面的方法:將數(shù)據(jù)冗余的存在其歸屬的節(jié)點的順序往下的節(jié)點,例如你的冗余系數(shù)為3(即數(shù)據(jù)會在不同節(jié)點中保存三份),那么如果通過hash計算你的數(shù)據(jù)在A區(qū)間[7,233],你的數(shù)據(jù)會被同時保存在A,B,C三個節(jié)點上。而范圍分區(qū)時如果某個節(jié)點故障了,它上面的數(shù)據(jù)可以被分配到多個節(jié)點上,而不像在一致性hash時,只能遷移到其順序的后一個節(jié)點,造成下一個節(jié)點的負載飆升。
B樹、B-樹、B 樹、B*樹 - 學習筆記 - 51CTO技術博客 http://www.ahfyzs.com/content/11/0624/10/11586_129215907.shtml 2011/6/24 10:29:59
B+樹的分裂:當一個結點滿時,分配一個新的結點,并將原結點中1/2的數(shù)據(jù)復制到新結點,最后在父結點中增加新結點的指針;B*樹的分裂:當一個結點滿時,如果它的下一個兄弟結點未滿,那么將一部分數(shù)據(jù)移到兄弟結點中,再在原結點插入關鍵字,最后修改父結點中兄弟結點的關鍵字(因為兄弟結點的關鍵字范圍改變了);B+樹:在B-樹基礎上,為葉子結點增加鏈表指針,所有關鍵字都在葉子結點中出現(xiàn),非葉子結點作為葉子結點的索引;
Java 序列化的高級認識 http://www.ahfyzs.com/content/11/0623/11/11586_128889926.shtml 2011/6/23 11:03:38
清單 2. 靜態(tài)變量序列化問題代碼。情境:一個子類實現(xiàn)了 Serializable 接口,它的父類都沒有實現(xiàn) Serializable 接口,序列化該子類對象,然后反序列化后輸出父類定義的某變量的數(shù)值,該變量數(shù)值與序列化時的數(shù)值不同。根據(jù)父類對象序列化的規(guī)則,我們可以將不需要被序列化的字段抽取出來放到父類中,子類實現(xiàn)Serializable 接口,父類不實現(xiàn),根據(jù)父類序列化規(guī)則,父類的字段數(shù)據(jù)將不被序列化,形成類圖如圖 2 所示。
HDFS的JAVA接口API操作實例 - Just My weblog – everyth... http://www.ahfyzs.com/content/11/0406/18/11586_107636584.shtml 2011/4/6 18:04:33
Delete HDFS fileIn order to delete a file in Hadoop file system, we need the full name (path + name) of the file we want to delete.@72ffbWed Jun 02 18:29:14 CST 2010read [dfs.txt] from hdfs:est hdfs test hdfs test hdfs test hdfs test hdfs test hdfs.[cluster /opt/hadoop/source]$hadoop fs -cat dfs.txttest hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs test hdfs.
Java NIO 入門學習(讀寫文件) - Java - 拼吾愛程序人生 - 最新編程技術... http://www.ahfyzs.com/content/11/0406/09/11586_107508722.shtml 2011/4/6 9:54:47
Java NIO 入門學習(讀寫文件) - Java - 拼吾愛程序人生 - 最新編程技術...我們用原有 IO 讀寫文件應該不會陌生了,順帶回顧一下,大致兩種:10. //整個文件內(nèi)容全讀入緩沖區(qū),即是內(nèi)存映射文件。20.}復制代碼上面程序使用了一個與文件尺寸等大的緩沖區(qū),正好能一次性把文件內(nèi)容全部讀入內(nèi)存,如果文件過多將是十分耗費的內(nèi)存的,所以我們可能須手工指定某個大小(如 1024,2048) 的緩沖區(qū),然后分多次讀入文件內(nèi)容到緩沖區(qū)中。