Yahoo Pig 是一個(gè)運(yùn)行在Hadoop(Doug Cutting 在06年3月份加入了Yahoo )上的并行處理架構(gòu),有了Pig 使得普通的程序員具有了分析處理gigantic數(shù)據(jù)集的能力。
Pig目前還是apache的一個(gè)孵化器項(xiàng)目,
Pig 主頁:http://incubator./pig/
Pig wiki:http://wiki./pig/
Yahoo Pig 有如下特點(diǎn):
1、專注于于大量數(shù)據(jù)集分析(ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem );
2、運(yùn)行在集群的計(jì)算架構(gòu)上,Yahoo Pig 提供了多層抽象,簡化并行計(jì)算讓普通用戶使用;這些抽象完成自動(dòng)把用戶請求queries翻譯成有效的并行評估計(jì)劃,然后在物理集群上執(zhí)行這些計(jì)劃;
3、提供類似 SQL 的操作語法;
4、開放源代碼;