Apache Pig BinStorage()用法及代碼示例

這個BinStorage()函數用於使用機器可讀格式將數據加載和存儲到 Pig 中。BinStorge()in Pig 一般用於存儲 MapReduce 作業之間產生的臨時數據。它支持多個位置作為輸入。

用法

下麵給出的是BinStorage()函數。

grunt> BinStorage();

示例

假設我們有一個名為stu_data.txt在 HDFS 目錄中/pig_data/如下所示。

Stu_data.txt

001,Rajiv_Reddy,21,Hyderabad 
002,siddarth_Battacharya,22,Kolkata 
003,Rajesh_Khanna,22,Delhi 
004,Preethi_Agarwal,21,Pune 
005,Trupthi_Mohanthy,23,Bhuwaneshwar 
006,Archana_Mishra,23,Chennai 
007,Komal_Nayak,24,trivendram 
008,Bharathi_Nambiayar,24,Chennai

讓我們將這些數據加載到 Pig 中，形成如下所示的關係。

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/stu_data.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, age:int, city:chararray);

現在，我們可以store這個關係到名為 HDFS 的目錄中/pig_data/使用BinStorage()函數。

grunt> STORE student_details INTO 'hdfs://localhost:9000/pig_Output/mydata' USING BinStorage();

執行上述語句後，關係存儲在給定的 HDFS 目錄中。您可以使用 HDFS 查看它ls command如下所示。

$ hdfs dfs -ls hdfs://localhost:9000/pig_Output/mydata/
  
Found 2 items 
-rw-r--r--   1 Hadoop supergroup       0 2015-10-26 16:58
hdfs://localhost:9000/pig_Output/mydata/_SUCCESS

-rw-r--r--   1 Hadoop supergroup        372 2015-10-26 16:58
hdfs://localhost:9000/pig_Output/mydata/part-m-00000

現在，從文件中加載數據part-m-00000。

grunt> result = LOAD 'hdfs://localhost:9000/pig_Output/b/part-m-00000' USING BinStorage();

驗證關係的內容如下所示

grunt> Dump result; 

(1,Rajiv_Reddy,21,Hyderabad) 
(2,siddarth_Battacharya,22,Kolkata) 
(3,Rajesh_Khanna,22,Delhi) 
(4,Preethi_Agarwal,21,Pune) 
(5,Trupthi_Mohanthy,23,Bhuwaneshwar) 
(6,Archana_Mishra,23,Chennai) 
(7,Komal_Nayak,24,trivendram) 
(8,Bharathi_Nambiayar,24,Chennai)

相關用法

注：本文由純淨天空篩選整理自 Apache Pig - BinStorage()。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。