0% found this document useful (0 votes)

77 views2 pages

Pig

Pig allows you to write custom user-defined functions (UDFs) and inject them into specific parts of the data processing pipeline. While Pig does not enforce an explicit data schema, debugging is often focused on schema issues as data types can change unexpectedly during processing. You can write UDFs in Python and leverage Pig for large-scale data processing by applying your UDFs at specific steps.

Uploaded by

AMIT ARORA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

77 views2 pages

Pig

Uploaded by

AMIT ARORA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

Since it is procedural, you could control of the execution of every step.

If you want to write your own UDF(User Defined Function) and inject in one specific
part in the pipeline,
it is straightforward.

Data Schema is not enforced explicitly but implicitly. I think this is big one,
too.
The debugging of pig scripts in my experience is %90 of time schema and since it
does not enforce an explicit schema, sometimes one data structure goes bytearray,
which is a �raw� data type and unless you coerce the fields even the strings, they
turn bytearray without notice.
This may propagate for other steps of the data processing.

You could write your UDFs in Python.

You have UDFs which you want to parallellize and utilize for large amounts of data,
then you are in luck.
Use Pig as a base pipeline where it does the hard work and you just apply your UDF
in the step that you want.

A class for Java programs to connect to Pig. Typically a program will create a
PigServer instance

pig -x local myscript.pig

pig

Basic commands

sh ls

clear

help

Execute pig commands

truck_events1 = LOAD '/user/centos/drivers.csv' USING PigStorage(',');

DESCRIBE truck_events1;

truck_events2 = LOAD '/user/centos/drivers.csv' USING PigStorage(',')

AS (driverId:int, truckId:int, eventTime:chararray,
eventType:chararray, longitude:double, latitude:double,
eventKey:chararray, correlationId:long, driverName:chararray,
routeId:long,routeName:chararray,eventDate:chararray);
DESCRIBE truck_events2;

truck_events_subset = LIMIT truck_events2 10;

DESCRIBE truck_events_subset;

DUMP truck_events_subset;

specific_columns = FOREACH truck_events_subset GENERATE driverId, eventTime,

eventType;
DESCRIBE specific_columns;
STORE specific_columns INTO 'output1/specific_columns' USING PigStorage(',')

orders = load '/user/centos/data1.csv' using PigStorage(',') as

(cstrId:int,itmId:int,orderDate:long,deliveryDate:long);
grpd = group orders by cstrId;
items_by_customer = foreach grpd generate group as cstrId, COUNT(orders) as
itemCnt;
describe items_by_customer;

orders = load '/user/centos/data1.csv' using PigStorage(',') as (cstrId:int,

itmId:int, orderDate:long, deliveryDate: long);
cstr_info = load '/user/centos/information.csv' using PigStorage(',') as
(cstrId:int, name:chararray, city:chararray);
jnd = join orders by cstrId, cstr_info by cstrId;
describe jnd;
jnd_grp = group jnd by (orders::itmId, cstr_info::city);
describe jnd_grp;
result = foreach jnd_grp generate FLATTEN(group) , COUNT(jnd) as cnt;
describe result;

Pig Practical: Mcjjcbek/View?Usp Sharing
No ratings yet
Pig Practical: Mcjjcbek/View?Usp Sharing
10 pages
Pig - Lab Demonstrations Explore!: Woha! Pig Is Supercool!
No ratings yet
Pig - Lab Demonstrations Explore!: Woha! Pig Is Supercool!
4 pages
Pig 2
No ratings yet
Pig 2
3 pages
Unit 5
No ratings yet
Unit 5
16 pages
7 Ibiz Pig Workouts
No ratings yet
7 Ibiz Pig Workouts
7 pages
Apache Pig in Nosql Databases
No ratings yet
Apache Pig in Nosql Databases
5 pages
Pig Slides
No ratings yet
Pig Slides
46 pages
Pig
No ratings yet
Pig
16 pages
Pig Framework for Non-Java Developers
No ratings yet
Pig Framework for Non-Java Developers
16 pages
BigData Unit 4
No ratings yet
BigData Unit 4
13 pages
Bda V
No ratings yet
Bda V
10 pages
PIG A Big Data Processor
No ratings yet
PIG A Big Data Processor
49 pages
Hadoop Pig
No ratings yet
Hadoop Pig
111 pages
Lab 5
No ratings yet
Lab 5
9 pages
Pig Hive
No ratings yet
Pig Hive
72 pages
Apache PIG
No ratings yet
Apache PIG
41 pages
Unit 5 Short
No ratings yet
Unit 5 Short
14 pages
BDT Assignment4
No ratings yet
BDT Assignment4
4 pages
Pig Exercise 1
No ratings yet
Pig Exercise 1
10 pages
Unit 5
No ratings yet
Unit 5
19 pages
Pig vs. SQL & MapReduce: Features & Benefits
No ratings yet
Pig vs. SQL & MapReduce: Features & Benefits
21 pages
Unit IV EBDP 22
No ratings yet
Unit IV EBDP 22
97 pages
Big Data Unit-5
No ratings yet
Big Data Unit-5
9 pages
BUDT Individual - Project - 3 - Pig
No ratings yet
BUDT Individual - Project - 3 - Pig
2 pages
Unit-5 (1) BD
No ratings yet
Unit-5 (1) BD
18 pages
BDA Unit-4
No ratings yet
BDA Unit-4
98 pages
BDA Unit - IV
No ratings yet
BDA Unit - IV
81 pages
Notes 5 Unit Big Data
No ratings yet
Notes 5 Unit Big Data
23 pages
U5 Big Data Aktu
No ratings yet
U5 Big Data Aktu
32 pages
PIG Interview Qusetions
No ratings yet
PIG Interview Qusetions
15 pages
Unit-4 PIG
No ratings yet
Unit-4 PIG
9 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Big Data Unit-5
No ratings yet
Big Data Unit-5
81 pages
IMTC634 - Data Science - Chapter 16
No ratings yet
IMTC634 - Data Science - Chapter 16
20 pages
Apache Pig for Data Engineers
No ratings yet
Apache Pig for Data Engineers
5 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Pig 2
No ratings yet
Pig 2
63 pages
Bda Module 5
No ratings yet
Bda Module 5
26 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Session 3.3
No ratings yet
Session 3.3
30 pages
Unit 3
No ratings yet
Unit 3
26 pages
06 Pig 01 Intro 1
No ratings yet
06 Pig 01 Intro 1
23 pages
Apache Pig
No ratings yet
Apache Pig
28 pages
Pig Hive
No ratings yet
Pig Hive
59 pages
Apache Pig Guide: Features & Functions
No ratings yet
Apache Pig Guide: Features & Functions
31 pages
Notes - 5 Unit Big Data
No ratings yet
Notes - 5 Unit Big Data
22 pages
Unit 4 Bba
No ratings yet
Unit 4 Bba
10 pages
Notes Unit 5 Bigdata
No ratings yet
Notes Unit 5 Bigdata
19 pages
Pig Expt 5
No ratings yet
Pig Expt 5
4 pages
Hadoop - Session 7 Python
No ratings yet
Hadoop - Session 7 Python
6 pages
Pig Viva Ques
No ratings yet
Pig Viva Ques
6 pages
Hadoop Week 5
No ratings yet
Hadoop Week 5
78 pages
Apache Pig for Data Engineers
No ratings yet
Apache Pig for Data Engineers
50 pages
Pig Notes-1
No ratings yet
Pig Notes-1
6 pages
Big Data Unit 5 Big Data Notes of Unit 5
No ratings yet
Big Data Unit 5 Big Data Notes of Unit 5
16 pages
BDA Module 4 - Part 1 (Pig) 2023
100% (1)
BDA Module 4 - Part 1 (Pig) 2023
34 pages
Unit 5 Lecture No-2 (PIG)
No ratings yet
Unit 5 Lecture No-2 (PIG)
101 pages
Distributed DBMS Architectures
No ratings yet
Distributed DBMS Architectures
9 pages
Lab 1
No ratings yet
Lab 1
8 pages
Crud Web Api Entity Framework
No ratings yet
Crud Web Api Entity Framework
6 pages
DLink DNS-323 Manual 12
No ratings yet
DLink DNS-323 Manual 12
74 pages
Creating Maps
No ratings yet
Creating Maps
9 pages
OWASP Testing Guidev2 (EUSecWest) v1
No ratings yet
OWASP Testing Guidev2 (EUSecWest) v1
52 pages
Bruce Barnett's Cheat Sheet For SED From
No ratings yet
Bruce Barnett's Cheat Sheet For SED From
4 pages
Aquarius Intuition Workstation - Installation Guide Reva
No ratings yet
Aquarius Intuition Workstation - Installation Guide Reva
67 pages
Python For Scientific and High Performance Com
100% (1)
Python For Scientific and High Performance Com
125 pages
Il Pastore Svizzero Sheet Music For Flute (Solo)
No ratings yet
Il Pastore Svizzero Sheet Music For Flute (Solo)
1 page
Quezon City University: Minor Offence: Violation Monitoring System For Barangay Batasan Hills, Quezon City
No ratings yet
Quezon City University: Minor Offence: Violation Monitoring System For Barangay Batasan Hills, Quezon City
77 pages
Biztalk Deployment Framework Documentation
No ratings yet
Biztalk Deployment Framework Documentation
8 pages
Class 10 Unit 7
No ratings yet
Class 10 Unit 7
7 pages
Creating Custom View and Reports in BPM Worklist
No ratings yet
Creating Custom View and Reports in BPM Worklist
2 pages
Cablehack - Advanced Surfboard Sb5100 "How To".: Masta
No ratings yet
Cablehack - Advanced Surfboard Sb5100 "How To".: Masta
12 pages
Resume Rohan
No ratings yet
Resume Rohan
1 page
Linkstation User Manual 4
No ratings yet
Linkstation User Manual 4
4 pages
C# Special Characters
100% (1)
C# Special Characters
7 pages
SNA Assignment
No ratings yet
SNA Assignment
42 pages
PHP Complaint Management System
No ratings yet
PHP Complaint Management System
5 pages
Android JobScheduler Log Analysis
No ratings yet
Android JobScheduler Log Analysis
93 pages
1z0-182 Exam Dumps
No ratings yet
1z0-182 Exam Dumps
6 pages
Grade 10 Computer Assessment
No ratings yet
Grade 10 Computer Assessment
2 pages
Int222:Advanced Web Development: Course Outcomes
No ratings yet
Int222:Advanced Web Development: Course Outcomes
2 pages
2.5 Some Useful Adjectives: A. Choose The Best Words
No ratings yet
2.5 Some Useful Adjectives: A. Choose The Best Words
1 page
CD00145633 PDF
No ratings yet
CD00145633 PDF
27 pages
Autosar TR Bswmodulelist
No ratings yet
Autosar TR Bswmodulelist
10 pages
Reporting With Reports Viewer in Visual Studio 2005: C# Corner Authors Team
No ratings yet
Reporting With Reports Viewer in Visual Studio 2005: C# Corner Authors Team
25 pages
Sistema Calculo Angulo Peso de Grúa (Kruger)
No ratings yet
Sistema Calculo Angulo Peso de Grúa (Kruger)
85 pages

Pig

Uploaded by

Pig

Uploaded by

Since it is procedural, you could control of the execution of every step.

You could write your UDFs in Python.

pig -x local myscript.pig

Execute pig commands

truck_events1 = LOAD '/user/centos/drivers.csv' USING PigStorage(',');

truck_events2 = LOAD '/user/centos/drivers.csv' USING PigStorage(',')

truck_events_subset = LIMIT truck_events2 10;

specific_columns = FOREACH truck_events_subset GENERATE driverId, eventTime,

orders = load '/user/centos/data1.csv' using PigStorage(',') as

orders = load '/user/centos/data1.csv' using PigStorage(',') as (cstrId:int,

You might also like