0% found this document useful (0 votes)

109 views23 pages

Apache Pig

Apache Pig is a platform for analyzing large datasets that allows you to write code in a language called Pig Latin. Pig Latin scripts can define map and reduce steps to load, filter, group, join, and analyze data stored in HDFS. An example Pig Latin script is provided that loads movie rating data, calculates average ratings by movie, filters for movies with over 4 stars, joins with movie metadata, and orders the results to find the oldest highly rated movies.

Uploaded by

Bora Yüret

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

109 views23 pages

Apache Pig

Uploaded by

Bora Yüret

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 23

APACHE PIG

Why Pig?

■ Writing mappers and reducers by hand

takes a long time.
■ Pig introduces Pig Latin, a scripting
language that lets you use SQL-like
syntax to define your map and reduce
steps.
■ Highly extensible with user-defined
functions (UDF’s)
MapReduce

YARN

HDFS
Running Pig

■ Grunt
■ Script
■ Ambari / Hue
An example

■ Find the oldest 5-star movies

ratings = LOAD '/user/maria_dev/ml-100k/u.data' AS
(userID:int, movieID:int, rating:int, ratingTime:int);

This creates a relation named “ratings” with a given schema.

(660,229,2,891406212)
(421,498,4,892241344)
(495,1091,4,888637503)
(806,421,4,882388897)
(676,538,4,892685437)
(721,262,3,877137285)
Use PigStorage if you need a
different delimiter.
metadata = LOAD '/user/maria_dev/ml-100k/u.item' USING
PigStorage('|')AS (movieID:int, movieTitle:chararray,
releaseDate:chararray, videoRelease:chararray,
imdbLink:chararray);
DUMP metadata;

(1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%20(1995))

(2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(1995))
(3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%20(1995))
(4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%20(1995))
(5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995))
Creating a relation from another
relation; FOREACH / GENERATE
metadata = LOAD '/user/maria_dev/ml-100k/u.item' USING PigStorage('|')
AS (movieID:int, movieTitle:chararray, releaseDate:chararray,
videoRelease:chararray, imdbLink:chararray);
nameLookup = FOREACH metadata GENERATE movieID, movieTitle,
ToUnixTime(ToDate(releaseDate, 'dd-MMM-yyyy')) AS releaseTime;

(1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%20(1995))

(1,Toy Story (1995),788918400)

Group By

ratingsByMovie = GROUP ratings BY movieID;

DUMP ratingsByMovie;

(1,{(807,1,4,892528231),(554,1,3,876231938),(49,1,2,888068651), … }
(2,{(429,2,3,882387599),(551,2,2,892784780),(774,2,1,888557383), … }
ratingsByMovie: {group: int,ratings: {(userID: int,movieID: int,rating: int,ratingTime: int)}}

avgRatings = FOREACH ratingsByMovie GENERATE group AS movieID,

AVG(ratings.rating) AS avgRating;
DUMP avgRatings;

(1,3.8783185840707963)
(2,3.2061068702290076)
(3,3.033333333333333)
(4,3.550239234449761)
(5,3.302325581395349)

DESCRIBE ratings;
DESCRIBE ratingsByMovie;
DESCRIBE avgRatings;

ratings: {userID: int,movieID: int,rating: int,ratingTime: int}

ratingsByMovie: {group: int,ratings: {(userID: int,movieID: int,rating: int,ratingTime: int)}}

avgRatings: {movieID: int,avgRating: double}

FILTER

fiveStarMovies = FILTER avgRatings BY avgRating > 4.0;

(12,4.385767790262173)
(22,4.151515151515151)
(23,4.1208791208791204)
(45,4.05)
JOIN
DESCRIBE fiveStarMovies;
DESCRIBE nameLookup;
fiveStarsWithData = JOIN fiveStarMovies BY movieID, nameLookup BY movieID;
DESCRIBE fiveStarsWithData;
DUMP fiveStarsWithData;

fiveStarMovies: {movieID: int,avgRating: double}

nameLookup: {movieID: int,movieTitle: chararray,releaseTime: long}

fiveStarsWithData: {fiveStarMovies::movieID: int,fiveStarMovies::avgRating: double,

nameLookup::movieID: int,nameLookup::movieTitle: chararray,nameLookup::releaseTime: long}

(12,4.385767790262173,12,Usual Suspects, The (1995),808358400)

(22,4.151515151515151,22,Braveheart (1995),824428800)
(23,4.1208791208791204,23,Taxi Driver (1976),824428800)
ORDER BY
oldestFiveStarMovies = ORDER fiveStarsWithData BY
nameLookup::releaseTime;
DUMP oldestFiveStarMovies;

(493,4.15,493,Thin Man, The (1934),-1136073600)

(604,4.012345679012346,604,It Happened One Night (1934),-1136073600)
(615,4.0508474576271185,615,39 Steps, The (1935),-1104537600)
(1203,4.0476190476190474,1203,Top Hat (1935),-1104537600)
Putting it all together
Let’s run it
Pig Latin: Diving Deeper
Things you can do to a relation
■ LOAD STORE DUMP
– STORE ratings INTO ‘outRatings’ USING PigStorage(‘:’);
■ FILTER DISTINCT FOREACH/GENERATE MAPREDUCE STREAM SAMPLE
■ JOIN COGROUP GROUP CROSS CUBE
■ ORDER RANK LIMIT
■ UNION SPLIT
Diagnostics

■ DESCRIBE
■ EXPLAIN
■ ILLUSTRATE
UDF’s

■ REGISTER
■ DEFINE
■ IMPORT
Some other functions and loaders

■ AVG CONCAT COUNT MAX MIN SIZE SUM

■ PigStorage
■ TextLoader
■ JsonLoader
■ AvroStorage
■ ParquetLoader
■ OrcStorage
■ HBaseStorage
Learning more
PIG CHALLENGE
Find the most popular bad movies
Defining the problem

■ Find all movies with an average rating less than 2.0

■ Sort them by the total number of ratings
Hint

■ We used everything you need in our earlier example of finding old movies with
ratings greater than 4.0
■ Only new thing you need is COUNT(). This lets you count up the number of
items in a bag.
– So just like you can say AVG(ratings.rating) to get the average rating
from a bag of ratings,
– You can say COUNT(ratings.rating) to get the total number of ratings for
a given group’s bag.

Lab 5
No ratings yet
Lab 5
9 pages
PIG A Big Data Processor
No ratings yet
PIG A Big Data Processor
49 pages
Apache Pig for Data Engineers
No ratings yet
Apache Pig for Data Engineers
50 pages
Apache Pig: Big Data Analytics Guide
No ratings yet
Apache Pig: Big Data Analytics Guide
65 pages
Apache PIG
No ratings yet
Apache PIG
41 pages
Unit 5 Lecture No-2 (PIG)
No ratings yet
Unit 5 Lecture No-2 (PIG)
101 pages
Unit IV EBDP 22
No ratings yet
Unit IV EBDP 22
97 pages
Apache Pig: Senthil Kumar A
No ratings yet
Apache Pig: Senthil Kumar A
24 pages
Unit 5 Lecture No-2 (PIG)
No ratings yet
Unit 5 Lecture No-2 (PIG)
94 pages
Flicksery Use Case Analysis with Pig
No ratings yet
Flicksery Use Case Analysis with Pig
13 pages
Bda - Module Ii
No ratings yet
Bda - Module Ii
239 pages
05a Pig
No ratings yet
05a Pig
52 pages
BDA Module 4 - Part 1 (Pig) 2023
100% (1)
BDA Module 4 - Part 1 (Pig) 2023
34 pages
Unit IV - Pig PDF
No ratings yet
Unit IV - Pig PDF
79 pages
Apache Pig
100% (2)
Apache Pig
80 pages
Apache Pig
No ratings yet
Apache Pig
61 pages
Hadoop Pig
No ratings yet
Hadoop Pig
111 pages
BigData Module 2
No ratings yet
BigData Module 2
41 pages
Pig Hive
No ratings yet
Pig Hive
72 pages
Module-IV Pig
No ratings yet
Module-IV Pig
34 pages
Apache Pig Guide: Features & Functions
No ratings yet
Apache Pig Guide: Features & Functions
31 pages
Pig Slides
No ratings yet
Pig Slides
46 pages
Hadoop Week 5
No ratings yet
Hadoop Week 5
78 pages
Hadoop Pig Presentation
No ratings yet
Hadoop Pig Presentation
33 pages
Thejas Nair Pig Team at Yahoo! Apache Pig PMC Member
No ratings yet
Thejas Nair Pig Team at Yahoo! Apache Pig PMC Member
22 pages
Big Data Unit-5
No ratings yet
Big Data Unit-5
81 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
7 Ibiz Pig Workouts
No ratings yet
7 Ibiz Pig Workouts
7 pages
BDA Unit - IV
No ratings yet
BDA Unit - IV
81 pages
Pig
No ratings yet
Pig
16 pages
Chapter 5 - Introducing Pig Pig Architecture
No ratings yet
Chapter 5 - Introducing Pig Pig Architecture
81 pages
BDA Unit 5-1
No ratings yet
BDA Unit 5-1
29 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Introduction To Pig: SESSION 2016-2017
No ratings yet
Introduction To Pig: SESSION 2016-2017
44 pages
Bda V
No ratings yet
Bda V
10 pages
Apache Pig for Data Analysts
No ratings yet
Apache Pig for Data Analysts
58 pages
Chapter 10
No ratings yet
Chapter 10
50 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Pig: Building High-Level Dataflows Over Map-Reduce: Utkarsh Srivastava
No ratings yet
Pig: Building High-Level Dataflows Over Map-Reduce: Utkarsh Srivastava
46 pages
Unit 4 Apachepig 210825041412
No ratings yet
Unit 4 Apachepig 210825041412
16 pages
Pig Hive
No ratings yet
Pig Hive
59 pages
Pig 2
No ratings yet
Pig 2
63 pages
Pig
No ratings yet
Pig
61 pages
Big Data and Analytics by Seema Acharya and Subhashini Chellappan Copyright 2015, WILEY INDIA PVT. LTD. Introduction To Pig
67% (3)
Big Data and Analytics by Seema Acharya and Subhashini Chellappan Copyright 2015, WILEY INDIA PVT. LTD. Introduction To Pig
34 pages
Unit 5-1
No ratings yet
Unit 5-1
8 pages
Unit V-Apache Pig
No ratings yet
Unit V-Apache Pig
10 pages
Pig
No ratings yet
Pig
12 pages
Pig Framework for Non-Java Developers
No ratings yet
Pig Framework for Non-Java Developers
16 pages
Big Data Applications: Pig & Hive
No ratings yet
Big Data Applications: Pig & Hive
29 pages
Unit 5 (Pig, Hive, Hbase)
No ratings yet
Unit 5 (Pig, Hive, Hbase)
18 pages
Big Data Unit-5
No ratings yet
Big Data Unit-5
9 pages
Big Data Processing, 2014/15: Lecture 8: Pig Latin!
No ratings yet
Big Data Processing, 2014/15: Lecture 8: Pig Latin!
58 pages
BigData Unit 4
No ratings yet
BigData Unit 4
13 pages
Experiment-7 BDA
No ratings yet
Experiment-7 BDA
4 pages
BIG DATA Module 2 FINAL SMI
No ratings yet
BIG DATA Module 2 FINAL SMI
44 pages
ETL - With - Apache Pig
No ratings yet
ETL - With - Apache Pig
61 pages
BDA Unit-4
No ratings yet
BDA Unit-4
98 pages
Experiment-7 Pig-Script
No ratings yet
Experiment-7 Pig-Script
4 pages
Swine Management - Eg's
100% (5)
Swine Management - Eg's
88 pages
Pig Farming Book 3
50% (4)
Pig Farming Book 3
67 pages
CVB Booklet of Feeding Tables For Pigs 2023
No ratings yet
CVB Booklet of Feeding Tables For Pigs 2023
40 pages
Housing For Swine Production
100% (4)
Housing For Swine Production
87 pages
Swine Production Guide
100% (4)
Swine Production Guide
146 pages
Q1 Animal Production (Swine) NC II 9-12 - Module 1
100% (2)
Q1 Animal Production (Swine) NC II 9-12 - Module 1
22 pages
Goat & Sheep Management
100% (3)
Goat & Sheep Management
20 pages
Pig Production Training Manual Original
83% (12)
Pig Production Training Manual Original
41 pages
Animal Production: (Swine)
100% (4)
Animal Production: (Swine)
43 pages
Different Methods in Detecting Heat
No ratings yet
Different Methods in Detecting Heat
28 pages
Topic 4 Routine Management Practices For Pigs
No ratings yet
Topic 4 Routine Management Practices For Pigs
41 pages
Alternative Feed Ingredients in Swine Diets
No ratings yet
Alternative Feed Ingredients in Swine Diets
16 pages
SWINE PRODUCTION Review 2010
71% (7)
SWINE PRODUCTION Review 2010
124 pages
Pig Care Manual
100% (5)
Pig Care Manual
301 pages
Handle Breeders Leading To Animal Production
100% (4)
Handle Breeders Leading To Animal Production
14 pages
RSPCA Welfare Standards For Pigs (PDF 5.72MB)
No ratings yet
RSPCA Welfare Standards For Pigs (PDF 5.72MB)
96 pages
Recommends For Pork Production
100% (2)
Recommends For Pork Production
157 pages
Swine Management Manual: Agricultural Instructional
No ratings yet
Swine Management Manual: Agricultural Instructional
129 pages
ANIMAL PRODUCTION SWINE NC II Handouts All Competency
100% (1)
ANIMAL PRODUCTION SWINE NC II Handouts All Competency
13 pages
Pig Production Technology For Piggery Farmers
100% (9)
Pig Production Technology For Piggery Farmers
76 pages
Textbook On Pig Breeding PDF
100% (6)
Textbook On Pig Breeding PDF
37 pages
Feeds and Feeding
100% (2)
Feeds and Feeding
125 pages
Farmer's Choice Pig Management Manual: Quality Meat Products
100% (2)
Farmer's Choice Pig Management Manual: Quality Meat Products
16 pages
Pig Farming Cost and Feed Analysis
No ratings yet
Pig Farming Cost and Feed Analysis
7 pages
Poultry Feed Formulation Manual by Thomas Yego
100% (7)
Poultry Feed Formulation Manual by Thomas Yego
39 pages
Poultry Feeds Booklet PDF
67% (3)
Poultry Feeds Booklet PDF
33 pages
Overview of Swine Production - 20
No ratings yet
Overview of Swine Production - 20
55 pages
Animal Production Swine nc2 - 1st - 2nd Week of Module
100% (7)
Animal Production Swine nc2 - 1st - 2nd Week of Module
10 pages
Pig Farming Guide
100% (2)
Pig Farming Guide
30 pages
Health Management For Fattening Pigs
100% (2)
Health Management For Fattening Pigs
24 pages
Mongodb Tutorial
100% (4)
Mongodb Tutorial
101 pages
Section3-17 UsingPigAndUsingScripts
No ratings yet
Section3-17 UsingPigAndUsingScripts
1 page
Most One-Star Movies
No ratings yet
Most One-Star Movies
1 page
Cassandra: A Distributed Database With No Single Point of Failure
100% (1)
Cassandra: A Distributed Database With No Single Point of Failure
9 pages
Introduction To Kubernetes
No ratings yet
Introduction To Kubernetes
182 pages
Apache Drill: SQL For Nosql
No ratings yet
Apache Drill: SQL For Nosql
7 pages
Mesos: Beyond Hadoop Resource Management
No ratings yet
Mesos: Beyond Hadoop Resource Management
7 pages
Zeppelin: A Notebook Interface To Your Big Data
No ratings yet
Zeppelin: A Notebook Interface To Your Big Data
5 pages
Oozie: Hadoop Job Orchestration
No ratings yet
Oozie: Hadoop Job Orchestration
10 pages
Hadoop User Experience
No ratings yet
Hadoop User Experience
5 pages
Hbase
No ratings yet
Hbase
15 pages
Flink: Another Data Stream Framework!
No ratings yet
Flink: Another Data Stream Framework!
7 pages
Linux Magazine USAIssue 243 February 2021
No ratings yet
Linux Magazine USAIssue 243 February 2021
102 pages
Internet: Pros and Cons Analysis
No ratings yet
Internet: Pros and Cons Analysis
9 pages
Chapter On1 1
No ratings yet
Chapter On1 1
27 pages
M-6 Reagent MSDS
100% (1)
M-6 Reagent MSDS
26 pages
A Variable Turbulent Schmidt Number Formulation For Scramjet Application
No ratings yet
A Variable Turbulent Schmidt Number Formulation For Scramjet Application
7 pages
Click Clack Moo
No ratings yet
Click Clack Moo
7 pages
Neuroq Dicom File Transfer Instructions: Setting Up Dicom Nodes On Oem Pet Equipment General Electric
No ratings yet
Neuroq Dicom File Transfer Instructions: Setting Up Dicom Nodes On Oem Pet Equipment General Electric
15 pages
NIT Silchar Admin Dashboard
No ratings yet
NIT Silchar Admin Dashboard
2 pages
Safety-First Portfolio Selection
No ratings yet
Safety-First Portfolio Selection
12 pages
W8 (Value Judgement)
No ratings yet
W8 (Value Judgement)
22 pages
Computer Hardware Essentials
No ratings yet
Computer Hardware Essentials
21 pages
SG 248434
No ratings yet
SG 248434
508 pages
Grace Sermon Series PDF
75% (4)
Grace Sermon Series PDF
17 pages
Bud Getting
No ratings yet
Bud Getting
43 pages
My PGDCA Assignment
No ratings yet
My PGDCA Assignment
5 pages
8051 Microcontroller Arithmetic & Logical Operations Guide
No ratings yet
8051 Microcontroller Arithmetic & Logical Operations Guide
86 pages
Best 409A Valuations Providers Service in 2023 - G2
No ratings yet
Best 409A Valuations Providers Service in 2023 - G2
12 pages
Developmental and Reproductive Toxicology A Practical Approach - 3rd Edition ISBN 1841847771, 9781841847771 Latest Edition Download
No ratings yet
Developmental and Reproductive Toxicology A Practical Approach - 3rd Edition ISBN 1841847771, 9781841847771 Latest Edition Download
16 pages
TAO Bedah Digestif 05 November 2023 Update
No ratings yet
TAO Bedah Digestif 05 November 2023 Update
90 pages
Esc Attiny 85 Brushed
No ratings yet
Esc Attiny 85 Brushed
2 pages
Summary of Blooms Taxonomy
No ratings yet
Summary of Blooms Taxonomy
4 pages
Advanced Computing
No ratings yet
Advanced Computing
525 pages
Dolomite, Dolomitic Limestone, & Carey Dried Stone: Material Safety Data Sheet
No ratings yet
Dolomite, Dolomitic Limestone, & Carey Dried Stone: Material Safety Data Sheet
3 pages
Simulation Mock
No ratings yet
Simulation Mock
18 pages
Surgery Partners Equity Research Report
No ratings yet
Surgery Partners Equity Research Report
12 pages
CA-103-C-Language Notes
No ratings yet
CA-103-C-Language Notes
77 pages
(Ephesians 5-8-14) Living in The Light While Residing in A Dark World
No ratings yet
(Ephesians 5-8-14) Living in The Light While Residing in A Dark World
11 pages
Cement Plant Equipment for Sale
No ratings yet
Cement Plant Equipment for Sale
64 pages
Unit V PH, Buffers and Isotonic Solution
100% (2)
Unit V PH, Buffers and Isotonic Solution
17 pages
ACCT 251 Practice Set
No ratings yet
ACCT 251 Practice Set
27 pages
Brunello Cucinelli: The Entrepreneur Who Merges Luxury With Ethics - Italianraw
No ratings yet
Brunello Cucinelli: The Entrepreneur Who Merges Luxury With Ethics - Italianraw
17 pages

Apache Pig

Uploaded by

Apache Pig

Uploaded by

APACHE PIG

■ Writing mappers and reducers by hand

■ Find the oldest 5-star movies

This creates a relation named “ratings” with a given schema.

(1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%20(1995))

(1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%20(1995))

(1,Toy Story (1995),788918400)

ratingsByMovie = GROUP ratings BY movieID;

avgRatings = FOREACH ratingsByMovie GENERATE group AS movieID,

ratings: {userID: int,movieID: int,rating: int,ratingTime: int}

ratingsByMovie: {group: int,ratings: {(userID: int,movieID: int,rating: int,ratingTime: int)}}

avgRatings: {movieID: int,avgRating: double}

fiveStarMovies = FILTER avgRatings BY avgRating > 4.0;

fiveStarMovies: {movieID: int,avgRating: double}

fiveStarsWithData: {fiveStarMovies::movieID: int,fiveStarMovies::avgRating: double,

(12,4.385767790262173,12,Usual Suspects, The (1995),808358400)

(493,4.15,493,Thin Man, The (1934),-1136073600)

■ AVG CONCAT COUNT MAX MIN SIZE SUM

■ Find all movies with an average rating less than 2.0

You might also like