0% found this document useful (0 votes)

39 views47 pages

Hive Introduction

The document provides an introduction to Hive, a data warehouse infrastructure built on Apache Hadoop that allows for SQL-like querying of large datasets. It covers Hive's architecture, features, data types, and file formats, as well as user-defined functions and various metastore configurations. Additionally, it includes resources for further learning and contact information for the author.

Uploaded by

relaxeddavinci0

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

39 views47 pages

Hive Introduction

Uploaded by

relaxeddavinci0

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 47

INTRODUCTION TO

HIVE

© Big Data Analytics By Rashmi Benni 1

AGENDA:
❏ Overview and Architecture of Hive
❏ Hive Data Types
❏ Hive File Format
❏ Hive Query
❏ Language (HQL)
❏ RCFile Implementation
❏ User-Defined Function (UDF)

© Big Data Analytics By Rashmi Benni 2

WHAT IS HIVE?
Hive is a data warehouse infrastructure built on top of
Apache Hadoop. It provides a SQL-like interface to query
data stored in various databases and file systems that
integrate with Hadoop. Hive is designed for managing and
querying large datasets stored in Hadoop Distributed File
System (HDFS) using HiveQL, a SQL-like language.

© Big Data Analytics By Rashmi Benni 3

© Big Data Analytics By Rashmi Benni 4
FEATURES OF HIVE:
❏ Open source – Hive is free to use and supported by a strong open-source
community.

❏ Multiple users – It supports concurrent access by multiple users for

collaborative data analysis.

❏ File formats – Hive can process data in various formats like Text, ORC,
Parquet, Avro, etc.

❏ Built-in function – It offers a rich set of built-in functions for data

manipulation and analysis.

© Big Data Analytics By Rashmi Benni 5

FEATURES OF HIVE:
❏ External table – Allows linking to data stored outside Hive without
moving it into the warehouse.

❏ Fast – Optimized for fast querying of large datasets using

execution engines like Tez or Spark.

❏ Table structure – Data is organized into tables with partitions and

buckets for efficient access.

© Big Data Analytics By Rashmi Benni 6

FEATURES OF HIVE:
❏ ETL support – Hive is widely used for ETL (Extract, Transform,
Load) operations in data pipelines.

❏ Storage – It integrates with HDFS and other storage systems to

manage large-scale data efficiently.

❏ Ad-hoc queries – Enables users to run quick, flexible queries

without pre-defined reports or jobs.

© Big Data Analytics By Rashmi Benni 7

© Big Data Analytics By Rashmi Benni 8
HIVE ARCHITECTURE:
▣ Hive – Acts as a data warehouse infrastructure built on top of
Hadoop for querying and analyzing large datasets.

▣ Command-line Interface (CLI) – Provides a terminal-based interface

for users to submit HiveQL queries.

▣ Hive Web Interface – A GUI that allows users to interact with Hive
through a browser.
□
© Big Data Analytics By Rashmi Benni 9
HIVE ARCHITECTURE:
▣ Hive Server (Thrift) – Enables remote clients to execute queries via
a network using Thrift protocol.

▣ Driver (Query Compiler, Executor) – Manages the lifecycle of a

HiveQL query including parsing, compiling, optimizing, and executing
it.

▣ Metastore – Stores metadata about databases, tables, partitions,

columns, and their data types.
© Big Data Analytics By Rashmi Benni 10
HIVE ARCHITECTURE:
▣ Hive JobTracker – Manages and schedules MapReduce jobs across
the Hadoop cluster.

▣ TaskTracker – Executes individual tasks as assigned by the

JobTracker on slave nodes.

© Big Data Analytics By Rashmi Benni 11

HIVE ARCHITECTURE:
▣ HDFS (Hadoop Distributed File System) – Stores the actual data
files managed by Hive tables.

▣ Hadoop – The underlying distributed computing framework that Hive

uses for data processing.

□
© Big Data Analytics By Rashmi Benni 12
© Big Data Analytics By Rashmi Benni 13
EMBEDDED METASTORE:
▣ Metastore runs in the same JVM as the Hive service (Driver)
using an embedded Derby database.

▣ Suitable for single-user or test environments due to limited

concurrency.

▣ Only one Hive session can access the metastore at a time, making
it ideal for development setups.

© Big Data Analytics By Rashmi Benni 14

LOCAL METASTORE:
▣ Metastore is still in the same JVM as the Hive Driver but
connects to an external database like MySQL.

▣ Allows multiple Hive sessions (Drivers) to connect to a shared

metastore database.

▣ Offers better concurrency and is suitable for small-scale

production environments.

© Big Data Analytics By Rashmi Benni 15

REMOTE METASTORE:
▣ Metastore runs in a separate JVM (Metastore Server JVM) and
is accessed over a network.

▣ Multiple Hive clients (Drivers) can access the centralized

metastore concurrently.

▣ Ideal for large-scale production systems with high concurrency

and separation of services.

© Big Data Analytics By Rashmi Benni 16

DATA TYPES IN HIVE

© Big Data Analytics By Rashmi Benni 17

© Big Data Analytics By Rashmi Benni 18
NUMERIC DATA TYPES:
-- Create table with numeric types
CREATE TABLE student_numeric (
id INT,
age TINYINT,
marks FLOAT,
total_score DECIMAL(5,2)
);

-- Insert data
INSERT INTO student_numeric VALUES (1, 20, 85.5, 87.75);

© Big Data Analytics By Rashmi Benni 19

© Big Data Analytics By Rashmi Benni 20
STRING DATA TYPES:
-- Create table with string types
CREATE TABLE student_string (
name STRING,
nickname VARCHAR(20),
code CHAR(5)
);

-- Insert data
INSERT INTO student_string VALUES ('Rahul', 'Rahu', 'C1234');

© Big Data Analytics By Rashmi Benni 22
MISCELLANEOUS DATA TYPES:
-- Create table with miscellaneous types
CREATE TABLE student_misc (
is_active BOOLEAN,
dob DATE,
login_time TIMESTAMP,
photo BINARY
);

-- Insert data (note: BINARY insert via LOAD or programmatically)

INSERT INTO student_misc VALUES (true, '2002-05-12', '2024-01-01
10:00:00', NULL);

© Big Data Analytics By Rashmi Benni 24
ARRAY:
-- Table with ARRAY type
CREATE TABLE student_array (
name STRING,
subjects ARRAY<STRING>
);

-- Insert data
INSERT INTO student_array VALUES ('Ravi', ARRAY('Math', 'Physics',
'Chemistry'));

MAP:
-- Table with MAP type
CREATE TABLE student_map (
name STRING,
subject_marks MAP<STRING, INT>
);

-- Insert data
INSERT INTO student_map VALUES ('Anu', MAP('Math', 90, 'Science', 85));

STRUCT:
-- Table with STRUCT type
CREATE TABLE student_struct (
id INT,
details STRUCT<name:STRING, age:INT, grade:STRING>
);

-- Insert data
INSERT INTO student_struct VALUES (101, NAMED_STRUCT('name','Kiran',
'age',22, 'grade','A'));

HIVE FILE FORMAT
TYPES

© Big Data Analytics By Rashmi Benni 29
© Big Data Analytics By Rashmi Benni 30
© Big Data Analytics By Rashmi Benni 31
HIVE DATA
WAREHOUSE SOLUTION

© Big Data Analytics By Rashmi Benni 36
© Big Data Analytics By Rashmi Benni 37
© Big Data Analytics By Rashmi Benni 38
© Big Data Analytics By Rashmi Benni 39
© Big Data Analytics By Rashmi Benni 40
© Big Data Analytics By Rashmi Benni 41
© Big Data Analytics By Rashmi Benni 42
© Big Data Analytics By Rashmi Benni 43
RESOURCES:
1. “Hive Course For Beginners”
https://youtu.be/nVI4xEH7yU8?si=xKW4RSnX-ogzPCOb

2. “Hive Query Language Tutorial | HQL | Cloudera| Hands on Training”

https://youtu.be/gVDRTqMomDs?si=aoRIhaGdVbwiTHN-

3. “Hive Query Language Tutorial | HQL | Working with Joins | Cloudera|

Hands on Training”
https://youtu.be/8Pk5X5NNLWo?si=N-5IcBtkF8To1Box

RESOURCES:
4. “Hive Static and Dynamic Table Partition | HQL | Index & View
| Cloudera| Hands on Training”
https://youtu.be/tUJmq4OnESs?si=AyZGZplLlsFDeHxr

5. “Apache Hive Tutorial For Beginners | Big Data Training |

Edureka | Big Data Rewind”
https://www.youtube.com/live/HhJX6KkdjRM?si=JdVG8QOlYf8ep4Cp

Thank YOU!
Any questions?
You can ﬁnd me at
rashmi.benni@kletech.ac.in
rashmi.benni16@gmail.com

HAPPY LEARNING!

Hive Database & Analytics Guide
No ratings yet
Hive Database & Analytics Guide
10 pages
Apache Hive: Data Warehousing on Hadoop
No ratings yet
Apache Hive: Data Warehousing on Hadoop
28 pages
Session 3.1
No ratings yet
Session 3.1
29 pages
Big Data & Analytics (CSE6005) L6
No ratings yet
Big Data & Analytics (CSE6005) L6
56 pages
Unit 5 Lecture No-1 (Hive)
No ratings yet
Unit 5 Lecture No-1 (Hive)
30 pages
Bda M4
No ratings yet
Bda M4
52 pages
IET Udaipur BDA Unit-5
No ratings yet
IET Udaipur BDA Unit-5
9 pages
BDA Hive
No ratings yet
BDA Hive
22 pages
Bda Report
No ratings yet
Bda Report
16 pages
Unit 5 Lecture No-1 (Hive)
No ratings yet
Unit 5 Lecture No-1 (Hive)
30 pages
Chapter+9+ HIVE
No ratings yet
Chapter+9+ HIVE
50 pages
Apache Hive 34 35
No ratings yet
Apache Hive 34 35
65 pages
58B Swaraj Shid BDEV Prac3
No ratings yet
58B Swaraj Shid BDEV Prac3
21 pages
Hive Architecture
No ratings yet
Hive Architecture
7 pages
Session 3.2
No ratings yet
Session 3.2
27 pages
Hive
No ratings yet
Hive
63 pages
03 Hive
No ratings yet
03 Hive
48 pages
Hive
No ratings yet
Hive
49 pages
Big-Data-Unit 5
No ratings yet
Big-Data-Unit 5
54 pages
Unit-IV - BDA
No ratings yet
Unit-IV - BDA
42 pages
Big-Data-Unit 5
No ratings yet
Big-Data-Unit 5
54 pages
Module 4
No ratings yet
Module 4
51 pages
Unit V
No ratings yet
Unit V
23 pages
Introduction To Hive
No ratings yet
Introduction To Hive
14 pages
Hive Data Warehousing Overview
No ratings yet
Hive Data Warehousing Overview
9 pages
Bda Bi Jit Chapter-5
No ratings yet
Bda Bi Jit Chapter-5
27 pages
Hive Slides-2
No ratings yet
Hive Slides-2
25 pages
Chapter 5 Hive
No ratings yet
Chapter 5 Hive
69 pages
02 B Monu Agrawal BDAV03
No ratings yet
02 B Monu Agrawal BDAV03
21 pages
Hive
No ratings yet
Hive
5 pages
(R17a0528) Big Data Analytics-57-100
No ratings yet
(R17a0528) Big Data Analytics-57-100
44 pages
Hive
No ratings yet
Hive
65 pages
Hive - A Warehousing Solution Over A Map-Reduce Framework
No ratings yet
Hive - A Warehousing Solution Over A Map-Reduce Framework
4 pages
Final Doc Presentation Hive
No ratings yet
Final Doc Presentation Hive
20 pages
7 Hive
No ratings yet
7 Hive
30 pages
Unit 3 Hive Overview and Architecture
No ratings yet
Unit 3 Hive Overview and Architecture
5 pages
Apache Hive: Structure & Data Analysis
No ratings yet
Apache Hive: Structure & Data Analysis
25 pages
04 Bigdata Hive
No ratings yet
04 Bigdata Hive
22 pages
Hive Main
No ratings yet
Hive Main
33 pages
Bigdata Lecture 5
No ratings yet
Bigdata Lecture 5
19 pages
Hive
No ratings yet
Hive
12 pages
Hive
No ratings yet
Hive
28 pages
Hive
No ratings yet
Hive
4 pages
BD - Unit - IV - Hive and Pig
No ratings yet
BD - Unit - IV - Hive and Pig
41 pages
Hive
No ratings yet
Hive
52 pages
Unit 3 BDA
No ratings yet
Unit 3 BDA
44 pages
Hive Basics
No ratings yet
Hive Basics
35 pages
Big Data Huawei Course
No ratings yet
Big Data Huawei Course
23 pages
Bigdata Analytics
No ratings yet
Bigdata Analytics
13 pages
Unit5 Notes
No ratings yet
Unit5 Notes
29 pages
Hive - A Warehousing Solution Over A Map-Reduce Framework
No ratings yet
Hive - A Warehousing Solution Over A Map-Reduce Framework
24 pages
Unit-5 - Hive
No ratings yet
Unit-5 - Hive
31 pages
Big Data 4
No ratings yet
Big Data 4
14 pages
Introduction to Hive: Features & Use Cases
No ratings yet
Introduction to Hive: Features & Use Cases
20 pages
Hive Notes
No ratings yet
Hive Notes
15 pages
15B Khushal Dhumane BDEV Prac3
No ratings yet
15B Khushal Dhumane BDEV Prac3
21 pages
Documents From The US Antitrust Investigation Into Apple
No ratings yet
Documents From The US Antitrust Investigation Into Apple
113 pages
HP2K48
No ratings yet
HP2K48
16 pages
Bartender Print Portal
No ratings yet
Bartender Print Portal
25 pages
IT Change Control Management Policy v3 - 201209280744175904
100% (4)
IT Change Control Management Policy v3 - 201209280744175904
45 pages
B2B Capabilities in Cloud Platform Integration - SAP Community
No ratings yet
B2B Capabilities in Cloud Platform Integration - SAP Community
11 pages
Silent VMware Tools Installation Guide
No ratings yet
Silent VMware Tools Installation Guide
6 pages
Chart Director
No ratings yet
Chart Director
317 pages
Candidate Performance Analysis 2024
No ratings yet
Candidate Performance Analysis 2024
28 pages
Zettler Speak TroubleShooting
No ratings yet
Zettler Speak TroubleShooting
15 pages
Recursive Algorithms Solutions
No ratings yet
Recursive Algorithms Solutions
4 pages
FLEXlm License Management Guide
No ratings yet
FLEXlm License Management Guide
26 pages
Eractive Multimedia Making Information Fun and Engaging
No ratings yet
Eractive Multimedia Making Information Fun and Engaging
12 pages
Virus and Malware Quarantine Report
No ratings yet
Virus and Malware Quarantine Report
2 pages
7-1-2 Integration Server and Developer Documentation Supplement
No ratings yet
7-1-2 Integration Server and Developer Documentation Supplement
26 pages
Case Study MBank Builds A Next Generation Online Banking Experience en
100% (1)
Case Study MBank Builds A Next Generation Online Banking Experience en
20 pages
PRPL - Assignment 3 - Design
No ratings yet
PRPL - Assignment 3 - Design
5 pages
Scribd: 1 History
No ratings yet
Scribd: 1 History
7 pages
SAP Project Requirement Data
No ratings yet
SAP Project Requirement Data
77 pages
Inspera Requirements
No ratings yet
Inspera Requirements
4 pages
PComm32 Pro Installation New
No ratings yet
PComm32 Pro Installation New
36 pages
SAD Chapter 4
No ratings yet
SAD Chapter 4
22 pages
DCS Training
100% (4)
DCS Training
29 pages
Ankit's Resume-Hackerresume
No ratings yet
Ankit's Resume-Hackerresume
1 page
Part 1-Financial Computation in C
No ratings yet
Part 1-Financial Computation in C
177 pages
UI/UX Design Question Bank
No ratings yet
UI/UX Design Question Bank
125 pages
Alcatel-Lucent 9412 ENodeB Compact
No ratings yet
Alcatel-Lucent 9412 ENodeB Compact
2 pages
Unique Features of E-Commerce
No ratings yet
Unique Features of E-Commerce
26 pages
Chapter 3 - 4 Solutions
100% (2)
Chapter 3 - 4 Solutions
15 pages
Computer Basics Quiz
75% (4)
Computer Basics Quiz
3 pages
Highest Penetration in The Market: Checkpoint Security: Baggage and Parcel Inspection
No ratings yet
Highest Penetration in The Market: Checkpoint Security: Baggage and Parcel Inspection
2 pages

Hive Introduction

Uploaded by

Hive Introduction

Uploaded by

INTRODUCTION TO

© Big Data Analytics By Rashmi Benni 1

© Big Data Analytics By Rashmi Benni 2

© Big Data Analytics By Rashmi Benni 3

❏ Multiple users – It supports concurrent access by multiple users for

❏ Built-in function – It offers a rich set of built-in functions for data

© Big Data Analytics By Rashmi Benni 5

❏ Fast – Optimized for fast querying of large datasets using

❏ Table structure – Data is organized into tables with partitions and

© Big Data Analytics By Rashmi Benni 6

❏ Storage – It integrates with HDFS and other storage systems to

❏ Ad-hoc queries – Enables users to run quick, flexible queries

© Big Data Analytics By Rashmi Benni 7

▣ Command-line Interface (CLI) – Provides a terminal-based interface

▣ Driver (Query Compiler, Executor) – Manages the lifecycle of a

▣ Metastore – Stores metadata about databases, tables, partitions,

▣ TaskTracker – Executes individual tasks as assigned by the

© Big Data Analytics By Rashmi Benni 11

▣ Hadoop – The underlying distributed computing framework that Hive

▣ Suitable for single-user or test environments due to limited

© Big Data Analytics By Rashmi Benni 14

▣ Allows multiple Hive sessions (Drivers) to connect to a shared

▣ Offers better concurrency and is suitable for small-scale

© Big Data Analytics By Rashmi Benni 15

▣ Multiple Hive clients (Drivers) can access the centralized

▣ Ideal for large-scale production systems with high concurrency

© Big Data Analytics By Rashmi Benni 16

© Big Data Analytics By Rashmi Benni 17

© Big Data Analytics By Rashmi Benni 19

© Big Data Analytics By Rashmi Benni 21

-- Insert data (note: BINARY insert via LOAD or programmatically)

© Big Data Analytics By Rashmi Benni 23

© Big Data Analytics By Rashmi Benni 25

© Big Data Analytics By Rashmi Benni 26

© Big Data Analytics By Rashmi Benni 27

© Big Data Analytics By Rashmi Benni 28

© Big Data Analytics By Rashmi Benni 32

© Big Data Analytics By Rashmi Benni 35

2. “Hive Query Language Tutorial | HQL | Cloudera| Hands on Training”

3. “Hive Query Language Tutorial | HQL | Working with Joins | Cloudera|

© Big Data Analytics By Rashmi Benni 44

5. “Apache Hive Tutorial For Beginners | Big Data Training |

© Big Data Analytics By Rashmi Benni 45

© Big Data Analytics By Rashmi Benni 46

© Big Data Analytics By Rashmi Benni 47

You might also like