0% found this document useful (0 votes)

60 views8 pages

Introduction To Hadoop

Uploaded by

lamaeidlm2000

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

60 views8 pages

Introduction To Hadoop

Uploaded by

lamaeidlm2000

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

Introduction to Hadoop

Certified Big Data & Hadoop Training – DataFlair

Topics

 Introduction to Hadoop

 Hadoop nodes & daemons

 Hadoop Architecture

 Characteristics Hadoop

Certified Big Data & Hadoop Training – DataFlair

What is Hadoop?

An Open Source framework that

allows distributed processing of
large data-sets across the cluster
of commodity hardware

Certified Big Data & Hadoop Training – DataFlair

What is Hadoop?

An Open Source framework that Open Source

allows distributed processing of
large data-sets across the cluster  Source code is freely available
of commodity hardware  It may be redistributed and
modified

Certified Big Data & Hadoop Training – DataFlair

What is Hadoop?

An open source framework that Distributed Processing

allows Distributed Processing of
large data-sets across the cluster  Data is processed distributedly
of commodity hardware on multiple nodes / servers
 Multiple machines processes
the data independently

Certified Big Data & Hadoop Training – DataFlair

What is Hadoop?

An open source framework that Cluster

allows distributed processing of
large data-sets across the Cluster  Multiple machines connected
of commodity hardware together
 Nodes are connected via LAN

Certified Big Data & Hadoop Training – DataFlair

What is Hadoop?

An open source framework that Commodity Hardware

allows distributed processing of
large data-sets across the cluster  Economic / affordable
of Commodity Hardware machines
 Typically low performance
hardware

Certified Big Data & Hadoop Training – DataFlair

What is Hadoop?

• Open source framework written in Java

• Inspired by Google's Map-Reduce programming model

Certified Big Data & Hadoop Training – DataFlair

Hadoop History
Doug Cutting added Hadoop defeated
DFS & MapReduce Super computer
in
converted 4TB of
Doug Cutting started Doug Cutting
image archives over
working on joined Cloudera
100 EC2 instances

2002 2003 2004 2005 2006 2007 2008 2009

published GFS & Hadoop became

Development of
MapReduce papers top-level project
started as Lucene sub-project

launched Hive,
SQL Support for Hadoop

Certified Big Data & Hadoop Training – DataFlair

Hadoop Components
Hadoop consists of three key parts

Certified Big Data & Hadoop Training – DataFlair

Hadoop Nodes
Nodes

Master Node Slave Node

Certified Big Data & Hadoop Training – DataFlair

Hadoop Daemons
Nodes

Master Node Slave Node

Resource Node
Manager Manager

NameNode DataNode

Certified Big Data & Hadoop Training – DataFlair

Basic Hadoop Architecture
Sub Work Sub Work Sub Work Sub Work

Sub Work Sub Work Sub Work Sub Work

Work Sub Work Sub Work Sub Work Sub Work

Sub Work Sub Work Sub Work Sub Work

Certified Big Data & Hadoop Training – DataFlair

Hadoop Characteristics

Certified Big Data & Hadoop Training – DataFlair

Open Source

• Source code is freely

available Free Transparent

• Can be redistributed
• Can be modified Inter- Open Affordable
operable
Source

No vendor
Community
lock

Certified Big Data & Hadoop Training – DataFlair

Distributed Processing

• Data is processed distributedly

on cluster
• Multiple nodes in the cluster
process data independently

Centralized Processing

Distributed Processing
Certified Big Data & Hadoop Training – DataFlair

Fault Tolerance

• Failure of nodes are recovered

automatically
• Framework takes care of failure
of hardware as well tasks

Certified Big Data & Hadoop Training – DataFlair

Reliability

• Data is reliably stored on the

cluster of machines despite
machine failures
• Failure of nodes doesn’t
cause data loss

Certified Big Data & Hadoop Training – DataFlair

High Availability

• Data is highly available and

accessible despite hardware
failure
• There will be no downtime for
end user application due to
data

Certified Big Data & Hadoop Training – DataFlair

Scalability

• Vertical Scalability – New

hardware can be added to the
nodes

• Horizontal Scalability – New

nodes can be added on the fly

Certified Big Data & Hadoop Training – DataFlair

Economic

• No need to purchase costly license

• No need to purchase costly hardware

Commodity
Open Source + Hardware = Economic

Certified Big Data & Hadoop Training – DataFlair

Easy to Use

• Distributed computing challenges

are handled by framework
• Client just need to concentrate on
business logic

Certified Big Data & Hadoop Training – DataFlair

Data Locality

•
Data Data
Move computation to data
instead of data to computation
•
Data Data
Data is processed on the nodes
Storage Servers App Servers
where it is stored
Algo Algo
Data Data
Algorithm
Algo Algo
Data Data

Servers
Certified Big Data & Hadoop Training – DataFlair

Summary
• Everyday we generate 2.3 trillion GBs of data
• Hadoop handles huge volumes of data efficiently
• Hadoop uses the power of distributed computing
• HDFS & Yarn are two main components of Hadoop
• It is highly fault tolerant, reliable & available

Certified Big Data & Hadoop Training – DataFlair

Hadoop Introduction
No ratings yet
Hadoop Introduction
26 pages
Hadoop BDA Presentation
No ratings yet
Hadoop BDA Presentation
26 pages
Hadoop Tutorial: Certified Big Data & Hadoop Training - Dataflair
100% (1)
Hadoop Tutorial: Certified Big Data & Hadoop Training - Dataflair
10 pages
Hadoop Intro
No ratings yet
Hadoop Intro
25 pages
Unit II Big Data
No ratings yet
Unit II Big Data
27 pages
Unit-2 Hadoop and MapReduce
No ratings yet
Unit-2 Hadoop and MapReduce
32 pages
Big Data - Introduction To Hadoop
No ratings yet
Big Data - Introduction To Hadoop
61 pages
Unit 2,3
No ratings yet
Unit 2,3
24 pages
Big Data
No ratings yet
Big Data
67 pages
HADOOP
No ratings yet
HADOOP
55 pages
Hadoop Important Lecture
No ratings yet
Hadoop Important Lecture
38 pages
HADOOP
No ratings yet
HADOOP
18 pages
Bigdata Interview Preparation Guide
No ratings yet
Bigdata Interview Preparation Guide
292 pages
Hadoop Features 2
No ratings yet
Hadoop Features 2
3 pages
DBMS Unit-5
No ratings yet
DBMS Unit-5
92 pages
Bda Unit 4 Material
No ratings yet
Bda Unit 4 Material
37 pages
Hadoop Chapter 1
No ratings yet
Hadoop Chapter 1
6 pages
Unit 2
No ratings yet
Unit 2
17 pages
DSCI 5350 - Lecture 2 PDF
No ratings yet
DSCI 5350 - Lecture 2 PDF
54 pages
Introduction To
No ratings yet
Introduction To
7 pages
Testing Big Data: Camelia Rad
No ratings yet
Testing Big Data: Camelia Rad
31 pages
BAD601 Module 2 PDF
No ratings yet
BAD601 Module 2 PDF
58 pages
Big Data?: Hadoop?
No ratings yet
Big Data?: Hadoop?
2 pages
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
No ratings yet
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
53 pages
Introduction To Hadoop: Module - II
No ratings yet
Introduction To Hadoop: Module - II
31 pages
BIG Data - Unit - 2
No ratings yet
BIG Data - Unit - 2
24 pages
Unit 3 Hadoop
No ratings yet
Unit 3 Hadoop
50 pages
Bda Unit 2
No ratings yet
Bda Unit 2
44 pages
HADOOP
No ratings yet
HADOOP
10 pages
Hadoop Ankit
No ratings yet
Hadoop Ankit
20 pages
INtroduction To Big DAta and HAdoop
No ratings yet
INtroduction To Big DAta and HAdoop
30 pages
Bigdata
No ratings yet
Bigdata
6 pages
Hadoop PDF
0% (1)
Hadoop PDF
4 pages
Hadoop, A Distributed Framework For Big Data
No ratings yet
Hadoop, A Distributed Framework For Big Data
55 pages
Hadoop-How It Works
No ratings yet
Hadoop-How It Works
5 pages
Bda Unit-2
No ratings yet
Bda Unit-2
37 pages
Module 1 Part 7 Bigdata Technology
No ratings yet
Module 1 Part 7 Bigdata Technology
8 pages
HDFS 79
No ratings yet
HDFS 79
74 pages
Hadoop Lab
100% (1)
Hadoop Lab
32 pages
DATA228 Lecture Notes Week 3
No ratings yet
DATA228 Lecture Notes Week 3
21 pages
Unit 5
No ratings yet
Unit 5
32 pages
Part 02 - Big Data Solutions
No ratings yet
Part 02 - Big Data Solutions
17 pages
Bda Unit IV
No ratings yet
Bda Unit IV
97 pages
Hadoop
No ratings yet
Hadoop
14 pages
Unit-5 - Hadoop
No ratings yet
Unit-5 - Hadoop
29 pages
BDA Module-02 Search Creators
No ratings yet
BDA Module-02 Search Creators
33 pages
CC Unit - 5
No ratings yet
CC Unit - 5
27 pages
Hadoop Interview Question
No ratings yet
Hadoop Interview Question
25 pages
Unit Iii
No ratings yet
Unit Iii
22 pages
A New Way To Store and Analyze Data: Presented By:: Harsha Jain
No ratings yet
A New Way To Store and Analyze Data: Presented By:: Harsha Jain
20 pages
Bda Mod 2
No ratings yet
Bda Mod 2
132 pages
Report On An Exploratory Analysis of The
No ratings yet
Report On An Exploratory Analysis of The
19 pages
Unit 2
No ratings yet
Unit 2
28 pages
IBM Hadoop
No ratings yet
IBM Hadoop
11 pages
Module - 2
No ratings yet
Module - 2
84 pages
BAD601 Module 2 PDF
No ratings yet
BAD601 Module 2 PDF
61 pages
Unit III
No ratings yet
Unit III
15 pages
Unit 2-1
No ratings yet
Unit 2-1
43 pages
GEMS 6.8.2 Release Notes May 2018
No ratings yet
GEMS 6.8.2 Release Notes May 2018
2 pages
Sprint 4
No ratings yet
Sprint 4
2 pages
1Z 071 SQL Exam
No ratings yet
1Z 071 SQL Exam
4 pages
Project 2
No ratings yet
Project 2
3 pages
Array and Array Operations Questions and Answers - Sanfoundry
No ratings yet
Array and Array Operations Questions and Answers - Sanfoundry
6 pages
Oracle DBA Responsibilities
No ratings yet
Oracle DBA Responsibilities
3 pages
Nagamani New Resume&-5
No ratings yet
Nagamani New Resume&-5
2 pages
ER Model Guide for Students
No ratings yet
ER Model Guide for Students
20 pages
What Is Data Analytics
No ratings yet
What Is Data Analytics
16 pages
PostgreSQL CHEAT SHEET
No ratings yet
PostgreSQL CHEAT SHEET
8 pages
Data Modeling With MongoDB
No ratings yet
Data Modeling With MongoDB
59 pages
Summer Term 2024
No ratings yet
Summer Term 2024
4 pages
Unit-1 DBMS LECTURE-1
No ratings yet
Unit-1 DBMS LECTURE-1
28 pages
Unit 2 MCQ
No ratings yet
Unit 2 MCQ
4 pages
Inter Process Communication
No ratings yet
Inter Process Communication
13 pages
DSA Study
No ratings yet
DSA Study
8 pages
Cs614-Mid Term Solved Subjectives With References by Moaaz PDF
No ratings yet
Cs614-Mid Term Solved Subjectives With References by Moaaz PDF
18 pages
A) Store Different Databases C) Assign Frequently Accessed Objects To Fast Devices
No ratings yet
A) Store Different Databases C) Assign Frequently Accessed Objects To Fast Devices
9 pages
CS Sample 1
No ratings yet
CS Sample 1
9 pages
Business Intelligence: Multi-Dimensional Analysis Tools
No ratings yet
Business Intelligence: Multi-Dimensional Analysis Tools
35 pages
ER Diagram
No ratings yet
ER Diagram
39 pages
Naveed Accounts Final CV
No ratings yet
Naveed Accounts Final CV
1 page
Mba ZG536 Course Handout
No ratings yet
Mba ZG536 Course Handout
7 pages
Data Warehouse Thesis Paper
100% (3)
Data Warehouse Thesis Paper
5 pages
Full Download SQL For Data Analytics: Harness The Power of SQL To Extract Insights From Data, 3rd Edition Jun Shan PDF
100% (3)
Full Download SQL For Data Analytics: Harness The Power of SQL To Extract Insights From Data, 3rd Edition Jun Shan PDF
62 pages
Module 1 Olap - Oltp
No ratings yet
Module 1 Olap - Oltp
12 pages
DBMS Normalization Guide
No ratings yet
DBMS Normalization Guide
51 pages
Guddu Lab
No ratings yet
Guddu Lab
1 page
zoo4q4jy03y1-DLPAdmin10 0StudentGuide
No ratings yet
zoo4q4jy03y1-DLPAdmin10 0StudentGuide
368 pages
Rdbms Notes (2021-22)
No ratings yet
Rdbms Notes (2021-22)
50 pages

Introduction To Hadoop

Uploaded by

Introduction To Hadoop

Uploaded by

Introduction to Hadoop

Certified Big Data & Hadoop Training – DataFlair

 Hadoop nodes & daemons

Certified Big Data & Hadoop Training – DataFlair

An Open Source framework that

Certified Big Data & Hadoop Training – DataFlair

An Open Source framework that Open Source

Certified Big Data & Hadoop Training – DataFlair

An open source framework that Distributed Processing

Certified Big Data & Hadoop Training – DataFlair

An open source framework that Cluster

Certified Big Data & Hadoop Training – DataFlair

An open source framework that Commodity Hardware

Certified Big Data & Hadoop Training – DataFlair

• Open source framework written in Java

Certified Big Data & Hadoop Training – DataFlair

2002 2003 2004 2005 2006 2007 2008 2009

published GFS & Hadoop became

Certified Big Data & Hadoop Training – DataFlair

Certified Big Data & Hadoop Training – DataFlair

Master Node Slave Node

Certified Big Data & Hadoop Training – DataFlair

Master Node Slave Node

Certified Big Data & Hadoop Training – DataFlair

Sub Work Sub Work Sub Work Sub Work

Sub Work Sub Work Sub Work Sub Work

Sub Work Sub Work Sub Work Sub Work

Sub Work Sub Work Sub Work Sub Work

Work Sub Work Sub Work Sub Work Sub Work

Sub Work Sub Work Sub Work Sub Work

Sub Work Sub Work Sub Work Sub Work

Certified Big Data & Hadoop Training – DataFlair

Certified Big Data & Hadoop Training – DataFlair

• Source code is freely

Certified Big Data & Hadoop Training – DataFlair

• Data is processed distributedly

• Failure of nodes are recovered

Certified Big Data & Hadoop Training – DataFlair

• Data is reliably stored on the

Certified Big Data & Hadoop Training – DataFlair

• Data is highly available and

Certified Big Data & Hadoop Training – DataFlair

• Vertical Scalability – New

• Horizontal Scalability – New

Certified Big Data & Hadoop Training – DataFlair

• No need to purchase costly license

Certified Big Data & Hadoop Training – DataFlair

• Distributed computing challenges

Certified Big Data & Hadoop Training – DataFlair

Certified Big Data & Hadoop Training – DataFlair

You might also like