Unit II

Uploaded by

lavanya.m.cse

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views8 pages

Unit II

Uploaded by

lavanya.m.cse

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

SNSCT/IQAC/CLT/1.

1 (Ver 2)

SNS COLLEGE OF TECHNOLOGY

(An Autonomous Institution)
Approved by AICTE, New Delhi, Affiliated to Anna University, Chennai
Accredited by NAAC-UGC with ‘A++’ Grade (Cycle III) ,
Accredited by NBA (B.E - CSE, EEE, ECE, Mech,B.Tech.IT)
COIMBATORE-641 035, TAMIL NADU

DEPARTMENT OF COMPUTER SCIENCE AND ENGINEERING

Faculty Name : Ms.Lavanya.M, AP/ CSE Academic Year : 2025-2026 (Odd)

Year , Branch : IV CSE Semester : VII
Course : 19ITE305-Big Data& Analytics

UNIT – II
Unit II: Introduction to Technology Landscape - Big Data Analytics
Below are detailed notes covering all topics in Unit II: Introduction to Technology
Landscape from the course “Big Data Analytics” (19ITE305) as outlined in the provided
document. The topics include Hadoop Ecosystem, NoSQL Databases, In-Memory
Databases, Analytical Tools, Stream Processing, Machine Learning, Cloud Computing, and
Data Visualization.

1. Hadoop Ecosystem
Overview
Hadoop is an open-source framework developed by Apache for distributed storage and
processing of massive datasets using commodity hardware. It is designed to handle big
data challenges like scalability, fault tolerance, and cost-effectiveness.
Core Components
• Hadoop Distributed File System (HDFS):
– Function: Stores large datasets across multiple nodes in a distributed
manner.
– Architecture: Consists of a NameNode (manages metadata and file system
namespace) and DataNodes (store actual data blocks).
– Features:
• Data Replication: Stores multiple copies of data (default: 3 replicas)
to ensure fault tolerance.
• Block Storage: Splits files into fixed-size blocks (default: 128 MB or
256 MB) for efficient storage and retrieval.
• Scalability: Scales horizontally by adding more nodes to the cluster.
– Use Case: Storing petabytes of data for applications like log analysis or data
warehousing.
• MapReduce:
– Function: A programming model for parallel processing of large datasets
across a Hadoop cluster.
– Process:
SNSCT/IQAC/CLT/1.1 (Ver 2)

1. Map Phase: Breaks down input data into key-value pairs and
processes them in parallel.
2. Reduce Phase: Aggregates the output from the Map phase to
produce final results.
– Features:
• Fault Tolerance: Automatically retries failed tasks.
• Scalability: Processes data across thousands of nodes.
• Example: Word count in a large text dataset, where Map counts
words per node, and Reduce aggregates the counts.
• YARN (Yet Another Resource Negotiator):
– Function: Manages and schedules resources (CPU, memory) for applications
running on the Hadoop cluster.
– Components:
• ResourceManager: Central authority that allocates resources and
schedules tasks.
• NodeManager: Runs on each node, managing local resources and
executing tasks.
– Features:
• Dynamic Resource Allocation: Allocates resources based on
application needs.
• Scalability: Supports thousands of nodes and applications
concurrently.
– Use Case: Running multiple applications (e.g., Hive, Pig) on the same
Hadoop cluster.
• Hadoop Common: Utilities and libraries supporting other Hadoop modules.
Key Features
• Scalability: Handles petabytes of data by adding more nodes.
• Fault Tolerance: Ensures reliability through data replication and task retry
mechanisms.
• Cost-Effectiveness: Uses commodity hardware, reducing infrastructure costs.
• Flexibility: Supports various data types (structured, unstructured) and processing
models.
Hadoop Ecosystem Components
• Hive: SQL-like interface for querying data stored in HDFS.
• Pig: High-level scripting language (Pig Latin) for data processing.
• HBase: Distributed, scalable NoSQL database for random, real-time read/write
access.
• Oozie: Workflow scheduler for managing Hadoop jobs.
• Sqoop: Tool for transferring data between Hadoop and relational databases.
• Flume: Service for collecting and moving large amounts of log data into HDFS.
Use Cases
• Log processing for web analytics.
• Data warehousing for business intelligence.
• Large-scale data analysis for recommendation systems.
SNSCT/IQAC/CLT/1.1 (Ver 2)

2. NoSQL Databases
Definition
NoSQL (Not Only SQL) databases are non-relational databases designed to handle large
volumes of unstructured, semi-structured, or structured data. They prioritize scalability
and flexibility over traditional relational database management systems (RDBMS).
Comparison with SQL
• SQL (RDBMS):
– Fixed schema, structured data.
– Uses SQL for querying.
– Vertical scaling (adding more CPU/memory to a single server).
– Examples: MySQL, PostgreSQL, Oracle.
• NoSQL:
– Schema-less or flexible schema.
– Supports various data models (key-value, document, column-family, graph).
– Horizontal scaling (adding more servers).
– Examples: MongoDB, Cassandra, Redis, Neo4j.
Types of NoSQL Databases
• Key-Value Stores:
– Description: Simplest NoSQL model, storing data as key-value pairs.
– Examples: Redis, DynamoDB.
– Use Case: Caching, session management.
– Features: High performance, low latency, simple querying.
• Document Stores:
– Description: Stores data as JSON, BSON, or XML documents.
– Examples: MongoDB, CouchDB.
– Use Case: Content management, real-time analytics.
– Features: Flexible schema, hierarchical data storage.
• Column-Family Stores:
– Description: Organizes data into columns instead of rows, optimized for
analytical queries.
– Examples: Cassandra, HBase.
– Use Case: Time-series data, large-scale analytics.
– Features: High write throughput, scalable for large datasets.
• Graph Databases:
– Description: Stores data as nodes and edges for relationship-focused
queries.
– Examples: Neo4j, ArangoDB.
– Use Case: Social networks, fraud detection.
– Features: Efficient traversal of complex relationships.
Advantages
• Scalability: Horizontal scaling across distributed systems.
• Flexibility: Handles diverse data types without predefined schemas.
• High Performance: Optimized for specific workloads (e.g., high write throughput in
Cassandra).
• Distributed Architecture: Supports big data applications with high availability.
SNSCT/IQAC/CLT/1.1 (Ver 2)

Challenges
• Lack of Standardization: No universal query language like SQL.
• Complex Querying: Limited support for complex joins compared to RDBMS.
• Consistency Trade-offs: Many NoSQL databases prioritize availability over
consistency (CAP theorem).

3. In-Memory Databases
Definition
In-memory databases store data in the main memory (RAM) rather than on disk, enabling
faster data access and processing compared to traditional disk-based databases.
Examples
• Redis: Key-value store used for caching and real-time analytics.
• SAP HANA: Enterprise-grade in-memory database for analytics and applications.
• Memcached: Distributed memory caching system.
Key Features
• Speed: Extremely low latency for read/write operations due to in-memory storage.
• Volatility: Data is lost unless persisted to disk (some systems offer persistence
options).
• Scalability: Supports distributed architectures for large-scale deployments.
• Use Cases:
– Real-time analytics (e.g., fraud detection).
– Caching for web applications.
– Session management in e-commerce platforms.
Advantages
• High Throughput: Ideal for big data applications requiring rapid data access.
• Real-Time Processing: Supports low-latency analytics and transactions.
• Simplified Architecture: Reduces I/O bottlenecks associated with disk-based
storage.
Challenges
• Limited Storage Capacity: RAM is more expensive and has lower capacity than disk
storage.
• Data Durability: Requires mechanisms (e.g., snapshots, replication) to prevent data
loss.
• Cost: Higher infrastructure costs due to reliance on RAM.
Use in Big Data
• Used in conjunction with Hadoop or NoSQL databases to cache frequently accessed
data.
• Enables real-time analytics for streaming data or time-sensitive applications.

4. Analytical Tools
Overview
Analytical tools process, analyze, and visualize big data to derive actionable insights. These
tools integrate with Hadoop, NoSQL databases, and cloud platforms to handle large-scale
data analytics.
Popular Analytical Tools
• Apache Spark:
SNSCT/IQAC/CLT/1.1 (Ver 2)

– Description: In-memory data processing engine for batch and streaming

data.
– Features:
• Faster than MapReduce due to in-memory computation.
• Supports SQL (Spark SQL), machine learning (MLlib), and graph
processing (GraphX).
– Use Case: Real-time analytics, ETL (Extract, Transform, Load) pipelines.
• Tableau:
– Description: Data visualization tool for creating interactive dashboards.
– Features:
• Drag-and-drop interface for non-technical users.
• Integrates with Hadoop, cloud platforms, and databases.
– Use Case: Business intelligence, sales reporting.
• Power BI:
– Description: Microsoft’s analytics platform for interactive visualizations.
– Features:
• Seamless integration with Azure and SQL Server.
• AI-powered insights and natural language querying.
– Use Case: Enterprise reporting, data exploration.
• R and Python:
– Description: Programming languages with libraries for data analysis and
visualization.
– Libraries:
• R: ggplot2, dplyr for data manipulation and visualization.
• Python: Pandas, NumPy, Matplotlib, Seaborn for analytics and
plotting.
– Use Case: Statistical analysis, predictive modeling.
Key Features
• Scalability: Handles large datasets with distributed computing support.
• Integration: Connects with Hadoop, NoSQL databases, and cloud platforms.
• User-Friendly: Visual interfaces for non-technical users.
• Automation: Supports automated insights through AI/ML integration.
Applications
• Predictive Analytics: Forecasting sales or customer behavior.
• Customer Segmentation: Grouping users based on behavior or demographics.
• Trend Analysis: Identifying patterns in time-series data.

5. Stream Processing
Definition
Stream processing involves real-time analysis of continuous data streams, enabling
immediate insights and actions.
Technologies
• Apache Kafka:
– Description: Distributed streaming platform for handling high-throughput
data streams.
– Features:
SNSCT/IQAC/CLT/1.1 (Ver 2)

• Publishes and subscribes to data streams.

• Fault-tolerant and scalable with partitioned logs.
– Use Case: Real-time event streaming for IoT or social media.
• Apache Flink:
– Description: Stream processing framework for low-latency, high-throughput
analytics.
– Features:
• Exactly-once processing semantics.
• Supports both batch and stream processing.
– Use Case: Real-time fraud detection, log analytics.
• Apache Storm:
– Description: Real-time computation system for unbounded data streams.
– Features:
• Processes data in real-time with low latency.
• Integrates with Hadoop and Kafka.
– Use Case: Real-time monitoring, clickstream analysis.
Key Features
• Low Latency: Processes data as it arrives, minimizing delays.
• Scalability: Handles high-velocity data across distributed systems.
• Fault Tolerance: Ensures reliability through replication and recovery mechanisms.
• Event-Driven: Processes data based on events (e.g., sensor data, user actions).
Use Cases
• Fraud Detection: Real-time analysis of transactions to identify anomalies.
• IoT Data Processing: Monitoring sensor data for predictive maintenance.
• Social Media Analytics: Tracking trends and sentiments in real-time.

6. Machine Learning
Overview
Machine learning (ML) involves algorithms and models that learn from data to make
predictions or decisions without explicit programming.
Big Data Integration
• Frameworks:
– TensorFlow: Open-source library for building and training ML models.
– PyTorch: Flexible framework for deep learning and research.
– Scikit-learn: Python library for traditional ML algorithms (e.g., regression,
clustering).
– Spark MLlib: Distributed ML library for large-scale machine learning.
• Process:
– Data Preparation: Cleaning and transforming big data for model training.
– Model Training: Using distributed computing (e.g., Spark) for large datasets.
– Deployment: Integrating models into production systems for real-time
predictions.
Key Applications
• Predictive Analytics: Forecasting trends (e.g., sales, stock prices).
• Natural Language Processing: Sentiment analysis, chatbots, text summarization.
• Recommendation Systems: Personalized suggestions (e.g., Netflix, Amazon).
SNSCT/IQAC/CLT/1.1 (Ver 2)

• Anomaly Detection: Identifying fraud or network intrusions.

Challenges
• Data Quality: Requires clean, structured data for effective training.
• Scalability: Training models on massive datasets requires distributed computing.
• Interpretability: Complex models (e.g., deep learning) may lack transparency.
Big Data Use Cases
• Training recommendation models on large user datasets.
• Real-time fraud detection using streaming data.
• Predictive maintenance in IoT using sensor data.

7. Cloud Computing
Definition
Cloud computing delivers computing services (storage, processing, analytics) over the
internet, providing scalable and flexible infrastructure for big data applications.
Big Data Relevance
• Platforms:
– AWS: Offers services like S3 (data storage), EMR (managed Hadoop),
Redshift (data warehousing).
– Google Cloud: Provides BigQuery (serverless data warehouse), Dataflow
(stream processing).
– Microsoft Azure: Includes Azure Data Lake, Synapse Analytics, and
HDInsight.
• Services:
– Data Lakes: Centralized repositories for raw, unstructured data (e.g., AWS
S3).
– Managed Hadoop Clusters: Simplifies Hadoop deployment (e.g., AWS EMR).
– Serverless Computing: Executes code without managing servers (e.g., AWS
Lambda).
Advantages
• Scalability: Elastic resources to handle varying workloads.
• Cost Efficiency: Pay-as-you-go pricing reduces upfront costs.
• Accessibility: Global access to data and tools via the internet.
• Integration: Seamless integration with analytical tools and ML frameworks.
Challenges
• Data Security: Protecting sensitive data in the cloud.
• Vendor Lock-In: Dependency on specific cloud providers.
• Compliance: Adhering to regulations like GDPR or HIPAA.
Use Cases
• Hosting Hadoop clusters for large-scale data processing.
• Storing and analyzing IoT data in real-time.
• Running ML models on cloud-based infrastructure.

8. Data Visualization
Definition
Data visualization is the graphical representation of data to identify patterns, trends, and
insights, making complex data more accessible and understandable.
SNSCT/IQAC/CLT/1.1 (Ver 2)

Tools
• Tableau:
– Description: Creates interactive dashboards and visualizations.
– Features:
• Drag-and-drop interface for non-technical users.
• Integrates with Hadoop, NoSQL, and cloud platforms.
– Use Case: Business intelligence, sales forecasting.
• Power BI:
– Description: Microsoft’s platform for interactive data visualization.
– Features:
• AI-powered insights and natural language querying.
• Seamless integration with Azure and SQL Server.
– Use Case: Enterprise reporting, real-time monitoring.
• D3.js:
– Description: JavaScript library for custom, web-based visualizations.
– Features:
• Highly customizable for complex visualizations.
• Supports dynamic, interactive charts.
– Use Case: Custom dashboards, data-driven journalism.
Key Features
• Interactivity: Allows users to explore data through filters and drill-downs.
• Scalability: Handles large datasets with cloud and distributed computing support.
• Customization: Tailors visuals to specific business needs.
• Real-Time Visualization: Displays streaming data for immediate insights.
Applications
• Business Reporting: Visualizing sales, revenue, and KPIs.
• Real-Time Monitoring: Tracking system performance or user activity.
• Decision-Making Support: Providing insights for strategic planning.

The Big Data Technology Landscape
No ratings yet
The Big Data Technology Landscape
36 pages
BD by Maaz
No ratings yet
BD by Maaz
19 pages
IOT and Comp - Architecture
No ratings yet
IOT and Comp - Architecture
17 pages
Nosql and Hadoop
No ratings yet
Nosql and Hadoop
42 pages
Bda 123
No ratings yet
Bda 123
36 pages
I Am Preparing For A Big Data Analytics University...
No ratings yet
I Am Preparing For A Big Data Analytics University...
15 pages
BDA Final
No ratings yet
BDA Final
23 pages
Unit Iii
No ratings yet
Unit Iii
22 pages
Top Big Data Platforms & Use Cases
No ratings yet
Top Big Data Platforms & Use Cases
9 pages
Unit 2
No ratings yet
Unit 2
6 pages
IET Udaipur BDA Unit-1
No ratings yet
IET Udaipur BDA Unit-1
10 pages
Data Science and Big Data UNIT 3
No ratings yet
Data Science and Big Data UNIT 3
11 pages
Big Data Hadoop Complete Final Spaced
No ratings yet
Big Data Hadoop Complete Final Spaced
15 pages
BIGDATA4
No ratings yet
BIGDATA4
28 pages
Unit 2 - Intro To Hadoop
No ratings yet
Unit 2 - Intro To Hadoop
51 pages
BDA Class3
No ratings yet
BDA Class3
15 pages
2 BDA A6515 Hadoop
No ratings yet
2 BDA A6515 Hadoop
55 pages
BDA Module2
No ratings yet
BDA Module2
83 pages
Chapter - 2 Hadoop
100% (1)
Chapter - 2 Hadoop
32 pages
BDA SansON Iat1
No ratings yet
BDA SansON Iat1
17 pages
Technologies For Handling Big Data: Prepared By: Saidatul Rahah Hamidi
No ratings yet
Technologies For Handling Big Data: Prepared By: Saidatul Rahah Hamidi
49 pages
Hadoop YARN
No ratings yet
Hadoop YARN
20 pages
Big Data
No ratings yet
Big Data
27 pages
TIE - 21CS71 SIMP With Key Answers
No ratings yet
TIE - 21CS71 SIMP With Key Answers
19 pages
Big Data Spark Lab Manual 2025-2026
No ratings yet
Big Data Spark Lab Manual 2025-2026
62 pages
Big Data
No ratings yet
Big Data
29 pages
NoSQL DBs
No ratings yet
NoSQL DBs
46 pages
BIG Data Analytics 21CSH-471: Computer Science & Engineering
No ratings yet
BIG Data Analytics 21CSH-471: Computer Science & Engineering
32 pages
Sdcbdasparkweek1 1
No ratings yet
Sdcbdasparkweek1 1
9 pages
Big Data Deals With Large Data Sets
No ratings yet
Big Data Deals With Large Data Sets
4 pages
Big Data Analysis
No ratings yet
Big Data Analysis
8 pages
Introduction To Big Dat1
No ratings yet
Introduction To Big Dat1
6 pages
BDA Unit2 Notes
No ratings yet
BDA Unit2 Notes
23 pages
Big Data Complete Notes
100% (2)
Big Data Complete Notes
33 pages
U3 BDH
No ratings yet
U3 BDH
27 pages
SImplified Solutions of BAD601 Model Question Paper
No ratings yet
SImplified Solutions of BAD601 Model Question Paper
32 pages
Database Types
No ratings yet
Database Types
4 pages
1.5 Module-1
No ratings yet
1.5 Module-1
21 pages
Cloud Comp Techno
No ratings yet
Cloud Comp Techno
5 pages
Big Data Insights with Hadoop
No ratings yet
Big Data Insights with Hadoop
34 pages
Coronel DatabaseSystems 13e Ch14
No ratings yet
Coronel DatabaseSystems 13e Ch14
30 pages
Big Data Tech: NoSQL & Hadoop
No ratings yet
Big Data Tech: NoSQL & Hadoop
16 pages
Cloud Computing Unit-5
No ratings yet
Cloud Computing Unit-5
22 pages
Big Data Complete Notes
No ratings yet
Big Data Complete Notes
9 pages
Big Data Technology
No ratings yet
Big Data Technology
9 pages
Data Science
No ratings yet
Data Science
87 pages
R23 IDS Unit3
No ratings yet
R23 IDS Unit3
36 pages
2 Module
No ratings yet
2 Module
14 pages
03 Unit Bda Hadoop, Map Reduce
No ratings yet
03 Unit Bda Hadoop, Map Reduce
80 pages
Big Data and Mapreduce Challenges, Opportunities and Trends
No ratings yet
Big Data and Mapreduce Challenges, Opportunities and Trends
9 pages
BDH Unit 3
No ratings yet
BDH Unit 3
16 pages
Chapter 14
No ratings yet
Chapter 14
35 pages
Experiment No. 11 Part A A.1 Aim: 2 Prerequisite: A.3 Outcome: After Successful Completion of This Experiment, Students Will Be Able To
No ratings yet
Experiment No. 11 Part A A.1 Aim: 2 Prerequisite: A.3 Outcome: After Successful Completion of This Experiment, Students Will Be Able To
21 pages
Hadoop Components
No ratings yet
Hadoop Components
5 pages
Plan Viz PDF
100% (1)
Plan Viz PDF
41 pages
Praclist Xi Python19-20
No ratings yet
Praclist Xi Python19-20
9 pages
Denodo Architecture for Data Experts
No ratings yet
Denodo Architecture for Data Experts
31 pages
Data Structures MU Full Notes
No ratings yet
Data Structures MU Full Notes
4 pages
FTP File Transfer Protocol: Reference: RFC 959
No ratings yet
FTP File Transfer Protocol: Reference: RFC 959
15 pages
Running Production PostgreSQL Databases On Amazon RDS For PostgreSQL
No ratings yet
Running Production PostgreSQL Databases On Amazon RDS For PostgreSQL
42 pages
Third Year Engineering: 21BTCS604 - Advanced DBMS
No ratings yet
Third Year Engineering: 21BTCS604 - Advanced DBMS
24 pages
BSC Computer Science 3rd and 4th Sem Syllabus NEP
No ratings yet
BSC Computer Science 3rd and 4th Sem Syllabus NEP
17 pages
What Is OData With Example
No ratings yet
What Is OData With Example
3 pages
Database Systems Lab 7 PL/SQL Programming 1
No ratings yet
Database Systems Lab 7 PL/SQL Programming 1
3 pages
David Baba
No ratings yet
David Baba
9 pages
IRS Important Questions
No ratings yet
IRS Important Questions
3 pages
Sample REsume
No ratings yet
Sample REsume
4 pages
Database Administator MCQ
No ratings yet
Database Administator MCQ
23 pages
Scheduling Jobs in Oracle DB With DBMS - SCHEDULER
No ratings yet
Scheduling Jobs in Oracle DB With DBMS - SCHEDULER
9 pages
Golang Backend Development Roadmap
No ratings yet
Golang Backend Development Roadmap
15 pages
DBMS Question Bank 24-25
No ratings yet
DBMS Question Bank 24-25
23 pages
Database Management System1
No ratings yet
Database Management System1
21 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
36 pages
Interview Questions
No ratings yet
Interview Questions
2 pages
It Practical Session 2
No ratings yet
It Practical Session 2
11 pages
Triggers and Active Data Bases in DBMS
No ratings yet
Triggers and Active Data Bases in DBMS
4 pages
Assignment 1A
No ratings yet
Assignment 1A
10 pages
CB3401-Evaluation Shecme & Answer Key
No ratings yet
CB3401-Evaluation Shecme & Answer Key
7 pages
IT Practical File (10th) 2025-26 RN GLOBAL - 105030
No ratings yet
IT Practical File (10th) 2025-26 RN GLOBAL - 105030
21 pages
Database Development Lifecycle (DBDLC)
No ratings yet
Database Development Lifecycle (DBDLC)
45 pages
Installation and Configuration Guide For Jboss Solução Fiscal Web
No ratings yet
Installation and Configuration Guide For Jboss Solução Fiscal Web
32 pages
Dgraph: Distributed Graph Database Overview
No ratings yet
Dgraph: Distributed Graph Database Overview
11 pages
SQL & PANTHEON Boot Camp 2018 Guide
No ratings yet
SQL & PANTHEON Boot Camp 2018 Guide
3 pages
Efficient Dispatcher Mechanismfor SIPCluster Basedon Memory Utilization
No ratings yet
Efficient Dispatcher Mechanismfor SIPCluster Basedon Memory Utilization
7 pages

Unit II

Uploaded by

Unit II

Uploaded by

SNSCT/IQAC/CLT/1.

SNS COLLEGE OF TECHNOLOGY

DEPARTMENT OF COMPUTER SCIENCE AND ENGINEERING

Faculty Name : Ms.Lavanya.M, AP/ CSE Academic Year : 2025-2026 (Odd)

– Description: In-memory data processing engine for batch and streaming

• Publishes and subscribes to data streams.

• Anomaly Detection: Identifying fraud or network intrusions.

You might also like