0% found this document useful (0 votes)

9 views6 pages

Pyspark Spark SQL: Scenario Based Interview

The document provides a comparison of creating SQL queries using PySpark and Spark SQL to generate records for open job positions. It includes code snippets for initializing Spark sessions, creating DataFrames for job positions and employees, and performing joins to fill vacancies with 'Vacant'. The document emphasizes the use of both PySpark and SQL approaches for achieving the same result in handling job postings and employee data.

Uploaded by

Lapi Lapil

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views6 pages

Pyspark Spark SQL: Scenario Based Interview

Uploaded by

Lapi Lapil

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Scenario Based Interview

Pyspark vs
Spark SQL

Ganesh. R
Scenario: Create a SQL query that will produce an output with more records for open positions.
For example, if your employee name is "vacant" and you have vacant titles, add as many records
to the input as there are open postings.

from pyspark.sql import SparkSession

# Initialize Spark session

spark =
SparkSession.builder.appName("JobPositionsAndEmployees").getOrCreate()

# Create schema and data for job_positions

job_positions_schema = ["id", "title", "groups", "levels", "payscale",
"totalpost"]
job_positions_data = [
(1, 'General manager', 'A', 'l-15', 10000, 1),
(2, 'Manager', 'B', 'l-14', 9000, 5),
(3, 'Asst. Manager', 'C', 'l-13', 8000, 10)
]

# Create DataFrame for job_positions

job_positions_df = spark.createDataFrame(job_positions_data,
schema=job_positions_schema)

# Create schema and data for job_employees

job_employees_schema = ["id", "name", "position_id"]
job_employees_data = [
(1, 'John Smith', 1),
(2, 'Jane Doe', 2),
(3, 'Michael Brown', 2),
(4, 'Emily Johnson', 2),
(5, 'William Lee', 3),
(6, 'Jessica Clark', 3),
(7, 'Christopher Harris', 3),
(8, 'Olivia Wilson', 3),
(9, 'Daniel Martinez', 3),
(10, 'Sophia Miller', 3)
]

# Create DataFrame for job_employees

job_employees_df = spark.createDataFrame(job_employees_data,
schema=job_employees_schema)

# Show the DataFrames

job_positions_df.display()
job_employees_df.display()

###PySpark
from pyspark.sql.functions import col, lit, when
from pyspark.sql import Row
# Create DataFrame for job_employees
job_employees_df = spark.createDataFrame(job_employees_data,
schema=job_employees_columns)

# Create a DataFrame for all required rows (totalpost rows for each
job position)
expanded_positions = job_positions_df.rdd.flatMap(lambda row:
[Row(id=row['id'], title=row['title'], groups=row['groups'],
levels=row['levels'], payscale=row['payscale'],
totalpost=row['totalpost'], pos_num=i) for i in
range(row['totalpost'])]).toDF()

# Add a column pos_num to the job_employees_df to facilitate the join

job_employees_df_with_pos_num = job_employees_df.withColumn('pos_num',
lit(None).cast('int'))

# Perform the join and fill vacancies with "Vacant"

joined_df = expanded_positions.join(job_employees_df_with_pos_num,
(expanded_positions.id == job_employees_df_with_pos_num.position_id) &
(expanded_positions.pos_num == job_employees_df_with_pos_num.pos_num),
'left') \
.select('title', 'groups', 'payscale', when(col('name').isNull(),
lit('Vacant')).otherwise(col('name')).alias('name'))

# Show the result

joined_df.display()

###SQL

job_positions_df.createOrReplaceTempView("job_positions")
job_employees_df.createOrReplaceTempView("job_employees")

%sql
with cte as(
select
name,
position_id,
row_number() over(
order by
a.id
) as rn
from
job_employees as a
join job_positions as b on a.position_id = b.id
),
jp as (
select
a.id,
a.title,
a.groups,
a.payscale,
a.levels,
b.rn
from
job_positions as a
join cte as b on b.rn <= a.totalpost
)
select
a.title,
a.groups,
a.payscale,
coalesce(b.name, 'Vacant')
from
jp as a
left join cte as b on b.rn = a.rn
and b.position_id = a.id
order by
a.id,
b.rn;
IF YOU FOUND
THIS POST
USEFUL, PLEASE
SAVE IT.

Ganesh. R
+91-9030485102. Hyderabad, Telangana. rganesh0203@gmail.com

https://medium.com/@rganesh0203 https://rganesh203.github.io/Portfolio/
https://github.com/rganesh203. https://www.linkedin.com/in/r-ganesh-a86418155/

https://www.instagram.com/rg_data_talks/ https://topmate.io/ganesh_r0203

Unit 4 Spark SQL
No ratings yet
Unit 4 Spark SQL
49 pages
Pyspark Coding Questions From StrataScratch Platform
No ratings yet
Pyspark Coding Questions From StrataScratch Platform
23 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Day 19 Master Pyspark
No ratings yet
Day 19 Master Pyspark
2 pages
Razorpay Data Analyst Interview Questions 1739977522
No ratings yet
Razorpay Data Analyst Interview Questions 1739977522
12 pages
XII IP Model 1 Ans
No ratings yet
XII IP Model 1 Ans
8 pages
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
BigData - Recent Interview Q's
No ratings yet
BigData - Recent Interview Q's
25 pages
Practice Paper For Ip
No ratings yet
Practice Paper For Ip
3 pages
Solutions 1742312993
No ratings yet
Solutions 1742312993
14 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Day 60
No ratings yet
Day 60
10 pages
Interview Qs - Batch 34
No ratings yet
Interview Qs - Batch 34
5 pages
SQL & Python Interview Q&A
No ratings yet
SQL & Python Interview Q&A
7 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
No ratings yet
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
36 pages
Wipro Data Analyst Interview Questions
No ratings yet
Wipro Data Analyst Interview Questions
29 pages
Informatica Transformations Guide
No ratings yet
Informatica Transformations Guide
12 pages
Pyspark SQL Transformation Cheat Sheet
No ratings yet
Pyspark SQL Transformation Cheat Sheet
3 pages
Practical Exam Papers (2024) (Set - 1 and 2) With Solutions
No ratings yet
Practical Exam Papers (2024) (Set - 1 and 2) With Solutions
8 pages
SQL and Python for Data Management
No ratings yet
SQL and Python for Data Management
3 pages
Pandas
No ratings yet
Pandas
13 pages
Program List Dbms
No ratings yet
Program List Dbms
8 pages
Group 3
No ratings yet
Group 3
56 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
Ip Practical
No ratings yet
Ip Practical
3 pages
DBMS 3b (Employee Department Location)
No ratings yet
DBMS 3b (Employee Department Location)
9 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Practical Examination 2020 Ip Set 1
100% (1)
Practical Examination 2020 Ip Set 1
3 pages
DBMS 3a (Employee, Department, Location)
No ratings yet
DBMS 3a (Employee, Department, Location)
6 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Py 4
No ratings yet
Py 4
2 pages
Aissce 2020 21
No ratings yet
Aissce 2020 21
3 pages
Py Spark 1
No ratings yet
Py Spark 1
11 pages
Big Data With Spark and Hadoop
No ratings yet
Big Data With Spark and Hadoop
9 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Empid Name
No ratings yet
Empid Name
2 pages
Practice Set 4
No ratings yet
Practice Set 4
6 pages
PySpark All Query
No ratings yet
PySpark All Query
22 pages
Pyspark Interview Questions
No ratings yet
Pyspark Interview Questions
4 pages
Pyspark and SQL
No ratings yet
Pyspark and SQL
57 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Journal
No ratings yet
Journal
47 pages
How To Work With Apache Spark and Delta Lake?
No ratings yet
How To Work With Apache Spark and Delta Lake?
40 pages
Data Cleaning Cheat Sheet
No ratings yet
Data Cleaning Cheat Sheet
2 pages
Q1. Difference Between Cache and Pe
No ratings yet
Q1. Difference Between Cache and Pe
13 pages
Half Yearly Answers
No ratings yet
Half Yearly Answers
10 pages
Set 1
No ratings yet
Set 1
16 pages
Day 77
No ratings yet
Day 77
10 pages
DMS ORAL' - Qes
No ratings yet
DMS ORAL' - Qes
5 pages
Session 12
No ratings yet
Session 12
67 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Spark Revision
No ratings yet
Spark Revision
16 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Day 22
No ratings yet
Day 22
6 pages
Day 62
No ratings yet
Day 62
9 pages
Redshift DG
No ratings yet
Redshift DG
733 pages
Day 28
No ratings yet
Day 28
5 pages
Day 27
No ratings yet
Day 27
6 pages
Day 24
No ratings yet
Day 24
8 pages
Day 76
No ratings yet
Day 76
10 pages
Day 57
No ratings yet
Day 57
11 pages
AWS Learning Material
No ratings yet
AWS Learning Material
13 pages
1 - Introduction To Computer Networks
No ratings yet
1 - Introduction To Computer Networks
73 pages
Unit 5 Timers
No ratings yet
Unit 5 Timers
13 pages
Internship Report On Machine Learning
100% (1)
Internship Report On Machine Learning
26 pages
Review: Power System Analysis Software Tools
100% (2)
Review: Power System Analysis Software Tools
6 pages
Khalid Ali Matar: Career
No ratings yet
Khalid Ali Matar: Career
1 page
Digi Test II
No ratings yet
Digi Test II
20 pages
Browser Toolbars
No ratings yet
Browser Toolbars
54 pages
Unit II Ui Design
No ratings yet
Unit II Ui Design
28 pages
Solaris Volume Manager Course
No ratings yet
Solaris Volume Manager Course
2 pages
SQL Basics
No ratings yet
SQL Basics
27 pages
PiDP User Manual System Design DRAFT0816
No ratings yet
PiDP User Manual System Design DRAFT0816
24 pages
Balanza Analitica Alc - Serie Esp
No ratings yet
Balanza Analitica Alc - Serie Esp
140 pages
Harnessing AI For Marketing Success
No ratings yet
Harnessing AI For Marketing Success
9 pages
Syed Shafiq Sherazi (19pwele5545) DSP Mini Project Thesis
No ratings yet
Syed Shafiq Sherazi (19pwele5545) DSP Mini Project Thesis
19 pages
Wca Objectives
No ratings yet
Wca Objectives
7 pages
Module 4
No ratings yet
Module 4
23 pages
ILP-Grade 6-23 24
No ratings yet
ILP-Grade 6-23 24
8 pages
Media and Information Literacy: Academics
No ratings yet
Media and Information Literacy: Academics
15 pages
Advanced Firewall Technologies Lesson
No ratings yet
Advanced Firewall Technologies Lesson
2 pages
Cpix - Bim Assessment Form: (Based On Working Documentation Provided by Skanska)
No ratings yet
Cpix - Bim Assessment Form: (Based On Working Documentation Provided by Skanska)
9 pages
An Introduction To Numerical Methods A MATLAB Approach Third Edition Guenther PDF Download
No ratings yet
An Introduction To Numerical Methods A MATLAB Approach Third Edition Guenther PDF Download
89 pages
Cisco Umbrella-Privacy-Data-Sheet
No ratings yet
Cisco Umbrella-Privacy-Data-Sheet
14 pages
Excel Window Components Guide
0% (1)
Excel Window Components Guide
2 pages
Privacyidea
No ratings yet
Privacyidea
503 pages
Doc10044-En Manual On The Aeronautical Mobile Airport Communications System (AeroMACS)
No ratings yet
Doc10044-En Manual On The Aeronautical Mobile Airport Communications System (AeroMACS)
199 pages
Workshop 3.1 CFD: Global Mesh Controls: Introduction To ANSYS Meshing
No ratings yet
Workshop 3.1 CFD: Global Mesh Controls: Introduction To ANSYS Meshing
31 pages
Mobile Marketing: A Synthesis and Prognosis: Cite This Paper
No ratings yet
Mobile Marketing: A Synthesis and Prognosis: Cite This Paper
13 pages
DBMS All Units
No ratings yet
DBMS All Units
134 pages
Report Doccure Rathan
No ratings yet
Report Doccure Rathan
7 pages
Author Guidelines for EAAP Meeting
No ratings yet
Author Guidelines for EAAP Meeting
2 pages

Pyspark Spark SQL: Scenario Based Interview

Uploaded by

Pyspark Spark SQL: Scenario Based Interview

Uploaded by

Scenario Based Interview

from pyspark.sql import SparkSession

# Initialize Spark session

# Create schema and data for job_positions

# Create DataFrame for job_positions

# Create schema and data for job_employees

# Create DataFrame for job_employees

# Show the DataFrames

# Add a column pos_num to the job_employees_df to facilitate the join

# Perform the join and fill vacancies with "Vacant"

# Show the result

You might also like