0% found this document useful (0 votes)

87 views9 pages

DATAFRAME Vs DATASETS

The document discusses operations on RDDs, DataFrames, and Datasets in Spark SQL. It shows how to create RDDs from arrays, transform RDDs using map and reduce, create DataFrames from case classes and JSON data, and convert between DataFrames and Datasets. Examples demonstrate filtering, selecting columns, and writing Datasets to Hive tables. Word count is implemented using DataFrames/Datasets to count the frequency of words from a text file.

Uploaded by

surendra yandra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

87 views9 pages

DATAFRAME Vs DATASETS

Uploaded by

surendra yandra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 9

RDD OPERATIONS RELATED

scala> val data = Array(1,2,3,4,5,6,6,7,8)

data: Array[Int] = Array(1, 2, 3, 4, 5, 6, 6, 7, 8)

scala> val distriData = sc.parallelize(data)

distriData: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:26

scala> distriData.map(_ + 2).collect().mkString("\n")

res0: String =
3
4
5
6
7
8
8
9
10

scala> val sumData = distriData.map(_ + 2) // Transformed RDD

sumData: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[2] at map at <console>:28

scala> sumData.reduce(_+_) // ActionRDD

res1: Int = 60

scala>

DATA FRAME ( schemaRDD)

DataFrame is an abstraction which gives a schema view of data. Which means it gives us a view of
data as columns with column name and types info, We can think data in data frame like a table in the
database.

DATA FRAME using CASE CLASS

scala> case class Person(name : String , age:Int , address:String)

defined class Person

scala> val df =
List(Person("Raja",21,"HYD"),Person("Ramya",34,"BAN"),Person("Rani",30,"MUM")).toDF
df: org.apache.spark.sql.DataFrame = [name: string, age: int ... 1 more field]

scala> df.collect().mkString("\n")
res2: String =
[Raja,21,HYD]
[Ramya,34,BAN]
[Rani,30,MUM]
scala> df.show
+-----+---+-------+
| name|age|address|
+-----+---+-------+
| Raja| 21| HYD|
|Ramya| 34| BAN|
| Rani| 30| MUM|
+-----+---+-------+

scala> df.filter("age > 25").show

+-----+---+-------+
| name|age|address|
+-----+---+-------+
|Ramya| 34| BAN|
| Rani| 30| MUM|
+-----+---+-------+

scala> df.filter("salary > 25").show

org.apache.spark.sql.AnalysisException: cannot resolve '`salary`' given input columns: [name, age,
address]; line 1 pos 0

DATA SET [DS]

Data Set is an extension to Dataframe API, the latest abstraction which tries to provide best of both
RDD and Dataframe.

CONVERT “DATA FRAME(DF)” TO “DATASET(DS)”

NOTE: we can always convert a data frame at any point of time into a dataset by calling ‘as’
method on Dataframe. Example: df.as[MyClass]

i.e by providing the case class only we can convert a DATA FRAME into DATA SET.
scala> val ds = df.as[Person]
ds: org.apache.spark.sql.Dataset[Person] = [name: string, age: int ... 1 more field]

scala> ds.show
+-----+---+-------+
| name|age|address|
+-----+---+-------+
| Raja| 21| HYD|
|Ramya| 34| BAN|
| Rani| 30| MUM|
+-----+---+-------+

scala> ds: org.apache.spark.sql.Dataset[Person] = [name: string, age: int ... 1 more field]

scala> ds.show
+-----+---+-------+
| name|age|address|
+-----+---+-------+
| Raja| 21| HYD|
|Ramya| 34| BAN|
| Rani| 30| MUM|
+-----+---+-------+

scala> ds.filter(_.age > 21).show()

+-----+---+-------+
| name|age|address|
+-----+---+-------+
|Ramya| 34| BAN|
| Rani| 30| MUM|
+-----+---+-------+

scala> ds.filter(_.salary > 21).show()

<console>:28: error: value salary is not a member of Person
ds.filter(_.salary > 21).show()

OBSERVATION : Unlike data frame , which is giving a runtime exception saying “can not
resolve salary” , analysis exception , dataset is showing the COMPILE TIME ERROR only.

So Datasets API provides compile time safety which was not available in Data frames

A Dataset can be constructed from JVM objects and then manipulated using functional
transformations (map, flatMap, filter, etc.). The Dataset API is available in Scala and Java. Python
does not have the support for the Dataset API

CONVERTING “DATASET[DS]” to “DATA FRAME[DF]”

We can directly use toDF method to convert Data Set back to Data Frame , No need of using any Case
Class over here

scala> val newdf = ds.toDF

newdf: org.apache.spark.sql.DataFrame = [name: string, age: int ... 1 more field]

scala> newdf.show
+-----+---+-------+
| name|age|address|
+-----+---+-------+
| Raja| 21| HYD|
|Ramya| 34| BAN|
| Rani| 30| MUM|
+-----+---+-------+

scala>

READING “JSON” DATA using “DATA FRAME” &

CONVERTING INTO “DATA SET”
scala> case class Emp(name:String,Desg:String,YrsOfExp:Double,Address:String,State:String)
defined class Emp

scala> val df = spark.read.json("file:///home/gopalkrishna/PRAC/SparkSQL/InputData.json")

df: org.apache.spark.sql.DataFrame = [Address: string, Age: bigint ... 4 more fields]

scala> val ds =
spark.read.json("file:///home/gopalkrishna/PRAC/SparkSQL/InputData.json").as[Emp]
ds: org.apache.spark.sql.Dataset[Emp] = [Address: string, Age: bigint ... 4 more fields]

scala>
TO CONVERT THE ABOVE “DATA FRAME(df)” to “DATA SET(ds)” – as[case class]

gopalkrishna@ubuntu:~/PRAC/SparkSQL/JDBC-JSON$ pwd
/home/gopalkrishna/PRAC/SparkSQL/JDBC-JSON
gopalkrishna@ubuntu:~/PRAC/SparkSQL/JDBC-JSON$ cat Data.json
{"empid":102,"ename":"Aravind","esal":54000}
{"empid":104,"ename":"Rakesh","esal":84000}
{"empid":105,"ename":"Danya","esal":55000}
{"empid":108,"ename":"Venkat","esal":74000}
{"empid":109,"ename":"RajVardhan","esal":87000}
{"empid":110,"ename":"SekharRaj","esal":56000}
{"empid":112,"ename":"Vardhan","esal":64000}
{"empid":113,"ename":"Richard","esal":68000}
{"empid":114,"ename":"Bruce","esal":96000}
{"empid":115,"ename":"Balamani","esal":49000}
{"empid":117,"ename":"Rajsekhar","esal":88000}
{"empid":118,"ename":"Ravali","esal":68000}
{"empid":119,"ename":"Nasal","esal":50000}
{"empid":125,"ename":"Ramya","esal":42000}
{"empid":126,"ename":"Rama","esal":44000}
{"empid":128,"ename":"RamBabu","esal":46000}
gopalkrishna@ubuntu:~/PRAC/SparkSQL/JDBC-JSON$

LOGIC
scala> case class emp(empid:BigInt,ename:String,esal:Double)
defined class emp

scala> var jsonDS = spark.read.json("file:///home/gopalkrishna/PRAC/SparkSQL/JDBC-

JSON/Data.json").as[emp]
jsonDS: org.apache.spark.sql.Dataset[emp] = [empid: bigint, ename: string ... 1 more field]

scala> jsonDS.show(5)
+-----+----------+-----+
|empid| ename| esal|
+-----+----------+-----+
| 102| Aravind|54000|
| 104| Rakesh|84000|
| 105| Danya|55000|
| 108| Venkat|74000|
| 109|RajVardhan|87000|
+-----+----------+-----+
only showing top 5 rows

scala>
scala> case class emp(empid:BigInt,ename:String,esal:Double)
defined class emp

scala> var parDS = spark.read.parquet("file:///home/gopalkrishna/PRAC/SparkSQL/JDBC-

PARQUET/Data.parquet").as[emp]
parDS: org.apache.spark.sql.Dataset[emp] = [empid: int, ename: string ... 1 more field]

scala> parDS.show(5)
+-----+----------+-----+
|empid| ename| esal|
+-----+----------+-----+
| 102| Aravind|54000|
| 104| Rakesh|84000|
| 105| Danya|55000|
| 108| Venkat|74000|
| 109|RajVardhan|87000|
+-----+----------+-----+
only showing top 5 rows

scala> parDS.write.
bucketBy format jdbc mode options parquet save sortBy
csv insertInto json option orc partitionBy saveAsTable text
TO WRITE THE SAME “DATA SET” data to “HIVE TABLE”
scala> parDS.write.saveAsTable("testdb.parquettab")

scala>

scala> case class Emp(name:String,Desg:String,YrsOfExp:Double,Address:String,State:String)

defined class Emp

scala> val ds =
spark.read.json("file:///home/gopalkrishna/PRAC/SparkSQL/InputData.json").as[Emp]
ds: org.apache.spark.sql.Dataset[Emp] = [Address: string, Age: bigint ... 4 more fields]

scala> ds.columns
res1: Array[String] = Array(Address, Age, Desg, State, YrsOfExp, name)

scala> ds.count
res3: Long = 27

scala>
Word Count Use Case through Data Sets

scala> var file = sc.textFile("file:///home/gopalkrishna/PRAC/SPARK/Input.log")

file: org.apache.spark.rdd.RDD[String] = file:///home/gopalkrishna/PRAC/SPARK/Input.log
MapPartitionsRDD[45] at textFile at <console>:24

scala> var splitfile = file.flatMap(_.split(" "))

splitfile: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[46] at flatMap at <console>:26

scala> var ds = splitfile.toDS

ds: org.apache.spark.sql.Dataset[String] = [value: string]

scala> ds.orderBy("value").groupBy("value").count.show
+---------+-----+
| value|count|
+---------+-----+
| A| 1|
| ERROR| 9|
| ETA| 2|
| Getting| 2|
| HDFS| 2|
| Hadoop| 2|
| No| 1|
| Perfect| 1|
| a| 2|
|analytics| 2|
| and| 4|
| any| 1|
| as| 2|
| bigdata| 4|
| breaker| 2|
| can| 2|
| code| 1|
| code,| 2|
|component| 2|
|cubersome| 2|
+---------+-----+
only showing top 20 rows

scala>

scala> var data = sc.makeRDD( 1 to 30 )

data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[66] at makeRDD at <console>:24

scala> var mapdata = data.map(x => (x , (xx) , (xx*x) ))

mapdata: org.apache.spark.rdd.RDD[(Int, Int, Int)] = MapPartitionsRDD[67] at map at <console>:26

scala> var ds = mapdata.toDS

ds: org.apache.spark.sql.Dataset[(Int, Int, Int)] = [_1: int, _2: int ... 1 more field]

scala> ds.columns
res13: Array[String] = Array(_1, _2, _3)

scala> var newds = ds.selectExpr("_1 AS num","_2 AS square","_3 as cube")

newds: org.apache.spark.sql.DataFrame = [num: int, square: int ... 1 more field]

scala> newds.columns
res17: Array[String] = Array(num, square, cube)

scala> newds.filter('square > 100 && 'cube < 8000).show

+---+------+----+
|num|square|cube|
+---+------+----+
| 11| 121|1331|
| 12| 144|1728|
| 13| 169|2197|
| 14| 196|2744|
| 15| 225|3375|
| 16| 256|4096|
| 17| 289|4913|
| 18| 324|5832|
| 19| 361|6859|
+---+------+----+

scala>
scala> var dsobj = sc.parallelize(List( ("Spark",20),("Scala",60),("Java",70),("C++",50),("C",50),
("Python",40),("Hadoop",50) )).toDS
dsobj: org.apache.spark.sql.Dataset[(String, Int)] = [_1: string, _2: int]

scala> dsobj.show
+------+---+
| _1| _2|
+------+---+
| Spark| 20|
| Scala| 60|
| Java| 70|
| C++| 50|
| C| 50|
|Python| 40|
|Hadoop| 50|
+------+---+

scala> dsobj.withColumnRenamed("_1","tech").withColumnRenamed("_2","rating").filter('rating >

30).show
+------+------+
| tech|rating|
+------+------+
| Scala| 60|
| Java| 70|
| C++| 50|
| C| 50|
|Python| 40|
|Hadoop| 50|
+------+------+

scala>

Docse
No ratings yet
Docse
3 pages
07 Structured Data Processing
No ratings yet
07 Structured Data Processing
91 pages
Sanya Sekhri Assignment
No ratings yet
Sanya Sekhri Assignment
2 pages
Unit 4 Spark SQL
No ratings yet
Unit 4 Spark SQL
49 pages
Datasets and Dataframes: Org - Apache.Spark - Sql.Sparksession
No ratings yet
Datasets and Dataframes: Org - Apache.Spark - Sql.Sparksession
17 pages
Spark Structured API Solutions
No ratings yet
Spark Structured API Solutions
10 pages
Spark
No ratings yet
Spark
11 pages
Solutions 1742312993
No ratings yet
Solutions 1742312993
14 pages
Journal
No ratings yet
Journal
47 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
Apache Spark Exercise List
No ratings yet
Apache Spark Exercise List
6 pages
w12 - Runningnotes 201026 001818
No ratings yet
w12 - Runningnotes 201026 001818
25 pages
Dataset - Databricks
No ratings yet
Dataset - Databricks
5 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
T09 Sparksql
No ratings yet
T09 Sparksql
30 pages
Data and AI - Spark Python
No ratings yet
Data and AI - Spark Python
11 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Fall209 Spark SQL MC
No ratings yet
Fall209 Spark SQL MC
96 pages
Spark SQL for Data Engineers
No ratings yet
Spark SQL for Data Engineers
25 pages
BDT MSE2Scheme 23-24
No ratings yet
BDT MSE2Scheme 23-24
4 pages
PySpark 1713691456
No ratings yet
PySpark 1713691456
24 pages
Spark SQL
No ratings yet
Spark SQL
41 pages
Indrani Cheat Sheet
No ratings yet
Indrani Cheat Sheet
2 pages
DGDGSZ
No ratings yet
DGDGSZ
15 pages
Spark RDD Guide for Developers
No ratings yet
Spark RDD Guide for Developers
7 pages
Json To Dataframe
No ratings yet
Json To Dataframe
13 pages
PySpark DataFrame Operations
No ratings yet
PySpark DataFrame Operations
103 pages
Spark SQL
No ratings yet
Spark SQL
24 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Spark Entity Resolution with DataFrame Analysis
No ratings yet
Spark Entity Resolution with DataFrame Analysis
5 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Py Spark
No ratings yet
Py Spark
19 pages
Py Spark Samples
No ratings yet
Py Spark Samples
3 pages
Apache Spark
No ratings yet
Apache Spark
2 pages
TP Spark SQL Avec Scala - Fr.en
No ratings yet
TP Spark SQL Avec Scala - Fr.en
3 pages
Apache Spark With Scala - Cheatsheet
No ratings yet
Apache Spark With Scala - Cheatsheet
7 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
02 Sparkml
No ratings yet
02 Sparkml
104 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Spark Revision
No ratings yet
Spark Revision
16 pages
CS 2018 042
No ratings yet
CS 2018 042
8 pages
Pair RDD Operations: Flat Map
No ratings yet
Pair RDD Operations: Flat Map
4 pages
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Pyspark File Commands and Theory
No ratings yet
Pyspark File Commands and Theory
29 pages
Master PySpark 1-18
No ratings yet
Master PySpark 1-18
59 pages
Unit V SQL
No ratings yet
Unit V SQL
5 pages
Day 48
No ratings yet
Day 48
9 pages
Big Data With Spark and Hadoop
No ratings yet
Big Data With Spark and Hadoop
9 pages
Lab06 Spark Dataframes
No ratings yet
Lab06 Spark Dataframes
12 pages
Apache Spark - DataFrames and Spark SQL
100% (2)
Apache Spark - DataFrames and Spark SQL
146 pages
QB
No ratings yet
QB
3 pages
groupByKey VS reduceByKey
No ratings yet
groupByKey VS reduceByKey
3 pages
Apache Kafka Installation: Step 1: Download The Code
No ratings yet
Apache Kafka Installation: Step 1: Download The Code
3 pages
Cassandra - 2.2.8 Installation Guide: STEP 1: Download From Website
No ratings yet
Cassandra - 2.2.8 Installation Guide: STEP 1: Download From Website
5 pages
Apache Kafka Setup Guide
No ratings yet
Apache Kafka Setup Guide
3 pages
Chromatography Material, Partition, HPLC, Ion Exchange, Gel Permeation, GC, Affinity
No ratings yet
Chromatography Material, Partition, HPLC, Ion Exchange, Gel Permeation, GC, Affinity
120 pages
System Relief and Power Boost Valve Test and Adjustment
No ratings yet
System Relief and Power Boost Valve Test and Adjustment
3 pages
Paper 10
No ratings yet
Paper 10
8 pages
03 - Quotient Rule PDF
No ratings yet
03 - Quotient Rule PDF
4 pages
JEE Main Physics and Chemistry Exam Paper
No ratings yet
JEE Main Physics and Chemistry Exam Paper
14 pages
Linear vs. Multiple Regression
100% (1)
Linear vs. Multiple Regression
4 pages
Ex Vivo Magnetic Resonance Imaging Using Hyaluronic Acid Fillers Differences Between Monophasic and Biphasic Fillers
No ratings yet
Ex Vivo Magnetic Resonance Imaging Using Hyaluronic Acid Fillers Differences Between Monophasic and Biphasic Fillers
4 pages
Butterworth Filter Design Guide
50% (2)
Butterworth Filter Design Guide
10 pages
Unit 1 - Basic Concepts - FD3404 - Principles of Thermodynamics
No ratings yet
Unit 1 - Basic Concepts - FD3404 - Principles of Thermodynamics
28 pages
Robotics and Automations
No ratings yet
Robotics and Automations
49 pages
07 ME-C FIVA FO Booster Exh Valve
No ratings yet
07 ME-C FIVA FO Booster Exh Valve
39 pages
Lecture Notes
100% (1)
Lecture Notes
400 pages
Gauteng Province Mathematics - Annual Teaching Plan - Grade 11 2017
No ratings yet
Gauteng Province Mathematics - Annual Teaching Plan - Grade 11 2017
3 pages
International ISO Standard 4249-2: Iteh Standard Preview (Standards - Iteh.ai)
No ratings yet
International ISO Standard 4249-2: Iteh Standard Preview (Standards - Iteh.ai)
8 pages
Getting Started With ATmega328P
No ratings yet
Getting Started With ATmega328P
9 pages
Improving Electrical System Reliability With Infrared Thermography
No ratings yet
Improving Electrical System Reliability With Infrared Thermography
12 pages
Integrity Testing of Hydrophilic Membrane Filters: Figure 1 - Wetting & Integrity Test Setup
No ratings yet
Integrity Testing of Hydrophilic Membrane Filters: Figure 1 - Wetting & Integrity Test Setup
4 pages
Supra
No ratings yet
Supra
22 pages
Fluke 115: Multimeter
No ratings yet
Fluke 115: Multimeter
2 pages
Signal Processing For Non-Destructive Testing of Railway Tracks
No ratings yet
Signal Processing For Non-Destructive Testing of Railway Tracks
8 pages
Definition and Its Types
No ratings yet
Definition and Its Types
8 pages
MA201 Tut.1
No ratings yet
MA201 Tut.1
2 pages
Pandas Questions
No ratings yet
Pandas Questions
11 pages
Digital Aptitude Lab
No ratings yet
Digital Aptitude Lab
8 pages
ALM3-2018 (Stats Only)
No ratings yet
ALM3-2018 (Stats Only)
17 pages
BS2017 772 PDF
No ratings yet
BS2017 772 PDF
10 pages
11 Computer Science
No ratings yet
11 Computer Science
4 pages
Zkae 113
No ratings yet
Zkae 113
23 pages
Chem Engg: Reactor Design Problems
No ratings yet
Chem Engg: Reactor Design Problems
11 pages
General Climatology
No ratings yet
General Climatology
43 pages

DATAFRAME Vs DATASETS

Uploaded by

DATAFRAME Vs DATASETS

Uploaded by

RDD OPERATIONS RELATED

scala> val data = Array(1,2,3,4,5,6,6,7,8)

scala> val distriData = sc.parallelize(data)

scala> distriData.map(_ + 2).collect().mkString("\n")

scala> val sumData = distriData.map(_ + 2) // Transformed RDD

scala> sumData.reduce(_+_) // ActionRDD

DATA FRAME ( schemaRDD)

DATA FRAME using CASE CLASS

scala> case class Person(name : String , age:Int , address:String)

scala> df.filter("age > 25").show

scala> df.filter("salary > 25").show

DATA SET [DS]

CONVERT “DATA FRAME(DF)” TO “DATASET(DS)”

scala> ds.filter(_.age > 21).show()

scala> ds.filter(_.salary > 21).show()

CONVERTING “DATASET[DS]” to “DATA FRAME[DF]”

scala> val newdf = ds.toDF

READING “JSON” DATA using “DATA FRAME” &

scala> val df = spark.read.json("file:///home/gopalkrishna/PRAC/SparkSQL/InputData.json")

scala> var jsonDS = spark.read.json("file:///home/gopalkrishna/PRAC/SparkSQL/JDBC-

scala> var parDS = spark.read.parquet("file:///home/gopalkrishna/PRAC/SparkSQL/JDBC-

scala> case class Emp(name:String,Desg:String,YrsOfExp:Double,Address:String,State:String)

scala> var file = sc.textFile("file:///home/gopalkrishna/PRAC/SPARK/Input.log")

scala> var splitfile = file.flatMap(_.split(" "))

scala> var ds = splitfile.toDS

scala> var data = sc.makeRDD( 1 to 30 )

scala> var mapdata = data.map(x => (x , (x*x) , (x*x*x) ))

scala> var ds = mapdata.toDS

scala> var newds = ds.selectExpr("_1 AS num","_2 AS square","_3 as cube")

scala> newds.filter('square > 100 && 'cube < 8000).show

scala> dsobj.withColumnRenamed("_1","tech").withColumnRenamed("_2","rating").filter('rating >

You might also like

scala> var mapdata = data.map(x => (x , (xx) , (xx*x) ))