0% found this document useful (0 votes)

45 views2 pages

Decision Tree

The document outlines a data analysis process using the Titanic dataset, including data import, cleaning, and preprocessing steps. It highlights handling missing values, encoding categorical variables, and preparing data for machine learning. Finally, it demonstrates the use of a Decision Tree Classifier to predict survival outcomes based on selected features.

Uploaded by

Kavya Padarthi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

45 views2 pages

Decision Tree

Uploaded by

Kavya Padarthi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

In [72]: import numpy as np

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sn

In [74]: df = pd.read_csv('titanic.csv')
df

Out[74]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked

0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S

1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C

2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S

3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S

4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S

... ... ... ... ... ... ... ... ... ... ... ... ...

886 887 0 2 Montvila, Rev. Juozas male 27.0 0 0 211536 13.0000 NaN S

887 888 1 1 Graham, Miss. Margaret Edith female 19.0 0 0 112053 30.0000 B42 S

888 889 0 3 Johnston, Miss. Catherine Helen "Carrie" female NaN 1 2 W./C. 6607 23.4500 NaN S

889 890 1 1 Behr, Mr. Karl Howell male 26.0 0 0 111369 30.0000 C148 C

890 891 0 3 Dooley, Mr. Patrick male 32.0 0 0 370376 7.7500 NaN Q

891 rows × 12 columns

In [76]: df.isnull()

Out[76]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked

0 False False False False False False False False False False True False

1 False False False False False False False False False False False False

2 False False False False False False False False False False True False

3 False False False False False False False False False False False False

4 False False False False False False False False False False True False

... ... ... ... ... ... ... ... ... ... ... ... ...

886 False False False False False False False False False False True False

887 False False False False False False False False False False False False

888 False False False False False True False False False False True False

889 False False False False False False False False False False False False

890 False False False False False False False False False False True False

891 rows × 12 columns

In [78]: df.isnull().sum()

Out[78]: PassengerId 0
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64

In [80]: df1 = df.drop(['PassengerId', 'Name', 'SibSp', 'Parch', 'Ticket', 'Cabin', 'Embarked'], axis='columns')
df1

Out[80]: Survived Pclass Sex Age Fare

0 0 3 male 22.0 7.2500

1 1 1 female 38.0 71.2833

2 1 3 female 26.0 7.9250

3 1 1 female 35.0 53.1000

4 0 3 male 35.0 8.0500

... ... ... ... ... ...

886 0 2 male 27.0 13.0000

887 1 1 female 19.0 30.0000

888 0 3 female NaN 23.4500

889 1 1 male 26.0 30.0000

890 0 3 male 32.0 7.7500

891 rows × 5 columns

In [82]: df1.isnull().sum()

Out[82]: Survived 0
Pclass 0
Sex 0
Age 177
Fare 0
dtype: int64

In [84]: df['Age'].mode()

Out[84]: 0 24.0
Name: Age, dtype: float64

In [86]: df1.loc[:, 'Age'] = df1['Age'].fillna(df1['Age'].mode()[0])

In [88]: df1.isnull().sum()

Out[88]: Survived 0
Pclass 0
Sex 0
Age 0
Fare 0
dtype: int64

In [96]: df1.drop(columns=['Survived'], inplace=True)

In [100… target = df['Survived']

target

Out[100… 0 0
1 1
2 1
3 1
4 0
..
886 0
887 1
888 0
889 1
890 0
Name: Survived, Length: 891, dtype: int64

In [114… from sklearn.preprocessing import LabelEncoder

le_Sex = LabelEncoder()

In [126… df1['Sex_n'] = le_Sex.fit_transform(df1['Sex'])

In [128… df1

Out[128… Pclass Sex Age Fare age_n Sex_n

0 3 male 22.0 7.2500 28 1

1 1 female 38.0 71.2833 51 0

2 3 female 26.0 7.9250 34 0

3 1 female 35.0 53.1000 47 0

4 3 male 35.0 8.0500 47 1

... ... ... ... ... ... ...

886 2 male 27.0 13.0000 35 1

887 1 female 19.0 30.0000 24 0

888 3 female 24.0 23.4500 31 0

889 1 male 26.0 30.0000 34 1

890 3 male 32.0 7.7500 42 1

891 rows × 6 columns

In [132… df2 = df1.drop(['Sex','age_n'], axis='columns')

df2

Out[132… Pclass Age Fare Sex_n

0 3 22.0 7.2500 1

1 1 38.0 71.2833 0

2 3 26.0 7.9250 0

3 1 35.0 53.1000 0

4 3 35.0 8.0500 1

... ... ... ... ...

886 2 27.0 13.0000 1

887 1 19.0 30.0000 0

888 3 24.0 23.4500 0

889 1 26.0 30.0000 1

890 3 32.0 7.7500 1

891 rows × 4 columns

In [102… from sklearn import tree

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

In [134… X_train, X_test, y_train, y_test = train_test_split(df2, target, test_size=0.3)

In [136… X_train

Out[136… Pclass Age Fare Sex_n

728 2 25.0 26.0000 1

229 3 24.0 25.4667 0

589 3 24.0 8.0500 1

37 3 21.0 8.0500 1

333 3 16.0 18.0000 1

... ... ... ... ...

359 3 24.0 7.8792 0

3 1 35.0 53.1000 0

180 3 24.0 69.5500 0

426 2 28.0 26.0000 0

756 3 28.0 7.7958 1

623 rows × 4 columns

In [138… y_train

Out[138… 728 0
229 0
589 0
37 0
333 0
..
359 1
3 1
180 0
426 1
756 0
Name: Survived, Length: 623, dtype: int64

In [140… classifier = DecisionTreeClassifier()

In [143… classifier.fit(X_train,y_train)

Out[143… ▾ DecisionTreeClassifier i ?

DecisionTreeClassifier()

In [145… y_pred = classifier.predict(X_test)

In [147… y_pred

Out[147… array([0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1,
0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0,
0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1,
0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0,
0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0,
1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0,
1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0,
0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1,
1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0,
0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0,
0, 1, 0, 1], dtype=int64)

In [149… classifier.score(df2,target)

Out[149… 0.9315375982042648

In [151… classifier.score(X_test,y_pred)

Out[151… 1.0

In [155… classifier.predict([[3,25,28,0]])# pclass(1,2,3) ,age , fare , sex -- 0 for female & 1 -- for male

C:\Users\MyPc\anaconda3\Lib\site-packages\sklearn\base.py:493: UserWarning: X does not have valid feature names, but DecisionTreeClassifier was fitted with feature names
warnings.warn(
Out[155… array([0], dtype=int64)

In [169… classifier.predict([[1,85,1200,1]])# pclass ,age , fare = money , sex -- 0 for female & 1 -- for male

In [179… classifier.predict([[2,38,71000,0]])# pclass ,age , fare , sex -- 0 for female & 1 -- for male

Titanic Survival Prediction
No ratings yet
Titanic Survival Prediction
5 pages
Logistic Regression On Titanic Dataset
No ratings yet
Logistic Regression On Titanic Dataset
6 pages
Titanic ML for Data Scientists
No ratings yet
Titanic ML for Data Scientists
36 pages
Advanced Python for Data Scientists
No ratings yet
Advanced Python for Data Scientists
19 pages
Titanic Akshaya
No ratings yet
Titanic Akshaya
12 pages
9914 ML Lab3
No ratings yet
9914 ML Lab3
6 pages
Titanic
No ratings yet
Titanic
6 pages
Lab5 - My1stAiModel - Activity - Carl David C. Barrameda - Ipynb - Colab
No ratings yet
Lab5 - My1stAiModel - Activity - Carl David C. Barrameda - Ipynb - Colab
3 pages
Titanic Data Analysis
No ratings yet
Titanic Data Analysis
14 pages
Titanic Data Analysis & Modeling
No ratings yet
Titanic Data Analysis & Modeling
11 pages
Titanic Logistic Regression Project
No ratings yet
Titanic Logistic Regression Project
35 pages
Titanic Eda
No ratings yet
Titanic Eda
17 pages
9924 ML Lab3
No ratings yet
9924 ML Lab3
9 pages
Loading The Dataset: ## The Matplotlib and Seaborn Library For Result Visualization and Analysis
No ratings yet
Loading The Dataset: ## The Matplotlib and Seaborn Library For Result Visualization and Analysis
13 pages
Titanic Data
No ratings yet
Titanic Data
5 pages
Machine Learning Lab: Titanic PCA & ID3 Decision Tree
No ratings yet
Machine Learning Lab: Titanic PCA & ID3 Decision Tree
19 pages
Titanic Survival Prediction 1692609491
No ratings yet
Titanic Survival Prediction 1692609491
15 pages
Data Cleaning and Manipulation in Python
No ratings yet
Data Cleaning and Manipulation in Python
33 pages
Lab 3
No ratings yet
Lab 3
7 pages
7 8 - Missing Value Handling
No ratings yet
7 8 - Missing Value Handling
4 pages
1 10
No ratings yet
1 10
4 pages
Practical No 01
No ratings yet
Practical No 01
9 pages
Random Forest/Roc&Auc - Hyperparamer Tuning With For Loop - TITANIC DB
No ratings yet
Random Forest/Roc&Auc - Hyperparamer Tuning With For Loop - TITANIC DB
17 pages
KNN Practical Debasmita Datta
No ratings yet
KNN Practical Debasmita Datta
6 pages
ML 3
No ratings yet
ML 3
9 pages
A09Ass01 - Jupyter Notebook
No ratings yet
A09Ass01 - Jupyter Notebook
8 pages
Titanic PuneethRegonda
No ratings yet
Titanic PuneethRegonda
8 pages
ML - Lab 03.ipynb Colab
No ratings yet
ML - Lab 03.ipynb Colab
4 pages
Data Acquisition and Cleansing Program - Colab
No ratings yet
Data Acquisition and Cleansing Program - Colab
5 pages
Program 7
No ratings yet
Program 7
2 pages
Python For Data Analysis
No ratings yet
Python For Data Analysis
28 pages
ML - Other Pracs
No ratings yet
ML - Other Pracs
7 pages
Seaborn Ploting in Titanic
No ratings yet
Seaborn Ploting in Titanic
18 pages
178 - NaiveBaye's.ipynb - Colab
No ratings yet
178 - NaiveBaye's.ipynb - Colab
3 pages
ML Lab File
No ratings yet
ML Lab File
19 pages
PANDAS Groupby Continues 2
No ratings yet
PANDAS Groupby Continues 2
5 pages
Python For Machine Learning
No ratings yet
Python For Machine Learning
33 pages
# Load The Titanic Dataset: Import As Import As From Import From Import
No ratings yet
# Load The Titanic Dataset: Import As Import As From Import From Import
9 pages
Assignment2 DMS672
No ratings yet
Assignment2 DMS672
15 pages
23BCE7199 ML Lab Assignment
No ratings yet
23BCE7199 ML Lab Assignment
15 pages
Titanic Survival Data Analysis
No ratings yet
Titanic Survival Data Analysis
6 pages
Binning
No ratings yet
Binning
4 pages
TP Ai Titanic
No ratings yet
TP Ai Titanic
1 page
01-Logistic Regression With Python
No ratings yet
01-Logistic Regression With Python
12 pages
Machine Learning Lab Assignment 1
No ratings yet
Machine Learning Lab Assignment 1
23 pages
4.1.3.5 Lab - Decision Tree Classification
No ratings yet
4.1.3.5 Lab - Decision Tree Classification
11 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
ML Dataset Performance
No ratings yet
ML Dataset Performance
11 pages
Bacdeaf 23032025 115708 Split 1
No ratings yet
Bacdeaf 23032025 115708 Split 1
37 pages
Titanic Data Analysis in Colab
No ratings yet
Titanic Data Analysis in Colab
4 pages
Dataset Visualization Basic Ml-1
No ratings yet
Dataset Visualization Basic Ml-1
12 pages
Assign8.ipynb - Colab
No ratings yet
Assign8.ipynb - Colab
14 pages
Naive Baye
No ratings yet
Naive Baye
1 page
10 - Eda To Prediction Dietanic
No ratings yet
10 - Eda To Prediction Dietanic
21 pages
Untitled32.Ipynb - Colab
No ratings yet
Untitled32.Ipynb - Colab
1 page
Data Preprocessing for ML with Python
No ratings yet
Data Preprocessing for ML with Python
2 pages
Titanic Survival Analysis
100% (2)
Titanic Survival Analysis
13 pages
Day 20
No ratings yet
Day 20
5 pages
Home Work
No ratings yet
Home Work
12 pages
VAOW Pitch 22112023
No ratings yet
VAOW Pitch 22112023
27 pages
Gender and Social Construction
No ratings yet
Gender and Social Construction
64 pages
Circular Transformation for Industries
No ratings yet
Circular Transformation for Industries
17 pages
The Defining Decade - Meg Jay - Notes
100% (1)
The Defining Decade - Meg Jay - Notes
6 pages
Literature - Survey - 2 - 25 - Nov - 2024 AI Report
No ratings yet
Literature - Survey - 2 - 25 - Nov - 2024 AI Report
8 pages
Organizational Design Project DANPER
No ratings yet
Organizational Design Project DANPER
62 pages
Air Pollution Learning Module: Composition of The Atmosphere
No ratings yet
Air Pollution Learning Module: Composition of The Atmosphere
25 pages
Dr. Van Giap Ngo (Morong, Bataan)
No ratings yet
Dr. Van Giap Ngo (Morong, Bataan)
2 pages
Bai Tap Tieng Anh 7 I Learn Smart World Unit 6
No ratings yet
Bai Tap Tieng Anh 7 I Learn Smart World Unit 6
4 pages
GLG Homework
100% (1)
GLG Homework
5 pages
Feeling As A Modifier of Moral Decision Making
No ratings yet
Feeling As A Modifier of Moral Decision Making
10 pages
Private Sector Environmental Information and The Law First Edition Juliana Zuluaga-Madrid Download
100% (1)
Private Sector Environmental Information and The Law First Edition Juliana Zuluaga-Madrid Download
58 pages
Midterm Exam in Research 302 Waves and Optics: Northern Iloilo Polytechnic State College Ajuy Campus
No ratings yet
Midterm Exam in Research 302 Waves and Optics: Northern Iloilo Polytechnic State College Ajuy Campus
2 pages
Socio 101
No ratings yet
Socio 101
2 pages
Course Catalogue 2020 2021
No ratings yet
Course Catalogue 2020 2021
25 pages
MSC Trauma Care Technology
No ratings yet
MSC Trauma Care Technology
4 pages
University of Iowa Student, Faculty, and Staff Directory 1985-1986
No ratings yet
University of Iowa Student, Faculty, and Staff Directory 1985-1986
333 pages
Summaries of Chapters 4 - 7 1
No ratings yet
Summaries of Chapters 4 - 7 1
2 pages
A Case Study in Arabic Doxography Sahras
No ratings yet
A Case Study in Arabic Doxography Sahras
51 pages
04 - QUICK PSYCHOSOCIAL EVALUATION GUIDE For PSAP 2.0 All Levels
No ratings yet
04 - QUICK PSYCHOSOCIAL EVALUATION GUIDE For PSAP 2.0 All Levels
18 pages
Perdev DLP
100% (1)
Perdev DLP
6 pages
Complaint Against Fish Aquarium in Science Park Ahmedabad
No ratings yet
Complaint Against Fish Aquarium in Science Park Ahmedabad
12 pages
Lima Bean Production
No ratings yet
Lima Bean Production
12 pages
Final Exam Avanzado 4
100% (5)
Final Exam Avanzado 4
20 pages
Read The Passage and Answer The Questions Given Below Animal Migrations
No ratings yet
Read The Passage and Answer The Questions Given Below Animal Migrations
4 pages
14.128 Dynamic Optimization and Economic Applications (Recursive Methods)
No ratings yet
14.128 Dynamic Optimization and Economic Applications (Recursive Methods)
3 pages
Mary in Early Christian Faith and Devotion Stephen J. Shoemaker PDF Download
100% (5)
Mary in Early Christian Faith and Devotion Stephen J. Shoemaker PDF Download
68 pages
Department of Computing, Prospectus STMU (11.4 × 6.412in) PDF
No ratings yet
Department of Computing, Prospectus STMU (11.4 × 6.412in) PDF
80 pages
ID Fan Vibration Troubleshooting
No ratings yet
ID Fan Vibration Troubleshooting
8 pages
FINAL EXAMINATION API 570 Open Book
100% (1)
FINAL EXAMINATION API 570 Open Book
3 pages

Decision Tree

Uploaded by

Decision Tree

Uploaded by

In [72]: import numpy as np

2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S

4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S

891 rows × 12 columns

891 rows × 12 columns

Out[80]: Survived Pclass Sex Age Fare

0 0 3 male 22.0 7.2500

1 1 1 female 38.0 71.2833

2 1 3 female 26.0 7.9250

3 1 1 female 35.0 53.1000

4 0 3 male 35.0 8.0500

... ... ... ... ... ...

886 0 2 male 27.0 13.0000

887 1 1 female 19.0 30.0000

888 0 3 female NaN 23.4500

889 1 1 male 26.0 30.0000

890 0 3 male 32.0 7.7500

891 rows × 5 columns

In [86]: df1.loc[:, 'Age'] = df1['Age'].fillna(df1['Age'].mode()[0])

In [96]: df1.drop(columns=['Survived'], inplace=True)

In [100… target = df['Survived']

In [114… from sklearn.preprocessing import LabelEncoder

In [126… df1['Sex_n'] = le_Sex.fit_transform(df1['Sex'])

Out[128… Pclass Sex Age Fare age_n Sex_n

0 3 male 22.0 7.2500 28 1

1 1 female 38.0 71.2833 51 0

2 3 female 26.0 7.9250 34 0

3 1 female 35.0 53.1000 47 0

4 3 male 35.0 8.0500 47 1

... ... ... ... ... ... ...

886 2 male 27.0 13.0000 35 1

887 1 female 19.0 30.0000 24 0

888 3 female 24.0 23.4500 31 0

889 1 male 26.0 30.0000 34 1

890 3 male 32.0 7.7500 42 1

891 rows × 6 columns

In [132… df2 = df1.drop(['Sex','age_n'], axis='columns')

Out[132… Pclass Age Fare Sex_n

... ... ... ... ...

886 2 27.0 13.0000 1

887 1 19.0 30.0000 0

888 3 24.0 23.4500 0

889 1 26.0 30.0000 1

890 3 32.0 7.7500 1

891 rows × 4 columns

In [102… from sklearn import tree

In [134… X_train, X_test, y_train, y_test = train_test_split(df2, target, test_size=0.3)

Out[136… Pclass Age Fare Sex_n

728 2 25.0 26.0000 1

229 3 24.0 25.4667 0

589 3 24.0 8.0500 1

333 3 16.0 18.0000 1

... ... ... ... ...

359 3 24.0 7.8792 0

180 3 24.0 69.5500 0

426 2 28.0 26.0000 0

756 3 28.0 7.7958 1

623 rows × 4 columns

In [140… classifier = DecisionTreeClassifier()

In [145… y_pred = classifier.predict(X_test)

You might also like