0% found this document useful (0 votes)

8 views6 pages

Import As Import As From Import Import As Import As From Import From Import From Import

The document outlines a data analysis process using the Iris dataset, including handling missing values with mean imputation, smoothing data with a rolling window, and removing outliers based on z-scores. It also applies Min-Max and Standard scaling to the cleaned data and performs ANOVA and Kruskal-Wallis tests to assess differences in features across species. The results indicate significant differences in sepal width, petal length, and petal width among species, while sepal length showed no significant difference.

Uploaded by

alavalapativaishnavireddyvaish

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views6 pages

Import As Import As From Import Import As Import As From Import From Import From Import

Uploaded by

alavalapativaishnavireddyvaish

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

import numpy as np

import pandas as pd
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df

sepal length (cm) sepal width (cm) petal length (cm) petal
width (cm)
0 5.1 3.5 1.4
0.2
1 4.9 3.0 1.4
0.2
2 4.7 3.2 1.3
0.2
3 4.6 3.1 1.5
0.2
4 5.0 3.6 1.4
0.2
.. ... ... ...
...
145 6.7 3.0 5.2
2.3
146 6.3 2.5 5.0
1.9
147 6.5 3.0 5.2
2.0
148 6.2 3.4 5.4
2.3
149 5.9 3.0 5.1
1.8

[150 rows x 4 columns]

np.random.seed(0)
nan_indices = np.random.choice(df.index, size=20, replace=True)
df.loc[nan_indices, 'sepal length (cm)'] = np.nan
print("Initial Data with Missing Values:")
print(df.head())

Initial Data with Missing Values:

sepal length (cm) sepal width (cm) petal length (cm) petal width
(cm)
0 5.1 3.5 1.4
0.2
1 4.9 3.0 1.4
0.2
2 4.7 3.2 1.3
0.2
3 4.6 3.1 1.5
0.2
4 5.0 3.6 1.4
0.2

imputer = SimpleImputer(strategy='mean')
df_imputed = pd.DataFrame(imputer.fit_transform(df),
columns=df.columns)
print("\nData after Handling Missing Values:")
print(df_imputed.head())

Data after Handling Missing Values:

sepal length (cm) sepal width (cm) petal length (cm) petal width
(cm)
0 5.1 3.5 1.4
0.2
1 4.9 3.0 1.4
0.2
2 4.7 3.2 1.3
0.2
3 4.6 3.1 1.5
0.2
4 5.0 3.6 1.4
0.2

df_smoothed = df_imputed.rolling(window=3).mean()

print("\nSmoothed Data (with Rolling Window):")

print(df_smoothed.head(10))

Smoothed Data (with Rolling Window):

sepal length (cm) sepal width (cm) petal length (cm) petal width
(cm)
0 NaN NaN NaN
NaN
1 NaN NaN NaN
NaN
2 4.900000 3.233333 1.366667
0.200000
3 4.733333 3.100000 1.400000
0.200000
4 4.766667 3.300000 1.400000
0.200000
5 5.000000 3.533333 1.533333
0.266667
6 5.000000 3.633333 1.500000
0.300000
7 5.276106 3.566667 1.533333
0.300000
8 4.942773 3.233333 1.433333
0.233333
9 5.352212 3.133333 1.466667
0.166667

z_scores = np.abs(stats.zscore(df_imputed))
outliers = (z_scores > 3).all(axis=1)
df_no_outliers = df_imputed[~outliers]

print("\nData after Removing Outliers:")

print(df_no_outliers.head())

Data after Removing Outliers:

sepal length (cm) sepal width (cm) petal length (cm) petal width
(cm)
0 5.1 3.5 1.4
0.2
1 4.9 3.0 1.4
0.2
2 4.7 3.2 1.3
0.2
3 4.6 3.1 1.5
0.2
4 5.0 3.6 1.4
0.2

scaler_min_max = MinMaxScaler()
df_minmax_scaled =
pd.DataFrame(scaler_min_max.fit_transform(df_no_outliers),
columns=df_no_outliers.columns)
print("\nData after Min-Max Scaling:")
print(df_minmax_scaled.head())

Data after Min-Max Scaling:

sepal length (cm) sepal width (cm) petal length (cm) petal width
(cm)
0 0.222222 0.625000 0.067797
0.041667
1 0.166667 0.416667 0.067797
0.041667
2 0.111111 0.500000 0.050847
0.041667
3 0.083333 0.458333 0.084746
0.041667
4 0.194444 0.666667 0.067797
0.041667

scaler_standard = StandardScaler()
df_standard_scaled =
pd.DataFrame(scaler_standard.fit_transform(df_no_outliers),
columns=df_no_outliers.columns)
print("\nData after Standard Scaling:")
print(df_standard_scaled.head())

Data after Standard Scaling:

sepal length (cm) sepal width (cm) petal length (cm) petal width
(cm)
0 -0.981414 1.019004 -1.340227 -
1.315444
1 -1.250916 -0.131979 -1.340227 -
1.315444
2 -1.520417 0.328414 -1.397064 -
1.315444
3 -1.655168 0.098217 -1.283389 -
1.315444
4 -1.116165 1.249201 -1.340227 -
1.315444

print("\nDescriptive Statistics:")
print(df_imputed.describe())

Descriptive Statistics:
sepal length (cm) sepal width (cm) petal length (cm) \
count 150.000000 150.000000 150.000000
mean 5.828319 3.057333 3.758000
std 0.744597 0.435866 1.765298
min 4.300000 2.000000 1.000000
25% 5.400000 2.800000 1.600000
50% 5.828319 3.000000 4.350000
75% 6.275000 3.300000 5.100000
max 7.900000 4.400000 6.900000

petal width (cm)

count 150.000000
mean 1.199333
std 0.762238
min 0.100000
25% 0.300000
50% 1.300000
75% 1.800000
max 2.500000
df['species'] = data.target
for feature in df.columns[:-1]:
f_stat, p_val = stats.f_oneway(df[df['species'] == 0][feature],
df[df['species'] == 1][feature],
df[df['species'] == 2][feature])
print(f"\nANOVA for {feature}: F-statistic = {f_stat:.3f}, p-value
= {p_val:.3f}")
if p_val < 0.05:
print(f" -> The means of {feature} are significantly
different across species (reject H0)")
else:
print(f" -> The means of {feature} are not significantly
different across species (fail to reject H0)")

ANOVA for sepal length (cm): F-statistic = nan, p-value = nan

-> The means of sepal length (cm) are not significantly different
across species (fail to reject H0)

ANOVA for sepal width (cm): F-statistic = 49.160, p-value = 0.000

-> The means of sepal width (cm) are significantly different across
species (reject H0)

ANOVA for petal length (cm): F-statistic = 1180.161, p-value = 0.000

-> The means of petal length (cm) are significantly different across
species (reject H0)

ANOVA for petal width (cm): F-statistic = 960.007, p-value = 0.000

-> The means of petal width (cm) are significantly different across
species (reject H0)

print("\nNon-Parametric Test (Kruskal-Wallis H-test):")

for feature in df.columns[:-1]:
h_stat, p_val = stats.kruskal(df[df['species'] == 0][feature],
df[df['species'] == 1][feature],
df[df['species'] == 2][feature])
print(f"\nKruskal-Wallis for {feature}: H-statistic =
{h_stat:.3f}, p-value = {p_val:.3f}")
if p_val < 0.05:
print(f" -> The distributions of {feature} are significantly
different across species (reject H0)")
else:
print(f" -> The distributions of {feature} are not
significantly different across species (fail to reject H0)")

Non-Parametric Test (Kruskal-Wallis H-test):

Kruskal-Wallis for sepal length (cm): H-statistic = nan, p-value = nan

-> The distributions of sepal length (cm) are not significantly
different across species (fail to reject H0)
Kruskal-Wallis for sepal width (cm): H-statistic = 63.571, p-value =
0.000
-> The distributions of sepal width (cm) are significantly different
across species (reject H0)

Kruskal-Wallis for petal length (cm): H-statistic = 130.411, p-value =

0.000
-> The distributions of petal length (cm) are significantly
different across species (reject H0)

Kruskal-Wallis for petal width (cm): H-statistic = 131.185, p-value =

0.000
-> The distributions of petal width (cm) are significantly different
across species (reject H0)

Data Visualization
No ratings yet
Data Visualization
18 pages
Pre-Processing Techniques - Ipynb - Colab
No ratings yet
Pre-Processing Techniques - Ipynb - Colab
3 pages
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
No ratings yet
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
7 pages
Unsupervised ML
No ratings yet
Unsupervised ML
17 pages
Data Visualizationyuo
No ratings yet
Data Visualizationyuo
28 pages
Assignment 3
No ratings yet
Assignment 3
7 pages
Ploomber Notebook Conversion - 2
No ratings yet
Ploomber Notebook Conversion - 2
14 pages
K Fold
No ratings yet
K Fold
2 pages
Dsa 1
No ratings yet
Dsa 1
8 pages
Normalization
No ratings yet
Normalization
4 pages
Assignment 5'
No ratings yet
Assignment 5'
4 pages
Exp 5,6,7
No ratings yet
Exp 5,6,7
2 pages
Ass - 10.ipynb - Colab
No ratings yet
Ass - 10.ipynb - Colab
8 pages
DSE 6 - Colab
No ratings yet
DSE 6 - Colab
5 pages
Data Science Lab Program Printout
No ratings yet
Data Science Lab Program Printout
43 pages
Hypothesis Testing PDF
No ratings yet
Hypothesis Testing PDF
9 pages
ML FINAL Lab Manual
No ratings yet
ML FINAL Lab Manual
7 pages
DL Experiment - 1
No ratings yet
DL Experiment - 1
10 pages
'Iris - CSV': Import As
No ratings yet
'Iris - CSV': Import As
3 pages
ML Mini Project: Name: Sarvesh Muttepwar Class: BE COMP (A) Roll No: 21CEBEB11
No ratings yet
ML Mini Project: Name: Sarvesh Muttepwar Class: BE COMP (A) Roll No: 21CEBEB11
12 pages
RP 3
No ratings yet
RP 3
32 pages
Untitled2 - Jupyter Notebook
No ratings yet
Untitled2 - Jupyter Notebook
4 pages
Experiment 1
No ratings yet
Experiment 1
2 pages
Train Test Splitting
No ratings yet
Train Test Splitting
3 pages
Anuj Khandelwal 3029 BCP A Business Analytics Continuous Assessment 2
No ratings yet
Anuj Khandelwal 3029 BCP A Business Analytics Continuous Assessment 2
20 pages
085
No ratings yet
085
4 pages
Machine Learning - Lab Record
No ratings yet
Machine Learning - Lab Record
43 pages
Keeraiit 2
No ratings yet
Keeraiit 2
19 pages
DSBDA3
No ratings yet
DSBDA3
3 pages
EXP 07 (ML) - Sarthak
No ratings yet
EXP 07 (ML) - Sarthak
4 pages
R Project Document
No ratings yet
R Project Document
48 pages
Karisma 23011101119 Eda Rec
No ratings yet
Karisma 23011101119 Eda Rec
88 pages
Practical No - 1
No ratings yet
Practical No - 1
5 pages
6 Lab
No ratings yet
6 Lab
16 pages
7 Output
No ratings yet
7 Output
4 pages
137 Vsec 6
No ratings yet
137 Vsec 6
2 pages
Assignment 10
No ratings yet
Assignment 10
9 pages
EXP 07 (ML) - Darshu
No ratings yet
EXP 07 (ML) - Darshu
4 pages
AbhishekVallecha 2003184 ADS Exp9
No ratings yet
AbhishekVallecha 2003184 ADS Exp9
6 pages
Exp 07 (ML)
No ratings yet
Exp 07 (ML)
4 pages
EXP 07 (ML) - Ashu
No ratings yet
EXP 07 (ML) - Ashu
4 pages
Data Cleaning for Analysts
No ratings yet
Data Cleaning for Analysts
27 pages
Experiment 11 PML
No ratings yet
Experiment 11 PML
3 pages
Introduction To Neural Networks
No ratings yet
Introduction To Neural Networks
4 pages
Experiment 3
No ratings yet
Experiment 3
4 pages
25 - Assignment10.ipynb - Colaboratory
No ratings yet
25 - Assignment10.ipynb - Colaboratory
13 pages
Task 7
No ratings yet
Task 7
14 pages
Practical No 1 - Merged
No ratings yet
Practical No 1 - Merged
6 pages
Data Mining Solve
No ratings yet
Data Mining Solve
5 pages
ML Expt 2
No ratings yet
ML Expt 2
5 pages
BS SRR-3
No ratings yet
BS SRR-3
20 pages
L3 - Classification - RandomForest - Jupyter Notebook
No ratings yet
L3 - Classification - RandomForest - Jupyter Notebook
6 pages
Nandini Matplotlib Ws
No ratings yet
Nandini Matplotlib Ws
10 pages
Iris Dataset: Data Preprocessing
No ratings yet
Iris Dataset: Data Preprocessing
13 pages
Exercise For K Means Tutorial
No ratings yet
Exercise For K Means Tutorial
5 pages
Machine Learning Group Project
No ratings yet
Machine Learning Group Project
22 pages
Merged
No ratings yet
Merged
35 pages
Pearson Ecourse Vs Cengage SAM
No ratings yet
Pearson Ecourse Vs Cengage SAM
4 pages
Mini Research Prposal On Challenges and Possibilities of Railway in Nepal
No ratings yet
Mini Research Prposal On Challenges and Possibilities of Railway in Nepal
6 pages
River Restoration Experience
No ratings yet
River Restoration Experience
38 pages
Residential Construction Guidelines
No ratings yet
Residential Construction Guidelines
2 pages
Gea1000 Finals Cheatsheet
No ratings yet
Gea1000 Finals Cheatsheet
2 pages
Aviation Maintenance Alerts: Advisory Circular
No ratings yet
Aviation Maintenance Alerts: Advisory Circular
29 pages
Term Paper Data Collection
100% (1)
Term Paper Data Collection
8 pages
River Mapping for Class X Geography
No ratings yet
River Mapping for Class X Geography
1 page
QM ZG528 Course Handout
No ratings yet
QM ZG528 Course Handout
8 pages
2017 Lincoln MKZ Owners Manual Version-3
100% (1)
2017 Lincoln MKZ Owners Manual Version-3
576 pages
Important Questions For CBSE Class 11 Accountancy Chapter 9 - Financial Statements 1
No ratings yet
Important Questions For CBSE Class 11 Accountancy Chapter 9 - Financial Statements 1
10 pages
Cables - Estimate of Energy Consumption and CO2 Emission Associated With The Production, Use and Final Disposal
No ratings yet
Cables - Estimate of Energy Consumption and CO2 Emission Associated With The Production, Use and Final Disposal
31 pages
Agura, Danieli - Bullet Journal8
No ratings yet
Agura, Danieli - Bullet Journal8
2 pages
Beauty & Cleaning Product Guide
100% (1)
Beauty & Cleaning Product Guide
170 pages
Unit 2 Carrier Transport Mechanism in Semiconductors
No ratings yet
Unit 2 Carrier Transport Mechanism in Semiconductors
158 pages
Osces for the Mrcs Part B: A Bailey & Love Revision Guide Second Edition Chowdhury full chapters instanly
No ratings yet
Osces for the Mrcs Part B: A Bailey & Love Revision Guide Second Edition Chowdhury full chapters instanly
134 pages
Module Reading Writing Quarter 4
No ratings yet
Module Reading Writing Quarter 4
94 pages
Rules
No ratings yet
Rules
2 pages
Cree LED JSeries Feature Sheet
No ratings yet
Cree LED JSeries Feature Sheet
2 pages
M&E Consulting Engineer Duties
33% (3)
M&E Consulting Engineer Duties
2 pages
Automated Stock Management System
No ratings yet
Automated Stock Management System
7 pages
OC06 Waste Management Procedure
No ratings yet
OC06 Waste Management Procedure
10 pages
SILENT NOISE - A Bangladeshi Short Story
100% (7)
SILENT NOISE - A Bangladeshi Short Story
5 pages
Use of Local Culture in EFL Classroom
No ratings yet
Use of Local Culture in EFL Classroom
20 pages
Superexcels Provide Differentiated Supervision: First Edition
No ratings yet
Superexcels Provide Differentiated Supervision: First Edition
23 pages
Worked Example - Analysis and Design of Steel Sheet Pile Wall (EN 1997-1) - Structville
No ratings yet
Worked Example - Analysis and Design of Steel Sheet Pile Wall (EN 1997-1) - Structville
11 pages
Unit 2-2 - Free Time Activities - Leisure English Vocabulary
100% (1)
Unit 2-2 - Free Time Activities - Leisure English Vocabulary
5 pages
Data Presentation Methods Explained
No ratings yet
Data Presentation Methods Explained
13 pages
Renewi Annual Report 2022 PDF
No ratings yet
Renewi Annual Report 2022 PDF
133 pages
Brochure Deepseain
No ratings yet
Brochure Deepseain
2 pages