0% found this document useful (0 votes)

26 views6 pages

Phase 2

The project focuses on leveraging AI and machine learning to enhance early disease detection and personalized treatment in healthcare by analyzing patient data. Key objectives include developing predictive models for diseases like diabetes and cardiovascular issues, providing actionable insights for healthcare providers, and ensuring model interpretability. The project utilizes various data processing techniques and tools, with contributions from team members in areas such as data cleaning, visualization, and documentation.

Uploaded by

dom37070

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

26 views6 pages

Phase 2

Uploaded by

dom37070

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Phase-2 Submission – Data Analytics

Student Name: BHAVAN S

Register Number: 512223104012
Institution: SKP ENGINEERING COLLEGE
Department: CSE
Date of Submission:
GitHub Repository Link: github profile

1. Problem Statement
The healthcare industry faces significant challenges in early disease detection and
personalized treatment. Traditional diagnostic methods often rely on reactive approaches,
leading to delayed interventions and higher costs. This project aims to leverage AI and
machine learning to predict diseases early by analyzing patient data such as medical
history, lifestyle factors, and biometric measurements. By transitioning from reactive to
proactive healthcare, we can improve patient outcomes, reduce treatment costs, and
optimize resource allocation.

2. Project Objectives
The primary goal is to develop an AI-powered system that predicts diseases (e.g.,
diabetes, cardiovascular diseases) based on patient data. Key objectives include:
- Identifying patterns and risk factors in patient data that correlate with specific diseases.
- Building predictive models to assess disease likelihood and recommend preventive
measures.
- Providing actionable insights to healthcare providers for early intervention.
- Ensuring the model is interpretable and scalable for real-world deployment.

3. Flowchart of the Project Workflow

Data Collection
- EHRs, Wearables, Surveys
- Lab results, Demographics
Data Cleaning
- Missing values
- Outlier removal
- Standardization.
│ - Standardization.

Exploratory Data Analysis (EDA)

- Distributions
- Correlations
- Visualizations

Feature Selection
- Statistical tests
- Domain knowledge
- Feature importance.

Insight Extraction
- SHAP value analysis
- Key risk factor identification
- Patient stratification

Visualization
- Interactive dashboards
- Risk prediction charts
- Trend analysis graphs

Reporting & Recommendations

Automated PDF reports
Executive summaries
Personalized prevention plans

4. Data Description
Public datasets (e.g., Kaggle, UCI ML Repository) or synthetic data mimicking real-
world patient records.
• Data Type: Structured tabular data (e.g., CSV files).
• Number of Rows and Columns: 1,00 rows × 12 columns
• Dataset Nature: Static (data does not change in real time)
Key Fields Relevant to the Problem:
• - Patient_ID, Age, Gender
• - Medical history (e.g., past diagnoses, family history)
• - Biometrics (e.g., blood pressure, cholesterol levels)
• - Lifestyle factors (e.g., smoking, exercise habits)
• - Target variable: Disease diagnosis (binary/multi-class)
5. Data Preprocessing

To ensure accurate analysis, we performed the following data cleaning and preparation
steps:

• Handling Missing Values:

Mean/Median Imputation for numerical fields (e.g., blood pressure, glucose
levels).

• Mode Imputation for categorical values (e.g., gender, disease history).

• Removing Duplicates:
Each patient is uniquely identified using a Patient_ID. Duplicates are removed to
avoid bias in model training and disease prediction outcomes.

• Formatting and Parsing:

Dates (e.g., admission, diagnosis, follow-up) are standardized to datetime
format.

• Clinical values are formatted as float/int to ensure compatibility with ML models.

• Encoding Categorical Variables:

Label Encoding for binary features like gender (Male/Female).

• One-Hot Encoding for multi-class variables like symptoms or departments visited.

• Outlier Detection and Treatment:

• Interquartile Range (IQR) and Z-score methods are used to detect anomalies in
lab results (e.g., extremely high cholesterol).

• Outliers are either capped or removed if medically implausible.

• Transformations:
• Creating New Fields: New fields like Efficiency_Score =
Performance_Score / Monthly_Hours_Worked were created to better reflect
productivity.

Deeper Insights: These transformations helped in uncovering deeper insights.

● 6. Exploratory Data Analysis (EDA)

● Univariate Analysis:

Histograms for age distribution, bar charts for disease prevalence.

• Bivariate/Multivariate Analysis:

Scatter plots (e.g., glucose vs. diabetes), correlation heatmaps.

● Key Insights:

- High cholesterol and age are strong predictors of cardiovascular diseases.

- Lifestyle factors (e.g., sedentary habits) correlate with higher diabetes risk.

7. Tools and Technologies Used

• Programming Language: Python

• Notebook/IDE: Google Colab, Jupyter Notebook

• Libraries Used:

- Data Processing: pandas, numpy

- Visualization: matplotlib, seaborn, plotly

- ML Models: scikit-learn, XGBoost, TensorFlow (for deep learning

• Optional Tools:

o pandas-profiling – For quick automated EDA reports

o These tools helped efficiently clean, explore, and visualize the data for
performance analysis.

8. Team Members and Contributions

Name Contribution

BHAVAN S Data Cleaning, EDA.

C K YESU Data Collection, Visualization,

Insights

GOKUL Documentation, Flowchart Design,

Presentation

Bhavan Phase3 Prj.
No ratings yet
Bhavan Phase3 Prj.
24 pages
Exploring Data Analytics in The Healthcare Industry For Improved Patient Care
No ratings yet
Exploring Data Analytics in The Healthcare Industry For Improved Patient Care
10 pages
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
No ratings yet
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
21 pages
Heart Disease Detection
No ratings yet
Heart Disease Detection
14 pages
Medhun Final 1
No ratings yet
Medhun Final 1
4 pages
Predicting Disease With Machine Learning
No ratings yet
Predicting Disease With Machine Learning
20 pages
BDA Miniproject
No ratings yet
BDA Miniproject
5 pages
L&T Final Project
No ratings yet
L&T Final Project
23 pages
Hgs Phase II
No ratings yet
Hgs Phase II
27 pages
4 11 Final Modified Chapter-4
No ratings yet
4 11 Final Modified Chapter-4
32 pages
DS Report 03
No ratings yet
DS Report 03
30 pages
Natural Language Understanding
No ratings yet
Natural Language Understanding
14 pages
Journal Heart Attack
No ratings yet
Journal Heart Attack
6 pages
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
No ratings yet
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
6 pages
2 - Clinical Data Lecture
No ratings yet
2 - Clinical Data Lecture
24 pages
Health Care MLH File
No ratings yet
Health Care MLH File
76 pages
Ibm PROJECT 1 1 Output
No ratings yet
Ibm PROJECT 1 1 Output
10 pages
Prashant Detailed Document
No ratings yet
Prashant Detailed Document
18 pages
Report 4
No ratings yet
Report 4
38 pages
Unit 5 Healthcare Analytics GPT O4 Reasoning
No ratings yet
Unit 5 Healthcare Analytics GPT O4 Reasoning
29 pages
Batch-2 (Review 2)
No ratings yet
Batch-2 (Review 2)
19 pages
AIH Lab5
No ratings yet
AIH Lab5
6 pages
Developing A System For Early Detection of Specific
No ratings yet
Developing A System For Early Detection of Specific
9 pages
Healthcare Data Exploration Report Word File
No ratings yet
Healthcare Data Exploration Report Word File
9 pages
PROJECTS
No ratings yet
PROJECTS
6 pages
Analysis of Research in Healthcare Data Analytics - Sathyabama
No ratings yet
Analysis of Research in Healthcare Data Analytics - Sathyabama
43 pages
Boo PH 3
No ratings yet
Boo PH 3
11 pages
Exp1 - Minor
No ratings yet
Exp1 - Minor
2 pages
AIML Record Batch 9
No ratings yet
AIML Record Batch 9
88 pages
TCFL Projects Proposal Outline 2025 (1) .PPTX Anotidaishe
No ratings yet
TCFL Projects Proposal Outline 2025 (1) .PPTX Anotidaishe
5 pages
Total Documentation
No ratings yet
Total Documentation
21 pages
Experiment 5
No ratings yet
Experiment 5
10 pages
Health Care Predictive Analytics (1) Subashish
No ratings yet
Health Care Predictive Analytics (1) Subashish
13 pages
Healthcare Disparities Data Analytics
No ratings yet
Healthcare Disparities Data Analytics
5 pages
Liver Disease Prediction Using Machine Learning
No ratings yet
Liver Disease Prediction Using Machine Learning
28 pages
Bda 22 - Merged
No ratings yet
Bda 22 - Merged
8 pages
Final Mini Project PPT (d8)
No ratings yet
Final Mini Project PPT (d8)
15 pages
Phase 3 Health Monitoring and Diagnosis
No ratings yet
Phase 3 Health Monitoring and Diagnosis
10 pages
Hca Unit - 3 Answers
No ratings yet
Hca Unit - 3 Answers
19 pages
Healthcare Analytics Dashboard NewReport File
No ratings yet
Healthcare Analytics Dashboard NewReport File
29 pages
Ai Powered Medical Diagnosis-Phase 3
No ratings yet
Ai Powered Medical Diagnosis-Phase 3
10 pages
Adnan Lakdawala Medpace Resume
No ratings yet
Adnan Lakdawala Medpace Resume
1 page
Intel Report
No ratings yet
Intel Report
15 pages
Pneumonia Detection for AIML Students
No ratings yet
Pneumonia Detection for AIML Students
100 pages
DSC652 - Project Heart Attack Prediction
No ratings yet
DSC652 - Project Heart Attack Prediction
26 pages
Fraud Detection in Finance Refers To The Process of Identifying and Preven - 20250215 - 153408 - 0000
No ratings yet
Fraud Detection in Finance Refers To The Process of Identifying and Preven - 20250215 - 153408 - 0000
56 pages
Final Project Guidelines: Dataset Selection & Planning
No ratings yet
Final Project Guidelines: Dataset Selection & Planning
3 pages
Ass Report
No ratings yet
Ass Report
6 pages
Thyroid Disease Classification Using Machine Learning Project
No ratings yet
Thyroid Disease Classification Using Machine Learning Project
34 pages
DS Assignment
No ratings yet
DS Assignment
7 pages
Rubric 2 (10020,10033,10216)
No ratings yet
Rubric 2 (10020,10033,10216)
10 pages
Sonu Kumar
No ratings yet
Sonu Kumar
3 pages
(2023) Unlocking The Power of Data An Introduction To Data Analysis in Healthcare
No ratings yet
(2023) Unlocking The Power of Data An Introduction To Data Analysis in Healthcare
10 pages
ML Methods for Healthcare Data Analysis
No ratings yet
ML Methods for Healthcare Data Analysis
6 pages
Healthcare Data Analytics Guide
No ratings yet
Healthcare Data Analytics Guide
18 pages
Case Study Unit-1 and 2 Big Data
No ratings yet
Case Study Unit-1 and 2 Big Data
9 pages
Experiment 5
No ratings yet
Experiment 5
9 pages
Healthcare Data Scientist Expertise
No ratings yet
Healthcare Data Scientist Expertise
2 pages
A Study On Predictive Algorithms in Heal
No ratings yet
A Study On Predictive Algorithms in Heal
7 pages
Msc-International-Business .. Ulster
No ratings yet
Msc-International-Business .. Ulster
9 pages
Pneumatic Control System PDF
No ratings yet
Pneumatic Control System PDF
12 pages
RaiBlocks Whitepaper English
No ratings yet
RaiBlocks Whitepaper English
8 pages
Section 3 - Group Assignment
No ratings yet
Section 3 - Group Assignment
7 pages
Boeing Supplier Performance Metrics
No ratings yet
Boeing Supplier Performance Metrics
8 pages
Allied Combat Tanks PDF
100% (4)
Allied Combat Tanks PDF
67 pages
Aindumps 2024-May-02 by Uriah 63q Vce
No ratings yet
Aindumps 2024-May-02 by Uriah 63q Vce
15 pages
Social Housing in Newcastle Overview
No ratings yet
Social Housing in Newcastle Overview
3 pages
Ultrasonic Machining
50% (2)
Ultrasonic Machining
11 pages
General Formula
97% (32)
General Formula
53 pages
Prevalence of Internet Addiction and Anxiety, and Factors Associated With The High Level of Anxiety Among Adolescents in Hanoi, Vietnam During The COVID-19 Pandemic
No ratings yet
Prevalence of Internet Addiction and Anxiety, and Factors Associated With The High Level of Anxiety Among Adolescents in Hanoi, Vietnam During The COVID-19 Pandemic
8 pages
Logic Gates & Boolean Algebra Guide
No ratings yet
Logic Gates & Boolean Algebra Guide
29 pages
PGH Book (Philippines)
No ratings yet
PGH Book (Philippines)
108 pages
CLP5202 Veterinary Pharmacy and Agrochemicals Jan-2025
No ratings yet
CLP5202 Veterinary Pharmacy and Agrochemicals Jan-2025
55 pages
Assignment of HRM-301
No ratings yet
Assignment of HRM-301
11 pages
Manufacturing Process Management
100% (1)
Manufacturing Process Management
39 pages
Dell Operations Management Analysis
No ratings yet
Dell Operations Management Analysis
42 pages
InstallationManual B44066S October2010 V2
No ratings yet
InstallationManual B44066S October2010 V2
8 pages
Aquaprobe Fea100/Fea200: Electromagnetic Flowmeter Insertion-Type Flow Sensors
No ratings yet
Aquaprobe Fea100/Fea200: Electromagnetic Flowmeter Insertion-Type Flow Sensors
36 pages
Siemens PCS 7 Alarm Engineering Guide
No ratings yet
Siemens PCS 7 Alarm Engineering Guide
41 pages
Datasheet Siemens Sitrans p500 Pressure Transmitter
No ratings yet
Datasheet Siemens Sitrans p500 Pressure Transmitter
27 pages
Sample California Complaint Against Escrow Company For Negligence and Breach of Contract
0% (1)
Sample California Complaint Against Escrow Company For Negligence and Breach of Contract
2 pages
GPPB 2005 Resolution No. 06-2005 (Apr 2005) - Ordering Agreement
No ratings yet
GPPB 2005 Resolution No. 06-2005 (Apr 2005) - Ordering Agreement
8 pages
Assignment Inventory Management
No ratings yet
Assignment Inventory Management
7 pages
KAIBEL CHEM Alisa
No ratings yet
KAIBEL CHEM Alisa
13 pages
I-20 14609464 AlSarhani, IbrahimHusseinAli
No ratings yet
I-20 14609464 AlSarhani, IbrahimHusseinAli
3 pages
Resume - Niraj Kachhadia
No ratings yet
Resume - Niraj Kachhadia
3 pages
Upi Response Codes
100% (1)
Upi Response Codes
20 pages
Doctor List 2010 Update 1
No ratings yet
Doctor List 2010 Update 1
26 pages
PD LE4 ExpatVisaOfficer - 1
No ratings yet
PD LE4 ExpatVisaOfficer - 1
2 pages