0% found this document useful (0 votes)

4 views21 pages

Data Cleaning for Loan Prediction Dataset

Uploaded by

dedeepyavaddinuri

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views21 pages

Data Cleaning for Loan Prediction Dataset

Uploaded by

dedeepyavaddinuri

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Download any un-pre-processed dataset and perform various data cleaning processes to prepare

the data. You can use R-Programming/Python for this assignment.

Un-pre-processed dataset link:

[Link]

Dataset Overview

The dataset contains 367 records and 12 columns related to loan applications. It includes
categorical attributes like Gender, Education, and Property Area, along with numerical
attributes such as Applicant Income, Loan Amount, and Credit History. Some columns, such
as Self_Employed, LoanAmount, and Credit_History, have missing values that require
cleaning.
Table 1: Column Descriptions

Column Name Description

Loan_ID Unique identifier for each loan application
Gender Gender of the applicant (Male/Female)
Married Marital status (Yes/No)

Dependents Number of dependents (0,1,2,3+)

Education Education level (Graduate/Not Graduate)
Self_Employed Whether the applicant is self-employed (Yes/No)
ApplicantIncome Income of the applicant

CoapplicantIncome Income of the co-applicant (if any)

LoanAmount Loan amount applied for
Loan_Amount_Term Term of the loan in months

Credit_History Credit history (1 - good, 0 - bad, NaN - missing)

Property_Area Type of property area (Urban, Semiurban, Rural)
Table 2: Types of Noises & Fixes

Type of Noise Description Impact Possible Fix

Missing Values LoanAmount, Leads to Fill using
Self_Employed, incomplete mean/mode, or
Credit_History have missing analysis remove rows
values

Inconsistent Dependents column contains May cause issues Convert '3+' to 3

Data '3+' which is non-numeric in calculations
Outliers ApplicantIncome has Skews analysis Use median or
extreme values and predictions remove extreme
values

Categorical Gender, Married, Education, Cannot be used Convert to

Encoding Property_Area are categorical directly in ML numerical labels
Needed models

Implementing Data Cleaning and Visualization:

Platform and Language:

Platform: Google Colab

Language: Python

Libraries: Pandas, numpy, matplotlib, seaborn, missingno, scipy

Methodologies:

Data Cleaning: Handled missing values, standardized text formats, converted data types,
removed duplicates, and detected outliers using IQR and Z-score.
Data Visualization: Used Matplotlib and Seaborn to create histograms, box plots, line charts,
scatter plots, heatmaps, and pie charts for analysis.
INITIAL DATASET :
CODE:

Importing libraries in python:

Uploading the file:

Mounting google drive:

Load the dataset:

Initial dataset info and description:

Fill missing values for numerical columns with median values:

Fill missing values in 'self_employed' with the mode (most frequent value):
Check and remove any duplicate rows:

Confirm that there are no more missing values:

Save the cleaned dataset to a new CSV file:

Cleaned data info and description:
Output the first few rows of the cleaned data and check for any remaining missing values:
List Files in the Current Directory and Print the List of Files:

DATA CLEANED (processed data):

DATA VISUALIZATION :

Line Chart: Loan Amount Trend

Histogram: Applicant Income

KDE Plot: Probability Density of Loan Amount

Pie Chart: Loan Approval based on Credit History

Scatter Plot: Applicant Income vs Loan Amount
Box Plot:Checking Outliers in Loan Amount

Rug Plot: Distribution of Coapplicant Income

Bar Chart: Count of Dependents

Joint Plot: Applicant Income vs Loan Amount

Radial Bar Chart (Custom Circular Representation)
3D Scatter Plot: Loan Amount vs Income vs Credit History

Correlation Heatmap of Numerical Features

Rishi Shah BP MSB
No ratings yet
Rishi Shah BP MSB
10 pages
Rishi Shah BP MSB
No ratings yet
Rishi Shah BP MSB
10 pages
Rishi Shah BP MSB
No ratings yet
Rishi Shah BP MSB
10 pages
Rishi Shah BP MSB
No ratings yet
Rishi Shah BP MSB
10 pages
Home Credit Default Prediction Model
No ratings yet
Home Credit Default Prediction Model
10 pages
Loan Application Status Prediction Guide
No ratings yet
Loan Application Status Prediction Guide
82 pages
LendingClub Loan Default Prediction Model
No ratings yet
LendingClub Loan Default Prediction Model
17 pages
Loan Approval Prediction Analysis
No ratings yet
Loan Approval Prediction Analysis
4 pages
Loan Eligibility Analysis and Prediction
No ratings yet
Loan Eligibility Analysis and Prediction
5 pages
LendingClub Loan Default Prediction Model
No ratings yet
LendingClub Loan Default Prediction Model
18 pages
Loan Data Processing and Analysis
No ratings yet
Loan Data Processing and Analysis
4 pages
LendingClub Loan Default Analysis
No ratings yet
LendingClub Loan Default Analysis
8 pages
Credit Card Data Analysis Case Study
No ratings yet
Credit Card Data Analysis Case Study
15 pages
Home Credit Loan Repayment Model
No ratings yet
Home Credit Loan Repayment Model
19 pages
Business Case - LoanTap Logistic Regression Approach
No ratings yet
Business Case - LoanTap Logistic Regression Approach
11 pages
Loan Prediction PDF
No ratings yet
Loan Prediction PDF
16 pages
Loan Default Prediction in Python
No ratings yet
Loan Default Prediction in Python
4 pages
Loan Eligibility Prediction Model
No ratings yet
Loan Eligibility Prediction Model
6 pages
Python Loan Default Analysis Project
No ratings yet
Python Loan Default Analysis Project
15 pages
MAIN PROJECT Customer Loan ML Preprocessing
No ratings yet
MAIN PROJECT Customer Loan ML Preprocessing
16 pages
SSA-2 Front Sheet EDA
No ratings yet
SSA-2 Front Sheet EDA
11 pages
Loan Eligibility ML Report
No ratings yet
Loan Eligibility ML Report
8 pages
Credit Risk Dataset Preprocessing Steps
No ratings yet
Credit Risk Dataset Preprocessing Steps
5 pages
Acies Project 429
No ratings yet
Acies Project 429
17 pages
Logistic Regression for Credit Default Prediction
No ratings yet
Logistic Regression for Credit Default Prediction
6 pages
DSA Experement No1
No ratings yet
DSA Experement No1
3 pages
LendingClub Loan Default Prediction Model
No ratings yet
LendingClub Loan Default Prediction Model
17 pages
Bank Loan Default Analysis Project
No ratings yet
Bank Loan Default Analysis Project
22 pages
DS Using Python Lab Report
No ratings yet
DS Using Python Lab Report
9 pages
Credit Risk Prediction Model Overview
No ratings yet
Credit Risk Prediction Model Overview
19 pages
Loan Prediction Model with Python
No ratings yet
Loan Prediction Model with Python
9 pages
Predicting Customer Churn with Decision Trees
No ratings yet
Predicting Customer Churn with Decision Trees
10 pages
Early Warning Credit Risk Segmentation
No ratings yet
Early Warning Credit Risk Segmentation
30 pages
Standard Bank Home Loan Process Update
No ratings yet
Standard Bank Home Loan Process Update
11 pages
Predicting Personal Loan Approval
No ratings yet
Predicting Personal Loan Approval
31 pages
Loan Status Prediction Analysis
No ratings yet
Loan Status Prediction Analysis
23 pages
Credit Scoring Model for Bondora P2P
No ratings yet
Credit Scoring Model for Bondora P2P
5 pages
Credit Risk Analysis Capstone Project
No ratings yet
Credit Risk Analysis Capstone Project
6 pages
Loan Eligibility Prediction Model
No ratings yet
Loan Eligibility Prediction Model
16 pages
Loan Default Prediction Analysis Report
No ratings yet
Loan Default Prediction Analysis Report
7 pages
ML Report
No ratings yet
ML Report
16 pages
Loan Approval Prediction with ML in Python
No ratings yet
Loan Approval Prediction with ML in Python
6 pages
Machine Learning for Personal Loan Prediction
No ratings yet
Machine Learning for Personal Loan Prediction
14 pages
Bank Loan Application Analysis Insights
No ratings yet
Bank Loan Application Analysis Insights
41 pages
Loan Approval Prediction with Machine Learning
No ratings yet
Loan Approval Prediction with Machine Learning
4 pages
CCP Probability
No ratings yet
CCP Probability
8 pages
Loan Approval Prediction Model Analysis
No ratings yet
Loan Approval Prediction Model Analysis
10 pages
LOan Final
No ratings yet
LOan Final
6 pages
Credit Risk Project Report
No ratings yet
Credit Risk Project Report
2 pages
Our Project Is About Home Credit Default Risk This Was Put Together by
No ratings yet
Our Project Is About Home Credit Default Risk This Was Put Together by
3 pages
Loan Prediction Model with Python
No ratings yet
Loan Prediction Model with Python
9 pages
Credit Risk Analysis Using Machine Learning
No ratings yet
Credit Risk Analysis Using Machine Learning
6 pages
Data Mining for Credit Risk Mitigation
No ratings yet
Data Mining for Credit Risk Mitigation
36 pages
Loan Prediction
No ratings yet
Loan Prediction
33 pages
Python Project Setup for Credit Risk Analysis
No ratings yet
Python Project Setup for Credit Risk Analysis
1 page
Data Analytics in League of Legends Esports
No ratings yet
Data Analytics in League of Legends Esports
132 pages
Troubleshooting read_excel() in R
No ratings yet
Troubleshooting read_excel() in R
23 pages
Overview of Decision Support Systems
No ratings yet
Overview of Decision Support Systems
38 pages
Effective Data Visualization Techniques
No ratings yet
Effective Data Visualization Techniques
34 pages
Business Research Methods Overview
No ratings yet
Business Research Methods Overview
14 pages
HEC Statistics Curriculum 2025
No ratings yet
HEC Statistics Curriculum 2025
35 pages
Machine Learning and Data Visualization Guide
No ratings yet
Machine Learning and Data Visualization Guide
15 pages
Innovating with Data Course Overview
No ratings yet
Innovating with Data Course Overview
17 pages
Introduction to Data Analytics Concepts
No ratings yet
Introduction to Data Analytics Concepts
89 pages
Business Intelligence Tools Overview
No ratings yet
Business Intelligence Tools Overview
57 pages
Vijay Garg Resume
No ratings yet
Vijay Garg Resume
2 pages
Multi-Source Language Training in XLT
No ratings yet
Multi-Source Language Training in XLT
14 pages
Data Analyst Projects by Atharva Dhamdhere
No ratings yet
Data Analyst Projects by Atharva Dhamdhere
1 page
Fin-Tech Skills Development Program
No ratings yet
Fin-Tech Skills Development Program
16 pages
Data Visualization Internship EDA Report
No ratings yet
Data Visualization Internship EDA Report
22 pages
Tableau Dashboard and Data Insights Guide
No ratings yet
Tableau Dashboard and Data Insights Guide
2 pages
Unit 1
No ratings yet
Unit 1
47 pages
Data Analyst Syllabus Overview
No ratings yet
Data Analyst Syllabus Overview
8 pages
Global Carbon Emissions Dashboard Insights
No ratings yet
Global Carbon Emissions Dashboard Insights
5 pages
Credit Card Fraud Detection in R
No ratings yet
Credit Card Fraud Detection in R
26 pages
Data Visualization Basics and Techniques
No ratings yet
Data Visualization Basics and Techniques
26 pages
Data Types and Visualization Methods
No ratings yet
Data Types and Visualization Methods
3 pages
Predictive Analytics for Business Solutions
No ratings yet
Predictive Analytics for Business Solutions
6 pages
Essential Data Skills for Beginners
No ratings yet
Essential Data Skills for Beginners
8 pages
Introduction to Data Science Essentials
No ratings yet
Introduction to Data Science Essentials
51 pages
Data Analyst Consultant Profile
No ratings yet
Data Analyst Consultant Profile
2 pages
Class Intervals and Frequency Analysis
No ratings yet
Class Intervals and Frequency Analysis
44 pages
AI Tools for Data Visualization in Research
No ratings yet
AI Tools for Data Visualization in Research
36 pages
Essential Data Analytics Questions Guide
No ratings yet
Essential Data Analytics Questions Guide
8 pages
Data Science Fundamentals in FinTech
No ratings yet
Data Science Fundamentals in FinTech
11 pages

Data Cleaning for Loan Prediction Dataset

Uploaded by

Data Cleaning for Loan Prediction Dataset

Uploaded by

Download any un-pre-processed dataset and perform various data cleaning processes to prepare

the data. You can use R-Programming/Python for this assignment.

Un-pre-processed dataset link:

Column Name Description

Dependents Number of dependents (0,1,2,3+)

CoapplicantIncome Income of the co-applicant (if any)

Credit_History Credit history (1 - good, 0 - bad, NaN - missing)

Type of Noise Description Impact Possible Fix

Inconsistent Dependents column contains May cause issues Convert '3+' to 3

Categorical Gender, Married, Education, Cannot be used Convert to

Implementing Data Cleaning and Visualization:

Platform: Google Colab

Libraries: Pandas, numpy, matplotlib, seaborn, missingno, scipy

Importing libraries in python:

Uploading the file:

Mounting google drive:

Initial dataset info and description:

Confirm that there are no more missing values:

Save the cleaned dataset to a new CSV file:

DATA CLEANED (processed data):

Line Chart: Loan Amount Trend

Histogram: Applicant Income

Pie Chart: Loan Approval based on Credit History

Rug Plot: Distribution of Coapplicant Income

Joint Plot: Applicant Income vs Loan Amount

Correlation Heatmap of Numerical Features

You might also like