0% found this document useful (0 votes)

5 views10 pages

Data Preprocessing with Python Techniques

The document outlines a lab task focused on data preprocessing using the Mall Customers Dataset, detailing steps such as loading the dataset, handling missing values, encoding categorical data, detecting outliers, and applying feature scaling. It also includes instructions for creating a synthetic dataset of student performance and provides a Python script for preprocessing this dataset. The final output is a cleaned dataset saved as 'students_performance_processed.csv'.

Uploaded by

223563

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views10 pages

Data Preprocessing with Python Techniques

Uploaded by

223563

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Data Science

Lab Task: VI
Semester VII
Submitted to: Ma’am Fatima
Submitted by: Rooha Tanveer
LAB 06 Data
Preprocessing using Python
Objective: To apply various data preprocessing techniques using the Mall Customers Dataset from Kaggle.

Dataset: This dataset contains customer demographic details and spending behavior at a shopping mall.
Download Link: [Link]

File Name: Mall_Customers.csv Dataset

Description:
Column Name Data Type Description
CustomerID Integer Unique ID of the customer
Gender Categorical Male/Female
Age Numerical Age of the customer
Annual Income (k$) Numerical Annual income in thousands of dollars
Spending Score (1-100) Numerical Score assigned by the mall based on spending patterns

Task Requirements
Step 1: Load the Dataset

• Import required libraries (pandas, numpy, [Link]).

• Load Mall_Customers.csv and display the first few rows.
Step 2: Handle Missing Values
• Check for missing values in all columns.
• If any missing values exist in numerical columns (Age, Annual Income, Spending Score), replace them
with the mean.
• If any missing values exist in categorical columns (Gender), replace them with the most frequent
value.
Step 3: Encode Categorical Data

• Convert Gender using Label Encoding (Male=1, Female=0).

Step 4: Detect and Handle Outliers

• Use the IQR (Interquartile Range) method to detect and remove outliers in Annual Income and
Spending Score.

Step 5: Feature Scaling

• Apply Standardization (Z-score normalization) to Age, Annual Income, and Spending Score.

Step 6: Save the Preprocessed Dataset

• Save the cleaned dataset as Mall_Customers_Processed.csv.

1. Create a synthetic dataset (students_performance.csv) using the following script:
import pandas as pd
import numpy as np

# Generate synthetic data

[Link](42) data =
{
"StudentID": range(1, 51),
"Gender": [Link](["Male", "Female"], 50),
"Age": [Link](15, 22, 50).astype(float),
"Math Score": [Link](30, 100, 50).astype(float),
"Reading Score": [Link](35, 100, 50).astype(float),
"Writing Score": [Link](40, 100, 50).astype(float)
}

# Introduce missing values

data["Age"][[Link](50, 5, replace=False)] = [Link] data["Math
Score"][[Link](50, 3, replace=False)] = [Link] data["Reading
Score"][[Link](50, 2, replace=False)] = [Link]
# Create DataFrame df =
[Link](data)

# Save CSV
df.to_csv("students_performance.csv", index=False)

print("Synthetic 'students_performance.csv' file created successfully!")

Output:

2. Run the preprocessing script (intro_data_preprocessing.py):

sh python
intro_data_preprocessing.py
Python Implementation (intro_data_preprocessing.py)
import pandas as pd import
numpy as np
from [Link] import LabelEncoder, MinMaxScaler
# Step 1: Load the dataset
file_path = "students_performance.csv" # Ensure this file is in the same directory df
= pd.read_csv(file_path)

# Display first few rows print("Original

Dataset:") print([Link]())

# Step 2: Check for missing values

print("\nMissing Values Before Handling:\n", [Link]().sum())
# Fill missing numerical values with mean df['Age'].fillna(df['Age'].mean(),
inplace=True)
df['Math Score'].fillna(df['Math Score'].mean(), inplace=True)
df['Reading Score'].fillna(df['Reading Score'].mean(), inplace=True)
df['Writing Score'].fillna(df['Writing Score'].mean(), inplace=True)
# Fill missing categorical values with the most frequent value
df['Gender'].fillna(df['Gender'].mode()[0], inplace=True)

print("\nMissing Values After Handling:\n", [Link]().sum())

# Step 3: Encode Categorical Data label_encoder
= LabelEncoder()
df['Gender'] = label_encoder.fit_transform(df['Gender']) # Male=1, Female=0
# Step 4: Detect and Handle Outliers using IQR method
def remove_outliers(column): Q1 =
df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

df = remove_outliers('Math Score')

print("\nDataset After Removing Outliers:") print([Link]())

# Step 5: Feature Scaling using Min-Max Scaling scaler

= MinMaxScaler()
df[['Math Score', 'Reading Score', 'Writing Score']] =
scaler.fit_transform( df[['Math Score', 'Reading Score', 'Writing Score']]
)

# Step 6: Save the Preprocessed Dataset

df.to_csv("students_performance_processed.csv", index=False)

print("\nPreprocessing complete. Cleaned dataset saved as

'students_performance_processed.csv'.")

Output:

Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
9 pages
Data Cleaning for Machine Learning
No ratings yet
Data Cleaning for Machine Learning
16 pages
Python Data Preprocessing Techniques
No ratings yet
Python Data Preprocessing Techniques
9 pages
Student Data Cleaning and Normalization
No ratings yet
Student Data Cleaning and Normalization
4 pages
Data Preprocessing and Classification in Python
No ratings yet
Data Preprocessing and Classification in Python
22 pages
Data Preprocessing with Python Guide
No ratings yet
Data Preprocessing with Python Guide
5 pages
Task (Text PreProcessing II)
No ratings yet
Task (Text PreProcessing II)
5 pages
Python Data Preprocessing Guide
No ratings yet
Python Data Preprocessing Guide
9 pages
DA Lab File Final
No ratings yet
DA Lab File Final
16 pages
Python Data Cleaning and Encoding Guide
No ratings yet
Python Data Cleaning and Encoding Guide
21 pages
Program 2
No ratings yet
Program 2
3 pages
Data Pre-processing in Machine Learning
No ratings yet
Data Pre-processing in Machine Learning
11 pages
Machine Learning Techniques Lab Guide
No ratings yet
Machine Learning Techniques Lab Guide
28 pages
Lab 3
No ratings yet
Lab 3
11 pages
BMI Calculator and Income Classification
No ratings yet
BMI Calculator and Income Classification
21 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
4 pages
Kedar Dsbda Codes
No ratings yet
Kedar Dsbda Codes
18 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
3 pages
ECE A - Exp1 - Data Preprocessing (29.11.25)
No ratings yet
ECE A - Exp1 - Data Preprocessing (29.11.25)
2 pages
Data Mining Lab Manual with Python
No ratings yet
Data Mining Lab Manual with Python
63 pages
R23 ML - Lab - Manual
No ratings yet
R23 ML - Lab - Manual
50 pages
Week 1.ipynb Colab
No ratings yet
Week 1.ipynb Colab
4 pages
Data Cleaning Cheat Sheet
No ratings yet
Data Cleaning Cheat Sheet
2 pages
Data Preprocessing: Cleaning & Encoding
No ratings yet
Data Preprocessing: Cleaning & Encoding
4 pages
Experimnt 10
No ratings yet
Experimnt 10
17 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
2 pages
Data Preprocessing and ML Models
No ratings yet
Data Preprocessing and ML Models
5 pages
Python Module for Confidence Intervals
No ratings yet
Python Module for Confidence Intervals
23 pages
Data Pre-processing for Machine Learning
No ratings yet
Data Pre-processing for Machine Learning
32 pages
Data Mining Lab with Python Guide
No ratings yet
Data Mining Lab with Python Guide
39 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
10 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
10 pages
Student Data Preprocessing Techniques
No ratings yet
Student Data Preprocessing Techniques
6 pages
Data Wrangling for Academic Dataset
No ratings yet
Data Wrangling for Academic Dataset
9 pages
Lecture 3
No ratings yet
Lecture 3
22 pages
Data Preprocessing and Classification Guide
No ratings yet
Data Preprocessing and Classification Guide
12 pages
Worksheet 2
No ratings yet
Worksheet 2
10 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
3 pages
Python Statistics for Data Preprocessing
No ratings yet
Python Statistics for Data Preprocessing
4 pages
Data Mining Lab Report: Techniques & Analysis
No ratings yet
Data Mining Lab Report: Techniques & Analysis
33 pages
Data Preprocessing with Train-Test Split
No ratings yet
Data Preprocessing with Train-Test Split
2 pages
Data Cleaning & Preprocessing Guide
No ratings yet
Data Cleaning & Preprocessing Guide
14 pages
ML MidTerm Complete Questions
No ratings yet
ML MidTerm Complete Questions
38 pages
Data Preprocessing for Machine Learning
No ratings yet
Data Preprocessing for Machine Learning
27 pages
Data Preprocessing Techniques for ML
No ratings yet
Data Preprocessing Techniques for ML
9 pages
Data Analytics Lab: Python Techniques
No ratings yet
Data Analytics Lab: Python Techniques
20 pages
Data Analytics Lab Record 2024-2025
No ratings yet
Data Analytics Lab Record 2024-2025
29 pages
Machine Learning Lab Experiments at DTU
No ratings yet
Machine Learning Lab Experiments at DTU
28 pages
Data Cleaning with Python Libraries
No ratings yet
Data Cleaning with Python Libraries
12 pages
Pds Lab Codes
No ratings yet
Pds Lab Codes
26 pages
Lab 1
No ratings yet
Lab 1
4 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
6 pages
Machine Learning Algorithms Overview
No ratings yet
Machine Learning Algorithms Overview
10 pages
Python Course Fees in Nagpur: ₹1000
No ratings yet
Python Course Fees in Nagpur: ₹1000
2 pages
Robotics and AI Theory Exam Paper
No ratings yet
Robotics and AI Theory Exam Paper
9 pages
Pandas Data Exploration Techniques
No ratings yet
Pandas Data Exploration Techniques
8 pages
Retail Consumer Behavior Insights
No ratings yet
Retail Consumer Behavior Insights
21 pages
Data Science Revision Notes PDF
No ratings yet
Data Science Revision Notes PDF
8 pages
Machine Learning for Beginners Guide
No ratings yet
Machine Learning for Beginners Guide
122 pages
Python Libraries for Data Science
No ratings yet
Python Libraries for Data Science
14 pages
Deep Learning Lab Manual: XOR & CNN
No ratings yet
Deep Learning Lab Manual: XOR & CNN
88 pages
Foundations of Data Science Overview
No ratings yet
Foundations of Data Science Overview
23 pages
Handling Duplicates in Pandas Pivoting
No ratings yet
Handling Duplicates in Pandas Pivoting
19 pages
Data Analytics and Visualization Insights
No ratings yet
Data Analytics and Visualization Insights
36 pages
Python Pandas & Matplotlib Exercises
No ratings yet
Python Pandas & Matplotlib Exercises
19 pages
Notes of Theory of Class XII IP
No ratings yet
Notes of Theory of Class XII IP
3 pages
Python IDEs, Anaconda & ML Libraries Guide
No ratings yet
Python IDEs, Anaconda & ML Libraries Guide
28 pages
Python File and Database Operations
No ratings yet
Python File and Database Operations
16 pages
Sahodaya IP Paper's
No ratings yet
Sahodaya IP Paper's
52 pages
Deep Learning Laboratory Record
No ratings yet
Deep Learning Laboratory Record
40 pages
Deloitte Data Analyst Interview Guide
No ratings yet
Deloitte Data Analyst Interview Guide
34 pages
Python for Web Development Overview
No ratings yet
Python for Web Development Overview
15 pages
Python Programming FAQs and Concepts
No ratings yet
Python Programming FAQs and Concepts
6 pages
Pandas Data Handling and Visualization Guide
No ratings yet
Pandas Data Handling and Visualization Guide
6 pages
Garima Beniwal's Project Portfolio
No ratings yet
Garima Beniwal's Project Portfolio
1 page
Python: Multi-line Statement Handling
No ratings yet
Python: Multi-line Statement Handling
272 pages
Comprehensive Pandas Notes PDF
No ratings yet
Comprehensive Pandas Notes PDF
8 pages
Aml1 Mall Dataset
No ratings yet
Aml1 Mall Dataset
8 pages
Flipkart Business Analyst Interview Guide
No ratings yet
Flipkart Business Analyst Interview Guide
16 pages
Mastering Pandas for Data Analysis
No ratings yet
Mastering Pandas for Data Analysis
3 pages
Python Test Average Calculation Program
No ratings yet
Python Test Average Calculation Program
53 pages
E-Commerce Sales Analysis with Python
No ratings yet
E-Commerce Sales Analysis with Python
6 pages
Class XII Informatics Practices Syllabus 2025-26
No ratings yet
Class XII Informatics Practices Syllabus 2025-26
1 page

Data Preprocessing with Python Techniques

Uploaded by

Data Preprocessing with Python Techniques

Uploaded by

Data Science

File Name: Mall_Customers.csv Dataset

• Import required libraries (pandas, numpy, [Link]).

• Convert Gender using Label Encoding (Male=1, Female=0).

Step 5: Feature Scaling

Step 6: Save the Preprocessed Dataset

• Save the cleaned dataset as Mall_Customers_Processed.csv.

# Generate synthetic data

# Introduce missing values

print("Synthetic 'students_performance.csv' file created successfully!")

2. Run the preprocessing script (intro_data_preprocessing.py):

# Display first few rows print("Original

# Step 2: Check for missing values

print("\nMissing Values After Handling:\n", [Link]().sum())

print("\nDataset After Removing Outliers:") print([Link]())

# Step 5: Feature Scaling using Min-Max Scaling scaler

# Step 6: Save the Preprocessed Dataset

print("\nPreprocessing complete. Cleaned dataset saved as

You might also like