ML Exp 3

The document outlines an experiment for a Machine Learning Laboratory course focused on handling missing data in a dataset from a social media survey of 500 Gen Z users. It details the data quality issues, including missing age values and duplicate records, and provides a Python program for data imputation and cleaning. The applications of the cleaned data include targeted marketing, behavior analysis, predictive modeling, and ensuring data quality for machine learning readiness.

Uploaded by

mayureshtakalkar014

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views4 pages

ML Exp 3

Uploaded by

mayureshtakalkar014

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Department of Electronics and

Computer Science

Semester TE Sem VI EXCS

Subject ML Laboratory
Laboratory Professor Prof. Uma Jaishankar

Student Name Mayuresh Takalkar

Roll Number 23108A0049

Experiment 3 Missing data Imputation

Number
Problem A digital-first brand wants to vibe-check how Gen Z interacts with social media so it can design
Statement: hyper-targeted marketing campaigns that actually resonate . The goal is to understand daily usage
patterns, platform preferences, and feature engagement among young adults.
You are provided with a CSV dataset collected from a social media survey of 500 Gen Z users, aged
18–25. However, the dataset isn’t perfectly clean — which reflects real-world data collected from
online forms and quick surveys.
The dataset includes the following attributes:
 Age of the respondent
 Gender identity (male, female, non-binary)
 Social media platforms actively used (e.g., Instagram, Linkedin, Snapchat,Twitter,Facebook )
 Average hours spent on social media per day
 Favorite social media features (stories, reels, live streaming, etc.)
Data Challenges
Before meaningful insights can be extracted, the following data quality issues must be addressed:
 15% of the age values are missing, possibly due to skipped questions or privacy concerns
 5% of the records are duplicated, likely caused by multiple form submissions or syncing
issues

Tasks Handle the missing data in the dataset using appropriate imputation techniques
Remove Duplicates
Perform Feature Scaling
Resources / Python Libraries
Apparatus import pandas as pd
Required from [Link] import
StandardScaler
from [Link] import SimpleImputer
from [Link] import
ColumnTransformer
from [Link] import Pipeline
Program import pandas as pd
from [Link] import SimpleImputer

# Load your CSV

df = pd.read_csv("genz_social_media_500.csv")

# Check missing values before

print("Missing values before imputation:")
print([Link]().sum())

# Impute Age with mean

P age |1
Department of Electronics and
Computer Science
age_imputer = SimpleImputer(strategy='mean')
df['Age'] = age_imputer.fit_transform(df[['Age']])

# Impute Avg_Hours_Per_Day with median

hours_imputer = SimpleImputer(strategy='median')
df['Avg_Hours_Per_Day'] =
hours_imputer.fit_transform(df[['Avg_Hours_Per_Day']])

# Check missing values after

print("\nMissing values after imputation:")
print([Link]().sum())

# Save the cleaned dataset

df.to_csv("genz_social_media_500_clean.csv", index=False)
print("\nCleaned dataset saved as
'genz_social_media_500_clean.csv'")

Output
Screen shots

Applications 1. Targeted Marketing: Helps

brands segment Gen Z and design
personalized campaigns.
2. Behavior Analysis: Understand
platform usage and feature
preferences.
3. Predictive Modeling: Build
models for engagement trends and
recommendations.
4. Data Quality: Handles missing
values and duplicates for reliable
analysis.
5. ML Readiness: Scales numerical
features for machine learning
P age |2
Department of Electronics and
Computer Science
algorithms.

P age |3
Department of Electronics and
Computer Science

P age |4

CS103 Asynchronous Activity1
No ratings yet
CS103 Asynchronous Activity1
2 pages
Assignment Requirements
No ratings yet
Assignment Requirements
3 pages
Key Data Quality Issues and Solutions
No ratings yet
Key Data Quality Issues and Solutions
3 pages
Handling Missing Data in Business Analytics
No ratings yet
Handling Missing Data in Business Analytics
5 pages
Strategies for Missing Data Analysis
No ratings yet
Strategies for Missing Data Analysis
55 pages
Handling Missing Data in Business Analytics
No ratings yet
Handling Missing Data in Business Analytics
13 pages
Handling Missing Data: 6 Imputation Methods
No ratings yet
Handling Missing Data: 6 Imputation Methods
10 pages
Data Imputation and Analysis Methods
No ratings yet
Data Imputation and Analysis Methods
6 pages
Data Analysis Assignment Guidelines
No ratings yet
Data Analysis Assignment Guidelines
1 page
Ads3 50
No ratings yet
Ads3 50
13 pages
Data Science Assignment: Salary Analysis
No ratings yet
Data Science Assignment: Salary Analysis
6 pages
Probabilistic Method for Missing Data Imputation
No ratings yet
Probabilistic Method for Missing Data Imputation
8 pages
AI Question Bank Answers UNIT-2
No ratings yet
AI Question Bank Answers UNIT-2
34 pages
CS3352 Foundations of Data Science Exam
No ratings yet
CS3352 Foundations of Data Science Exam
19 pages
Analyzing Fake Instagram Accounts Data
No ratings yet
Analyzing Fake Instagram Accounts Data
20 pages
Optimal Methods for Missing Data Imputation
No ratings yet
Optimal Methods for Missing Data Imputation
7 pages
HarvardX Data Science ML Assessments
100% (1)
HarvardX Data Science ML Assessments
74 pages
Assignment 1
No ratings yet
Assignment 1
3 pages
U.S. Employment Demographics Analysis
No ratings yet
U.S. Employment Demographics Analysis
12 pages
Data Cleaning Transformation Report
No ratings yet
Data Cleaning Transformation Report
11 pages
Lecture 4: Data Cleaning and Preprocessing
No ratings yet
Lecture 4: Data Cleaning and Preprocessing
5 pages
ArhamMunir DT 017
No ratings yet
ArhamMunir DT 017
9 pages
Midterm Exam: AI & Data Science Solutions
No ratings yet
Midterm Exam: AI & Data Science Solutions
14 pages
Data Science Internship Prep Guide
No ratings yet
Data Science Internship Prep Guide
19 pages
Xii Ai Exercise 2025-26
No ratings yet
Xii Ai Exercise 2025-26
42 pages
Essential Statistical Interview Questions
No ratings yet
Essential Statistical Interview Questions
27 pages
Create Classification Datasets in Python
No ratings yet
Create Classification Datasets in Python
8 pages
Strategies for Handling Missing Data
No ratings yet
Strategies for Handling Missing Data
19 pages
Handling Imbalanced Datasets in ML
No ratings yet
Handling Imbalanced Datasets in ML
241 pages
Data Science Exam Questions and Answers
No ratings yet
Data Science Exam Questions and Answers
5 pages
Data Science Exam Questions 2024
No ratings yet
Data Science Exam Questions 2024
4 pages
Handle Missing Values in Python
No ratings yet
Handle Missing Values in Python
3 pages
Machine Learning for Data Imputation
No ratings yet
Machine Learning for Data Imputation
10 pages
Data Science Machine Learning Insights
No ratings yet
Data Science Machine Learning Insights
4 pages
Assessing Feature Importance in Python
No ratings yet
Assessing Feature Importance in Python
30 pages
Missing Data Imputation Techniques Survey
No ratings yet
Missing Data Imputation Techniques Survey
13 pages
FODS Exam Questions and Guidelines
No ratings yet
FODS Exam Questions and Guidelines
4 pages
Data Analytics Lab Assignment Guide
No ratings yet
Data Analytics Lab Assignment Guide
4 pages
Novel Grey-Based Fuzzy Imputation Method
No ratings yet
Novel Grey-Based Fuzzy Imputation Method
61 pages
Data Mining Assignment: Dataset Preprocessing
No ratings yet
Data Mining Assignment: Dataset Preprocessing
3 pages
Python
No ratings yet
Python
32 pages
Data Science Life Cycle and Applications
No ratings yet
Data Science Life Cycle and Applications
9 pages
Data Science 500 Assignment Guide
No ratings yet
Data Science 500 Assignment Guide
6 pages
Data Science Methodology for AI Capstone
No ratings yet
Data Science Methodology for AI Capstone
6 pages
Year 10 Math: Data Analysis Assignment
No ratings yet
Year 10 Math: Data Analysis Assignment
6 pages
Assignment 2: Statistical Analysis Guide
No ratings yet
Assignment 2: Statistical Analysis Guide
5 pages
Data Imputation Techniques Explained
No ratings yet
Data Imputation Techniques Explained
3 pages
Missing Data Imputation Techniques in Python
No ratings yet
Missing Data Imputation Techniques in Python
30 pages
Strategies for Handling Missing Data
No ratings yet
Strategies for Handling Missing Data
10 pages
Unit-5Data Cleaning and Preprocessing
No ratings yet
Unit-5Data Cleaning and Preprocessing
17 pages
ADS Experiment 2
No ratings yet
ADS Experiment 2
1 page
Machine Learning for Categorical Data Imputation
No ratings yet
Machine Learning for Categorical Data Imputation
13 pages
Data Cleaning Techniques for Employee Dataset
No ratings yet
Data Cleaning Techniques for Employee Dataset
9 pages
Assignment 2
No ratings yet
Assignment 2
2 pages
Zip Rec Interviewer Dissertation
No ratings yet
Zip Rec Interviewer Dissertation
24 pages
Data Mining Techniques Assignment Overview
No ratings yet
Data Mining Techniques Assignment Overview
9 pages
MCS 226 Solved Assignment × by RUPESH BHANDARI For January July
No ratings yet
MCS 226 Solved Assignment × by RUPESH BHANDARI For January July
33 pages
Overview of Authoring Tools Types
No ratings yet
Overview of Authoring Tools Types
5 pages
Software Proposal for Beauty Salon System
No ratings yet
Software Proposal for Beauty Salon System
7 pages
HTML List and Tables TVL COMPROG11-Q1-M6
No ratings yet
HTML List and Tables TVL COMPROG11-Q1-M6
17 pages
Digicel Consumer Guide Overview
No ratings yet
Digicel Consumer Guide Overview
6 pages
BookSpace: AI-Powered Reading Hub
No ratings yet
BookSpace: AI-Powered Reading Hub
93 pages
5100333-00 - Salwico Cruise - Installation Manual - M - EN - 2015 - M
100% (1)
5100333-00 - Salwico Cruise - Installation Manual - M - EN - 2015 - M
104 pages
Aspire E1421 PDF
No ratings yet
Aspire E1421 PDF
253 pages
Augmented & Virtual Reality Course Overview
No ratings yet
Augmented & Virtual Reality Course Overview
2 pages
Expert Systems in Pavement Management
No ratings yet
Expert Systems in Pavement Management
12 pages
C++ OOP Book Review for Students
No ratings yet
C++ OOP Book Review for Students
11 pages
QualityKiosk Testing Career Guide
No ratings yet
QualityKiosk Testing Career Guide
1 page
6.4 Information Technologies in Water Management
No ratings yet
6.4 Information Technologies in Water Management
14 pages
SQL Subqueries and Queries Examples
No ratings yet
SQL Subqueries and Queries Examples
7 pages
Big Data Challenges and Characteristics
No ratings yet
Big Data Challenges and Characteristics
19 pages
Rehabilitación Neuro-Oclusal de Planas
100% (1)
Rehabilitación Neuro-Oclusal de Planas
393 pages
ICT Skills Assessment Report: Jharkhand Schools
No ratings yet
ICT Skills Assessment Report: Jharkhand Schools
12 pages
MacBook Air M1: Power for Students
No ratings yet
MacBook Air M1: Power for Students
3 pages
Data RX Watch: DHCP and NDP Packets
No ratings yet
Data RX Watch: DHCP and NDP Packets
5 pages
n220 - Computer Practice n5 - Instructions To Lecturers - Nov 2024
No ratings yet
n220 - Computer Practice n5 - Instructions To Lecturers - Nov 2024
2 pages
Prometheus and Grafana Monitoring Guide
No ratings yet
Prometheus and Grafana Monitoring Guide
13 pages
BAdI for Data Selection in Migration Cockpit
No ratings yet
BAdI for Data Selection in Migration Cockpit
8 pages
Fritzing for PCB Prototyping Guide
No ratings yet
Fritzing for PCB Prototyping Guide
16 pages
Isilon and Final Cut Pro PDF
No ratings yet
Isilon and Final Cut Pro PDF
7 pages
(Ebook PDF) Technical Communication 9th Edition by Paul V. Anderson Ebook Access Now
100% (2)
(Ebook PDF) Technical Communication 9th Edition by Paul V. Anderson Ebook Access Now
58 pages
Understanding Computer Networks and the Internet
No ratings yet
Understanding Computer Networks and the Internet
25 pages
Pps Lab Manual 2024-25
No ratings yet
Pps Lab Manual 2024-25
70 pages
AI Voice Assistant Development Report
No ratings yet
AI Voice Assistant Development Report
29 pages
Photo Showing Device Project Report
No ratings yet
Photo Showing Device Project Report
9 pages
How To Do Revit To IFC Properly
100% (1)
How To Do Revit To IFC Properly
83 pages
Amazon's Supply Chain Management Strategies
No ratings yet
Amazon's Supply Chain Management Strategies
5 pages