Student Data Analysis with Pandas

The document outlines a data analysis process using a synthetic dataset of students, including their demographics and academic performance. It demonstrates how to handle missing values, visualize outliers, and apply transformations to improve data distribution. The analysis includes filling missing values, capping outliers, and checking skewness before and after log transformation.

Uploaded by

dirilan857

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views2 pages

Student Data Analysis with Pandas

Uploaded by

dirilan857

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

In [1]: import pandas as pd

import numpy as np
import seaborn as sns
import [Link] as plt

# Create a synthetic dataset

data = {
'StudentID': range(1, 11),
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hannah', 'Ian', 'Jane'],
'Gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F', 'F', 'M', 'F'],
'Age': [17, 16, [Link], 17, 16, 15, 16, 15, 14, 17],
'Hours_Studied': [15, 10, 5, [Link], 12, 9, 18, 20, 1, 16],
'Attendance_Rate': [95, 88, 92, 85, [Link], 90, 97, 99, 45, 94],
'Exam_Score': [88, 72, 65, 55, 78, 69, 91, 95, 30, 89]
}

df = [Link](data)
print(df)

StudentID Name Gender Age Hours_Studied Attendance_Rate Exam_Score

0 1 Alice F 17.0 15.0 95.0 88
1 2 Bob M 16.0 10.0 88.0 72
2 3 Charlie M NaN 5.0 92.0 65
3 4 David M 17.0 NaN 85.0 55
4 5 Eva F 16.0 12.0 NaN 78
5 6 Frank M 15.0 9.0 90.0 69
6 7 Grace F 16.0 18.0 97.0 91
7 8 Hannah F 15.0 20.0 99.0 95
8 9 Ian M 14.0 1.0 45.0 30
9 10 Jane F 17.0 16.0 94.0 89

In [2]: # Show missing values

print("\nMissing Values:\n", [Link]().sum())

# Fill missing Age with median

df['Age'] = df['Age'].fillna(df['Age'].median())

# Fill missing Hours_Studied and Attendance_Rate with mean

df['Hours_Studied'] = df['Hours_Studied'].fillna(df['Hours_Studied'].mean())
df['Attendance_Rate'] = df['Attendance_Rate'].fillna(df['Attendance_Rate'].mean())

Missing Values:
StudentID 0
Name 0
Gender 0
Age 1
Hours_Studied 1
Attendance_Rate 1
Exam_Score 0
dtype: int64

In [3]: # Visualize outliers

[Link](data=df[['Hours_Studied', 'Attendance_Rate', 'Exam_Score']])
[Link]("Boxplot - Academic Variables")
[Link]()

# Detect and treat outliers using IQR method

def cap_outliers(series):
Q1 = [Link](0.25)
Q3 = [Link](0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR
return [Link](lower, upper)

# Apply outlier capping

df['Hours_Studied'] = cap_outliers(df['Hours_Studied'])
df['Exam_Score'] = cap_outliers(df['Exam_Score'])
df['Attendance_Rate'] = cap_outliers(df['Attendance_Rate'])
In [4]: # Check skewness before
print("Skewness before:", df['Hours_Studied'].skew())

# Apply log transformation (+1 to avoid log(0))

df['Log_Hours_Studied'] = np.log1p(df['Hours_Studied'])

# Check skewness after

print("Skewness after:", df['Log_Hours_Studied'].skew())

# Plot before vs after

[Link](figsize=(10, 4))
[Link](1, 2, 1)
[Link](df['Hours_Studied'], kde=True)
[Link]("Original: Hours_Studied")

[Link](1, 2, 2)
[Link](df['Log_Hours_Studied'], kde=True)
[Link]("Log Transformed: Hours_Studied")
[Link]()

Skewness before: -0.47615721184649995

Skewness after: -1.8365988265148336

In [5]: print([Link]())

StudentID Name Gender Age Hours_Studied Attendance_Rate \

0 1 Alice F 17.0 15.000000 95.000000
1 2 Bob M 16.0 10.000000 88.000000
2 3 Charlie M 16.0 5.000000 92.000000
3 4 David M 17.0 11.777778 85.000000
4 5 Eva F 16.0 12.000000 87.222222

Exam_Score Log_Hours_Studied
0 88.0 2.772589
1 72.0 2.397895
2 65.0 1.791759
3 55.0 2.547708
4 78.0 2.564949

Data Wrangling: Academic Performance
100% (1)
Data Wrangling: Academic Performance
4 pages
Kashvi Rathore 23104063 - Week 1 and 2
No ratings yet
Kashvi Rathore 23104063 - Week 1 and 2
5 pages
Student Study Hours and Grades Analysis
No ratings yet
Student Study Hours and Grades Analysis
17 pages
Student Score Data Analysis in Python
No ratings yet
Student Score Data Analysis in Python
19 pages
Data Wrangling Techniques in Python
No ratings yet
Data Wrangling Techniques in Python
4 pages
Data Preprocessing Techniques for ML
No ratings yet
Data Preprocessing Techniques for ML
9 pages
Data Analysis with Pandas Examples
No ratings yet
Data Analysis with Pandas Examples
9 pages
Z-Score Analysis of Student Performance
No ratings yet
Z-Score Analysis of Student Performance
7 pages
Analytics & Hypothesis Testing
No ratings yet
Analytics & Hypothesis Testing
26 pages
Import Pandas As p1
No ratings yet
Import Pandas As p1
2 pages
Scatter Plots and Histograms Analysis
No ratings yet
Scatter Plots and Histograms Analysis
2 pages
Student Performance Data Analysis
No ratings yet
Student Performance Data Analysis
5 pages
Data Cleaning and Visualization Techniques
No ratings yet
Data Cleaning and Visualization Techniques
12 pages
Academic Performance Data Analysis
No ratings yet
Academic Performance Data Analysis
5 pages
Data Transformations in Python
No ratings yet
Data Transformations in Python
2 pages
Pandas DataFrame Operations Guide
No ratings yet
Pandas DataFrame Operations Guide
18 pages
KMeans Clustering on Student Scores
No ratings yet
KMeans Clustering on Student Scores
5 pages
Student Data Analysis with Pandas
No ratings yet
Student Data Analysis with Pandas
44 pages
JNTUH R22 Predictive Analytics Lab Manual
No ratings yet
JNTUH R22 Predictive Analytics Lab Manual
31 pages
DataFrame Operations in Python
No ratings yet
DataFrame Operations in Python
17 pages
Experiment No 1 ProbabilityRandom Process
No ratings yet
Experiment No 1 ProbabilityRandom Process
27 pages
Class 12 IP Practical Guide 2025-26
No ratings yet
Class 12 IP Practical Guide 2025-26
39 pages
Student Grade Analysis from Dataset
No ratings yet
Student Grade Analysis from Dataset
20 pages
NumSciPandMat Pr-1 - Jupyter Notebook
No ratings yet
NumSciPandMat Pr-1 - Jupyter Notebook
8 pages
Pandas Exercises for Class 12 CBSE
No ratings yet
Pandas Exercises for Class 12 CBSE
4 pages
Pandas Functions
No ratings yet
Pandas Functions
8 pages
ML (LAB) (Till Lab 4)
No ratings yet
ML (LAB) (Till Lab 4)
17 pages
Practical List IP CLass XII
No ratings yet
Practical List IP CLass XII
16 pages
Student Performance and Sales Analysis
No ratings yet
Student Performance and Sales Analysis
2 pages
Student Result Analysis System Code
No ratings yet
Student Result Analysis System Code
5 pages
Titanic Data Analysis and Insights
No ratings yet
Titanic Data Analysis and Insights
12 pages
Student Exam Marks and Percentages
No ratings yet
Student Exam Marks and Percentages
6 pages
CSV Data Analysis and Manipulation
No ratings yet
CSV Data Analysis and Manipulation
9 pages
Convert IPYNB to PDF in Colab
No ratings yet
Convert IPYNB to PDF in Colab
7 pages
Data Preprocessing in Python
No ratings yet
Data Preprocessing in Python
6 pages
Data Preprocessing and Visualization Guide
No ratings yet
Data Preprocessing and Visualization Guide
35 pages
Machine Learning with Python Libraries
No ratings yet
Machine Learning with Python Libraries
10 pages
Create and Analyze Pandas DataFrames
No ratings yet
Create and Analyze Pandas DataFrames
19 pages
Py 1 FF
No ratings yet
Py 1 FF
4 pages
Academic Performance Data Analysis
No ratings yet
Academic Performance Data Analysis
6 pages
AIPT Practical Exam Code Overview
No ratings yet
AIPT Practical Exam Code Overview
12 pages
Prac21 0 42790700 1771610794
No ratings yet
Prac21 0 42790700 1771610794
14 pages
Prac2siddsbdal 0 99895300 1771619007
No ratings yet
Prac2siddsbdal 0 99895300 1771619007
14 pages
DSBDA1 To 5,7 To 9
No ratings yet
DSBDA1 To 5,7 To 9
27 pages
Data Visualization Techniques in Python
No ratings yet
Data Visualization Techniques in Python
3 pages
Student and Employee Data Analysis
No ratings yet
Student and Employee Data Analysis
13 pages
Jupyter Notebook: Class Scores Analysis
No ratings yet
Jupyter Notebook: Class Scores Analysis
11 pages
Student Performance Analysis Report
No ratings yet
Student Performance Analysis Report
12 pages
Count Rows and Columns in Pandas DataFrame
No ratings yet
Count Rows and Columns in Pandas DataFrame
6 pages
Pandas Course Outcomes and Experiments
No ratings yet
Pandas Course Outcomes and Experiments
18 pages
Py 1
No ratings yet
Py 1
3 pages
Python DataFrame and Text Preprocessing Guide
No ratings yet
Python DataFrame and Text Preprocessing Guide
6 pages
Dave
No ratings yet
Dave
26 pages
Class 12 Informatics Practices Practicals
No ratings yet
Class 12 Informatics Practices Practicals
19 pages
Create and Analyze Pandas DataFrames
No ratings yet
Create and Analyze Pandas DataFrames
24 pages
CKC Academy Class 12 IP-065 Syllabus
No ratings yet
CKC Academy Class 12 IP-065 Syllabus
19 pages
Data Profiling with Pandas
No ratings yet
Data Profiling with Pandas
9 pages
Student Data Analysis with Python
No ratings yet
Student Data Analysis with Python
10 pages
Handling Missing Values in DataFrame
No ratings yet
Handling Missing Values in DataFrame
2 pages
Mean Deviation Explained: Uses & Merits
No ratings yet
Mean Deviation Explained: Uses & Merits
7 pages
Business Statistics Data Analysis Project
No ratings yet
Business Statistics Data Analysis Project
18 pages
Health Insurance Awareness Study in India
No ratings yet
Health Insurance Awareness Study in India
9 pages
Platelet Count Statistical Analysis
No ratings yet
Platelet Count Statistical Analysis
4 pages
Understanding Frequency Distributions
No ratings yet
Understanding Frequency Distributions
35 pages
Kapan Et Al 2025 Fatigue and Recovery Assessed by Repetitive Handgrip Strength Measurement As Predictors of Fall Risk
No ratings yet
Kapan Et Al 2025 Fatigue and Recovery Assessed by Repetitive Handgrip Strength Measurement As Predictors of Fall Risk
14 pages
Elderly Health Habits Analysis
No ratings yet
Elderly Health Habits Analysis
21 pages
Power BI Advanced Data Sorting & Grouping
No ratings yet
Power BI Advanced Data Sorting & Grouping
79 pages
Descriptive Statistics Tutorial for Students
No ratings yet
Descriptive Statistics Tutorial for Students
2 pages
Mathematics 10 Problem Set: Quartiles & Deciles
No ratings yet
Mathematics 10 Problem Set: Quartiles & Deciles
2 pages
Statistical Data Management Techniques
No ratings yet
Statistical Data Management Techniques
31 pages
Screen Time's Impact on Sleep Duration
No ratings yet
Screen Time's Impact on Sleep Duration
16 pages
Machine Learning Data Preparation Guide
No ratings yet
Machine Learning Data Preparation Guide
38 pages
Oxford Core 1 2017 Markscheme
No ratings yet
Oxford Core 1 2017 Markscheme
15 pages
AP Statistics Review: Normal Distributions
No ratings yet
AP Statistics Review: Normal Distributions
8 pages
Data Science Foundations MCQ Set B
No ratings yet
Data Science Foundations MCQ Set B
4 pages
Essential Pandas Cheat Sheet Guide
No ratings yet
Essential Pandas Cheat Sheet Guide
30 pages
Quantile Analysis in Statistics
No ratings yet
Quantile Analysis in Statistics
52 pages
Measures of Position in Statistics
No ratings yet
Measures of Position in Statistics
8 pages
Descriptive Statistics of Triglycerides
No ratings yet
Descriptive Statistics of Triglycerides
5 pages
Essential Statistics Concepts Explained
No ratings yet
Essential Statistics Concepts Explained
5 pages
Statistical Modeling Techniques Overview
No ratings yet
Statistical Modeling Techniques Overview
65 pages
Iris Dataset LDA Analysis Guide
No ratings yet
Iris Dataset LDA Analysis Guide
5 pages
Data Cleaning: Missing Values & Outliers
No ratings yet
Data Cleaning: Missing Values & Outliers
10 pages
Mathematics 2: Probability and Statistics Exercises
No ratings yet
Mathematics 2: Probability and Statistics Exercises
3 pages
A-Level Data Analysis and Statistics
No ratings yet
A-Level Data Analysis and Statistics
56 pages
Statistical Analysis and Data Representation
No ratings yet
Statistical Analysis and Data Representation
25 pages
Understanding Quantiles: Quartiles, Deciles, Percentiles
No ratings yet
Understanding Quantiles: Quartiles, Deciles, Percentiles
30 pages
MOFs in Solar-Driven CO2 Reduction
No ratings yet
MOFs in Solar-Driven CO2 Reduction
12 pages
Salary Data Management with NumPy
No ratings yet
Salary Data Management with NumPy
19 pages