0% found this document useful (0 votes)

31 views2 pages

INT375 Data Science Toolbox Syllabus

The INT375 course focuses on Python programming for data science, covering fundamentals, data manipulation with NumPy and Pandas, data visualization with Matplotlib and Seaborn, exploratory data analysis, statistical analysis, and the role of machine learning. Students will engage in practical experiments to reinforce their understanding of these concepts. Key textbooks include 'Python for Data Science' and 'Data Science and Machine Learning Using Python'.

Uploaded by

pawankalayan0209

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

31 views2 pages

INT375 Data Science Toolbox Syllabus

Uploaded by

pawankalayan0209

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

INT375:DATA SCIENCE TOOLBOX: PYTHON PROGRAMMING

L:2 T:0 P:2 Credits:3

Course Outcomes: Through this course students should be able to

CO1 :: understand and apply Python programming fundamentals

CO2 :: utilize NumPy and Pandas for efficient data manipulation, cleaning, and preparation.

CO3 :: apply clear and effective data visualizations using Matplotlib and Seaborn to analyze and
communicate data insights.
CO4 :: execute exploratory data analysis to uncover data insights using Python

CO5 :: perform statistical analysis and hypothesis testing using Python

CO6 :: associate the role of machine learning in data science

Unit I
Introduction to Python for Data Science : Overview of Data Science, Basic Syntax and Data
Types, Control Structures (if statements, loops), Functions and Modules
Unit II
Data Manipulation with NumPy and Pandas : Introduction to NumPy: Arrays, Operations, Data
Manipulation with Pandas: Series and DataFrames, Data Cleaning and Preparation, Handling Missing
Data
Unit III
Data Visualization with Matplotlib and Seaborn : Principles of Data Visualization, Creating Plots
with Matplotlib, Advanced Visualization with Seaborn, Customizing Visualizations
Unit IV
Exploratory Data Analysis (EDA) : Understanding EDA and its Importance, Summary Statistics,
Correlation and Covariance, Outlier Detection
Unit V
Introduction to Statistical Analysis : Descriptive and Inferential Statistics, Hypothesis Testing: Z-
test, t-test, p-test, chi-squared test, variance-inflation factor(VIF), Shapiro- Wilk test, Probability
Distributions: Uniform Distribution Normal Distribution Binomial Distribution Poisson Distribution,
Introduction to A/B Testing
Unit VI
Exploring the role of machine learning in data science : Introduction to Machine Learning
Concepts, Supervised vs. Unsupervised Learning, Understand CRISP-DM framework using Linear
Regression model, Introduction to Classification
Recent Trends : Generative AI and Its Applications: GPT-4 DALL-E, Synthetic Data Generation

List of Practicals / Experiments:

List of Practical's / Experiments:

• Exploring and understanding Basics of Python Language

• Exploring and understanding the basic concepts of Data Science and components of Python

• Exploring different Control Structures and function in Python

• Practical on NumPy Package

• Practical to demonstrate working with Data in Python

• Practical to demonstrate working with NumPy Arrays

• Practical on Pandas Package

• Practical on Visualization with MatPlotLib

• Practical demonstration on EDA, Summary Statistics

• Practical demonstration on Correlation and Covariance, Outlier Detection

• Practical demonstration on Outlier Detection

Session 2024-25 Page:1/2

• Practical Demonstration on Descriptive and Inferential Statistics , Hypothesis testing

• Practical Demonstration on Hypothesis testing, Probability Distributions

• Practical Demonstration on CRISP-DM framework using Linear Regression model

Text Books:
1. PYTHON FOR DATA SCIENCE by MOHD. ABDUL HAMEED, WILEY

2. DATA SCIENCE AND MACHINE LEARNING USING PYTHON by REEMA THAREJA, MC GRAW
HILL
References:
1. FOUNDATIONAL PYTHON FOR DATA SCIENCE, 1ST EDITION by KENNEDY BEHRMAN,
PEARSON
2. DATA SCIENCE FROM SCRATCH by JOEL GRUS, O'REILLY

Session 2024-25 Page:2/2

Common questions

NumPy and Pandas significantly enhance data cleaning and preparation by providing robust structures, such as arrays and DataFrames, that allow for efficient data storage and manipulation. NumPy's array operations enable swift mathematical computations, while Pandas offers functionalities for handling missing data, filtering, and grouping data efficiently, which are crucial for data cleaning. Additionally, Pandas' intuitive Series and DataFrame objects allow for seamless integration of data cleaning workflows, making it easier to apply transformations and prepare data for further analysis or visualization .

Recent trends like Generative AI and synthetic data generation profoundly influence data science by expanding capabilities in data augmentation, privacy, and scalability. Generative AI models, such as GPT-4, enhance natural language processing and creative tasks, while DALL-E revolutionizes automated image creation. Synthetic data generation offers a solution when real data is scarce or sensitive, providing robust, privacy-preserving data alternatives. These innovations promote advanced research, enable the formulation of new applications, and facilitate broader accessibility to data science solutions for diverse fields .

Supervised and unsupervised learning are crucial in data science as they provide frameworks for pattern recognition and predictive modeling. Supervised learning involves training models on labeled data to make predictions or classifications, useful in applications like fraud detection or customer churn prediction. Unsupervised learning does not use labeled responses, making it invaluable for data exploration and discovering hidden patterns or groupings, such as customer segmentation. Together, these learning paradigms empower data scientists to extract meaningful insights and facilitate automated decision-making across various domains .

Mastering Python programming fundamentals is crucial because it establishes a foundation for effectively utilizing tools like NumPy and Pandas for data manipulation. A solid understanding of basic syntax, data types, and control structures (e.g., if statements, loops) enables consistent and efficient data handling and processing, which is vital for any data science task. Python's functions and modules further allow encapsulation and reusability of code, reducing redundancy and improving readability. This foundational knowledge also facilitates the smooth integration of advanced data manipulation operations using libraries specialized for data science tasks .

Exploratory data analysis techniques like outlier detection and correlation analysis have significant practical implications by enhancing data quality and insights in real-world applications. Outlier detection helps identify and correct anomalous data points that could skew results or highlight new phenomena, such as fraud detection or sensor failures. Correlation analysis reveals relationships between variables, guiding feature selection and model design. These techniques improve decision-making processes, reduce risks associated with incorrect data interpretation, and ensure robust analytical outcomes .

Key steps in exploratory data analysis include summarizing the main characteristics of data using summary statistics, identifying patterns through correlation and covariance, and detecting outliers. EDA facilitates data understanding by uncovering the structure, relationships, and peculiarities within the data set, potentially revealing new insights or guiding further data transformation. This process also aids in hypothesis formulation and selection of appropriate statistical methodologies for deeper analysis, thus providing a comprehensive overview necessary for informed decision-making .

Hypothesis tests like the t-test and chi-squared test are fundamental for statistical analysis in data science as they enable researchers to infer population characteristics from sample data. The t-test evaluates whether the means of two groups are statistically different, aiding comparisons in experimental data. The chi-squared test assesses the independence of categorical variables, useful in survey data to evaluate observed distributions against expected ones. These tests validate findings and help confirm or refute assumptions, thus forming the backbone of evidence-based conclusions in research .

Understanding different probability distributions is critical because they underpin many statistical techniques, providing the foundation for hypothesis testing, estimation, and prediction. The normal distribution is paramount for its role in the central limit theorem, influencing many statistical tests. The binomial distribution models scenarios of binary outcomes, such as success/failure, while the Poisson distribution is suitable for modeling rare events. Mastery of these distributions allows statisticians to correctly apply analytical methods and make informed decisions based on data characteristics .

The CRISP-DM (Cross Industry Standard Process for Data Mining) framework structures data analysis by providing a comprehensive roadmap that emphasizes understanding business objectives, data preparation, modeling, evaluation, and deployment. Linear regression models are integral to the modeling phase where relationships between variables are quantified and predictive insights are generated. This structured approach ensures systematic analysis, minimizes errors, and enhances reproducibility, making it pivotal for effective implementation of data-driven strategies across industries .

Effective data visualization is crucial because it transforms complex data sets into comprehensible insights, helping to convey trends, patterns, and anomalies clearly and concisely. Matplotlib serves as a versatile foundation for creating static, animated, and interactive visualizations in Python, whereas Seaborn provides a high-level interface for drawing attractive and informative statistical graphics. These tools offer extensive customization options, allowing data scientists to tailor graphics to specific audiences and objectives, thus enhancing communication of data-driven insights .

CSE322: Automata and Formal Languages
No ratings yet
CSE322: Automata and Formal Languages
2 pages
AIML Engineering Syllabus Overview
No ratings yet
AIML Engineering Syllabus Overview
25 pages
CSE 110 Course Outline: Programming I
No ratings yet
CSE 110 Course Outline: Programming I
2 pages
Programming for Problem Solving Syllabus
No ratings yet
Programming for Problem Solving Syllabus
3 pages
BCA 1st Sem C Programming Syllabus
No ratings yet
BCA 1st Sem C Programming Syllabus
2 pages
Stanford CS181: Ethics & Public Policy
No ratings yet
Stanford CS181: Ethics & Public Policy
2 pages
AI Lecture Notes - Introduction to AI
No ratings yet
AI Lecture Notes - Introduction to AI
26 pages
RNSIT AI & ML Laboratory Manual
No ratings yet
RNSIT AI & ML Laboratory Manual
47 pages
AI Course Overview: IS ZC444
No ratings yet
AI Course Overview: IS ZC444
7 pages
Advanced Python Programming Exam 2024-25
No ratings yet
Advanced Python Programming Exam 2024-25
6 pages
INT108 Python Programming Syllabus
No ratings yet
INT108 Python Programming Syllabus
29 pages
Java 8 OOP Guidelines for e-DBDA Course
No ratings yet
Java 8 OOP Guidelines for e-DBDA Course
3 pages
Matplotlib Error Bar Example
No ratings yet
Matplotlib Error Bar Example
17 pages
Advanced Web Development Course INT222
No ratings yet
Advanced Web Development Course INT222
42 pages
Understanding Algorithm Complexity Basics
No ratings yet
Understanding Algorithm Complexity Basics
33 pages
Software Engineering Lab Manual (CS-403)
No ratings yet
Software Engineering Lab Manual (CS-403)
44 pages
ROSP Mini-Project Logbook 2024-25
100% (1)
ROSP Mini-Project Logbook 2024-25
15 pages
VTU Python Programming Syllabus
No ratings yet
VTU Python Programming Syllabus
4 pages
Course File for Data Analytics KIT-601
No ratings yet
Course File for Data Analytics KIT-601
51 pages
CSE202: Object Oriented Programming Syllabus
No ratings yet
CSE202: Object Oriented Programming Syllabus
2 pages
Digital Systems Design Course Outline
No ratings yet
Digital Systems Design Course Outline
3 pages
AI Lab Manual: Python Programs Guide
No ratings yet
AI Lab Manual: Python Programs Guide
18 pages
Data Science Curriculum for Engineers
No ratings yet
Data Science Curriculum for Engineers
16 pages
CSC 204: Systems Analysis & Design Overview
No ratings yet
CSC 204: Systems Analysis & Design Overview
66 pages
International Software Systems Programs
No ratings yet
International Software Systems Programs
23 pages
Data Science Lab Manual for AI Students
No ratings yet
Data Science Lab Manual for AI Students
61 pages
BSc Computer Science Syllabus NEP 2021
No ratings yet
BSc Computer Science Syllabus NEP 2021
16 pages
Automata Theory's Role in AI Applications
No ratings yet
Automata Theory's Role in AI Applications
4 pages
AOA Lab Manual for Computer Science
No ratings yet
AOA Lab Manual for Computer Science
60 pages
Advanced Python for Data Science Course
No ratings yet
Advanced Python for Data Science Course
12 pages
Operating System Course Syllabus K Scheme
No ratings yet
Operating System Course Syllabus K Scheme
6 pages
PG-DAC Syllabus Overview 2024
No ratings yet
PG-DAC Syllabus Overview 2024
6 pages
Operating Systems Lab Manual LPU
No ratings yet
Operating Systems Lab Manual LPU
3 pages
OOP Concepts and Functions in Python
No ratings yet
OOP Concepts and Functions in Python
11 pages
Understanding AI Agents and Environments
No ratings yet
Understanding AI Agents and Environments
26 pages
CIS101 Course Outline: Spring 2025
No ratings yet
CIS101 Course Outline: Spring 2025
8 pages
Software Testing & Quality Assurance Syllabus
No ratings yet
Software Testing & Quality Assurance Syllabus
14 pages
Software Development Course Modules Overview
No ratings yet
Software Development Course Modules Overview
9 pages
Computer Vision and Deep Learning Course
No ratings yet
Computer Vision and Deep Learning Course
3 pages
Getting Started in Machine Learning
No ratings yet
Getting Started in Machine Learning
3 pages
Deep Learning for Lip Reading 2023
No ratings yet
Deep Learning for Lip Reading 2023
6 pages
Data Structures Course Plan - KIIT 2025
No ratings yet
Data Structures Course Plan - KIIT 2025
6 pages
CSE205 Data Structures Syllabus
No ratings yet
CSE205 Data Structures Syllabus
2 pages
Four Branches of Machine Learning
No ratings yet
Four Branches of Machine Learning
18 pages
Parallel and Distributed Computing Syllabus
No ratings yet
Parallel and Distributed Computing Syllabus
6 pages
SymPy Basics for Symbolic Programming
No ratings yet
SymPy Basics for Symbolic Programming
35 pages
Core and Advanced Java Syllabus
No ratings yet
Core and Advanced Java Syllabus
3 pages
Real-Time Operating Systems Overview
No ratings yet
Real-Time Operating Systems Overview
8 pages
CS F111: Programming Course Overview
No ratings yet
CS F111: Programming Course Overview
5 pages
Python Lab Manual for 1st Year Students
No ratings yet
Python Lab Manual for 1st Year Students
32 pages
Hackademia 2.0 Python & AI Syllabus
No ratings yet
Hackademia 2.0 Python & AI Syllabus
7 pages
Machine Learning in Crop Recommendations
No ratings yet
Machine Learning in Crop Recommendations
22 pages
Cyber Security Lab Report: Cryptography
No ratings yet
Cyber Security Lab Report: Cryptography
59 pages
Python Data Structures Lab Exercises
No ratings yet
Python Data Structures Lab Exercises
2 pages
OU BE CSE (AI&ML) Syllabus 2022-2023
No ratings yet
OU BE CSE (AI&ML) Syllabus 2022-2023
50 pages
Data Science Toolbox: Python Course
No ratings yet
Data Science Toolbox: Python Course
2 pages
Applied Data Science with Python Course
No ratings yet
Applied Data Science with Python Course
17 pages
Data Science Course Overview: Python
No ratings yet
Data Science Course Overview: Python
172 pages
Lesson 01 Course Introduction
No ratings yet
Lesson 01 Course Introduction
9 pages
CS3352 Foundations of Data Science Syllabus
No ratings yet
CS3352 Foundations of Data Science Syllabus
2 pages
Forensic Timeline Reconstruction Tool
No ratings yet
Forensic Timeline Reconstruction Tool
2 pages
Knowledge Graph for Crop Diseases in China
No ratings yet
Knowledge Graph for Crop Diseases in China
12 pages
AI-Driven Insights for App and Magazine Design
No ratings yet
AI-Driven Insights for App and Magazine Design
14 pages
Online MBA Program: GGU & LIBA Collaboration
No ratings yet
Online MBA Program: GGU & LIBA Collaboration
22 pages
Introduction to Data Science Basics
No ratings yet
Introduction to Data Science Basics
15 pages
Big Data Benefits in Marketing Strategies
No ratings yet
Big Data Benefits in Marketing Strategies
7 pages
Data Storytelling Cheat Sheet
100% (7)
Data Storytelling Cheat Sheet
2 pages
Data Visualization Techniques with SAS
No ratings yet
Data Visualization Techniques with SAS
21 pages
Apps With Examples
No ratings yet
Apps With Examples
6 pages
Data Analyst Profile: Campaign Insights
No ratings yet
Data Analyst Profile: Campaign Insights
2 pages
Splunk vs Elastic: A Comparative Guide
No ratings yet
Splunk vs Elastic: A Comparative Guide
25 pages
MineScape Release Notes EN
No ratings yet
MineScape Release Notes EN
17 pages
Sunburst Chart for Hierarchical Data
No ratings yet
Sunburst Chart for Hierarchical Data
17 pages
Risk Analytics in Banking Project Report
No ratings yet
Risk Analytics in Banking Project Report
58 pages
Excel Program for Data Analysis
No ratings yet
Excel Program for Data Analysis
2 pages
OJT Report: Business Analytics Project
No ratings yet
OJT Report: Business Analytics Project
9 pages
Director of Analytics Profile - Sarath K T
No ratings yet
Director of Analytics Profile - Sarath K T
2 pages
Introduction to Matplotlib Library
No ratings yet
Introduction to Matplotlib Library
2 pages
Exploratory Data Analysis Techniques
No ratings yet
Exploratory Data Analysis Techniques
12 pages
Crime Detection Patterns for Women in India
No ratings yet
Crime Detection Patterns for Women in India
23 pages
IoT Innovations in Water Management Review
No ratings yet
IoT Innovations in Water Management Review
27 pages
King Crab Population Analysis in Tableau
No ratings yet
King Crab Population Analysis in Tableau
19 pages
Comparing Word Cloud Tools
No ratings yet
Comparing Word Cloud Tools
2 pages
Machine Learning for Cloudburst Analysis
No ratings yet
Machine Learning for Cloudburst Analysis
6 pages
AIIMS Patna Non-Faculty Exam Syllabus
No ratings yet
AIIMS Patna Non-Faculty Exam Syllabus
6 pages
Class 9 AI Curriculum Overview
100% (1)
Class 9 AI Curriculum Overview
141 pages
MIT Sloan MBA Essay Tips & Examples
No ratings yet
MIT Sloan MBA Essay Tips & Examples
13 pages
Computer Graphics Overview and Techniques
No ratings yet
Computer Graphics Overview and Techniques
18 pages
For Employers - ACCA Global
No ratings yet
For Employers - ACCA Global
3 pages
Introduction to Data Analytics Overview
No ratings yet
Introduction to Data Analytics Overview
16 pages

INT375 Data Science Toolbox Syllabus

Uploaded by

INT375 Data Science Toolbox Syllabus

Uploaded by

INT375:DATA SCIENCE TOOLBOX: PYTHON PROGRAMMING

L:2 T:0 P:2 Credits:3

Course Outcomes: Through this course students should be able to

CO1 :: understand and apply Python programming fundamentals

CO5 :: perform statistical analysis and hypothesis testing using Python

CO6 :: associate the role of machine learning in data science

List of Practicals / Experiments:

List of Practical's / Experiments:

• Exploring different Control Structures and function in Python

• Practical on NumPy Package

• Practical to demonstrate working with Data in Python

• Practical to demonstrate working with NumPy Arrays

• Practical on Pandas Package

• Practical on Visualization with MatPlotLib

• Practical demonstration on EDA, Summary Statistics

• Practical demonstration on Correlation and Covariance, Outlier Detection

• Practical demonstration on Outlier Detection

Session 2024-25 Page:1/2

• Practical Demonstration on Hypothesis testing, Probability Distributions

• Practical Demonstration on CRISP-DM framework using Linear Regression model

Session 2024-25 Page:2/2

Common questions

In what ways does the use of NumPy and Pandas enhance the process of data cleaning and preparation?

How do recent trends like Generative AI and synthetic data generation influence data science applications and research?

Explain the importance of machine learning concepts such as supervised and unsupervised learning in the field of data science.

How does mastering Python programming fundamentals contribute to effective data manipulation and analysis in data science?

What are the practical implications of exploratory data analysis through techniques like outlier detection and correlation analysis in real-world data science applications?

What are the key steps involved in exploratory data analysis (EDA) and how does it contribute to data understanding?

How do different hypothesis tests, such as the t-test and chi-squared test, contribute to statistical analysis in data science?

What is the significance of understanding different probability distributions such as normal, binomial, and Poisson distributions in the context of statistical analyses?

What role does the CRISP-DM framework play in structuring data analysis processes, particularly through the use of linear regression models?

Why is effective data visualization important, and how do Matplotlib and Seaborn facilitate this in the context of data science?

You might also like