0% found this document useful (0 votes)

8 views2 pages

Unsupervised Learning Model Cheat Sheet

Uploaded by

mido473mi3

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views2 pages

Unsupervised Learning Model Cheat Sheet

Uploaded by

mido473mi3

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

7/5/25, 2:40 PM about:blank

Cheat Sheet: Building Unsupervised Learning Models

Unsupervised learning models

Model Name Brief Description Code Syntax

UMAP (Uniform Manifold Approximation and Projection) is used for

dimensionality reduction. from umap.umap_ import UMAP
Pros: High performance, preserves global structure. umap = UMAP(n_neighbors=15, min_dist=0.1, n_components=2)
Cons: Sensitive to parameters.
Applications: Data visualization, feature extraction.
Key hyperparameters:
UMAP
n_neighbors: Controls the local neighborhood size (default =
15).
min_dist: Controls the minimum distance between points in the
embedded space (default = 0.1).
n_components: The dimensionality of the embedding (default =
2).

t-SNE (t-Distributed Stochastic Neighbor Embedding) is a nonlinear

dimensionality reduction technique.
from [Link] import TSNE
Pros: Good for visualizing high-dimensional data. tsne = TSNE(n_components=2, perplexity=30, learning_rate=200)
Cons: Computationally expensive, prone to overfitting.
Applications: Data visualization, anomaly detection.
Key hyperparameters:
t-SNE
n_components: The number of dimensions for the output
(default = 2).
perplexity: Balances attention between local and global aspects
of the data (default = 30).
learning_rate: Controls the step size during optimization
(default = 200).

PCA (principal component analysis) is used for linear dimensionality

reduction. from [Link] import PCA
Pros: Easy to interpret, reduces noise. pca = PCA(n_components=2)
Cons: Linear, may lose information in nonlinear data.
Applications: Feature extraction, compression.
Key hyperparameters:
PCA
n_components: Number of principal components to retain
(default = 2).
whiten: Whether to scale the components (default = False).
svd_solver: The algorithm to compute the components (default =
'auto').

DBSCAN (Density-Based Spatial Clustering of Applications with from [Link] import DBSCAN
Noise) is a density-based clustering algorithm. dbscan = DBSCAN(eps=0.5, min_samples=5)
Pros: Identifies outliers, does not require the number of clusters.
Cons: Difficult with varying density clusters.
Applications: Anomaly detection, spatial data clustering.
DBSCAN Key hyperparameters:

eps: The maximum distance between two points to be considered

neighbors (default = 0.5).
min_samples: Minimum number of samples in a neighborhood
to form a cluster (default = 5).

HDBSCAN (Hierarchical DBSCAN) improves on DBSCAN by import hdbscan

handling varying density clusters. clusterer = [Link](min_cluster_size=5)
Pros: Better handling of varying densities.
Cons: Can be slower than DBSCAN.
Applications: Large datasets, complex clustering problems.
HDBSCAN Key hyperparameters:

min_cluster_size: The minimum size of clusters (default = 5).

min_samples: Minimum number of samples to form a cluster
(default = 10).

K-Means is a centroid-based clustering algorithm that groups data into

k clusters. from [Link] import KMeans
Pros: Efficient, simple to implement. kmeans = KMeans(n_clusters=3)
Cons: Sensitive to initial cluster centroids.
Applications: Customer segmentation, pattern recognition.
K-Means Key hyperparameters:
clustering
n_clusters: Number of clusters (default = 8).
init: Method for initializing the centroids ('k-means++' or
'random', default = 'k-means++').
n_init: Number of times the algorithm will run with different
centroid seeds (default = 10).

Associated fuctions used

Method Brief Description Code Syntax

make_blobs Generates isotropic Gaussian blobs for from [Link] import make_blobs
clustering. X, y = make_blobs(n_samples=100, centers=2, random_state=42)

about:blank 1/2
7/5/25, 2:40 PM about:blank

Method Brief Description Code Syntax

from [Link] import multivariate_normal

samples = multivariate_normal(mean=[0, 0], cov=[[1, 0], [0, 1]], size=100)

Generates samples from a multivariate

multivariate_normal
normal distribution.

import [Link] as px
fig = px.scatter_3d(df, x='x', y='y', z='z')
[Link]()

Creates a 3D scatter plot using Plotly

[Link].scatter_3d
Express.

import geopandas as gpd

gdf = [Link](df, geometry='geometry')

Creates a GeoDataFrame from a Pandas

[Link]
DataFrame.

gdf = gdf.to_crs(epsg=3857)

Transforms the coordinate reference

geopandas.to_crs
system of a GeoDataFrame.

import contextily as ctx

ax = [Link](figsize=(10, 10))
ctx.add_basemap(ax)

Adds a basemap to a GeoDataFrame plot

contextily.add_basemap
for context.

from [Link] import PCA

pca = PCA(n_components=2)
[Link](X)
variance_ratio = pca.explained_variance_ratio_

Returns the proportion of variance

pca.explained_variance_ratio_
explained by each principal component.

Author
Jeff Grossman
Abhishek Gagneja

about:blank 2/2

Unsupervised Learning Models
No ratings yet
Unsupervised Learning Models
3 pages
Unsupervised Learning Model Cheat Sheet
No ratings yet
Unsupervised Learning Model Cheat Sheet
3 pages
Cheatsheet Cluster
No ratings yet
Cheatsheet Cluster
4 pages
Unsupervised Learning Model Cheat Sheet
No ratings yet
Unsupervised Learning Model Cheat Sheet
3 pages
Data Science Codebook: Python Guide
No ratings yet
Data Science Codebook: Python Guide
7 pages
Understanding Manifold Learning Techniques
No ratings yet
Understanding Manifold Learning Techniques
33 pages
Unsupervised Learning: Clustering & PCA
No ratings yet
Unsupervised Learning: Clustering & PCA
13 pages
Part-B 3. Data Science
No ratings yet
Part-B 3. Data Science
7 pages
Clustering & Dimens Reduc
No ratings yet
Clustering & Dimens Reduc
6 pages
Dimensionality Reduction Techniques Explained
No ratings yet
Dimensionality Reduction Techniques Explained
10 pages
Unsupervised Learning Techniques Overview
No ratings yet
Unsupervised Learning Techniques Overview
7 pages
Data Mining Techniques: Classification & Clustering
No ratings yet
Data Mining Techniques: Classification & Clustering
85 pages
AI and ML in Data Analysis Techniques
No ratings yet
AI and ML in Data Analysis Techniques
20 pages
Principal Component Analysis (PCA) : Dimensionality Reduction Techniques - Simplifying High-Dimensional Data
No ratings yet
Principal Component Analysis (PCA) : Dimensionality Reduction Techniques - Simplifying High-Dimensional Data
5 pages
Evaluating and Validating Machine Learning Models
No ratings yet
Evaluating and Validating Machine Learning Models
5 pages
About Blank
No ratings yet
About Blank
6 pages
Python Data Analysis with NumPy & Pandas
No ratings yet
Python Data Analysis with NumPy & Pandas
24 pages
Varimax Rotation
No ratings yet
Varimax Rotation
1 page
DVT 4
No ratings yet
DVT 4
8 pages
Evaluating and Validating Machine Learning Models
No ratings yet
Evaluating and Validating Machine Learning Models
7 pages
Logistic Regression and Hyperparameter Tuning
No ratings yet
Logistic Regression and Hyperparameter Tuning
9 pages
Advanced Data Analysis Techniques: Clustering & PCA
No ratings yet
Advanced Data Analysis Techniques: Clustering & PCA
32 pages
K-Means Clustering Guide and Analysis
No ratings yet
K-Means Clustering Guide and Analysis
20 pages
Intro to Machine Learning with Scikit-Learn
No ratings yet
Intro to Machine Learning with Scikit-Learn
2 pages
Data Normalization and Clustering Techniques
No ratings yet
Data Normalization and Clustering Techniques
14 pages
Data Warehouse, ETL, and Analysis Techniques
No ratings yet
Data Warehouse, ETL, and Analysis Techniques
5 pages
M3 LN
No ratings yet
M3 LN
20 pages
Cheatsheet Parametrs
No ratings yet
Cheatsheet Parametrs
7 pages
Box Plot and Data Analysis Techniques
No ratings yet
Box Plot and Data Analysis Techniques
7 pages
PCA Implementation on Iris Dataset in Python
No ratings yet
PCA Implementation on Iris Dataset in Python
23 pages
Clustering Analysis with Python Examples
No ratings yet
Clustering Analysis with Python Examples
8 pages
Scikit Learn Cheatsheet
No ratings yet
Scikit Learn Cheatsheet
5 pages
Multidimensional Scaling Explained
No ratings yet
Multidimensional Scaling Explained
103 pages
Functions Study Guide
No ratings yet
Functions Study Guide
6 pages
Dimensionality Reduction Group Project Presentation
No ratings yet
Dimensionality Reduction Group Project Presentation
20 pages
Python Data Types and Functions Guide
No ratings yet
Python Data Types and Functions Guide
2 pages
Supervised Learning Model Cheat Sheet
No ratings yet
Supervised Learning Model Cheat Sheet
5 pages
Types of Data Plots and Visualization
No ratings yet
Types of Data Plots and Visualization
17 pages
Dry Bean Classification with EDA & Models
No ratings yet
Dry Bean Classification with EDA & Models
8 pages
CS3361 Lab
No ratings yet
CS3361 Lab
33 pages
Low-Dimensional Data Analysis Techniques
No ratings yet
Low-Dimensional Data Analysis Techniques
19 pages
Handling Missing Data in Pandas
No ratings yet
Handling Missing Data in Pandas
26 pages
Machine Learning Model Evaluation Metrics
No ratings yet
Machine Learning Model Evaluation Metrics
5 pages
Data Importing and Analysis Guide
No ratings yet
Data Importing and Analysis Guide
9 pages
Unit-V Notes
No ratings yet
Unit-V Notes
79 pages
Data Science Experiments in Python
No ratings yet
Data Science Experiments in Python
25 pages
Machine Learning SIT DGP-pages-3
No ratings yet
Machine Learning SIT DGP-pages-3
10 pages
NumPy, Pandas, and Visualization Guide
No ratings yet
NumPy, Pandas, and Visualization Guide
37 pages
Data Analysis with Pandas in Python
No ratings yet
Data Analysis with Pandas in Python
70 pages
KMeans and DBSCAN Clustering Analysis
No ratings yet
KMeans and DBSCAN Clustering Analysis
12 pages
Python Data Analysis Cheat Sheet
No ratings yet
Python Data Analysis Cheat Sheet
2 pages
Common Unsupervised Learning Algorithms
No ratings yet
Common Unsupervised Learning Algorithms
10 pages
Common Unsupervised Algorithms
No ratings yet
Common Unsupervised Algorithms
10 pages
Supervised Learning Algorithms Overview
No ratings yet
Supervised Learning Algorithms Overview
26 pages
Support Vector Machines and Clustering Techniques
No ratings yet
Support Vector Machines and Clustering Techniques
5 pages
Machine Learning with NumPy and Matplotlib
No ratings yet
Machine Learning with NumPy and Matplotlib
80 pages
t-SNE Algorithm Guide for R & Python
No ratings yet
t-SNE Algorithm Guide for R & Python
19 pages
Understanding Linear Polynomials
No ratings yet
Understanding Linear Polynomials
2 pages
Mathematical Programming Course 2025
No ratings yet
Mathematical Programming Course 2025
3 pages
Matrix Calculus Applications and Methods
No ratings yet
Matrix Calculus Applications and Methods
14 pages
Uninformed Search Algorithms in AI
No ratings yet
Uninformed Search Algorithms in AI
9 pages
NP-Complete Search Problems Overview
No ratings yet
NP-Complete Search Problems Overview
90 pages
Class 9 Maths Syllabus 2025
No ratings yet
Class 9 Maths Syllabus 2025
1 page
Knapsack Problem in Dynamic Programming
No ratings yet
Knapsack Problem in Dynamic Programming
10 pages
Machine Learning Algorithms and Concepts
No ratings yet
Machine Learning Algorithms and Concepts
2 pages
Optimization Decision Criteria Analysis
No ratings yet
Optimization Decision Criteria Analysis
38 pages
Understanding Gradient Descent in ML
No ratings yet
Understanding Gradient Descent in ML
41 pages
COMP 122: Algorithm Design & Analysis
No ratings yet
COMP 122: Algorithm Design & Analysis
22 pages
Graph Data Structures Explained
No ratings yet
Graph Data Structures Explained
25 pages
Understanding Polynomials and Their Operations
No ratings yet
Understanding Polynomials and Their Operations
52 pages
CFD Numerical Methods Explained
No ratings yet
CFD Numerical Methods Explained
8 pages
Linear Programming Optimization Guide
No ratings yet
Linear Programming Optimization Guide
22 pages
Routh-Hurwitz Stability Analysis Lab
No ratings yet
Routh-Hurwitz Stability Analysis Lab
13 pages
CSIR NET Mathematics Class Questions
No ratings yet
CSIR NET Mathematics Class Questions
4 pages
Scilab Least Squares Fitting Guide
No ratings yet
Scilab Least Squares Fitting Guide
48 pages
One-Dimensional Search in Optimization
No ratings yet
One-Dimensional Search in Optimization
25 pages
Optimal Transportation Cost Analysis
No ratings yet
Optimal Transportation Cost Analysis
1 page
Branch and Bound in Integer Programming
No ratings yet
Branch and Bound in Integer Programming
7 pages
Curve Fitting and Interpolation Methods
No ratings yet
Curve Fitting and Interpolation Methods
48 pages
Hybrid Algorithm for Resource-Constrained Scheduling
No ratings yet
Hybrid Algorithm for Resource-Constrained Scheduling
20 pages
Understanding Artificial Neural Networks
No ratings yet
Understanding Artificial Neural Networks
45 pages
Linear Programming for Business Decisions
No ratings yet
Linear Programming for Business Decisions
20 pages
Unconstrained Optimization Methods
No ratings yet
Unconstrained Optimization Methods
105 pages
MPFIT: Least Squares Fitting Guide
No ratings yet
MPFIT: Least Squares Fitting Guide
42 pages
Numerical Analysis Course Syllabus
No ratings yet
Numerical Analysis Course Syllabus
4 pages
Heuristic Algorithms for Sorting Crates
No ratings yet
Heuristic Algorithms for Sorting Crates
34 pages
Factoring Polynomials Overview
No ratings yet
Factoring Polynomials Overview
8 pages

Unsupervised Learning Model Cheat Sheet

Uploaded by

Unsupervised Learning Model Cheat Sheet

Uploaded by

7/5/25, 2:40 PM about:blank

Cheat Sheet: Building Unsupervised Learning Models

Model Name Brief Description Code Syntax

UMAP (Uniform Manifold Approximation and Projection) is used for

t-SNE (t-Distributed Stochastic Neighbor Embedding) is a nonlinear

PCA (principal component analysis) is used for linear dimensionality

eps: The maximum distance between two points to be considered

HDBSCAN (Hierarchical DBSCAN) improves on DBSCAN by import hdbscan

min_cluster_size: The minimum size of clusters (default = 5).

K-Means is a centroid-based clustering algorithm that groups data into

Associated fuctions used

Method Brief Description Code Syntax

Method Brief Description Code Syntax

from [Link] import multivariate_normal

Generates samples from a multivariate

Creates a 3D scatter plot using Plotly

import geopandas as gpd

Creates a GeoDataFrame from a Pandas

Transforms the coordinate reference

import contextily as ctx

Adds a basemap to a GeoDataFrame plot

from [Link] import PCA

Returns the proportion of variance

You might also like