0% found this document useful (0 votes)

99 views4 pages

Digits Recognition Dataset

The document describes a dataset containing images of handwritten digits (0-9) that is used to perform digits recognition using k-nearest neighbors (KNN) classification. It loads the digits dataset, splits it into training and test sets, trains a KNN classifier on the training set and evaluates it on the test set achieving 98% accuracy. It then analyzes the effect of varying the number of neighbors (k) in KNN and observes that low k causes overfitting while high k causes underfitting.

Uploaded by

Joe1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

99 views4 pages

Digits Recognition Dataset

Uploaded by

Joe1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

9/7/2018 komal_digits_recognition_dataset

The digits recognition dataset

In [18]: from sklearn import datasets
import matplotlib.pyplot as plt
import numpy as np

In [4]: # Load the digits dataset: digits

digits = datasets.load_digits()

In [5]: # Print the keys and DESCR of the dataset

print(digits.keys())

dict_keys(['data', 'target', 'target_names', 'images', 'DESCR'])

In [15]: digits['data']

Out[15]: array([[ 0., 0., 5., ..., 0., 0., 0.],

[ 0., 0., 0., ..., 10., 0., 0.],
[ 0., 0., 0., ..., 16., 9., 0.],
...,
[ 0., 0., 1., ..., 6., 0., 0.],
[ 0., 0., 2., ..., 12., 0., 0.],
[ 0., 0., 10., ..., 12., 1., 0.]])

In [16]: digits['target']

Out[16]: array([0, 1, 2, ..., 8, 9, 8])

file:///D:/komal/SIMPLILEARN/MY%20COURSES/IN%20PROGRESS/My%20Codes_ML_DS/codes%20in%20pdf/komal_digits_recognition_dataset.h… 1/4
9/7/2018 komal_digits_recognition_dataset

In [6]: print(digits.DESCR)

Optical Recognition of Handwritten Digits Data Set

===================================================

Notes
-----
Data Set Characteristics:
:Number of Instances: 5620
:Number of Attributes: 64
:Attribute Information: 8x8 image of integer pixels in the range 0..16.
:Missing Attribute Values: None
:Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
:Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Dig
its

The data set contains images of hand-written digits: 10 classes where

each class refers to a digit.

Preprocessing programs made available by NIST were used to extract

normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each block. This generates
an input matrix of 8x8 where each element is an integer in the range
0..16. This reduces dimensionality and gives invariance to small
distortions.

For info on NIST preprocessing routines, see M. D. Garris, J. L. Blue, G.

T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C.
L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469,
1994.

References
----------
- C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their
Applications to Handwritten Digit Recognition, MSc Thesis, Institute of
Graduate Studies in Science and Engineering, Bogazici University.
- E. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.
- Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin.
Linear dimensionalityreduction using relevance weighted LDA. School of
Electrical and Electronic Engineering Nanyang Technological University.
2005.
- Claudio Gentile. A New Approximate Maximal Margin Classification
Algorithm. NIPS. 2000.

In [7]: # Print the shape of the images and data keys

print(digits.images.shape)
print(digits.data.shape)

(1797, 8, 8)
(1797, 64)

file:///D:/komal/SIMPLILEARN/MY%20COURSES/IN%20PROGRESS/My%20Codes_ML_DS/codes%20in%20pdf/komal_digits_recognition_dataset.h… 2/4
9/7/2018 komal_digits_recognition_dataset

In [8]: # Display digit 1010

plt.imshow(digits.images[1010], cmap=plt.cm.gray_r, interpolation='nearest')
plt.show()

APPLICATION OF KNN

In [9]: from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

In [10]: X = digits.data
y = digits.target

In [11]: X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, ran

dom_state=42, stratify=y)

In [12]: knn = KNeighborsClassifier(n_neighbors=7)

In [13]: knn.fit(X_train,y_train)

Out[13]: KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=1, n_neighbors=7, p=2,
weights='uniform')

In [14]: print(knn.score(X_test, y_test))

0.9833333333333333

Overfitting and underfitting

file:///D:/komal/SIMPLILEARN/MY%20COURSES/IN%20PROGRESS/My%20Codes_ML_DS/codes%20in%20pdf/komal_digits_recognition_dataset.h… 3/4
9/7/2018 komal_digits_recognition_dataset

In [19]: # Setup arrays to store train and test accuracies

neighbors = np.arange(1, 9)
train_accuracy = np.empty(len(neighbors))
test_accuracy = np.empty(len(neighbors))

# Loop over different values of k

for i, k in enumerate(neighbors):
# Setup a k-NN Classifier with k neighbors: knn
knn = KNeighborsClassifier(n_neighbors=k)

# Fit the classifier to the training data

knn.fit(X_train,y_train)

#Compute accuracy on the training set

train_accuracy[i] = knn.score(X_train,y_train)

#Compute accuracy on the testing set

test_accuracy[i] = knn.score(X_test, y_test)

# Generate plot
plt.title('k-NN: Varying Number of Neighbors')
plt.plot(neighbors, test_accuracy, label = 'Testing Accuracy')
plt.plot(neighbors, train_accuracy, label = 'Training Accuracy')
plt.legend()
plt.xlabel('Number of Neighbors')
plt.ylabel('Accuracy')
plt.show()

OBSERVATIONS MADE: Low value of K --> OVERFITTING High value of K --> UNDERFITTING

file:///D:/komal/SIMPLILEARN/MY%20COURSES/IN%20PROGRESS/My%20Codes_ML_DS/codes%20in%20pdf/komal_digits_recognition_dataset.h… 4/4

Logistic Regressions
No ratings yet
Logistic Regressions
5 pages
ML Ex6
No ratings yet
ML Ex6
8 pages
33 DTand Digital Char Reg
No ratings yet
33 DTand Digital Char Reg
4 pages
Recognizing Handwritten Digits With Scikit-Learn: Punam Seal
No ratings yet
Recognizing Handwritten Digits With Scikit-Learn: Punam Seal
21 pages
Handwritten Digit Recognition With ML Models
No ratings yet
Handwritten Digit Recognition With ML Models
41 pages
Capstone Project Report (Digit-Recognition Using CNN)
No ratings yet
Capstone Project Report (Digit-Recognition Using CNN)
11 pages
Handwritten Digit Recognition Systems
No ratings yet
Handwritten Digit Recognition Systems
12 pages
Newbie's Deep Learning Project To Recognize Handwritten Digit
No ratings yet
Newbie's Deep Learning Project To Recognize Handwritten Digit
6 pages
Handwritten Digit Recognition KNN
No ratings yet
Handwritten Digit Recognition KNN
8 pages
1st Research
No ratings yet
1st Research
13 pages
Aishwarya MiniProjectReport - SC
No ratings yet
Aishwarya MiniProjectReport - SC
6 pages
19dce010 W9
No ratings yet
19dce010 W9
3 pages
On Handwritten Digit Recognition
No ratings yet
On Handwritten Digit Recognition
15 pages
Research Papers
No ratings yet
Research Papers
16 pages
Batch A6 - Literature Review
No ratings yet
Batch A6 - Literature Review
5 pages
Image/Digit Recognition Using Machine Learning: by Raghav Chawla, I.T/B.Tech/Hmritm/5 Semester 43713303117
100% (1)
Image/Digit Recognition Using Machine Learning: by Raghav Chawla, I.T/B.Tech/Hmritm/5 Semester 43713303117
15 pages
ML Digit Classification Report
No ratings yet
ML Digit Classification Report
7 pages
Project
No ratings yet
Project
15 pages
Paper 2
No ratings yet
Paper 2
4 pages
Deep Learning - Handwritten Digit Recognition Using Python REVIEW 0
No ratings yet
Deep Learning - Handwritten Digit Recognition Using Python REVIEW 0
16 pages
C2 W1 Assignment
No ratings yet
C2 W1 Assignment
24 pages
C2 W1 Assignment
No ratings yet
C2 W1 Assignment
25 pages
Finalproject Review PPT
No ratings yet
Finalproject Review PPT
39 pages
Statistical Handwritten Digit Recognition
No ratings yet
Statistical Handwritten Digit Recognition
16 pages
Methodology: Project Name
No ratings yet
Methodology: Project Name
5 pages
Handwritten Digit Recognition Using Convolutional Neural Networks
No ratings yet
Handwritten Digit Recognition Using Convolutional Neural Networks
6 pages
Handwriting Recognition
No ratings yet
Handwriting Recognition
12 pages
Handwrittendigitrecognitionppt1 221115162428 68e03722
No ratings yet
Handwrittendigitrecognitionppt1 221115162428 68e03722
11 pages
Handwritten Digit Recognition Using ML&DL
No ratings yet
Handwritten Digit Recognition Using ML&DL
3 pages
Assignment 2, Machine Learning
No ratings yet
Assignment 2, Machine Learning
5 pages
DL LAB MANUAL Mugesh
No ratings yet
DL LAB MANUAL Mugesh
12 pages
Real Time Handwritten Digit Recognition Using Neural Networks For Accurate Marks Entry On Examination Portal
No ratings yet
Real Time Handwritten Digit Recognition Using Neural Networks For Accurate Marks Entry On Examination Portal
7 pages
Recearch Paper
No ratings yet
Recearch Paper
8 pages
Classifying Hand-Written Digits Using Neural Network
No ratings yet
Classifying Hand-Written Digits Using Neural Network
21 pages
Proposal
No ratings yet
Proposal
9 pages
Improved Digit Recognition PPT
No ratings yet
Improved Digit Recognition PPT
8 pages
C2 W1 Assignment
No ratings yet
C2 W1 Assignment
24 pages
Deep Learning Lab Manual
No ratings yet
Deep Learning Lab Manual
11 pages
JOCC Volume 2 Issue 1 Page 9 19
No ratings yet
JOCC Volume 2 Issue 1 Page 9 19
11 pages
Deep Learning: Image Classification & XOR
No ratings yet
Deep Learning: Image Classification & XOR
3 pages
Handwritten Digit Recognition Using Slope Detail Features: International Journal of Computer Applications May 2014
No ratings yet
Handwritten Digit Recognition Using Slope Detail Features: International Journal of Computer Applications May 2014
7 pages
Arun KRS
No ratings yet
Arun KRS
7 pages
DL Record
No ratings yet
DL Record
36 pages
Phase 1 PPT Digit Recognition
No ratings yet
Phase 1 PPT Digit Recognition
8 pages
ML Digit Classification Report
No ratings yet
ML Digit Classification Report
2 pages
Machine Learning
No ratings yet
Machine Learning
21 pages
Digit Recognition Using Convolutional Neural Networks
No ratings yet
Digit Recognition Using Convolutional Neural Networks
4 pages
Ai Mini Project
No ratings yet
Ai Mini Project
9 pages
Handwritten - Digits - Recognition - PPT Support Students
No ratings yet
Handwritten - Digits - Recognition - PPT Support Students
9 pages
Final Digit Recognition
No ratings yet
Final Digit Recognition
8 pages
Project Report
No ratings yet
Project Report
44 pages
PR Team3
No ratings yet
PR Team3
9 pages
AI Mini Project Report
No ratings yet
AI Mini Project Report
7 pages
Pattern Recognition
No ratings yet
Pattern Recognition
18 pages
DL Practical 3
No ratings yet
DL Practical 3
5 pages
Project Handwritten Digit Recognition System
No ratings yet
Project Handwritten Digit Recognition System
72 pages
Selenium Java Environment Setup
No ratings yet
Selenium Java Environment Setup
7 pages
Java For Selenium
No ratings yet
Java For Selenium
9 pages
Employees Mod DB PDF
No ratings yet
Employees Mod DB PDF
1 page
Worksheet 2
No ratings yet
Worksheet 2
3 pages
Windows Quickstart Instructions: Step 1: Download Anaconda
No ratings yet
Windows Quickstart Instructions: Step 1: Download Anaconda
7 pages
HDFS and YARN
No ratings yet
HDFS and YARN
91 pages
SELECT From Nobel
No ratings yet
SELECT From Nobel
13 pages
SQL SELECT from WORLD Tutorial
No ratings yet
SQL SELECT from WORLD Tutorial
13 pages
Hive and Impala
No ratings yet
Hive and Impala
46 pages
Regular Expressions in Python
No ratings yet
Regular Expressions in Python
16 pages
Random Forest: Random Forest Has Classifier For Classification and Regressor For Regression
No ratings yet
Random Forest: Random Forest Has Classifier For Classification and Regressor For Regression
9 pages
Predicting Party Affiliation
No ratings yet
Predicting Party Affiliation
2 pages
Decision Tree and EDA With Functions: Import Pandas As PD
No ratings yet
Decision Tree and EDA With Functions: Import Pandas As PD
9 pages
Random Forest/Roc&Auc - Hyperparamer Tuning With For Loop - TITANIC DB
No ratings yet
Random Forest/Roc&Auc - Hyperparamer Tuning With For Loop - TITANIC DB
17 pages
Knn1 MinMaxScalar
No ratings yet
Knn1 MinMaxScalar
13 pages
Symmetrical vs. Skewed Distribution
No ratings yet
Symmetrical vs. Skewed Distribution
1 page
# Import Plotting Libraries: in (1) : Import Pandas As PD
No ratings yet
# Import Plotting Libraries: in (1) : Import Pandas As PD
13 pages
UKE47
No ratings yet
UKE47
68 pages
DLL Empowerment Technologies Week 1
100% (2)
DLL Empowerment Technologies Week 1
4 pages
Visual Communication
No ratings yet
Visual Communication
32 pages
Mathevula - Baloyi - Lobwi - Dombo - Kalanga
No ratings yet
Mathevula - Baloyi - Lobwi - Dombo - Kalanga
6 pages
(Ephesians 5-8-14) Living in The Light While Residing in A Dark World
No ratings yet
(Ephesians 5-8-14) Living in The Light While Residing in A Dark World
11 pages
Second Paper 7th
No ratings yet
Second Paper 7th
1 page
Chapter II RRL
100% (1)
Chapter II RRL
13 pages
School Events Calendar 2024-25
No ratings yet
School Events Calendar 2024-25
5 pages
Esc Attiny 85 Brushed
No ratings yet
Esc Attiny 85 Brushed
2 pages
Characteristics of Tennyson's Period
No ratings yet
Characteristics of Tennyson's Period
11 pages
Triage in The Hospital
100% (4)
Triage in The Hospital
15 pages
Global Business: An Economic, Social, and Environmental Perspective 3rd Edition Nader H. Asgary Instant Download
No ratings yet
Global Business: An Economic, Social, and Environmental Perspective 3rd Edition Nader H. Asgary Instant Download
105 pages
Chap 14
No ratings yet
Chap 14
18 pages
CIBA Admin Posts
No ratings yet
CIBA Admin Posts
4 pages
Aramco Material Sourcing
75% (12)
Aramco Material Sourcing
239 pages
889DF8AB5
No ratings yet
889DF8AB5
2 pages
ALS444 - TEST - Dec 2021 (Final)
No ratings yet
ALS444 - TEST - Dec 2021 (Final)
8 pages
Diodes Review Key
No ratings yet
Diodes Review Key
15 pages
Omega-3 & Vitamin D Boosters
No ratings yet
Omega-3 & Vitamin D Boosters
1 page
It100 Finals Accumulated Quiz Questions
No ratings yet
It100 Finals Accumulated Quiz Questions
25 pages
Automatic Load Sharing of Distribution Transformer Using Arduino
No ratings yet
Automatic Load Sharing of Distribution Transformer Using Arduino
24 pages
2024 SIGGRAPH SGEdit - Bridging LLM With Text2Image Generative Model For Scene Graph-Based Image Editing
No ratings yet
2024 SIGGRAPH SGEdit - Bridging LLM With Text2Image Generative Model For Scene Graph-Based Image Editing
15 pages
CO2 Corrosion Rate Pitfalls in Hydrocarbon Industry
No ratings yet
CO2 Corrosion Rate Pitfalls in Hydrocarbon Industry
15 pages
The Red Issue
No ratings yet
The Red Issue
28 pages
Best 409A Valuations Providers Service in 2023 - G2
No ratings yet
Best 409A Valuations Providers Service in 2023 - G2
12 pages
DS WhitePapers 3DEXPERIENCE R2024x CATSettings Use and Recommendations
No ratings yet
DS WhitePapers 3DEXPERIENCE R2024x CATSettings Use and Recommendations
50 pages
Rheology Presentation
No ratings yet
Rheology Presentation
31 pages
NDC Capacity Building Training Registration
No ratings yet
NDC Capacity Building Training Registration
3 pages
Type of Protection Code: Rating Features Key Description SB SB-P S1 S1-P S2 S3 S4 S5
No ratings yet
Type of Protection Code: Rating Features Key Description SB SB-P S1 S1-P S2 S3 S4 S5
6 pages
Ahdityaa Enterrprises Company Profile
No ratings yet
Ahdityaa Enterrprises Company Profile
6 pages

Digits Recognition Dataset

Uploaded by

Digits Recognition Dataset

Uploaded by

9/7/2018 komal_digits_recognition_dataset

The digits recognition dataset

In [4]: # Load the digits dataset: digits

In [5]: # Print the keys and DESCR of the dataset

dict_keys(['data', 'target', 'target_names', 'images', 'DESCR'])

Out[15]: array([[ 0., 0., 5., ..., 0., 0., 0.],

Out[16]: array([0, 1, 2, ..., 8, 9, 8])

Optical Recognition of Handwritten Digits Data Set

The data set contains images of hand-written digits: 10 classes where

Preprocessing programs made available by NIST were used to extract

For info on NIST preprocessing routines, see M. D. Garris, J. L. Blue, G.

In [7]: # Print the shape of the images and data keys

In [8]: # Display digit 1010

In [9]: from sklearn.model_selection import train_test_split

In [11]: X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, ran

In [12]: knn = KNeighborsClassifier(n_neighbors=7)

Out[13]: KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

In [14]: print(knn.score(X_test, y_test))

Overfitting and underfitting

In [19]: # Setup arrays to store train and test accuracies

# Loop over different values of k

# Fit the classifier to the training data

#Compute accuracy on the training set

#Compute accuracy on the testing set

You might also like