0% found this document useful (0 votes)

12 views11 pages

Data Mining

The document outlines various data preprocessing and machine learning techniques using Python. It includes handling missing values, encoding categorical data, and feature scaling, followed by applying classification algorithms like SVM and Naïve Bayes on the breast cancer dataset, and linear and logistic regression on the California housing dataset. The document also demonstrates the use of a neural network for classification, along with performance evaluation metrics.

Uploaded by

213302315kshitij

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views11 pages

Data Mining

Uploaded by

213302315kshitij

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

import pandas as pd

import numpy as np
from [Link] import SimpleImputer
from [Link] import StandardScaler, LabelEncoder

# 1. Create a sample dataset with missing values

data = {'Age': [25, 30, [Link], 35, 40],
'Salary': [50000, 60000, 55000, [Link], 65000],
'Department': ['IT', 'HR', 'IT', 'Marketing', 'HR']}
df = [Link](data)
print("Original Dataset:\n", df, "\n")

# 2. Handling Missing Values (Imputation)

imputer = SimpleImputer(strategy='mean')
df[['Age', 'Salary']] = imputer.fit_transform(df[['Age', 'Salary']])

# 3. Encoding Categorical Data

encoder = LabelEncoder()
df['Department'] = encoder.fit_transform(df['Department'])

# 4. Feature Scaling (Standardization)

scaler = StandardScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])

print("Pre-processed Dataset:\n", df)

Output:
Exp 3:
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

# 1. Sample Transactional Dataset (One-Hot Encoded)

data = {'Milk': [1, 0, 1, 1, 0],
'Bread': [1, 1, 1, 0, 1],
'Butter': [0, 1, 1, 1, 1],
'Eggs': [1, 0, 0, 1, 1]}
df = [Link](data)

# 2. Apply Apriori Algorithm to find frequent itemsets

# min_support = 0.4
frequent_itemsets = apriori(df, min_support=0.4, use_colnames=True)

# 3. Generate Association Rules

rules = association_rules(frequent_itemsets, metric="confidence",
min_threshold=0.7)

print("Association Rules:\n", rules[['antecedents', 'consequents',

'support', 'confidence', 'lift']])

Output:

from [Link] import load_breast_cancer

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.naive_bayes import GaussianNB
from [Link] import SVC
from [Link] import classification_report, confusion_matrix
import seaborn as sns
import [Link] as plt

# Using a more complex dataset for classification

data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split([Link],
[Link], test_size=0.3, random_state=42)

# --- SVM with Detailed Metrics ---

svm_classifier = SVC(kernel='linear')
svm_classifier.fit(X_train, y_train)
y_pred = svm_classifier.predict(X_test)

print("--- SVM Classification Report ---")

print(classification_report(y_test, y_pred,
target_names=data.target_names))

# Cross-Validation
cv_scores = cross_val_score(svm_classifier, [Link], [Link],
cv=5)
print(f"5-Fold Cross Validation Accuracy: {cv_scores.mean():.2f} (+/-
{cv_scores.std() * 2:.2f})")

# Plotting Confusion Matrix

cm = confusion_matrix(y_test, y_pred)
[Link](figsize=(6,4))
[Link](cm, annot=True, fmt='d', cmap='Blues',
xticklabels=data.target_names, yticklabels=data.target_names)
[Link]('SVM Confusion Matrix')
[Link]('Actual')
[Link]('Predicted')
[Link]()

# Initialize Gaussian Naïve Bayes

nb_classifier = GaussianNB()
nb_classifier.fit(X_train, y_train)
y_pred = nb_classifier.predict(X_test)

print("--- Naïve Bayes Classification Report ---")

print(classification_report(y_test, y_pred,
target_names=data.target_names))

# Cross-Validation
cv_scores = cross_val_score(nb_classifier, [Link], [Link],
cv=5)
print(f"5-Fold Cross Validation Accuracy: {cv_scores.mean():.2f} (+/-
{cv_scores.std() * 2:.2f})")
# Plotting Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
[Link](figsize=(6,4))
[Link](cm, annot=True, fmt='d', cmap='Blues',
xticklabels=data.target_names, yticklabels=data.target_names)
[Link]('Naïve Bayes Confusion Matrix')
[Link]('Actual')
[Link]('Predicted')
[Link]()
Output:
import pandas as pd
from [Link] import fetch_california_housing,
load_breast_cancer
from sklearn.model_selection import train_test_split
from [Link] import StandardScaler
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.neural_network import MLPClassifier
from [Link] import mean_squared_error, r2_score,
accuracy_score, classification_report

print("--- 1. Linear Regression (California Housing Dataset) ---")

# Load and prepare data
california = fetch_california_housing()
X_lin, y_lin = [Link], [Link]
X_train_lin, X_test_lin, y_train_lin, y_test_lin =
train_test_split(X_lin, y_lin, test_size=0.2, random_state=42)

# Scale features
scaler_lin = StandardScaler()
X_train_lin_scaled = scaler_lin.fit_transform(X_train_lin)
X_test_lin_scaled = scaler_lin.transform(X_test_lin)

# Train and evaluate

linear_model = LinearRegression()
linear_model.fit(X_train_lin_scaled, y_train_lin)
y_pred_lin = linear_model.predict(X_test_lin_scaled)

print(f"Mean Squared Error (MSE): {mean_squared_error(y_test_lin,

y_pred_lin):.4f}")
print(f"R-squared Score: {r2_score(y_test_lin, y_pred_lin):.4f}\n")

print("--- 2. Logistic Regression (Breast Cancer Dataset) ---")

# Load and prepare data
cancer_data = load_breast_cancer()
X_clf, y_clf = cancer_data.data, cancer_data.target
X_train_clf, X_test_clf, y_train_clf, y_test_clf =
train_test_split(X_clf, y_clf, test_size=0.2, random_state=42)

# Scale features (Critical for Logistic and Neural Networks)

scaler_clf = StandardScaler()
X_train_clf_scaled = scaler_clf.fit_transform(X_train_clf)
X_test_clf_scaled = scaler_clf.transform(X_test_clf)

# Train and evaluate

logistic_model = LogisticRegression(random_state=42, max_iter=1000)
logistic_model.fit(X_train_clf_scaled, y_train_clf)
y_pred_log = logistic_model.predict(X_test_clf_scaled)

print(f"Accuracy: {accuracy_score(y_test_clf, y_pred_log):.4f}")

print("Classification Report Overview:")
print(classification_report(y_test_clf, y_pred_log,
target_names=cancer_data.target_names))

print("Training Neural Network...")

ann_model.fit(X_train_clf_scaled, y_train_clf)
y_pred_ann = ann_model.predict(X_test_clf_scaled)

print(f"Accuracy: {accuracy_score(y_test_clf, y_pred_ann):.4f}")

print("Classification Report Overview:")
print(classification_report(y_test_clf, y_pred_ann,
target_names=cancer_data.target_names))

Output:

Linear Regression Implementation Guide
100% (1)
Linear Regression Implementation Guide
45 pages
AI Linear & Logistic Regression Analysis
No ratings yet
AI Linear & Logistic Regression Analysis
13 pages
Wine Quality Prediction Models Analysis
No ratings yet
Wine Quality Prediction Models Analysis
4 pages
Machine Learning Model Implementations
No ratings yet
Machine Learning Model Implementations
18 pages
Random Forest & SVM Classifier Programs
No ratings yet
Random Forest & SVM Classifier Programs
12 pages
MSE Evaluation in Econometrics with Pandas
No ratings yet
MSE Evaluation in Econometrics with Pandas
8 pages
Practial 4 Implement The Classification Algorithm On Previously Prepared Dataset Logistic Regression
No ratings yet
Practial 4 Implement The Classification Algorithm On Previously Prepared Dataset Logistic Regression
6 pages
Python Code for Healthcare ML Analysis
No ratings yet
Python Code for Healthcare ML Analysis
8 pages
Machine Learning Algorithms in Python
No ratings yet
Machine Learning Algorithms in Python
8 pages
Data Analysis and Machine Learning Techniques
No ratings yet
Data Analysis and Machine Learning Techniques
13 pages
Machine Learning Lab Manual for AI&DS
No ratings yet
Machine Learning Lab Manual for AI&DS
30 pages
Patient Health Prediction Models
No ratings yet
Patient Health Prediction Models
6 pages
New Aiml Ki
No ratings yet
New Aiml Ki
11 pages
Naïve Bayes Classifier Implementation
No ratings yet
Naïve Bayes Classifier Implementation
37 pages
Assignment 1 2
No ratings yet
Assignment 1 2
6 pages
Data Analysis and Visualization Techniques
No ratings yet
Data Analysis and Visualization Techniques
13 pages
ML PDF
No ratings yet
ML PDF
30 pages
Hypertension Classification with ML Techniques
No ratings yet
Hypertension Classification with ML Techniques
10 pages
Machine Learning Models and Evaluation
No ratings yet
Machine Learning Models and Evaluation
9 pages
Linear and Polynomial Regression Demo
No ratings yet
Linear and Polynomial Regression Demo
12 pages
Breast Cancer Classifier Comparison
No ratings yet
Breast Cancer Classifier Comparison
5 pages
Installing pgmpy for Bayesian Models
No ratings yet
Installing pgmpy for Bayesian Models
12 pages
Build Regression and Classification Models
No ratings yet
Build Regression and Classification Models
15 pages
Linear & Logistic Regression Programs
No ratings yet
Linear & Logistic Regression Programs
17 pages
Linear Regression with CSV Data
No ratings yet
Linear Regression with CSV Data
10 pages
Data Analysis with Iris Dataset and Naive Bayes
No ratings yet
Data Analysis with Iris Dataset and Naive Bayes
3 pages
Machine Learning Algorithms Overview
No ratings yet
Machine Learning Algorithms Overview
9 pages
Data Preprocessing and Modeling Techniques
No ratings yet
Data Preprocessing and Modeling Techniques
25 pages
Logistic Regression and Classifier Models
No ratings yet
Logistic Regression and Classifier Models
4 pages
Evaluating Classification Models
No ratings yet
Evaluating Classification Models
14 pages
KNN and SVM for Heart Disease Classification
No ratings yet
KNN and SVM for Heart Disease Classification
13 pages
Linear Regression and Classification Examples
No ratings yet
Linear Regression and Classification Examples
18 pages
Decision Tree and Neural Network Implementation
No ratings yet
Decision Tree and Neural Network Implementation
22 pages
K-Nearest Neighbors and Regression Analysis
No ratings yet
K-Nearest Neighbors and Regression Analysis
5 pages
ML Model Evaluation in Medical Diagnosis
No ratings yet
ML Model Evaluation in Medical Diagnosis
8 pages
Medical Data Analysis and Modeling
No ratings yet
Medical Data Analysis and Modeling
6 pages
Machine Learning Python Exercises
No ratings yet
Machine Learning Python Exercises
13 pages
Machine Learning Regression and Classification
No ratings yet
Machine Learning Regression and Classification
5 pages
Diabetes Prediction with ML Models
No ratings yet
Diabetes Prediction with ML Models
4 pages
Sameer DS
No ratings yet
Sameer DS
20 pages
Machine Learning Experiments Overview
No ratings yet
Machine Learning Experiments Overview
9 pages
Oracle Certified MSE Lab Assignments
No ratings yet
Oracle Certified MSE Lab Assignments
15 pages
Machine Learning Practical File
No ratings yet
Machine Learning Practical File
17 pages
Titanic Dataset ML Analysis
No ratings yet
Titanic Dataset ML Analysis
10 pages
Data Imputation and Scaling Techniques
No ratings yet
Data Imputation and Scaling Techniques
5 pages
Practical Machine Learning Experiments
No ratings yet
Practical Machine Learning Experiments
41 pages
Machine Learning Practical Journal 2023
No ratings yet
Machine Learning Practical Journal 2023
25 pages
Machine Learning Calibration Techniques
No ratings yet
Machine Learning Calibration Techniques
54 pages
Breast Cancer Prediction Model App
No ratings yet
Breast Cancer Prediction Model App
5 pages
Integrated Technologies Lab Report
No ratings yet
Integrated Technologies Lab Report
48 pages
Mle - Lab Programs PDF
No ratings yet
Mle - Lab Programs PDF
21 pages
Data Preparation and Analysis Techniques
No ratings yet
Data Preparation and Analysis Techniques
10 pages
California Housing Data Analysis
No ratings yet
California Housing Data Analysis
14 pages
Machine Learning Techniques Overview
No ratings yet
Machine Learning Techniques Overview
1 page
Disease Prediction with Machine Learning
No ratings yet
Disease Prediction with Machine Learning
573 pages
Cancer Disease Prediction Models
No ratings yet
Cancer Disease Prediction Models
6 pages
Python Machine Learning Workflow Guide
No ratings yet
Python Machine Learning Workflow Guide
12 pages
Machine Learning Models in Python
No ratings yet
Machine Learning Models in Python
14 pages
Machine Learning Practical Guide
No ratings yet
Machine Learning Practical Guide
29 pages
Machine Learning Lab Manual for CSE Students
No ratings yet
Machine Learning Lab Manual for CSE Students
82 pages
Xmas Scan Attack Detection Project
No ratings yet
Xmas Scan Attack Detection Project
2 pages
TimeSVD++ for Enhanced Recommendations
No ratings yet
TimeSVD++ for Enhanced Recommendations
4 pages
Digital Forensics: Key Concepts and Ethics
No ratings yet
Digital Forensics: Key Concepts and Ethics
9 pages
Azure Data Engineer Resume Summary
No ratings yet
Azure Data Engineer Resume Summary
1 page
APEX Hands-On Labs: Validations & Processes
No ratings yet
APEX Hands-On Labs: Validations & Processes
27 pages
Forensic Smartphone Insights via EM Analysis
No ratings yet
Forensic Smartphone Insights via EM Analysis
1 page
VNSGU Library Science Programs Overview
No ratings yet
VNSGU Library Science Programs Overview
12 pages
Key Modern IT Professions Overview
No ratings yet
Key Modern IT Professions Overview
8 pages
Business Intelligence & Decision Support Insights
No ratings yet
Business Intelligence & Decision Support Insights
4 pages
Library Science Exam Answer Key
No ratings yet
Library Science Exam Answer Key
3 pages
Citation Analysis of LIS Theses in Pune
No ratings yet
Citation Analysis of LIS Theses in Pune
16 pages
A Guide To Local SEO PDF
100% (2)
A Guide To Local SEO PDF
170 pages
Android App Development Projects Guide
No ratings yet
Android App Development Projects Guide
2 pages
Machine Learning Model Paper II B. Tech
No ratings yet
Machine Learning Model Paper II B. Tech
3 pages
Understanding SPSS Software and Its Uses
No ratings yet
Understanding SPSS Software and Its Uses
4 pages
Veterinary Appointment Scheduling System Design
No ratings yet
Veterinary Appointment Scheduling System Design
6 pages
Blockchain and NLP Course Overview
No ratings yet
Blockchain and NLP Course Overview
72 pages
Understanding ASP.NET Objects
No ratings yet
Understanding ASP.NET Objects
79 pages
Metadata Management
No ratings yet
Metadata Management
27 pages
Understanding Database Management Systems
No ratings yet
Understanding Database Management Systems
22 pages
Microsoft Power Tools for Data Analysis
No ratings yet
Microsoft Power Tools for Data Analysis
3 pages
Data Mapping Techniques and Importance
No ratings yet
Data Mapping Techniques and Importance
7 pages
Agriculture Revenue Dashboard Report
No ratings yet
Agriculture Revenue Dashboard Report
13 pages
Blocked Sort-Based Indexing Explained
No ratings yet
Blocked Sort-Based Indexing Explained
10 pages
Social Bookmarking for Educators
100% (1)
Social Bookmarking for Educators
2 pages
RDBMS vs OODBMS: A Comparative Study
No ratings yet
RDBMS vs OODBMS: A Comparative Study
8 pages
Search Engine Optimization: Comparison of Link Building and Social Sharing
100% (1)
Search Engine Optimization: Comparison of Link Building and Social Sharing
13 pages
Carbon Tracking Data Pipeline Design
No ratings yet
Carbon Tracking Data Pipeline Design
3 pages
Linking Projects to Subledger Accounting
No ratings yet
Linking Projects to Subledger Accounting
1 page

Data Mining

Uploaded by

Data Mining

Uploaded by

import pandas as pd

# 1. Create a sample dataset with missing values

# 2. Handling Missing Values (Imputation)

# 3. Encoding Categorical Data

# 4. Feature Scaling (Standardization)

print("Pre-processed Dataset:\n", df)

# 1. Sample Transactional Dataset (One-Hot Encoded)

# 2. Apply Apriori Algorithm to find frequent itemsets

# 3. Generate Association Rules

print("Association Rules:\n", rules[['antecedents', 'consequents',

from [Link] import load_breast_cancer

# Using a more complex dataset for classification

# --- SVM with Detailed Metrics ---

print("--- SVM Classification Report ---")

# Plotting Confusion Matrix

# Initialize Gaussian Naïve Bayes

print("--- Naïve Bayes Classification Report ---")

print("--- 1. Linear Regression (California Housing Dataset) ---")

# Train and evaluate

print(f"Mean Squared Error (MSE): {mean_squared_error(y_test_lin,

print("--- 2. Logistic Regression (Breast Cancer Dataset) ---")

# Scale features (Critical for Logistic and Neural Networks)

# Train and evaluate

print(f"Accuracy: {accuracy_score(y_test_clf, y_pred_log):.4f}")

print("--- 3. Neural Network (Breast Cancer Dataset) ---")

print("Training Neural Network...")

print(f"Accuracy: {accuracy_score(y_test_clf, y_pred_ann):.4f}")

You might also like