Applied Machine Learning using scikit-learn and XGBoost

1. Prepare Environment & Data

Load Libraries
Load Dataset

2. Summarize Data: Statistics & Visualization

Data Exploration: Descriptive Statistics
- describe(): statistics - mean, stdev, min/max
- class distribution
- correlations
- skew
- data types
Data Exploration: Visualization
- histogram
- density plot
- box whisker plot
- correlation matrix plot
- scatter plot matrix

3. Data Pre-Processing

Data Cleaning
Data Pre-Processing
- Rescale
- Standardize
- Normalize
- Binarize
Feature Selection
- Univariate selection
- Recursive Feature Elimination
- Principal Component Analysis
- Feature Importance
Data Transform

4. Model Evaluation: Data -> Model -> Performance Metrics

Split-out validation dataset: Resampling
- Train-Test Data split
- k-fold cross validation
- LOOCV
- Repeated Random train-test splits
Algorithm Performance Metrics
- Classification Metrics
  - Classification Accuracy
  - Logarithmic Loss
  - Area under ROC curve
  - Confusion Matrix
  - Classification Report: precision, recall, F1 score, support
- Regression Metrics
  - Mean Absolute Error
  - Mean Squared Error
  - R^2
Algorithm Performance
- Classification
  - Linear Algorithms
    - Logistic Regression
    - Linear Discriminant Analysis
  - Non-Linear Algorithms
    - kNN
    - Naive Bayes
    - CART
    - SVM (SVC)
- Regression
  - Linear Algorithms
    - Linear Regression
    - Ridge Regression
    - LASSO Linear Regression
    - ElasticNet Regression
  - Non-Linear Algorithms
    - kNN
    - CART
    - SVM (SVR)
Algorithm Comparison
- Test harness to compare multiple algorithms efficiently on a single dataset
- Comparison visualization
Preventing Data Leakage using Pipelines
- Data Preparation and Modeling Pipeling
- Feature Extractions and Modeling Pipeling

5. Improve Accuracy

Algorithm Tuning: Hyperparameter Optimization
- Grid Search Parameter Tuning
- Random Search Parameter Tuning
Ensembles
- Bagging
  - Bagged Decision Trees: Best for high variance algorithms
  - Random Forests
  - Extra Trees
- Boosting
  - AdaBoost
  - XGBoost: Stochastic Gradient Boosting (Gradient Boosting Machines - GBM)
- Voting

6. Finalize Model

Predictions on validation dataset
Create standalone model on entire dataset
Model persistence
- pickle
- joblib

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
data		data
.gitignore		.gitignore
01_Iris_classification_modeling.ipynb		01_Iris_classification_modeling.ipynb
02_Boston_House_Price_modeling.ipynb		02_Boston_House_Price_modeling.ipynb
03_Sonar_Modeling.ipynb		03_Sonar_Modeling.ipynb
04_Breast_Cancer_Modeling.ipynb		04_Breast_Cancer_Modeling.ipynb
05_Pima_Diabetes_Modeling.ipynb		05_Pima_Diabetes_Modeling.ipynb
06_model_eval_and_tuning_best_practices.ipynb		06_model_eval_and_tuning_best_practices.ipynb
07_Swing_trading_model_feature_engg_selection.ipynb		07_Swing_trading_model_feature_engg_selection.ipynb
08_Swing_trading_model_exploration.ipynb		08_Swing_trading_model_exploration.ipynb
09_Swing_trading_model_validation_persistence.ipynb		09_Swing_trading_model_validation_persistence.ipynb
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Applied Machine Learning using scikit-learn and XGBoost

1. Prepare Environment & Data

2. Summarize Data: Statistics & Visualization

3. Data Pre-Processing

4. Model Evaluation: Data -> Model -> Performance Metrics

5. Improve Accuracy

6. Finalize Model

About

Uh oh!

Releases

Packages

Languages

rahulmkumar/ml-scikit-learn

Folders and files

Latest commit

History

Repository files navigation

Applied Machine Learning using scikit-learn and XGBoost

1. Prepare Environment & Data

2. Summarize Data: Statistics & Visualization

3. Data Pre-Processing

4. Model Evaluation: Data -> Model -> Performance Metrics

5. Improve Accuracy

6. Finalize Model

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages