ENH Match book version

luispedro · luispedro · commit 2263dfea9c5d · 2014-09-16T15:14:12.000+02:00
This is now exactly like the book version (2nd Edition)
diff --git a/ch07/figure1_2.py b/ch07/figure1_2.py
@@ -8,6 +8,7 @@
 import numpy as np
 from sklearn.datasets import load_boston
 from sklearn.linear_model import LinearRegression
+from sklearn.metrics import mean_squared_error, r2_score
 from matplotlib import pyplot as plt
 
 boston = load_boston()
@@ -32,8 +33,8 @@
          [0, lr.predict(boston.data[:, 5].max() + 1)], '-', lw=4)
 plt.savefig('Figure1.png', dpi=150)
 
-# The instance member `residues_` contains the sum of the squared residues
-rmse = np.sqrt(lr.residues_ / len(x))
+mse = mean_squared_error(y, lr.predict(x))
+rmse = np.sqrt(mse)
 print('RMSE (no intercept): {}'.format(rmse))
 
 # Repeat, but fitting an intercept this time:
@@ -45,6 +46,12 @@
          [0, lr.predict(boston.data[:, 5].max() + 1)], '-', lw=4)
 plt.savefig('Figure2.png', dpi=150)
 
-# The instance member `residues_` contains the sum of the squared residues
-rmse = np.sqrt(lr.residues_ / len(x))
-print('RMSE intercept: {}'.format(rmse))
+mse = mean_squared_error(y, lr.predict(x))
+print("Mean squared error (of training data): {:.3}".format(mse))
+
+rmse = np.sqrt(mse)
+print("Root mean squared error (of training data): {:.3}".format(mse))
+
+cod = r2_score(y, lr.predict(x))
+print('COD (on training data): {:.2}'.format(cod))
+
diff --git a/ch07/lr10k.py b/ch07/lr10k.py
@@ -6,36 +6,33 @@
 # It is made available under the MIT License
 
 import numpy as np
+from sklearn.metrics import mean_squared_error, r2_score
 from sklearn.datasets import load_svmlight_file
-from sklearn.linear_model import ElasticNet, LinearRegression
+from sklearn.linear_model import LinearRegression
 from sklearn.cross_validation import KFold
 
-USE_EN = False
+# Whether to use Elastic nets (otherwise, ordinary linear regression is used)
 
+# Load data:
 data, target = load_svmlight_file('data/E2006.train')
-if USE_EN:
-    lr = ElasticNet(fit_intercept=True)
-else:
-    lr = LinearRegression(fit_intercept=True)
 
-kf = KFold(len(target), n_folds=10)
-err = 0
-for train, test in kf:
-    lr.fit(data[train], target[train])
-    p = lr.predict(data[test])
-    p = np.array(p).ravel()
-    e = p - target[test]
-    err += np.dot(e, e)
-
-rmse_10cv = np.sqrt(err / len(target))
+lr = LinearRegression()
 
+# Compute error on training data to demonstrate that we can obtain near perfect
+# scores:
 
 lr.fit(data, target)
-p = lr.predict(data)
-p = p.ravel()
-e = p - target
-total_error = np.dot(e, e)
-rmse_train = np.sqrt(total_error / len(p))
-
-print('RMSE on training: {}'.format(rmse_train))
-print('RMSE on 10-fold CV: {}'.format(rmse_10cv))
+pred = lr.predict(data)
+
+print('RMSE on training, {:.2}'.format(np.sqrt(mean_squared_error(target, pred))))
+print('R2 on training, {:.2}'.format(r2_score(target, pred)))
+print('')
+
+pred = np.zeros_like(target)
+kf = KFold(len(target), n_folds=5)
+for train, test in kf:
+    lr.fit(data[train], target[train])
+    pred[test] = lr.predict(data[test])
+
+print('RMSE on testing (5 fold), {:.2}'.format(np.sqrt(mean_squared_error(target, pred))))
+print('R2 on testing (5 fold), {:.2}'.format(r2_score(target, pred)))
diff --git a/ch07/predict10k_en.py b/ch07/predict10k_en.py
@@ -8,33 +8,28 @@
 import numpy as np
 from sklearn.datasets import load_svmlight_file
 from sklearn.cross_validation import KFold
-from sklearn.linear_model import ElasticNet, LinearRegression
+from sklearn.linear_model import ElasticNet
+from sklearn.metrics import mean_squared_error, r2_score
 
 data, target = load_svmlight_file('data/E2006.train')
 
 # Edit the lines below if you want to switch method:
 # met = LinearRegression(fit_intercept=True)
 met = ElasticNet(fit_intercept=True, alpha=.1)
 
-kf = KFold(len(target), n_folds=10)
-err = 0
+kf = KFold(len(target), n_folds=5)
+pred = np.zeros_like(target)
 for train, test in kf:
     met.fit(data[train], target[train])
-    p = met.predict(data[test])
-    p = np.array(p).ravel()
-    e = p - target[test]
-    err += np.dot(e, e)
-
-rmse_10cv = np.sqrt(err / len(target))
+    pred[test] = met.predict(data[test])
 
+print('[EN 0.1] RMSE on testing (5 fold), {:.2}'.format(np.sqrt(mean_squared_error(target, pred))))
+print('[EN 0.1] R2 on testing (5 fold), {:.2}'.format(r2_score(target, pred)))
+print('')
 
 met.fit(data, target)
-p = met.predict(data)
-p = p.ravel()
-e = p - target
-total_error = np.dot(e, e)
-rmse_train = np.sqrt(total_error / len(p))
+pred = met.predict(data)
+print('[EN 0.1] RMSE on training, {:.2}'.format(np.sqrt(mean_squared_error(target, pred))))
+print('[EN 0.1] R2 on training, {:.2}'.format(r2_score(target, pred)))
 
 
-print('RMSE on training: {}'.format(rmse_train))
-print('RMSE on 10-fold CV: {}'.format(rmse_10cv))