100% found this document useful (1 vote)
151 views55 pages

Deep Learning Book Ian Goodfellow All Chapters Instant Download

Goodfellow

Uploaded by

bahlenadim2o
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
100% found this document useful (1 vote)
151 views55 pages

Deep Learning Book Ian Goodfellow All Chapters Instant Download

Goodfellow

Uploaded by

bahlenadim2o
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 55

Download the Full Version of textbook for Fast Typing at textbookfull.

com

Deep Learning Book Ian Goodfellow

https://textbookfull.com/product/deep-learning-book-ian-
goodfellow/

OR CLICK BUTTON

DOWNLOAD NOW

Download More textbook Instantly Today - Get Yours Now at textbookfull.com


Recommended digital products (PDF, EPUB, MOBI) that
you can download immediately if you are interested.

Programming PyTorch for Deep Learning Creating and


Deploying Deep Learning Applications 1st Edition Ian
Pointer
https://textbookfull.com/product/programming-pytorch-for-deep-
learning-creating-and-deploying-deep-learning-applications-1st-
edition-ian-pointer/
textboxfull.com

Deep Learning on Windows: Building Deep Learning Computer


Vision Systems on Microsoft Windows Thimira Amaratunga

https://textbookfull.com/product/deep-learning-on-windows-building-
deep-learning-computer-vision-systems-on-microsoft-windows-thimira-
amaratunga/
textboxfull.com

Deep Learning Pipeline: Building a Deep Learning Model


with TensorFlow 1st Edition Hisham El-Amir

https://textbookfull.com/product/deep-learning-pipeline-building-a-
deep-learning-model-with-tensorflow-1st-edition-hisham-el-amir/

textboxfull.com

Deep Learning with Python Develop Deep Learning Models on


Theano and TensorFLow Using Keras Jason Brownlee

https://textbookfull.com/product/deep-learning-with-python-develop-
deep-learning-models-on-theano-and-tensorflow-using-keras-jason-
brownlee/
textboxfull.com
Deep Learning for Natural Language Processing Develop Deep
Learning Models for Natural Language in Python Jason
Brownlee
https://textbookfull.com/product/deep-learning-for-natural-language-
processing-develop-deep-learning-models-for-natural-language-in-
python-jason-brownlee/
textboxfull.com

Deep Learning on Windows Building Deep Learning Computer


Vision Systems on Microsoft Windows 1st Edition Thimira
Amaratunga
https://textbookfull.com/product/deep-learning-on-windows-building-
deep-learning-computer-vision-systems-on-microsoft-windows-1st-
edition-thimira-amaratunga/
textboxfull.com

Deep learning in natural language processing Deng

https://textbookfull.com/product/deep-learning-in-natural-language-
processing-deng/

textboxfull.com

Deep Learning for Cancer Diagnosis Utku Kose

https://textbookfull.com/product/deep-learning-for-cancer-diagnosis-
utku-kose/

textboxfull.com

R Deep Learning Essentials 1st Edition Wiley

https://textbookfull.com/product/r-deep-learning-essentials-1st-
edition-wiley/

textboxfull.com
Deep Learning

Ian Goodfellow
Yoshua Bengio
Aaron Courville
Contents

Website viii

Acknowledgments ix

Notation xiii

1 Introduction 1
1.1 Who Should Read This Book? . . . . . . . . . . . . . . . . . . . . 8
1.2 Historical Trends in Deep Learning . . . . . . . . . . . . . . . . . 12

I Applied Math and Machine Learning Basics 27

2 Linear Algebra 29
2.1 Scalars, Vectors, Matrices and Tensors . . . . . . . . . . . . . . . 29
2.2 Multiplying Matrices and Vectors . . . . . . . . . . . . . . . . . . 32
2.3 Identity and Inverse Matrices . . . . . . . . . . . . . . . . . . . . 34
2.4 Linear Dependence and Span . . . . . . . . . . . . . . . . . . . . 35
2.5 Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Special Kinds of Matrices and Vectors . . . . . . . . . . . . . . . 38
2.7 Eigendecomposition . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8 Singular Value Decomposition . . . . . . . . . . . . . . . . . . . . 42
2.9 The Moore-Penrose Pseudoinverse . . . . . . . . . . . . . . . . . . 43
2.10 The Trace Operator . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.11 The Determinant . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.12 Example: Principal Components Analysis . . . . . . . . . . . . . 45

3 Probability and Information Theory 51


3.1 Why Probability? . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

i
CONTENTS

3.2 Random Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 54


3.3 Probability Distributions . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Marginal Probability . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5 Conditional Probability . . . . . . . . . . . . . . . . . . . . . . . 57
3.6 The Chain Rule of Conditional Probabilities . . . . . . . . . . . . 57
3.7 Independence and Conditional Independence . . . . . . . . . . . . 58
3.8 Expectation, Variance and Covariance . . . . . . . . . . . . . . . 58
3.9 Common Probability Distributions . . . . . . . . . . . . . . . . . 60
3.10 Useful Properties of Common Functions . . . . . . . . . . . . . . 65
3.11 Bayes’ Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.12 Technical Details of Continuous Variables . . . . . . . . . . . . . 69
3.13 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.14 Structured Probabilistic Models . . . . . . . . . . . . . . . . . . . 73

4 Numerical Computation 78
4.1 Overflow and Underflow . . . . . . . . . . . . . . . . . . . . . . . 78
4.2 Poor Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3 Gradient-Based Optimization . . . . . . . . . . . . . . . . . . . . 80
4.4 Constrained Optimization . . . . . . . . . . . . . . . . . . . . . . 91
4.5 Example: Linear Least Squares . . . . . . . . . . . . . . . . . . . 94

5 Machine Learning Basics 96


5.1 Learning Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Capacity, Overfitting and Underfitting . . . . . . . . . . . . . . . 108
5.3 Hyperparameters and Validation Sets . . . . . . . . . . . . . . . . 118
5.4 Estimators, Bias and Variance . . . . . . . . . . . . . . . . . . . . 120
5.5 Maximum Likelihood Estimation . . . . . . . . . . . . . . . . . . 129
5.6 Bayesian Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5.7 Supervised Learning Algorithms . . . . . . . . . . . . . . . . . . . 137
5.8 Unsupervised Learning Algorithms . . . . . . . . . . . . . . . . . 142
5.9 Stochastic Gradient Descent . . . . . . . . . . . . . . . . . . . . . 149
5.10 Building a Machine Learning Algorithm . . . . . . . . . . . . . . 151
5.11 Challenges Motivating Deep Learning . . . . . . . . . . . . . . . . 152

II Deep Networks: Modern Practices 162

6 Deep Feedforward Networks 164


6.1 Example: Learning XOR . . . . . . . . . . . . . . . . . . . . . . . 167
6.2 Gradient-Based Learning . . . . . . . . . . . . . . . . . . . . . . . 172

ii
CONTENTS

6.3 Hidden Units . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187


6.4 Architecture Design . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.5 Back-Propagation and Other Differentiation
Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.6 Historical Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

7 Regularization for Deep Learning 224


7.1 Parameter Norm Penalties . . . . . . . . . . . . . . . . . . . . . . 226
7.2 Norm Penalties as Constrained Optimization . . . . . . . . . . . . 233
7.3 Regularization and Under-Constrained Problems . . . . . . . . . 235
7.4 Dataset Augmentation . . . . . . . . . . . . . . . . . . . . . . . . 236
7.5 Noise Robustness . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
7.6 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . 240
7.7 Multitask Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 241
7.8 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
7.9 Parameter Tying and Parameter Sharing . . . . . . . . . . . . . . 249
7.10 Sparse Representations . . . . . . . . . . . . . . . . . . . . . . . . 251
7.11 Bagging and Other Ensemble Methods . . . . . . . . . . . . . . . 253
7.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
7.13 Adversarial Training . . . . . . . . . . . . . . . . . . . . . . . . . 265
7.14 Tangent Distance, Tangent Prop and Manifold
Tangent Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

8 Optimization for Training Deep Models 271


8.1 How Learning Differs from Pure Optimization . . . . . . . . . . . 272
8.2 Challenges in Neural Network Optimization . . . . . . . . . . . . 279
8.3 Basic Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
8.4 Parameter Initialization Strategies . . . . . . . . . . . . . . . . . 296
8.5 Algorithms with Adaptive Learning Rates . . . . . . . . . . . . . 302
8.6 Approximate Second-Order Methods . . . . . . . . . . . . . . . . 307
8.7 Optimization Strategies and Meta-Algorithms . . . . . . . . . . . 313

9 Convolutional Networks 326


9.1 The Convolution Operation . . . . . . . . . . . . . . . . . . . . . 327
9.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
9.3 Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
9.4 Convolution and Pooling as an Infinitely Strong Prior . . . . . . . 339
9.5 Variants of the Basic Convolution Function . . . . . . . . . . . . 342
9.6 Structured Outputs . . . . . . . . . . . . . . . . . . . . . . . . . . 352
9.7 Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
iii
CONTENTS

9.8 Efficient Convolution Algorithms . . . . . . . . . . . . . . . . . . 356


9.9 Random or Unsupervised Features . . . . . . . . . . . . . . . . . 356
9.10 The Neuroscientific Basis for Convolutional
Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
9.11 Convolutional Networks and the History of Deep Learning . . . . 365

10 Sequence Modeling: Recurrent and Recursive Nets 367


10.1 Unfolding Computational Graphs . . . . . . . . . . . . . . . . . . 369
10.2 Recurrent Neural Networks . . . . . . . . . . . . . . . . . . . . . 372
10.3 Bidirectional RNNs . . . . . . . . . . . . . . . . . . . . . . . . . . 388
10.4 Encoder-Decoder Sequence-to-Sequence
Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
10.5 Deep Recurrent Networks . . . . . . . . . . . . . . . . . . . . . . 392
10.6 Recursive Neural Networks . . . . . . . . . . . . . . . . . . . . . . 394
10.7 The Challenge of Long-Term Dependencies . . . . . . . . . . . . . 396
10.8 Echo State Networks . . . . . . . . . . . . . . . . . . . . . . . . . 399
10.9 Leaky Units and Other Strategies for Multiple
Time Scales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
10.10 The Long Short-Term Memory and Other Gated RNNs . . . . . . 404
10.11 Optimization for Long-Term Dependencies . . . . . . . . . . . . . 408
10.12 Explicit Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . 412

11 Practical Methodology 416


11.1 Performance Metrics . . . . . . . . . . . . . . . . . . . . . . . . . 417
11.2 Default Baseline Models . . . . . . . . . . . . . . . . . . . . . . . 420
11.3 Determining Whether to Gather More Data . . . . . . . . . . . . 421
11.4 Selecting Hyperparameters . . . . . . . . . . . . . . . . . . . . . . 422
11.5 Debugging Strategies . . . . . . . . . . . . . . . . . . . . . . . . . 431
11.6 Example: Multi-Digit Number Recognition . . . . . . . . . . . . . 435

12 Applications 438
12.1 Large-Scale Deep Learning . . . . . . . . . . . . . . . . . . . . . . 438
12.2 Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
12.3 Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 453
12.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . 456
12.5 Other Applications . . . . . . . . . . . . . . . . . . . . . . . . . . 473

iv
CONTENTS

III Deep Learning Research 482

13 Linear Factor Models 485


13.1 Probabilistic PCA and Factor Analysis . . . . . . . . . . . . . . . 486
13.2 Independent Component Analysis (ICA) . . . . . . . . . . . . . . 487
13.3 Slow Feature Analysis . . . . . . . . . . . . . . . . . . . . . . . . 489
13.4 Sparse Coding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492
13.5 Manifold Interpretation of PCA . . . . . . . . . . . . . . . . . . . 496

14 Autoencoders 499
14.1 Undercomplete Autoencoders . . . . . . . . . . . . . . . . . . . . 500
14.2 Regularized Autoencoders . . . . . . . . . . . . . . . . . . . . . . 501
14.3 Representational Power, Layer Size and Depth . . . . . . . . . . . 505
14.4 Stochastic Encoders and Decoders . . . . . . . . . . . . . . . . . . 506
14.5 Denoising Autoencoders . . . . . . . . . . . . . . . . . . . . . . . 507
14.6 Learning Manifolds with Autoencoders . . . . . . . . . . . . . . . 513
14.7 Contractive Autoencoders . . . . . . . . . . . . . . . . . . . . . . 518
14.8 Predictive Sparse Decomposition . . . . . . . . . . . . . . . . . . 521
14.9 Applications of Autoencoders . . . . . . . . . . . . . . . . . . . . 522

15 Representation Learning 524


15.1 Greedy Layer-Wise Unsupervised Pretraining . . . . . . . . . . . 526
15.2 Transfer Learning and Domain Adaptation . . . . . . . . . . . . . 534
15.3 Semi-Supervised Disentangling of Causal Factors . . . . . . . . . 539
15.4 Distributed Representation . . . . . . . . . . . . . . . . . . . . . . 544
15.5 Exponential Gains from Depth . . . . . . . . . . . . . . . . . . . 550
15.6 Providing Clues to Discover Underlying Causes . . . . . . . . . . 552

16 Structured Probabilistic Models for Deep Learning 555


16.1 The Challenge of Unstructured Modeling . . . . . . . . . . . . . . 556
16.2 Using Graphs to Describe Model Structure . . . . . . . . . . . . . 560
16.3 Sampling from Graphical Models . . . . . . . . . . . . . . . . . . 577
16.4 Advantages of Structured Modeling . . . . . . . . . . . . . . . . . 579
16.5 Learning about Dependencies . . . . . . . . . . . . . . . . . . . . 579
16.6 Inference and Approximate Inference . . . . . . . . . . . . . . . . 580
16.7 The Deep Learning Approach to Structured
Probabilistic Models . . . . . . . . . . . . . . . . . . . . . . . . . 581

17 Monte Carlo Methods 587


17.1 Sampling and Monte Carlo Methods . . . . . . . . . . . . . . . . 587

v
CONTENTS

17.2 Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . . . 589


17.3 Markov Chain Monte Carlo Methods . . . . . . . . . . . . . . . . 592
17.4 Gibbs Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
17.5 The Challenge of Mixing between Separated
Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597

18 Confronting the Partition Function 603


18.1 The Log-Likelihood Gradient . . . . . . . . . . . . . . . . . . . . 604
18.2 Stochastic Maximum Likelihood and Contrastive Divergence . . . 605
18.3 Pseudolikelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
18.4 Score Matching and Ratio Matching . . . . . . . . . . . . . . . . 615
18.5 Denoising Score Matching . . . . . . . . . . . . . . . . . . . . . . 617
18.6 Noise-Contrastive Estimation . . . . . . . . . . . . . . . . . . . . 618
18.7 Estimating the Partition Function . . . . . . . . . . . . . . . . . . 621

19 Approximate Inference 629


19.1 Inference as Optimization . . . . . . . . . . . . . . . . . . . . . . 631
19.2 Expectation Maximization . . . . . . . . . . . . . . . . . . . . . . 632
19.3 MAP Inference and Sparse Coding . . . . . . . . . . . . . . . . . 633
19.4 Variational Inference and Learning . . . . . . . . . . . . . . . . . 636
19.5 Learned Approximate Inference . . . . . . . . . . . . . . . . . . . 648

20 Deep Generative Models 651


20.1 Boltzmann Machines . . . . . . . . . . . . . . . . . . . . . . . . . 651
20.2 Restricted Boltzmann Machines . . . . . . . . . . . . . . . . . . . 653
20.3 Deep Belief Networks . . . . . . . . . . . . . . . . . . . . . . . . . 657
20.4 Deep Boltzmann Machines . . . . . . . . . . . . . . . . . . . . . . 660
20.5 Boltzmann Machines for Real-Valued Data . . . . . . . . . . . . . 673
20.6 Convolutional Boltzmann Machines . . . . . . . . . . . . . . . . . 679
20.7 Boltzmann Machines for Structured or Sequential Outputs . . . . 681
20.8 Other Boltzmann Machines . . . . . . . . . . . . . . . . . . . . . 683
20.9 Back-Propagation through Random Operations . . . . . . . . . . 684
20.10 Directed Generative Nets . . . . . . . . . . . . . . . . . . . . . . . 688
20.11 Drawing Samples from Autoencoders . . . . . . . . . . . . . . . . 707
20.12 Generative Stochastic Networks . . . . . . . . . . . . . . . . . . . 710
20.13 Other Generation Schemes . . . . . . . . . . . . . . . . . . . . . . 712
20.14 Evaluating Generative Models . . . . . . . . . . . . . . . . . . . . 713
20.15 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716

Bibliography 717

vi
CONTENTS

Index 773

vii
Website

www.deeplearningbook.org

This book is accompanied by the above website. The website provides a


variety of supplementary material, including exercises, lecture slides, corrections of
mistakes, and other resources that should be useful to both readers and instructors.

viii
Acknowledgments

This book would not have been possible without the contributions of many people.
We would like to thank those who commented on our proposal for the book
and helped plan its contents and organization: Guillaume Alain, Kyunghyun Cho,
Çağlar Gülçehre, David Krueger, Hugo Larochelle, Razvan Pascanu and Thomas
Rohée.
We would like to thank the people who offered feedback on the content of the
book itself. Some offered feedback on many chapters: Martín Abadi, Ishaq Aden-Ali,
Guillaume Alain, Ion Androutsopoulos, Laura Ball, Fred Bertsch, Olexa Bilaniuk,
Ufuk Can Biçici, Matko Bošnjak, John Boersma, François Brault, Greg Brockman,
Alexandre de Brébisson, Pierre Luc Carrier, Sarath Chandar, Pawel Chilinski,
Mark Daoust, Oleg Dashevskii, Laurent Dinh, Stephan Dreseitl, Gudmundur
Einarsson, Hannes von Essen, Jim Fan, Miao Fan, Meire Fortunato, Frédéric
Francis, Nando de Freitas, Çağlar Gülçehre, Jurgen Van Gael, Yaroslav Ganin,
Javier Alonso García, Aydin Gerek, Stefan Heil, Jonathan Hunt, Gopi Jeyaram,
Chingiz Kabytayev, Lukasz Kaiser, Varun Kanade, Asifullah Khan, Akiel Khan,
John King, Diederik P. Kingma, Dominik Laupheimer, Yann LeCun, Minh Lê, Max
Marion, Rudolf Mathey, Matías Mattamala, Abhinav Maurya, Vincent Michalski,
Kevin Murphy, Oleg Mürk, Hung Ngo, Roman Novak, Augustus Q. Odena, Simon
Pavlik, Karl Pichotta, Eddie Pierce, Kari Pulli, Roussel Rahman, Tapani Raiko,
Anurag Ranjan, Johannes Roith, Mihaela Rosca, Halis Sak, César Salgado, Grigory
Sapunov, Yoshinori Sasaki, Mike Schuster, Julian Serban, Nir Shabat, Ken Shirriff,
Andre Simpelo, Scott Stanley, David Sussillo, Ilya Sutskever, Carles Gelada Sáez,
Graham Taylor, Valentin Tolmer, Massimiliano Tomassoli, An Tran, Shubhendu
Trivedi, Alexey Umnov, Vincent Vanhoucke, Robert Viragh, Marco Visentini-
Scarzanella, Martin Vita, David Warde-Farley, Dustin Webb, Shan-Conrad Wolf,
Kelvin Xu, Wei Xue, Ke Yang, Li Yao, Zygmunt Zając and Ozan Çağlayan.
We would also like to thank those who provided us with useful feedback on
individual chapters:

ix
CONTENTS

• Notation: Zhang Yuanhang.


• Chapter 1, Introduction: Yusuf Akgul, Sebastien Bratieres, Samira Ebrahimi,
Charlie Gorichanaz, Benned Hedegaard, Brendan Loudermilk, Petros Mani-
atis, Eric Morris, Cosmin Pârvulescu, Muriel Rambeloarison, Alfredo Solano
and Timothy Whelan.

• Chapter 2, Linear Algebra: Amjad Almahairi, Nikola Banić, Kevin Bennett,


Philippe Castonguay, Oscar Chang, Eric Fosler-Lussier, Andrey Khalyavin,
Sergey Oreshkov, István Petrás, Dennis Prangle, Thomas Rohée, Gitanjali
Gulve Sehgal, Colby Toland, Alessandro Vitale and Bob Welland.

• Chapter 3, Probability and Information Theory: John Philip Anderson, Kai


Arulkumaran, Ana-Maria Cretu, Vincent Dumoulin, Rui Fa, Stephan Gouws,
Artem Oboturov, Patrick Pan, Antti Rasmus, Alexey Surkov and Volker
Tresp.

• Chapter 4, Numerical Computation: Tran Lam An, Ian Fischer, William


Gandler, Mahendra Kariya and Hu Yuhuang.

• Chapter 5, Machine Learning Basics: Dzmitry Bahdanau, Mark Cramer,


Eric Dolores, Justin Domingue, Ron Fedkiw, Nikhil Garg, Guillaume de
Laboulaye, Jon McKay, Makoto Otsuka, Bob Pepin, Philip Popien, Klaus
Radke, Emmanuel Rayner, Eric Sabo, Imran Saleh, Peter Shepard, Kee-Bong
Song, Zheng Sun, Alexandre Torres and Andy Wu.
• Chapter 6, Deep Feedforward Networks: Uriel Berdugo, Fabrizio Bottarel,
Elizabeth Burl, Ishan Durugkar, Jeff Hlywa, Jong Wook Kim, David Krueger
and Aditya Kumar Praharaj.

• Chapter 7, Regularization for Deep Learning: Brian Bartoldson, Morten


Kolbæk, Kshitij Lauria, Inkyu Lee, Sunil Mohan, Hai Phong Phan and
Joshua Salisbury.

• Chapter 8, Optimization for Training Deep Models: Marcel Ackermann,


Tushar Agarwal, Peter Armitage, Rowel Atienza, Andrew Brock, Max Hayden
Chiz, Gregory Galperin, Aaron Golden, Russell Howes, Hill Ma, Tegan
Maharaj, James Martens, Kashif Rasul, Thomas Stanley, Klaus Strobl,
Nicholas Turner and David Zhang.

• Chapter 9, Convolutional Networks: Martín Arjovsky, Eugene Brevdo, Jane


Bromley, Konstantin Divilov, Eric Jensen, Mehdi Mirza, Alex Paino, Guil-
laume Rochette, Marjorie Sayer, Ryan Stout and Wentao Wu.
x
CONTENTS

• Chapter 10, Sequence Modeling: Recurrent and Recursive Nets: Gökçen


Eraslan, Nasos Evangelou, Steven Hickson, Christoph Kamann, Martin
Krasser, Razvan Pascanu, Diogo Pernes, Ryan Pilgrim, Lorenzo von Ritter,
Rui Rodrigues, Dmitriy Serdyuk, Dongyu Shi, Kaiyu Yang and Ruiqing Yin.

• Chapter 11, Practical Methodology: Daniel Beckstein and Kenji Kaneda.

• Chapter 12, Applications: George Dahl, Vladimir Nekrasov and Ribana


Roscher.

• Chapter 13, Linear Factor Models: Jayanth Koushik.

• Chapter 14, Autoencoders: Hassan Masum.

• Chapter 15, Representation Learning: Mateo Torres-Ruiz , Kunal Ghosh and


Rodney Melchers.

• Chapter 16, Structured Probabilistic Models for Deep Learning: Deng Qingyu
, Harry Braviner, Timothy Cogan, Diego Marez, Anton Varfolom and Victor
Xie.

• Chapter 18, Confronting the Partition Function: Sam Bowman and Jin Kim.

• Chapter 19, Approximate Inference: Yujia Bao.

• Chapter 20, Deep Generative Models: Nicolas Chapados, Daniel Galvez,


Wenming Ma, Fady Medhat, Shakir Mohamed and Grégoire Montavon.

• Bibliography: Lukas Michelbacher, Leslie N. Smith and Max Xie.

We also want to thank those who allowed us to reproduce images, figures or


data from their publications. We indicate their contributions in the figure captions
throughout the text.
We would like to thank Lu Wang for writing pdf2htmlEX, which we used
to make the web version of the book, and for offering support to improve the
quality of the resulting HTML. We also thank Simon Lefrançois for incorporating
MIT Press’s edits to our manuscript back into the web edition, and for helping
incorporate reader feedback from the web.
We would like to thank Ian’s wife Daniela Flori Goodfellow for patiently
supporting Ian during the writing of the book as well as for help with proofreading.
We would like to thank the Google Brain team for providing an intellectual
environment where Ian could devote a tremendous amount of time to writing this
xi
CONTENTS

book and receive feedback and guidance from colleagues. We would especially like
to thank Ian’s former manager, Greg Corrado, and his current manager, Samy
Bengio, for their support of this project. Finally, we would like to thank Geoffrey
Hinton for encouragement when writing was difficult.

xii
Notation

This section provides a concise reference describing the notation used throughout
this book. If you are unfamiliar with any of the corresponding mathematical
concepts, we describe most of these ideas in chapters 2–4.

Numbers and Arrays


a A scalar (integer or real)
a A vector
A A matrix
A A tensor
In Identity matrix with n rows and n columns
I Identity matrix with dimensionality implied by
context
e(i) Standard basis vector [0, . . . , 0, 1, 0, . . . , 0] with a
1 at position i
diag(a) A square, diagonal matrix with diagonal entries
given by a
a A scalar random variable
a A vector-valued random variable
A A matrix-valued random variable

xiii
CONTENTS

Sets and Graphs


A A set
R The set of real numbers
{0, 1} The set containing 0 and 1
{0, 1, . . . , n} The set of all integers between 0 and n
[a, b] The real interval including a and b
(a, b] The real interval excluding a but including b
A\B Set subtraction, i.e., the set containing the ele-
ments of A that are not in B
G A graph
P a G(xi ) The parents of xi in G

Indexing
ai Element i of vector a , with indexing starting at 1
a−i All elements of vector a except for element i
Ai,j Element i, j of matrix A
Ai,: Row i of matrix A
A:,i Column i of matrix A
Ai,j,k Element (i, j, k ) of a 3-D tensor A
A :,:,i 2-D slice of a 3-D tensor
ai Element i of the random vector a

Linear Algebra Operations


A Transpose of matrix A
A+ Moore-Penrose pseudoinverse of A
AB Element-wise (Hadamard) product of A and B
det(A) Determinant of A

xiv
CONTENTS

Calculus
dy
Derivative of y with respect to x
dx
∂y
Partial derivative of y with respect to x
∂x
∇ xy Gradient of y with respect to x
∇X y Matrix derivatives of y with respect to X
∇ Xy Tensor containing derivatives of y with respect to
X
∂f
Jacobian matrix J ∈ Rm×n of f : Rn → Rm
∂x
2
∇x f (x) or H (f )(x) The Hessian matrix of f at input point x

f (x)dx Definite integral over the entire domain of x

f (x)dx Definite integral with respect to x over the set S
S

Probability and Information Theory


a⊥b The random variables a and b are independent
a⊥b | c They are conditionally independent given c
P (a) A probability distribution over a discrete variable
p(a) A probability distribution over a continuous vari-
able, or over a variable whose type has not been
specified
a∼P Random variable a has distribution P
Ex∼P [f (x)] or Ef (x) Expectation of f (x) with respect to P (x)
Var(f (x)) Variance of f (x) under P (x)
Cov(f (x), g(x)) Covariance of f (x) and g(x) under P (x)
H(x) Shannon entropy of the random variable x
DKL(P Q) Kullback-Leibler divergence of P and Q
N (x; µ, Σ) Gaussian distribution over x with mean µ and
covariance Σ

xv
CONTENTS

Functions
f :A→B The function f with domain A and range B
f ◦g Composition of the functions f and g
f (x; θ) A function of x parametrized by θ. (Sometimes
we write f(x) and omit the argument θ to lighten
notation)
log x Natural logarithm of x
1
σ(x) Logistic sigmoid,
1 + exp(−x)
ζ (x) Softplus, log(1 + exp(x))
||x||p Lp norm of x
||x|| L2 norm of x
x+ Positive part of x, i.e., max(0, x)
1 condition is 1 if the condition is true, 0 otherwise
Sometimes we use a function f whose argument is a scalar but apply it to a
vector, matrix, or tensor: f (x), f(X ), or f (X ). This denotes the application of f
to the array element-wise. For example, if C = σ(X ), then C i,j,k = σ(Xi,j,k ) for all
valid values of i, j and k.

Datasets and Distributions


p data The data generating distribution
p̂data The empirical distribution defined by the training
set
X A set of training examples
x(i) The i-th example (input) from a dataset
y(i) or y(i) The target associated with x(i) for supervised learn-
ing
X The m × n matrix with input example x (i) in row
Xi,:

xvi
Chapter 1

Introduction

Inventors have long dreamed of creating machines that think. This desire dates
back to at least the time of ancient Greece. The mythical figures Pygmalion,
Daedalus, and Hephaestus may all be interpreted as legendary inventors, and
Galatea, Talos, and Pandora may all be regarded as artificial life (Ovid and Martin,
2004; Sparkes, 1996; Tandy, 1997).
When programmable computers were first conceived, people wondered whether
such machines might become intelligent, over a hundred years before one was
built (Lovelace, 1842). Today, artificial intelligence (AI) is a thriving field with
many practical applications and active research topics. We look to intelligent
software to automate routine labor, understand speech or images, make diagnoses
in medicine and support basic scientific research.
In the early days of artificial intelligence, the field rapidly tackled and solved
problems that are intellectually difficult for human beings but relatively straight-
forward for computers—problems that can be described by a list of formal, math-
ematical rules. The true challenge to artificial intelligence proved to be solving
the tasks that are easy for people to perform but hard for people to describe
formally—problems that we solve intuitively, that feel automatic, like recognizing
spoken words or faces in images.
This book is about a solution to these more intuitive problems. This solution is
to allow computers to learn from experience and understand the world in terms of
a hierarchy of concepts, with each concept defined through its relation to simpler
concepts. By gathering knowledge from experience, this approach avoids the need
for human operators to formally specify all the knowledge that the computer needs.
The hierarchy of concepts enables the computer to learn complicated concepts by
building them out of simpler ones. If we draw a graph showing how these concepts
1
CHAPTER 1. INTRODUCTION

are built on top of each other, the graph is deep, with many layers. For this reason,
we call this approach to AI deep learning.
Many of the early successes of AI took place in relatively sterile and formal
environments and did not require computers to have much knowledge about
the world. For example, IBM’s Deep Blue chess-playing system defeated world
champion Garry Kasparov in 1997 (Hsu, 2002). Chess is of course a very simple
world, containing only sixty-four locations and thirty-two pieces that can move
in only rigidly circumscribed ways. Devising a successful chess strategy is a
tremendous accomplishment, but the challenge is not due to the difficulty of
describing the set of chess pieces and allowable moves to the computer. Chess
can be completely described by a very brief list of completely formal rules, easily
provided ahead of time by the programmer.
Ironically, abstract and formal tasks that are among the most difficult mental
undertakings for a human being are among the easiest for a computer. Computers
have long been able to defeat even the best human chess player but only recently
have begun matching some of the abilities of average human beings to recognize
objects or speech. A person’s everyday life requires an immense amount of
knowledge about the world. Much of this knowledge is subjective and intuitive,
and therefore difficult to articulate in a formal way. Computers need to capture
this same knowledge in order to behave in an intelligent way. One of the key
challenges in artificial intelligence is how to get this informal knowledge into a
computer.
Several artificial intelligence projects have sought to hard-code knowledge
about the world in formal languages. A computer can reason automatically about
statements in these formal languages using logical inference rules. This is known as
the knowledge base approach to artificial intelligence. None of these projects has
led to a major success. One of the most famous such projects is Cyc (Lenat and
Guha, 1989). Cyc is an inference engine and a database of statements in a language
called CycL. These statements are entered by a staff of human supervisors. It is an
unwieldy process. People struggle to devise formal rules with enough complexity
to accurately describe the world. For example, Cyc failed to understand a story
about a person named Fred shaving in the morning (Linde, 1992). Its inference
engine detected an inconsistency in the story: it knew that people do not have
electrical parts, but because Fred was holding an electric razor, it believed the
entity “FredWhileShaving” contained electrical parts. It therefore asked whether
Fred was still a person while he was shaving.
The difficulties faced by systems relying on hard-coded knowledge suggest
that AI systems need the ability to acquire their own knowledge, by extracting

2
CHAPTER 1. INTRODUCTION

patterns from raw data. This capability is known as machine learning. The
introduction of machine learning enabled computers to tackle problems involving
knowledge of the real world and make decisions that appear subjective. A simple
machine learning algorithm called logistic regression can determine whether to
recommend cesarean delivery (Mor-Yosef et al., 1990). A simple machine learning
algorithm called naive Bayes can separate legitimate e-mail from spam e-mail.
The performance of these simple machine learning algorithms depends heavily
on the representation of the data they are given. For example, when logistic
regression is used to recommend cesarean delivery, the AI system does not examine
the patient directly. Instead, the doctor tells the system several pieces of relevant
information, such as the presence or absence of a uterine scar. Each piece of
information included in the representation of the patient is known as a feature.
Logistic regression learns how each of these features of the patient correlates with
various outcomes. However, it cannot influence how features are defined in any
way. If logistic regression were given an MRI scan of the patient, rather than
the doctor’s formalized report, it would not be able to make useful predictions.
Individual pixels in an MRI scan have negligible correlation with any complications
that might occur during delivery.
This dependence on representations is a general phenomenon that appears
throughout computer science and even daily life. In computer science, operations
such as searching a collection of data can proceed exponentially faster if the collec-
tion is structured and indexed intelligently. People can easily perform arithmetic
on Arabic numerals but find arithmetic on Roman numerals much more time
consuming. It is not surprising that the choice of representation has an enormous
effect on the performance of machine learning algorithms. For a simple visual
example, see figure 1.1.
Many artificial intelligence tasks can be solved by designing the right set of
features to extract for that task, then providing these features to a simple machine
learning algorithm. For example, a useful feature for speaker identification from
sound is an estimate of the size of the speaker’s vocal tract. This feature gives a
strong clue as to whether the speaker is a man, woman, or child.
For many tasks, however, it is difficult to know what features should be
extracted. For example, suppose that we would like to write a program to detect
cars in photographs. We know that cars have wheels, so we might like to use the
presence of a wheel as a feature. Unfortunately, it is difficult to describe exactly
what a wheel looks like in terms of pixel values. A wheel has a simple geometric
shape, but its image may be complicated by shadows falling on the wheel, the sun
glaring off the metal parts of the wheel, the fender of the car or an object in the

3
CHAPTER 1. INTRODUCTION


Figure 1.1: Example of different representations: suppose we want to separate two


categories of data by drawing a line between them in a scatterplot. In the plot on the left,
we represent some data using Cartesian coordinates, and the task is impossible. In the plot
on the right, we represent the data with polar coordinates and the task becomes simple to
solve with a vertical line. (Figure produced in collaboration with David Warde-Farley.)

foreground obscuring part of the wheel, and so on.


One solution to this problem is to use machine learning to discover not only
the mapping from representation to output but also the representation itself.
This approach is known as representation learning. Learned representations
often result in much better performance than can be obtained with hand-designed
representations. They also enable AI systems to rapidly adapt to new tasks, with
minimal human intervention. A representation learning algorithm can discover a
good set of features for a simple task in minutes, or for a complex task in hours to
months. Manually designing features for a complex task requires a great deal of
human time and effort; it can take decades for an entire community of researchers.
The quintessential example of a representation learning algorithm is the au-
toencoder. An autoencoder is the combination of an encoder function, which
converts the input data into a different representation, and a decoder function,
which converts the new representation back into the original format. Autoencoders
are trained to preserve as much information as possible when an input is run
through the encoder and then the decoder, but they are also trained to make the
new representation have various nice properties. Different kinds of autoencoders
aim to achieve different kinds of properties.
When designing features or algorithms for learning features, our goal is usually
to separate the factors of variation that explain the observed data. In this

4
CHAPTER 1. INTRODUCTION

context, we use the word “factors” simply to refer to separate sources of influence;
the factors are usually not combined by multiplication. Such factors are often not
quantities that are directly observed. Instead, they may exist as either unobserved
objects or unobserved forces in the physical world that affect observable quantities.
They may also exist as constructs in the human mind that provide useful simplifying
explanations or inferred causes of the observed data. They can be thought of as
concepts or abstractions that help us make sense of the rich variability in the data.
When analyzing a speech recording, the factors of variation include the speaker’s
age, their sex, their accent and the words they are speaking. When analyzing an
image of a car, the factors of variation include the position of the car, its color,
and the angle and brightness of the sun.
A major source of difficulty in many real-world artificial intelligence applications
is that many of the factors of variation influence every single piece of data we are
able to observe. The individual pixels in an image of a red car might be very close
to black at night. The shape of the car’s silhouette depends on the viewing angle.
Most applications require us to disentangle the factors of variation and discard the
ones that we do not care about.
Of course, it can be very difficult to extract such high-level, abstract features
from raw data. Many of these factors of variation, such as a speaker’s accent,
can be identified only using sophisticated, nearly human-level understanding of
the data. When it is nearly as difficult to obtain a representation as to solve the
original problem, representation learning does not, at first glance, seem to help us.
Deep learning solves this central problem in representation learning by intro-
ducing representations that are expressed in terms of other, simpler representations.
Deep learning enables the computer to build complex concepts out of simpler con-
cepts. Figure 1.2 shows how a deep learning system can represent the concept of
an image of a person by combining simpler concepts, such as corners and contours,
which are in turn defined in terms of edges.
The quintessential example of a deep learning model is the feedforward deep
network, or multilayer perceptron (MLP). A multilayer perceptron is just a
mathematical function mapping some set of input values to output values. The
function is formed by composing many simpler functions. We can think of each
application of a different mathematical function as providing a new representation
of the input.
The idea of learning the right representation for the data provides one per-
spective on deep learning. Another perspective on deep learning is that depth
enables the computer to learn a multistep computer program. Each layer of the
representation can be thought of as the state of the computer’s memory after

5
CHAPTER 1. INTRODUCTION

Output
CAR PERSON ANIMAL
(object identity)

3rd hidden layer


(object parts)

2nd hidden layer


(corners and
contours)

1st hidden layer


(edges)

Visible layer
(input pixels)

Figure 1.2: Illustration of a deep learning model. It is difficult for a computer to understand
the meaning of raw sensory input data, such as this image represented as a collection
of pixel values. The function mapping from a set of pixels to an object identity is very
complicated. Learning or evaluating this mapping seems insurmountable if tackled directly.
Deep learning resolves this difficulty by breaking the desired complicated mapping into a
series of nested simple mappings, each described by a different layer of the model. The
input is presented at the visible layer, so named because it contains the variables that
we are able to observe. Then a series of hidden layers extracts increasingly abstract
features from the image. These layers are called “hidden” because their values are not given
in the data; instead the model must determine which concepts are useful for explaining
the relationships in the observed data. The images here are visualizations of the kind
of feature represented by each hidden unit. Given the pixels, the first layer can easily
identify edges, by comparing the brightness of neighboring pixels. Given the first hidden
layer’s description of the edges, the second hidden layer can easily search for corners and
extended contours, which are recognizable as collections of edges. Given the second hidden
layer’s description of the image in terms of corners and contours, the third hidden layer
can detect entire parts of specific objects, by finding specific collections of contours and
corners. Finally, this description of the image in terms of the object parts it contains can
be used to recognize the objects present in the image. Images reproduced with permission
from Zeiler and Fergus (2014).

6
CHAPTER 1. INTRODUCTION

executing another set of instructions in parallel. Networks with greater depth can
execute more instructions in sequence. Sequential instructions offer great power
because later instructions can refer back to the results of earlier instructions. Ac-
cording to this view of deep learning, not all the information in a layer’s activations
necessarily encodes factors of variation that explain the input. The representation
also stores state information that helps to execute a program that can make sense
of the input. This state information could be analogous to a counter or pointer
in a traditional computer program. It has nothing to do with the content of the
input specifically, but it helps the model to organize its processing.
There are two main ways of measuring the depth of a model. The first view is
based on the number of sequential instructions that must be executed to evaluate
the architecture. We can think of this as the length of the longest path through
a flow chart that describes how to compute each of the model’s outputs given
its inputs. Just as two equivalent computer programs will have different lengths
depending on which language the program is written in, the same function may
be drawn as a flowchart with different depths depending on which functions we
allow to be used as individual steps in the flowchart. Figure 1.3 illustrates how this
choice of language can give two different measurements for the same architecture.

Element
Set σ Element
Set

+
+
× × × Logistic
Regression
Logistic
Regression

σ
w1 x1 w2 x2 w x

Figure 1.3: Illustration of computational graphs mapping an input to an output where


each node performs an operation. Depth is the length of the longest path from input to
output but depends on the definition of what constitutes a possible computational step.
The computation depicted in these graphs is the output of a logistic regression model,
σ(wT x ), where σ is the logistic sigmoid function. If we use addition, multiplication and
logistic sigmoids as the elements of our computer language, then this model has depth
three. If we view logistic regression as an element itself, then this model has depth one.

7
CHAPTER 1. INTRODUCTION

Another approach, used by deep probabilistic models, regards the depth of a


model as being not the depth of the computational graph but the depth of the
graph describing how concepts are related to each other. In this case, the depth
of the flowchart of the computations needed to compute the representation of
each concept may be much deeper than the graph of the concepts themselves.
This is because the system’s understanding of the simpler concepts can be refined
given information about the more complex concepts. For example, an AI system
observing an image of a face with one eye in shadow may initially see only one
eye. After detecting that a face is present, the system can then infer that a second
eye is probably present as well. In this case, the graph of concepts includes only
two layers—a layer for eyes and a layer for faces—but the graph of computations
includes 2n layers if we refine our estimate of each concept given the other n times.
Because it is not always clear which of these two views—the depth of the
computational graph, or the depth of the probabilistic modeling graph—is most
relevant, and because different people choose different sets of smallest elements
from which to construct their graphs, there is no single correct value for the
depth of an architecture, just as there is no single correct value for the length of
a computer program. Nor is there a consensus about how much depth a model
requires to qualify as “deep.” However, deep learning can be safely regarded as the
study of models that involve a greater amount of composition of either learned
functions or learned concepts than traditional machine learning does.
To summarize, deep learning, the subject of this book, is an approach to AI.
Specifically, it is a type of machine learning, a technique that enables computer
systems to improve with experience and data. We contend that machine learning
is the only viable approach to building AI systems that can operate in complicated
real-world environments. Deep learning is a particular kind of machine learning
that achieves great power and flexibility by representing the world as a nested
hierarchy of concepts, with each concept defined in relation to simpler concepts, and
more abstract representations computed in terms of less abstract ones. Figure 1.4
illustrates the relationship between these different AI disciplines. Figure 1.5 gives
a high-level schematic of how each works.

1.1 Who Should Read This Book?


This book can be useful for a variety of readers, but we wrote it with two target
audiences in mind. One of these target audiences is university students (under-
graduate or graduate) learning about machine learning, including those who are
beginning a career in deep learning and artificial intelligence research. The other

8
CHAPTER 1. INTRODUCTION

Deep learning Example:


Shallow
Example: Example:
Example: autoencoders
Logistic Knowledge
MLPs
regression bases

Representation learning

Machine learning

AI

Figure 1.4: A Venn diagram showing how deep learning is a kind of representation learning,
which is in turn a kind of machine learning, which is used for many but not all approaches
to AI. Each section of the Venn diagram includes an example of an AI technology.

target audience is software engineers who do not have a machine learning or statis-
tics background but want to rapidly acquire one and begin using deep learning in
their product or platform. Deep learning has already proved useful in many soft-
ware disciplines, including computer vision, speech and audio processing, natural
language processing, robotics, bioinformatics and chemistry, video games, search
engines, online advertising and finance.
This book has been organized into three parts to best accommodate a variety
of readers. Part I introduces basic mathematical tools and machine learning
concepts. Part II describes the most established deep learning algorithms, which
are essentially solved technologies. Part III describes more speculative ideas that
are widely believed to be important for future research in deep learning.

9
CHAPTER 1. INTRODUCTION

Output

Mapping from
Output Output
features

Additional
Mapping from Mapping from layers of more
Output
features features abstract
features

Hand- Hand-
Simple
designed designed Features
features
program features

Input Input Input Input

Deep
Classic learning
Rule-based
machine
systems Representation
learning
learning

Figure 1.5: Flowcharts showing how the different parts of an AI system relate to each
other within different AI disciplines. Shaded boxes indicate components that are able to
learn from data.

Readers should feel free to skip parts that are not relevant given their interests
or background. Readers familiar with linear algebra, probability, and fundamental
machine learning concepts can skip part I, for example, while those who just want
to implement a working system need not read beyond part II. To help choose which

10
CHAPTER 1. INTRODUCTION

1. Introduction

Part I: Applied Math and Machine Learning Basics

3. Probability and
2. Linear Algebra
Information Theory

4. Numerical 5. Machine Learning


Computation Basics

Part II: Deep Networks: Modern Practices

6. Deep Feedforward
Networks

7. Regularization 8. Optimization 9. CNNs 10. RNNs

11. Practical
12. Applications
Methodology

Part III: Deep Learning Research

13. Linear Factor 15. Representation


14. Autoencoders
Models Learning

16. Structured 17. Monte Carlo


Probabilistic Models Methods

18. Partition
19. Inference
Function

20. Deep Generative


Models

Figure 1.6: The high-level organization of the book. An arrow from one chapter to another
indicates that the former chapter is prerequisite material for understanding the latter.

11
CHAPTER 1. INTRODUCTION

chapters to read, figure 1.6 provides a flowchart showing the high-level organization
of the book.
We do assume that all readers come from a computer science background. We
assume familiarity with programming, a basic understanding of computational
performance issues, complexity theory, introductory level calculus and some of the
terminology of graph theory.

1.2 Historical Trends in Deep Learning


It is easiest to understand deep learning with some historical context. Rather than
providing a detailed history of deep learning, we identify a few key trends:

• Deep learning has had a long and rich history, but has gone by many names,
reflecting different philosophical viewpoints, and has waxed and waned in
popularity.

• Deep learning has become more useful as the amount of available training
data has increased.

• Deep learning models have grown in size over time as computer infrastructure
(both hardware and software) for deep learning has improved.

• Deep learning has solved increasingly complicated applications with increasing


accuracy over time.

1.2.1 The Many Names and Changing Fortunes of Neural Net-


works

We expect that many readers of this book have heard of deep learning as an exciting
new technology, and are surprised to see a mention of “history” in a book about an
emerging field. In fact, deep learning dates back to the 1940s. Deep learning only
appears to be new, because it was relatively unpopular for several years preceding
its current popularity, and because it has gone through many different names, only
recently being called “deep learning.” The field has been rebranded many times,
reflecting the influence of different researchers and different perspectives.
A comprehensive history of deep learning is beyond the scope of this textbook.
Some basic context, however, is useful for understanding deep learning. Broadly
speaking, there have been three waves of development: deep learning known as
cybernetics in the 1940s–1960s, deep learning known as connectionism in the
12
Other documents randomly have
different content
hänet makuulle. Itse hän istui vuoteen ääressä vielä pari tuntia.
Sairas nukkui sikeästi, liikahtamatta, hiljaa ja tasaisesti hengittäen.
Aljoša otti tyynyn ja kävi sohvalle makaamaan riisuutumatta. Ennen
nukkumistaan hän rukoili Mitjan ja Ivanin puolesta. Ivanin sairaus
kävi hänelle ymmärrettäväksi: »Ylpeän päätöksen tuskat, syvä
omatunto!» Jumala, johon hän ei uskonut, ja Hänen totuutensa olivat
valtaamassa sydämen, joka yhä vieläkään ei tahtonut alistua. »Niin»,
liikkui Aljošan mielessä hänen jo maatessaan pää tyynyllä, »niin, kun
kerran Smerdjakov on kuollut, niin Ivanin todistusta ei kukaan usko;
mutta hän menee ja todistaa!» Aljoša hymyili hiljaa: »Jumala
voittaa!» ajatteli hän. »Joko hän nousee ylös totuuden valossa, tai…
hän sortuu vihaan, kostaen itselleen ja kaikille siitä, että on palvellut
sitä, mihin ei usko», lisäsi Aljoša katkerasti ja rukoili taas Ivanin
puolesta.

Kahdestoista kirja

Tuomiovirhe

1.

Kovan onnen päivä

Kuvaamieni tapahtumien jälkeisenä päivänä kello kymmenen


aamulla alkoi piirioikeutemme istunto ja ryhdyttiin tuomitsemaan
Dmitri Karamazovia.
Sanon jo ennakolta ja sanon jyrkästi: en ollenkaan katso
kykeneväni kertomaan kaikkea sitä, mitä oikeudessa tapahtui, eikä
kertomukseltani puutu ainoastaan asianmukainen täydellisyys, vaan
myöskin asianmukainen järjestys tapahtumien esittämisessä.
Minusta tuntuu, että jos kaikki olisi muistettava ja kaikki selitettävä,
niinkuin pitäisi, niin se vaatisi kokonaisen kirjan ja varsin laajankin.
Älköön senvuoksi moitittako minua, kun kerron vain sen, mikä minua
persoonallisesti hämmästytti ja mikä on erikoisesti jäänyt mieleeni.
Minä olen saattanut pitää toisarvoista pääasiana, vieläpä jättää
mainitsematta kaikkein silmäänpistävimmät ja tärkeimmät piirteet…
Muuten huomaan, että parasta on olla pyytelemättä anteeksi. Teen
niinkuin osaan, ja lukijat ymmärtävät itse, että olen tehnyt vain
niinkuin olen osannut.

Ensiksi, ennenkuin astumme sisälle oikeussaliin, minä mainitsen


asian, joka minua tuona päivänä erityisesti ihmetytti. Muuten se ei
ihmetyttänyt ainoastaan minua, vaan kuten myöhemmin nähtiin,
kaikkia muitakin. Nimittäin: kaikki tiesivät, että tämä asia kiinnitti
sangen monien mieltä, että kaikki paloivat kärsimättömyydestä
odottaessaan tuomioistuimen käsittelyä, että meidän
yhteiskunnassamme oli paljon puhuttu, lausuttu otaksumia,
huudahdeltu, haaveksittu jo kokonaista kaksi kuukautta. Kaikki
tiesivät myös, että tämä juttu oli tullut kuuluisaksi kautta Venäjän,
mutta eivät kuitenkaan osanneet kuvitella, että se oli niin polttava,
niin kiihoittava, siinä määrin kaikkia ja jokaista järkyttävä, eikä
ainoastaan meillä, vaan kaikkialla, kuin sitten nähtiin itse
oikeudenistunnossa tuona päivänä. Sinä päivänä saapui meille
vieraita ei ainoastaan läänimme pääkaupungista, vaan myös
muutamista muista Venäjän kaupungeista sekä lopulta Moskovasta
ja Pietarista. Saapui lakimiehiä, saapui myös muutamia ylhäisiä
henkilöitä ja myöskin naisia. Kaikki pääsyliput olivat menneet
niinkuin kuumille kiville. Erikoisen arvokkaille ja huomatuille
miespuolisille tulijoille oli varattu aivan vastoin tavallisuutta paikat
tuomarien pöydän takana; sinne ilmestyi kokonainen rivi nojatuoleja,
joissa istui erilaisia henkilöitä. Sellaista meillä ei koskaan ennen ollut
tapahtunut. Erittäin paljon oli naisia, — meikäläisiä ja muualta
tulleita, luullakseni ihan puolet koko yleisöstä. Yksistään kaikkialta
saapuneita lakimiehiä oli niin paljon, ettei tiedetty, mihin heidät
saataisiin sijoitetuiksi, koska kaikki pääsyliput jo aikoja sitten oli
jaettu pyytäjille ja anojille. Näin itse, kuinka salin päähän, lavan
taakse, kiireen kaupalla laitettiin väliaikainen aitio, johon kaikki nämä
muualta saapuneet lakimiehet päästettiin, ja he olivat omasta
mielestään suorastaan onnellisia, kun saivat edes seisoa siellä, sillä
tilan säästämiseksi oli kaikki tuolit viety tuosta aitiosta pois, ja koko
sinne kerääntynyt joukko seisoi koko »jutun» ajan tiheässä kasassa,
kylki kyljessä kiinni. Jotkut naisista, varsinkin muualta saapuneista,
ilmestyivät salin parvekkeelle tavattoman komeasti puettuina, mutta
naisten enemmistö oli unohtanut pukuasiatkin. Heidän kasvoillaan
kuvastui hysteerinen, ahnas, melkein sairaalloinen uteliaisuus. Eräs
luonteenomaisimpia erikoisuuksia koko tässä saliin kokoontuneessa
seurassa, erikoisuus, joka on merkille pantava, oli se, että, kuten
monet havainnot myöhemmin osoittivat todeksi, melkein kaikki
naiset, ainakin suuri enemmistö heistä, olivat Mitjan puolella ja
toivoivat hänen vapauttamistaan. Kenties tämä pääasiallisesti johtui
siitä, että hänestä oli saatu se käsitys, että hän oli naisten sydänten
valloittaja. Tiedettiin kahden kilpailevan naisen saapuvan istuntoon.
Toinen näistä, nimittäin Katerina Ivanovna, herätti kaikissa erikoista
mielenkiintoa; hänestä kerrottiin tavattoman paljon harvinaisia
asioita, hänen kiihkeästä kiintymyksestään Mitjaan, tämän
rikollisuudestakin huolimatta, kerrottiin ihmeellisiä juttuja. Erityisesti
mainittiin hänen ylpeyttään (hän ei ollut käynyt vierailulla juuri
kenenkään luona kaupungissamme), hänen »aristokraattisista
suhteistaan». Kerrottiin hänen aikovan pyytää hallitukselta, että hän
saisi luvan seurata rikoksentekijää pakkotyöhön ja antaa vihkiä
itsensä avioliittoon tämän kanssa jossakin siellä maanalaisissa
vuorikaivoksissa. Yhtä kiihkein mielin odotettiin myös Katerina
Ivanovnan kilpailijan Grušenjkan ilmestymistä oikeuden istuntoon.
Kiusallisen uteliaisuuden vallassa odotettiin kahden kilpailijattaren
kohtaamista oikeuden edessä — ylpeän aristokraattisen tytön ja
»hetairan»; Grušenjka muuten oli meidän naismaailmallemme
tutumpi kuin Katerina Ivanovna. Hänet, »Fjodor Pavlovitšin ja hänen
onnettoman poikansa turmioonsyöksijättären», olivat naisemme
nähneet ennenkin, ja melkein jok'ikinen heistä ihmetteli, kuinka
sellaiseen »aivan tavalliseen, ei edes kauniiseenkaan venäläiseen
pikkuporvarittareen» isä ja poika olivat voineet siinä määrin rakastua.
Sanalla sanoen, puheita oli paljon. Minä tiedän varmasti, että
nimenomaan meidän kaupungissamme oli syntynyt muutamia
vakavia perheriitojakin Mitjan tähden. Monet rouvat olivat kiihkeästi
riidelleet miestensä kanssa, koska heillä oli aivan erilaiset mielipiteet
koko tästä kauheasta asiasta, ja luonnollista näin ollen oli, että
kaikkien näitten rouvien miehet tulivat oikeussaliin ei vain
epäsuopeina syytettyä kohtaan, vaan suorastaan vihoissaan hänelle.
Ja yleensäkin saattoi varmasti sanoa, että päinvastoin kuin
naismaailma kaikki miehet olivat syytettyä vastaan. Näkyi ankaria,
kulmakarvat rypyssä olevia kasvoja, toiset kasvot taas suorastaan
kuvastivat vihamielisyyttä, ja ne olivat enemmistönä. Totta oli kyllä
sekin, että Mitja oli ennättänyt kaupungissamme ollessaan loukata
monia heistä henkilökohtaisesti. Tietysti jotkut salissa-olijoista olivat
miltei iloisia, eikä heitä oikeastaan sanottavasti liikuttanut Mitjan
kohtalo, vaan heidän mielenkiintonsa kohdistui käsiteltävänä olevaan
tapaukseen; kaikki odottivat jännittyneinä, miten juttu päättyisi, ja
miesten enemmistö toivoi ehdottomasti rangaistusta rikolliselle, paitsi
ehkä lakimiehet, joille asian siveellinen puoli ei ollut tärkeä, vaan
ainoastaan niin sanoakseni sen nykyaikaisjuridinen puoli. Kaikkien
mieltä kuohutti kuuluisan Fetjukovitšin saapuminen. Hänen kykynsä
tunnettiin kaikkialla, eikä hän nyt ensimmäistä kertaa saapunut
maaseudulle puolustajana suurissa rikosasioissa. Ja hänen
esiintyessään puolustusasianajajana tulivat tämmöiset jutut aina
kuuluisiksi yli koko Venäjän ja niitä muistettiin pitkät ajat. Kerrottiin
eräitä kaskuja myös meidän prokuraattoristamme ja oikeuden
puheenjohtajasta. Kerrottiin, että meidän prokuraattorimme vavisten
odotti kohtausta Fetjukovitšin kanssa, että he olivat vanhoja
vihamiehiä jo Pietarin ajoilta, kun he vasta aloittelivat uraansa, että
meidän itserakas Ippolit Kirillovitšimme, joka alati katsoi tulleensa
loukatuksi urallaan, jo Pietarista lähtien, kun hänen kykyään muka ei
oltu pidetty riittävästi arvossa, henkisesti uudestisyntyi
Karamazovien jutun johdosta ja haaveili voivansa tällä jutulla kohota
vielä maineeseen, mutta että häntä peloitti vain Fetjukovitš. Mutta
nuo käsitykset, että hän vapisi Fetjukovitšin edessä, eivät olleet
aivan oikeat. Meidän prokuraattorimme ei ollut niitä luonteita, jotka
masentuvat vaaran uhatessa, vaan päinvastoin niitä, joiden
itserakkaus paisuu ja saa vauhtia, sikäli kuin vaara suurenee. Mutta
yleensä on huomautettava, että meidän prokuraattorimme oli kovin
tulinen ja sairaalloisen altis vaikutuksille. Joihinkin juttuihin hän pani
koko sielunsa ja ajoi niitä niin, kuin niitten ratkaisusta riippuisi koko
hänen kohtalonsa ja koko hänen arvonsa. Lakimiesten piireissä tälle
hiukan naureskeltiin, sillä prokuraattorimme oli juuri tämän
ominaisuutensa takia tullut jossakin määrin kuuluisaksikin, joskaan ei
kaikkialla, niin paljon laajemmalti kuin olisi voinut luulla, kun ottaa
huomioon hänen vaatimattoman virka-asemansa meidän
oikeudessamme. Erittäinkin naurettiin hänen intohimoiselle
psykologian harrastukselleen. Minun mielestäni kaikki erehtyivät:
ihmisenä ja luonteena meidän prokuraattorimme luullakseni oli
paljon vakavampi, kuin miksi monet häntä luulivat. Mutta tämä
sairaalloinen mies ei ollut osannut hankkia itselleen asianmukaista
huomiota aivan ensi-askelillaan uransa alussa, ja se tuli sitten hänen
kohtalokseen koko hänen elämänsä aikana.

Meidän oikeutemme puheenjohtajasta taasen voi sanoa vain sen,


että hän oli sivistynyt ja humaaninen mies, joka käytännössä osasi
asiansa ja tunsi kaikkein uusimmatkin aatevirtaukset. Hän oli
jokseenkin itserakas, mutta ei erikoisesti välittänyt edistymisestä
virkauralla. Hänen elämänsä päätarkoituksena oli olla johtavassa
asemassa. Sitäpaitsi hänellä oli suhteita ja omaisuutta.
Karamazovien juttuun hän suhtautui, niinkuin myöhemmin selvisi,
jokseenkin tulisesti, mutta vain yleiseltä kannalta. Hänen mieltään
kiinnitti ilmiö, sen luokittelu, ja hän piti sitä meidän yhteiskunnallisten
olojemme tuotteena, venäläisen aineksen luonnetta valaisevana
j.n.e. Jutun persoonalliseen luoteeseen, siinä ilmenevään
tragediaan, samoin kuin asiaan kuuluvien henkilöitten persoonaan,
syytetystä alkaen, hän suhtautui verraten tyynesti ja abstraktisesti,
niinkuin kenties olikin tehtävä.

Jo paljon ennen oikeuden saapumista oli sali täpötäynnä.


Oikeussali on meidän kaupunkimme paras sali, avara, korkea,
kaiukas. Jonkinmoisella korokkeella olevien oikeudenjäsenten
oikealle puolelle oli asetettu pöytä ja kaksi riviä nojatuoleja
valamiehille. Vasemmalla oli syytetyn ja hänen puolustajansa paikka.
Keskellä salia, lähellä oikeudenjäsenten paikkaa, oli pöytä, jolla
olivat »esineelliset todistuskappaleet». Siinä oli Fjodor Pavlovitšin
verinen valkea silkkiviitta, kohtalokas vaskinen survin, jolla murha
otaksuttiin tehdyksi, Mitjan paita veren tahrimine hihoineen, hänen
takkinsa, jonka selkäpuoli oli täynnä veritäpliä taskun kohdalla, jonne
hän oli silloin työntänyt verestä aivan märän nenäliinansa, tuo liina
hyytyneen veren vallassa, nyt aivan kellastuneena, pistoli, jonka
Mitja oli ladannut Perhotinin luona tehdäkseen sillä itsemurhan ja
jonka Trifon Borisovitš oli Mokrojessa häneltä salaa korjannut pois,
kirjekuori päällekirjoituksineen, johon oli varattu Grušenjkalle
kolmetuhatta, ja ruusunpunainen hieno nauha, joka oli ollut sidottu
sen ympärille, ja monia muita kapineita, joita en edes muista. Hiukan
edempänä keskemmällä salia alkoivat yleisöä varten varatut paikat,
mutta jo kaidepuiden edessä oli muutamia nojatuoleja niitä todistajia
varten, jotka jo olivat esittäneet todistuksensa, mutta jotka tulisivat
jäämään saliin. Kello kymmeneltä saapuivat oikeuden jäsenet, joina
olivat puheenjohtaja, yksi jäsen ja yksi kunniarauhantuomari. Tietysti
samassa saapui myös prokuraattori. Puheenjohtaja oli tanakka,
vanttera, keskikokoista pienempi mies, jonka kasvoissa oli
sydäntautisen väri; hän oli noin viidenkymmenen vuoden ikäinen,
lyhyeksi leikatussa tummassa tukassa oli hieman harmaata, ja
hänen nutussaan oli punainen nauha — en muista enää, minkä
ritarikunnan. Prokuraattori näytti minusta — eikä ainoastaan
minusta, vaan kaikista, — kovin kalpealta, melkein viheriäiseltä
kasvoiltaan ja oli ikäänkuin jostakin syystä laihtunut kenties yhdessä
yössä, sillä vain pari päivää aikaisemmin minä olin tavannut hänet
vielä aivan entisensä näköisenä. Puheenjohtaja aloitti kysymällä
oikeuden komisariukselta: »Ovatko kaikki valamiehet saapuneet?»…
Huomaan kuitenkin, etten voi jatkaa tällä tavoin edelleen jo siitäkään
syystä, että moni asia jäi minulta kuulematta, toisiin en tullut
kiinnittäneeksi huomiota, eräät unohdin painaa mieleeni, mutta
ennen kaikkea minulla, kuten jo olen sanonut, ei sananmukaisesti
ole aikaa eikä tilaa mainita kaikkea, mitä sanottiin ja tapahtui. Tiedän
vain, että kumpikin puoli, t.s. puolustaja ja prokuraattori, oli tuonut
valamiehiä verraten vähän. Mutta kaksitoistamiehisen
valamiesoikeuden jäsenet minä muistan: neljä meikäläistä
virkamiestä, kaksi kauppiasta ja kuusi kaupunkimme pikkuporvaria ja
talonpoikaa. Meillä oli kaupunkilaisten keskuudessa, muistan sen, jo
kauan ennen istuntopäivää kyselty hieman ihmetellen, ja varsinkin
naiset olivat kysyneet: »Annetaanko todellakin niin hienovivahteisen,
mutkikkaan ja psykologisen asian kohtalokas ratkaisu joittenkin
virkamiesten, vieläpä moukkien käsiin, ja mitä tämmöisestä
ymmärtää joku pikkuvirkamies ja varsinkin moukka?» Kaikki nuo
valamiehistöön joutuneet neljä virkamiestä olivat todellakin
vähäpätöisiä miehiä, alhaisessa virka-asemassa olevia, harmaita, —
vain yksi heistä oli hiukan nuorempi, — kaupunkimme seurapiireissä
vähän tunnettuja, pienellä palkalla näivettyneitä, ja luultavasti heillä
oli vanhat vaimot, joita ei voinut tuoda ihmisten ilmoille, sekä
laumoittain lapsia, paljasjalkaisia köyhälistön jäseniä, jotka enintään
huvitteleivat joutoaikanaan korttien ääressä eivätkä tietysti koskaan
olleet lukeneet yhtään kirjaa. Kaksi kauppiasta oli tosin arvokkaan
näköisiä, mutta olivat omituisen vaiteliaita ja liikkumattomia; toinen
heistä oli parraton ja puettu saksalaiseen tapaan; toisella,
harmaapartaisella, oli kaulassa punaisessa nauhassa jokin mitali.
Pikkuporvareista ja talonpojista ei kannata puhuakaan. Meidän
pikkuporvarimme ovat talonpoikia hekin, jopa kyntävät peltoakin.
Kaksi heistäkin oli saksalaisessa puvussa, ja ehkäpä he sen vuoksi
näyttivät likaisemmilta ja rahjusmaisemmilta kuin muut neljä. Niin
että saattoi tosiaankin nousta mieleen ajatus semmoinen kuin nousi
minunkin mieleeni heti heidät nähtyäni: »Mitä tuommoiset voivat
ymmärtää tämänkaltaisesta asiasta?» Siitä huolimatta heidän
kasvonsa tekivät omituisen vakuuttavan ja miltei uhkaavan
vaikutuksen, olivat ankarat ja synkät.
Viimein puheenjohtaja ilmoitti, että otetaan käsiteltäväksi entisen
nimineuvoksen Fjodor Pavlovitš Karamazovin murhaa koskeva asia,
— en muista täydelleen, mitä sanoja hän silloin käytti. Komisariusta
käskettiin tuomaan sisälle syytetty, — ja niin tuli esille Mitja. Salissa
syntyi syvä hiljaisuus, olisi voinut kuulla kärpäsen surinan. En tiedä,
miten muihin, mutta minuun teki Mitjan näkeminen sangen
epämiellyttävän vaikutuksen. Ennen kaikkea hän esiintyi hirveänä
keikarina, uudenuutukaisessa takissa. Sain myöhemmin tietää, että
hän oli vartavasten tilannut täksi päiväksi itselleen takin Moskovasta
entiseltä räätäliltään, jolla olivat hänen mittansa. Käsissä hänellä oli
uudet, mustat silohansikkaat, ja hänen liinavaatteensa olivat
hienonhienot. Hän tuli esille harpaten pitkillä askelillaan suorana ja
liikkumattomana eteensä katsellen ja istuutui paikalleen aivan
levollisen näköisenä. Heti hänen jälkeensä tuli myös
puolustusasianajaja, kuuluisa Fetjukovitš, ja tukahdutettu humahdus
kuului salissa. Hän oli pitkä, kuiva mies, jolla oli pitkät, hoikat jalat,
tavattoman pitkät, valkoiset, hienot sormet, ja sileiksi ajetut kasvot,
vaatimattomasti kammatut, jokseenkin lyhyet hiukset, ohuet huulet,
jotka toisinaan vääntyivät hieman ivalliseen hymyyn. Hän näytti
olevan noin neljänkymmenen vuoden ikäinen. Hänen kasvonsa
olisivat voineet olla miellyttävätkin, jos hänen silmänsä, jotka sinänsä
olivat pienet ja ilmeettömät, eivät olisi olleet harvinaisen lähellä
toisiaan, niin että ne erotti toisistaan pitkän, hienon nenän ohut luu.
Sanalla sanoen, näissä kasvoissa oli jotakin perin lintumaista, mikä
sai hämmästymään. Yllään hänellä oli hännystakki ja valkea
kaulaliina. Muistan puheenjohtajan ensimmäiset kysymykset Mitjalle,
jotka koskivat nimeä, ammattia j.n.e. Mitja vastasi terävästi, mutta
odottamattoman kovalla äänellä, niin että puheenjohtaja ihan pudisti
päätään ja katsoi häneen miltei ihmetellen. Sitten luettiin oikeuden
istuntoon kutsuttujen henkilöitten, t.s. todistajain ja asiantuntijain
luettelo. Luettelo oli pitkä; neljä todistajaa oli jäänyt tulematta:
Miusov, joka tähän aikaan oli jo Pariisissa, mutta joka oli antanut
todistuksensa jo valmistavassa kuulustelussa, rouva Hohlakov ja
tilanomistaja Maksimov sairauden vuoksi ja Smerdjakov äkillisen
kuoleman johdosta, josta esitettiin poliisilaitoksen todistus.
Smerdjakovia koskeva tiedonanto synnytti salissa paljon liikettä ja
kuisketta. Tietysti yleisön joukossa oli paljon niitä, jotka eivät vielä
tietäneet tästä äkillisestä itsemurhasta. Mutta erityisesti herätti
hämmästystä Mitjan äkillinen päähänpisto: tuskin oli esitetty
Smerdjakovia koskeva tieto, kun hän äkkiä huudahti paikaltaan, niin
että se kuului yli koko salin:

— Koiralle koiran kuolema!

Muistan, kuinka hänen puolustusasianajajansa syöksähti hänen


luokseen ja kuinka puheenjohtaja kääntyi hänen puoleensa uhaten
ryhtyä ankariin toimenpiteisiin, jos tuollainen temppu vielä uudistuu.
Mitja lausui puolustajalleen muutamia kertoja puoliääneen ja
katkonaisesti ja päätään nyökäyttäen, mutta aivan kuin ei ensinkään
katuisi:

— En tee enää, en tee enää! Sattui pääsemään suustani! En tee


enää!

Tämä lyhyt välikohtaus ei tietenkään saattanut häntä edulliseen


valoon valamiesten ja yleisön silmissä. Siinä ilmeni hänen
luonteensa ja paljastui toisten tarkastettavaksi. Tämmöisen
vaikutelman alaisena luki oikeuden sihteeri syytekirjelmän.

Se oli jokseenkin lyhyt, mutta seikkaperäinen. Siinä esitettiin vain


tärkeimmät syyt, miksi se ja se on asetettu syytteeseen, miksi hänet
oli pakko jättää oikeuden tuomittavaksi ja niin edespäin. Siitä
huolimatta se teki minuun voimakkaan vaikutuksen. Sihteeri luki sen
selvästi, kuuluvalla äänellä ja täsmällisesti. Koko tuo tragedia
ikäänkuin esiintyi uudelleen kaikkien nähtäväksi selväpiirteisenä,
keskitetyssä muodossa, lahjomattomassa ja järkähtämättömässä
valaistuksessa. Muistan, kuinka puheenjohtaja heti lukemisen
loputtua kuuluvalla äänellä ja vakavasti kysyi Mitjalta:

— Syytetty, tunnustatteko olevanne syyllinen?

Mitja nousi yhtäkkiä paikaltaan:

— Tunnustan olevani syypää juopotteluun ja irstailuun, —


huudahti hän taaskin odottamattomalla, melkein raivostuneella
äänensävyllä, — laiskoitteluun ja reuhaamiseen. Tahdoin tulla
elämäni ajaksi kunnon mieheksi juuri siinä silmänräpäyksessä, jolloin
kohtalo minut nujersi! Mutta ukon kuolemaan, tuon vihamieheni ja
isäni, minä en ole syyllinen! Rahojen ryöstämiseen häneltä — en,
en, en ole syyllinen enkä voi olla syyllinen: Dmitri Karamazov on
lurjus, mutta ei varas!

Huudettuaan tämän hän istuutui paikalleen, ja koko hänen


ruumiinsa näytti vapisevan. Puheenjohtaja kääntyi uudelleen hänen
puoleensa kehoittaen lyhyesti, mutta vakavasti häntä vastaamaan
ainoastaan kysymyksiin eikä päästelemään asiaankuulumattomia ja
kiihkoisia huudahduksia. Sitten hän käski ryhtyä oikeudelliseen
tutkimukseen. Tuotiin esiin kaikki todistajat vannomaan valaa. Näin
heidät siinä kaikki samalla kertaa. Muuten syytetyn veljet saivat
todistaa tekemättä valaa. Kun pappi ja puheenjohtaja olivat
lausuneet asianmukaiset kehoitukset, vietiin todistajat pois ja pantiin
istumaan mahdollisimman paljon erilleen toisistaan. Sitten kutsuttiin
heidät esille yksi kerrallaan.
2.

Vaarallisia todistajia

En tiedä, oliko puheenjohtaja jakanut prokuraattorin ja puolustajan


haastamat todistajat jollakin tavoin ryhmiin ja missä järjestyksessä
heidät oli päätetty kutsua esiin. Luultavasti tässä oli jokin järjestely
olemassa. Tiedän vain, että ensimmäiseksi alettiin kutsua kuultaviksi
prokuraattorin todistajia. Minä toistan, etten aio kuvata koko
kuulustelua kohta kohdalta. Sitäpaitsi kuvaukseni olisi osittain
tarpeetonkin, sillä prokuraattorin ja puolustajan puheissa, kun niiden
vuoro tuli, keskitettiin koko asian kulku ja kaikkien tosiasian sekä
kuultujen todistusten merkitys ikäänkuin yhteen kirkkaasti ja
luonteenomaisesti valaistuun pisteeseen, mutta nämä kaksi
huomattavaa puhetta minä ainakin paikoitellen olen täydelleen
kirjoittanut muistiin ja esitän aikanaan samoin kuin erään tavattoman
ja aivan odottamattoman episodin, joka prosessin aikana sattui äkkiä
jo ennen oikeudessa pidettyjä puheita ja epäilemättä paljon vaikutti
sen ankaraan ja onnettomaan lopputulokseen. Huomautan vain, että
aivan oikeudenistunnon ensi hetkistä saakka esiintyi selvästi eräs
tämän »jutun» kuvaava piirre, jonka kaikki huomasivat, nimittäin:
syytöksen tavaton voima niihin keinoihin verrattuna, jotka
puolustajalla oli käytettävinään. Sen ymmärsivät kaikki aivan heti,
kun tässä ankarassa oikeussalissa tosiasiat alkoivat keskitetyssä
muodossa järjestyä ryhmiin ja alkoi vähitellen yhä selvempänä
esiintyä koko tuo kamala tapaus ja kaikki tuo veri. Kaikille: kävi
ymmärrettäväksi kenties jo aivan alussa, että se on oikeastaan aivan
kiistämätön asia, että siinä ei ole sijaa epäilyille, että oikeastaan ei
tarvittaisi mitään virallisia väittelyjä, että puheet ovat vain muodon
vuoksi ja että syytetty on syyllinen, ilmeisesti syyllinen, lopullisesti
syyllinen. Luulen, että kaikki naisetkin, aivan jokikinen, jotka niin
kärsimättömästi toivoivat tuon mielenkiintoisen syytetyn
vapauttamista, samalla kertaa olivat nyt täysin vakuutettuja hänen
syyllisyydestään. Vieläpä he luullakseni olisivat olleet pahoillaankin,
jollei hänen syyllisyyttään olisi niin vakuuttavasti osoitettu, sillä silloin
ei asian loppuselvitys olisi niin vaikuttava, kun rikollinen julistetaan
syyttömäksi. Ja että hänet julistetaan syyttömäksi, — siitä, omituista
kyllä, kaikki naiset olivat vakuutetut melkein viime hetkeen asti: »hän
on syyllinen, mutta hänet vapautetaan humaanisuuden
vaikutuksesta, uusien aatteiden ja uusien tunteiden vaikutuksesta,
jotka nykyisin ovat liikkeessä», j.n.e. Siksipä he olivat niin joukolla ja
niin kärsimättömästi tänne rientäneetkin. Miesten mieliä taas kiinnitti
enimmän prokuraattorin ja kuuluisan Fetjukovitšin välinen kamppailu.
Kaikki ihmettelivät ja kysyivät itseltään: mitä voi tehdä tämmöisestä
toivottomasta asiasta, tästä mädästä munasta, edes niinkään etevä
mies kuin Fetjukovitš? Siksi he jännittynein mielin seurasivat askel
askelelta hänen urotöitään. Mutta Fetjukovitš jäi aivan loppuun asti,
siihen asti kuin hän piti puheensa, kaikille arvoitukseksi. Kokeneet
miehet aavistivat, että hänellä on järjestelmä, että hänen mielessään
on jo jotakin kypsynyt, että hänellä on edessään päämäärä, mutta
mikä se oli, — sitä oli miltei mahdoton arvata. Hänen varmuutensa ja
itseluottamuksensa olivat kuitenkin silmäänpistävät. Sitäpaitsi
huomasivat kaikki ilokseen heti, että hän, vaikka oli ollut
kaupungissamme niin lyhyen ajan, kaikkiaan ehkä vain kolmisen
päivää, oli kyennyt ihmeteltävän hyvin perehtymään juttuun ja
»tutkinut sen pienimpiä vivahduksia myöten.» Nautintoa tuntien
kertoivat monet jälkeenpäin esimerkiksi siitä, miten hän osasi
oikeaan aikaan »vetää nenästä» kaikkia prokuraattorin todistajia ja
saada heidät sekaantumaan ja ennen kaikkea tahria heidän
siveellisen maineensa ja siten vähentää ilman muuta myös heidän
todistustensa arvoa. Arveltiin muuten hänen tekevän tätä suurelta
osalta niin sanoaksemme leikitelläkseen, jonkinmoisen juridisen
loiston takia, jotta mitkään käytäntöön tulleet asianajotemput eivät
jäisi unhoon: sillä kaikki olivat vakuutettuja siitä, ettei hän kaikilla
noilla »tahrimisillaan» voinut saavuttaa mitään suurta eikä lopullista
etua ja että hän luultavasti itse ymmärsi sen paremmin kuin kukaan
muu, mutta että hänellä oli varastossa jokin oma ideansa, jokin vielä
piilossa oleva puolustusase, jonka hän yhtäkkiä paljastaa, kun aika
on tullut. Mutta toistaiseksi hän kuitenkin tuntien voimansa ikäänkuin
leikki ja huvittelihe. Niinpä esimerkiksi kun kuulusteltiin Grigori
Vasiljevitšia, entistä Fjodor Pavlovitšin kamaripalvelijaa, joka oli
esittänyt kaikkein painavimman todistuksen »avoimesta, puutarhaan
johtavasta ovesta», niin puolustaja takertui kovasti kiinni häneen,
kun hänen vuoronsa tehdä kysymyksiä oli tullut. On huomattava, että
Grigori Vasiljevitš esiintyi salissa vähääkään ymmälle joutumatta
oikeuden mahtavuudesta ja häntä kuuntelevan yleisön
suurilukuisuudesta, oli levollisen ja melkeinpä mahtavan näköinen.
Hän esitti todistuksensa niin varmana kuin olisi keskustellut kahden
kesken Marfa Ignatjevnansa kanssa, ainoastaan hiukan
kunnioittavammin. Mahdotonta oli saada häntä sekaantumaan.
Aluksi prokuraattori kyseli häneltä pitkän aikaa kaikenlaisia
yksityisseikkoja Karamazovien perheestä. Perhe-elämän kuva
esiintyi hyvin selväpiirteisenä. Kuului ja näkyi, että todistaja oli
vilpitön ja tasapuolinen. Vaikka hän syvästi kunnioittikin entisen
isäntänsä muistoa, niin hän kuitenkin lausui esimerkiksi semmoista,
että tämä ei ollut oikeudenmukainen Mitjaa kohtaan ja »kasvatti
väärin lapsiaan». — »Hänet, pikku pojan, olisivat ilman minun
huolenpitoani täit syöneet», lisäsi hän kertoessaan Mitjan
lapsuusvuosista. »Ei ollut myöskään paikallaan, että isä teki
pojalleen vääryyttä tämän äidinperintöön nähden.» Prokuraattorin
kysymykseen, mitä syitä hänellä oli vakuuttaa Fjodor Pavlovitšin
tehneen vääryyttä pojalleen tilityksessä, ei Grigori Vasiljevitš kaikkien
ihmeeksi esittänyt mitään tosiasioita, mutta oli kuitenkin
itsepintaisesti sitä mieltä, että tili pojalle »ei ollut oikea» ja että pojalle
todella »olisi pitänyt maksaa vielä muutamia tuhansia». Huomautan
tässä asian ollessa puheena, että tämän kysymyksen — oliko Fjodor
Pavlovitš jättänyt jotakin maksamatta Mitjalle, — prokuraattori erittäin
itsepintaisesti esitti kaikille niille todistajille, joille saattoi sen tehdä,
myöskin Aljošalle ja Ivan Fjodorovitšille, mutta ei saanut yhdeltäkään
todistajalta mitään täsmällistä tietoa; kaikki vakuuttivat asian niin
olevan, mutta kukaan ei voinut esittää mitään edes osapuilleen
selvää todistusta. Kun Grigori kuvasi pöydän ääressä tapahtuneen
kohtauksen, silloin kun Dmitri Fjodorovitš hyökkäsi sisään ja pieksi
isäänsä sekä uhkasi tulla toiste tappamaan hänet, syntyi salissa
synkkä mieliala, sitäkin suuremmalla syyllä, kun vanha palvelija
kertoi tyynesti, liikoja sanoja käyttämättä, omalaatuisella
puhetavallaan, mutta saaden tulokseksi kauhean kaunopuheisen
esityksen. Mitjan puolelta kärsimästään loukkauksesta, tämä kun
silloin oli lyönyt häntä vasten kasvoja ja kaatanut hänet maahan, hän
huomautti, ettei hän ole siitä vihainen, vaan on kauan sitten antanut
sen anteeksi. Smerdjakov-vainajasta hän lausui ristien silmänsä, että
tämä oli taitava mies, mutta tyhmä ja sairauden näännyttämä ja
ennen kaikkea jumalaton ja että häntä olivat jumalattomuuteen
opettaneet Fjodor Pavlovitš ja tämän vanhin poika. Mutta melkein
innostuen hän vakuutti, että Smerdjakov oli rehellinen, ja kertoi
samalla, miten Smerdjakov aikoinaan oli löytänyt herran pudottamat
rahat eikä ollut salannut niitä, vaan oli tuonut herralle, ja tämä oli siitä
»lahjoittanut hänelle kultakolikon» ja alkanut sen jälkeen luottaa
häneen kaikessa. Että ovi puutarhaan oli ollut auki, sen hän vakuutti
itsepintaisen järkähtämättömästi. Häneltä kyseltiin muuten niin
paljon, etten minä voi kaikkea muistaakaan. Viimein oli puolustajan
vuoro kysellä, ja tämä alkoi ensityökseen tiedustella kääröstä, johon
»muka» Fjodor Pavlovitš oli pannut kolmetuhatta ruplaa »erästä
henkilöä varten». »Näittekö te sen itse — te, joka niin monta vuotta
olitte ollut herrallenne niin läheinen henkilö?» Grigori vastasi, ettei
hän ollut nähnyt eikä ollenkaan kuullutkaan semmoisista rahoista
keneltäkään »aina siihen saakka kun nyt kaikki ovat ruvenneet
puhumaan». Tämän kääröä koskevan kysymyksen Fetjukovitš
puolestaan teki kaikille todistajille, joille vain voi sen tehdä, yhtä
itsepintaisesti kuin prokuraattori oman kysymyksensä omaisuuden
jaosta, ja sai myös kaikilta vain yhden ainoan vastauksen, sen
nimittäin, että kukaan ei ollut nähnyt kääröä, vaikka hyvin monet
olivat siitä kuulleet. Tämän itsepintaisuuden puolustajan puolelta
tässä kysymyksessä huomasivat kaikki alusta alkaen.

— Saanko nyt tehdä teille kysymyksen, jollei teillä ole mitään sitä
vastaan, — kysyi Fetjukovitš yhtäkkiä ja aivan odottamatta, — mistä
aineista oli tehty se palsami eli niin sanoakseni se ryytiviina, jolla te
sinä iltana ennen maatamenoa, kuten tiedetään alustavasta
kuulustelusta, hieroitte kivistäviä lanteitanne toivoen siitä
parannusta?

Grigori katsoi tylsästi kysyjään ja mutisi vähän aikaa vaiti oltuaan:


»Siinä oli salvia-yrttiä.»

— Ainoastaanko salviaa? Ettekö muista vielä jotakin muuta?

— Oli myös ratamoa.

— Ehkäpä myös pippuria? — uteli Fetjukovitš.

— Oli pippuriakin.
— Ja niin edespäin. Ja kaikki tämä viinan seassa?

— Väkiviinassa.

Salissa kuului hiljaista naurua.

— Näettekö nyt, ihan väkiviinassa. Tehän hierottuanne selkäänne


näitte hyväksi juoda suuhunne loput pullon sisällöstä lukien jonkin
hurskaan rukouksen, jonka vain teidän vaimonne tuntee, eikö niin?

— Join.

— Paljonko te arviolta joitte? Noin osapuilleen? Ryypyn,


toisenkin?

— Juomalasillinen siitä tulee.

— Ihan juomalasillinen. Ehkäpä puolitoistakin juomalasia?

Grigori vaimeni. Oli kuin hän olisi ymmärtänyt jotakin.

— Puolitoista lasia puhdasta spriitä — sepä ei ole ollenkaan


huonosti naukattu, vai mitä arvelette? Voi nähdä jo »paratiisin ovet
avoimina» eikä vain puutarhaan johtavaa ovea?

Grigori oli yhä vaiti. Yli salin kävi taas naurahdus. Puheenjohtaja
liikahti.

— Ettekö tiedä varmasti, — takertui häneen yhä enemmän


Fetjukovitš, — nukuitteko te vai ettekö sillä hetkellä, jolloin näitte
puutarhaan vievän oven avoimena?

— Seisoin jaloillani.
— Se ei vielä todista, ettette nukkunut (taas kuului naurahduksia
salissa). Olisitteko esimerkiksi voinut vastata sillä hetkellä, jos joku
olisi kysynyt teiltä jotakin, — no, esimerkiksi sitä, mikä vuosi meillä
nyt on?

— Sitä en tiedä.

— Mutta mikä vuosi meillä nyt sitten on, meidän ajanlaskumme


mukaan,
Kristuksen syntymästä lukien, ettekö tiedä?

Grigori seisoi hämillään olevan näköisenä ja katsoi jäykästi


kiusaajaansa. Näytti todellakin tuntuvan omituiselta, ettei hän
tietänyt, mikä vuosi oli menossa.

— Kenties sentään tiedätte, montako sormea on kädessänne?

— Minä olen epävapaa mies, — lausui Grigori yhtäkkiä kuuluvasti


ja selvästi, — jos esivalta näkee hyväksi tehdä minusta pilaa, niin
minun on se kärsittävä.

Fetjukovitš näytti hieman nolostuvan, ja asiaan sekaantui


puheenjohtajakin huomauttaen vakavasti puolustajalle, että on
tehtävä sopivampia kysymyksiä. Sen kuultuaan Fetjukovitš kumarsi
arvokkaasti ja ilmoitti lopettaneensa kyselynsä. Tietysti sekä yleisöön
että valamiehiin saattoi jäädä pikkuinen epäilyn mato semmoisen
miehen todistusta kohtaan, joka oli lääkitessään itseään ollut siinä
tilassa, että saattoi »nähdä paratiisin ovet» ja joka sitäpaitsi ei
tietänyt, mikä vuosi jälkeen Kristuksen syntymän nyt oli; niin että
puolustaja oli sentään saavuttanut tarkoituksensa. Mutta ennen
Grigorin poistumista sattui vielä välikohtaus. Kääntyen syytetyn
puoleen puheenjohtaja kysyi, eikö hänellä ole mitään
huomauttamista esitettyjen todistusten johdosta?

— Kaikki hänen puheensa ovat tosia, paitsi se, mitä hän sanoo
ovesta, — huudahti Mitja kovalla äänellä. — Siitä, että hän on
kammannut päästäni täit, minä kiitän, siitä, että hän on antanut
minulle anteeksi lyöntini, minä häntä kiitän; ukko on ollut rehellinen
koko elämänsä ajan ja niin uskollinen isälleni kuin seitsemänsataa
villakoiraa.

— Syytetty, valitkaa paremmin sananne, — lausui puheenjohtaja


ankarasti.

— Minä en ole villakoira, — mutisi myös Grigori.

— No, sitten olen minä villakoira, minä! — huudahti Mitja. — Jos


se on loukkaavaa, niin omaksun sen itselleni ja pyydän häneltä
anteeksi: olen ollut peto ja häntä kohtaan julma! Aisoposta kohtaan
olin myös julma.

— Ketä Aisoposta? — puuttui taas puheenjohtaja ankarasti


puheeseen.

— No, Pierrot’ta… isääni, Fjodor Pavlovitšia.

Puheenjohtaja teroitti uudelleen ja entistä ankarammin Mitjan


mieleen, että hän valitsisi varovaisemmin sanontatapansa.

— Te vahingoitatte tällä vain itseänne tuomareittenne silmissä.

Yhtä ovelasti suoriutui puolustaja silloinkin, kun todistajana


kuulusteltiin Rakitinia. Huomautan, että Rakitin oli kaikkein
tärkeimpiä todistajia, ja prokuraattori pani hänelle paljon arvoa.
Selville kävi, että hän tiesi kaiken, tiesi ihmeteltävän paljon, kaikkien
luona hän oli ollut, kaikki nähnyt, kaikkien kanssa puhunut, tunsi
aivan yksityiskohtaisesti Fjodor Pavlovitšin ja kaikkien Karamazovien
elämänkerran. Tosin hän oli kuullut kolmetuhatta ruplaa sisältävästä
kääröstä ainoastaan Mitjalta itseltään. Sen sijaan hän kuvasi
seikkaperäisesti kaikki Mitjan urotyöt »Pääkaupunki»-ravintolassa,
kaikki tämän mainetta vahingoittavat sanat ja eleet, ja kertoi jutun
alikapteeni Snegirevin »pesurievusta». Siitä erikoiskysymyksestä,
jäikö Fjodor Pavlovitš jotakin velkaa Mitjalle tämän omaisuutta
tilittäessään, ei edes itse Rakitin kyennyt mitään sanomaan, vaan
koetti vain päästä ylimalkaisilla halventavilla viittauksilla: Kukapa,
muka, saa selvän, kuka heistä on syyllinen, sekä voi laskea, kuka on
jäänyt kenellekin velkaa, kun koko karamazovilainen homma oli niin
päätöntä, ettei sitä kukaan voinut ymmärtää eikä siitä selvää tehdä?
Koko tuomittavana olevan rikoksen tragedian hän kuvasi tulokseksi
vanhentuneista maaorjuuden aikuisista tavoista ja Venäjällä
vallitsevasta suuresta epäjärjestyksestä, tämä maa kun kärsii
asianmukaisten laitosten puutetta. Sanalla sanoen, hänen annettiin
tuoda esille yhtä ja toista. Tämän oikeusjutun yhteydessä herra
Rakitin pääsi ensimmäisen kerran esiintymään ja tuli huomatuksi;
prokuraattori tiesi, että todistajalla oli tekeillä aikakauskirjaa varten
kirjoitelma nyt käsiteltävänä olevasta rikoksesta, ja myöhemmin hän
puheessaan (kuten tuonnempana saamme nähdä) siteerasi eräitä
ajatuksia tästä kirjoitelmasta, johon hän siis oli tutustunut. Todistajan
antama kuvaus muodostui synkäksi ja onnettomaksi ja vahvisti
suuresti »syytettä». Yleensä Rakitinin esitys valtasi yleisön
itsenäisellä ajatustavallaan ja ajatuksen ylevällä lennokkuudella.
Kuuluipa pari kolme äkkiä syntynyttä kättentaputusyritystäkin juuri
niissä kohdin, joissa puhuttiin maaorjuudesta ja epäjärjestykseen
sortuneesta Venäjästä. Mutta Rakitin, joka sentään oli nuori mies,
Welcome to our website – the ideal destination for book lovers and
knowledge seekers. With a mission to inspire endlessly, we offer a
vast collection of books, ranging from classic literary works to
specialized publications, self-development books, and children's
literature. Each book is a new journey of discovery, expanding
knowledge and enriching the soul of the reade

Our website is not just a platform for buying books, but a bridge
connecting readers to the timeless values of culture and wisdom. With
an elegant, user-friendly interface and an intelligent search system,
we are committed to providing a quick and convenient shopping
experience. Additionally, our special promotions and home delivery
services ensure that you save time and fully enjoy the joy of reading.

Let us accompany you on the journey of exploring knowledge and


personal growth!

textbookfull.com

You might also like