0% found this document useful (0 votes)

1K views6 pages

Data Mining-Mining Sequence Patterns in Biological Data

This document discusses bioinformatics and algorithms for analyzing biological sequence data. It covers: 1) Bioinformatics applies computer technology to analyze biological data like DNA, RNA, and protein sequences. Effective methods are needed to compare and align sequences to discover patterns. 2) Biological sequence alignment involves identifying similar subsequences between two or more input sequences. Pairwise and multiple sequence alignment algorithms like Needleman-Wunsch, Smith-Waterman, and BLAST are used to determine the degree of homology between sequences. 3) Hidden Markov models can be used to find features like CpG islands in DNA or to build profiles of common patterns in families of related protein or gene sequences. HMMs represent sequences as

Uploaded by

Raj Endran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

1K views6 pages

Data Mining-Mining Sequence Patterns in Biological Data

Uploaded by

Raj Endran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Mining Sequence

Patterns in
Biological data
Bioinformatics

Applies Computer Technology in Molecular

biology

Develops algorithms and methods to manage

and analyze biological data
Effective methods are needed to compare
and align biological sequences and discover
sequential patterns

Type of data

DNA: helix-shaped molecule whose

constituents are two parallel strands of
nucleotides : Adenine (A), Cytosine (C), Guanine
(G), Thymine (T)

Proteins: Composed of 20 amino acids

Produced from DNA using 3 operations or transformations:

transcription, splicing and translation

Gene : Sequence of hundreds of individual

nucleotides arranged in a particular order
Genome : Complete set of genes of an
organism

Alignment of Biological
Sequences

Alignment given two or more input biological

sequences, identify similar sequences with long
conserved sub-sequences

Pair-wise Sequence alignment

Multiple Sequence Alignment
In nucleotides two symbols align if they are identical
In amino acids they align if identical / or one can be
derived from the other
Local Alignment Vs Global Alignment
Substitution matrix represent probability of substitution

Alignment score can be calculated

Need for alignment

Two sequences are homologous if they

share the same ancestor
Degree of similarity helps to determine
degree of homology

Helps to construct evolution tree or phylogenetic tree

Pairwise Alignment
Pairwise Alignment

Needleman-Wunsch Algorithm
Smith-Waterman Algorithm

Build up Optimal Sequences

Use Dynamic Programming
O(n2) Time Complexity

Dot matrix plot

Uses boolean matrices to represent alignments

that can be detected visually

2
O(n ) Time Complexity

Heuristic Algorithms

BLAST Basic Local Alignment Search Tool

FASTA Fast Alignment Tool
First locate high-scoring short stretches and extend
them

BLAST Local Alignment

Algorithm

Finds regions of local similarity between biosequences

Matches nucleotide / protein sequences to
sequence databases and calculates statistical
significance of matches
Breaks the sequences to be compared into
sequences of fragments (words) and seeks
matches between words

DNA word size 11 bases

Amino Acids 3 amino acids
Creates a hash table of matching words
Moves from exact matches to neighborhood words
Due to hashing O(n)

Variants : MEGABLAST (long alignments),

Discontinuous MEGABLAST (gapped
alignments- similar not identical), BLASTN
(Adjustable word size), BLASTP

Multiple Sequence
Alignment Methods

Goal To find common patterns among all

considered sequences
Applications

More complex than Pair wise alignment

To build gene / protein families

Identify amino acids which are essential sites
for structure and function
Multi-dimensional alignment / Approximate
alignment

Methods

Series of pair-wise alignments

Feng-Doolittle alignment

Computes all possible pair wise alignments by

dynamic programming
Constructs a Guide tree by clustering and
progressive alignment

Multiple Sequence alignment

Hidden Markov Models

HMM for Biological

Sequence Analysis

Finding CpG Islands

Methylation process converts

C in CpG to T

CpG occurrence rare

Methylation is suppressed around
start regions of genes
Areas with high concentration
CpG Islands

Given a short sequence is it

from a CpG island
Given a long sequence can
all CpG islands be found

Markov Chain

Probability of a symbol depends only on

previous symbol
Markov Chain model states and
transitions (probability)
Probability of a sequence x = x1x2xL

Hidden Markov Model

Used to find all CpG islands in a long DNA

Sequence
Merge two Markov chains and add transition
probabilities between the two states
Hidden Markov Model: states, transitions,
emission probabilities (probability of producing a
symbol at a state)

Hidden because the states visited in generating a

sequence are not known

Hidden Markov Models

Tasks

Evaluation: Given a sequence x

determine probability P(x) Forward

Algorithm
Decoding: Given a sequence, determine
most probable path through the model
Viterbi Algorithm
Learning: Given a model and training
sequences, find the model parameters
Baum Welch Algorithm

Module 3 CSE3069 (Bioinformatics)
No ratings yet
Module 3 CSE3069 (Bioinformatics)
57 pages
Chapter 2 Bioinformatics
No ratings yet
Chapter 2 Bioinformatics
9 pages
Sequence Alignment for Bioinformatics
No ratings yet
Sequence Alignment for Bioinformatics
51 pages
Bioinformatics Sequence Alignment
No ratings yet
Bioinformatics Sequence Alignment
32 pages
Sequence Alignment
No ratings yet
Sequence Alignment
9 pages
5 Sequence Alignment
No ratings yet
5 Sequence Alignment
21 pages
Lecture 6 - Sequence Analysis
No ratings yet
Lecture 6 - Sequence Analysis
28 pages
Bio Medical Tics - Sequence Analysis - Alignment - 2011
No ratings yet
Bio Medical Tics - Sequence Analysis - Alignment - 2011
96 pages
Sequence Analysis in Bioinformatics
No ratings yet
Sequence Analysis in Bioinformatics
18 pages
Need & Emergence of The Field: Speaker Shashi Shekhar Head of Computational Section Biowits Life Sciences
No ratings yet
Need & Emergence of The Field: Speaker Shashi Shekhar Head of Computational Section Biowits Life Sciences
59 pages
Computational Biology (3) Alignment Algorithms: by Dr. Safynaz Abdel-Fattah Computer Science Department
No ratings yet
Computational Biology (3) Alignment Algorithms: by Dr. Safynaz Abdel-Fattah Computer Science Department
107 pages
Alignment Methods
No ratings yet
Alignment Methods
33 pages
Introduction To Bioinformatics Presentation
No ratings yet
Introduction To Bioinformatics Presentation
13 pages
Sequence Alignment Methods
No ratings yet
Sequence Alignment Methods
32 pages
CSC215 Complete Note
No ratings yet
CSC215 Complete Note
61 pages
Sequence Alignment
No ratings yet
Sequence Alignment
24 pages
Alignment
No ratings yet
Alignment
58 pages
Genomic Sequence Alignment
No ratings yet
Genomic Sequence Alignment
25 pages
Advanced Gene Sequence Alignment
No ratings yet
Advanced Gene Sequence Alignment
36 pages
Sequence Allignment
No ratings yet
Sequence Allignment
5 pages
Sequence Analysis - Alignment
No ratings yet
Sequence Analysis - Alignment
57 pages
Sequence Alignment Methods and Algorithms
75% (4)
Sequence Alignment Methods and Algorithms
37 pages
Bioinformatics Sequence Alignments
No ratings yet
Bioinformatics Sequence Alignments
37 pages
Sequence Alignment in Bioinformatics
No ratings yet
Sequence Alignment in Bioinformatics
61 pages
Sequence Alignment
No ratings yet
Sequence Alignment
25 pages
Unit I Algorithms
No ratings yet
Unit I Algorithms
42 pages
Importance and Significance of Sequence Alignment - pptx12
No ratings yet
Importance and Significance of Sequence Alignment - pptx12
15 pages
Lec7 - Multiple Sequence Alignment
No ratings yet
Lec7 - Multiple Sequence Alignment
22 pages
Sequence Analysis
No ratings yet
Sequence Analysis
6 pages
BT302 L7 Msa
No ratings yet
BT302 L7 Msa
52 pages
Accelerating DNA Pairwise Sequence Alignment Using FPGA and A Customized Convolutional Neural Network - ScienceDirect
No ratings yet
Accelerating DNA Pairwise Sequence Alignment Using FPGA and A Customized Convolutional Neural Network - ScienceDirect
9 pages
Sequence Alignments: Felix Sappelt Irina Wagner
100% (1)
Sequence Alignments: Felix Sappelt Irina Wagner
34 pages
Sequence Analysis - Pairwise Alignment
No ratings yet
Sequence Analysis - Pairwise Alignment
26 pages
BMB 822 - Bioinformatics and Computing - Lecture Notes
No ratings yet
BMB 822 - Bioinformatics and Computing - Lecture Notes
94 pages
Lecture 6
No ratings yet
Lecture 6
31 pages
Note 7 - Group 7 Scribbing
No ratings yet
Note 7 - Group 7 Scribbing
7 pages
Unit 3 Sequence Alignment and Phylogenetic Tree
No ratings yet
Unit 3 Sequence Alignment and Phylogenetic Tree
70 pages
Unit 2.1
No ratings yet
Unit 2.1
77 pages
Bioinformatics for Students
No ratings yet
Bioinformatics for Students
22 pages
Multiple Sequence Alignment
No ratings yet
Multiple Sequence Alignment
89 pages
Module 3 Session.2 Practical Assignment-Lucy Nakabazzi
No ratings yet
Module 3 Session.2 Practical Assignment-Lucy Nakabazzi
4 pages
Bioinformatics Basics PDF
No ratings yet
Bioinformatics Basics PDF
10 pages
MultipleSequenceAlignment 2021 PDF
No ratings yet
MultipleSequenceAlignment 2021 PDF
5 pages
W03 Pairwise
No ratings yet
W03 Pairwise
55 pages
36) Corpet 1988
No ratings yet
36) Corpet 1988
10 pages
Multiple Sequence Alignment
No ratings yet
Multiple Sequence Alignment
19 pages
MIT6 047F15 Lecture03
No ratings yet
MIT6 047F15 Lecture03
56 pages
Multiple Alignment
No ratings yet
Multiple Alignment
28 pages
Chap 03 BioInfo
No ratings yet
Chap 03 BioInfo
15 pages
Msa
No ratings yet
Msa
28 pages
Blast 2 Sequences, A New Tool For Comparing Protein and Nucleotide Sequences
No ratings yet
Blast 2 Sequences, A New Tool For Comparing Protein and Nucleotide Sequences
17 pages
LO5 Pairwise Sequence Alignment
No ratings yet
LO5 Pairwise Sequence Alignment
11 pages
Lecture 3
No ratings yet
Lecture 3
39 pages
Get Bioinformatics Sequence Alignment and Markov Models, 1st Edition Textbook PDF Download
No ratings yet
Get Bioinformatics Sequence Alignment and Markov Models, 1st Edition Textbook PDF Download
14 pages
Dr. Zoya Khalid Zoya - Khalid@nu - Edu.pk
No ratings yet
Dr. Zoya Khalid Zoya - Khalid@nu - Edu.pk
51 pages
Bioinformatics for Advanced Learners
No ratings yet
Bioinformatics for Advanced Learners
13 pages
Data Mining - Mining Sequential Patterns
No ratings yet
Data Mining - Mining Sequential Patterns
10 pages
Data Mining-Graph Mining
No ratings yet
Data Mining-Graph Mining
9 pages
Data Mining-Multimedia Datamining
No ratings yet
Data Mining-Multimedia Datamining
8 pages
5.1 Mining Data Streams
No ratings yet
5.1 Mining Data Streams
16 pages
Spatial Data Mining Techniques
No ratings yet
Spatial Data Mining Techniques
8 pages
Data Mining-Mining Time Series Data
0% (1)
Data Mining-Mining Time Series Data
7 pages
Data Mining-Partitioning Methods
100% (1)
Data Mining-Partitioning Methods
7 pages
Data Mining-Constraint Based Cluster Analysis
100% (1)
Data Mining-Constraint Based Cluster Analysis
4 pages
Data Mining-Outlier Analysis
No ratings yet
Data Mining-Outlier Analysis
6 pages
08 Data Mining-Other Classifications
No ratings yet
08 Data Mining-Other Classifications
4 pages
Data Mining-Backpropagation
100% (1)
Data Mining-Backpropagation
5 pages
Data Mining-Model Based Clustering
No ratings yet
Data Mining-Model Based Clustering
8 pages
Data Warehouse Concepts & Models
No ratings yet
Data Warehouse Concepts & Models
7 pages
Data Science: Classification & Regression
No ratings yet
Data Science: Classification & Regression
7 pages
Bayesian Classification Guide
No ratings yet
Bayesian Classification Guide
6 pages
Data Mining - Data Reduction
No ratings yet
Data Mining - Data Reduction
6 pages
Data Mining - Discretization
100% (1)
Data Mining - Discretization
5 pages
Rule-Based Classification Guide
No ratings yet
Rule-Based Classification Guide
4 pages
Data Mining - Density Based Clustering
No ratings yet
Data Mining - Density Based Clustering
8 pages
Data Mining-Applications, Issues
No ratings yet
Data Mining-Applications, Issues
9 pages
Data Mining - Outlier Analysis
100% (3)
Data Mining - Outlier Analysis
11 pages
02 Data Mining-Partitioning Method
No ratings yet
02 Data Mining-Partitioning Method
8 pages
Brain Tumor Detection and Classification
No ratings yet
Brain Tumor Detection and Classification
14 pages
Is 202 Pipe Stiffness
No ratings yet
Is 202 Pipe Stiffness
4 pages
ECON1005 Notes Unit 6
No ratings yet
ECON1005 Notes Unit 6
42 pages
FCE Writing Rubric Guide
No ratings yet
FCE Writing Rubric Guide
1 page
Ice Minus Bacteria
No ratings yet
Ice Minus Bacteria
6 pages
O Frko
No ratings yet
O Frko
26 pages
Math Olympiad Problems
No ratings yet
Math Olympiad Problems
3 pages
Social Lesson 1
No ratings yet
Social Lesson 1
4 pages
Scheduling Agreement Release Docu
No ratings yet
Scheduling Agreement Release Docu
3 pages
Math 10: Combinations & Permutations Test
No ratings yet
Math 10: Combinations & Permutations Test
2 pages
St. Martin - g5 - Topic Paper
No ratings yet
St. Martin - g5 - Topic Paper
4 pages
Gcse Geography Coursework Methodology Table
100% (2)
Gcse Geography Coursework Methodology Table
6 pages
MIT - Warren Seering
No ratings yet
MIT - Warren Seering
2 pages
Mtap GR 4 Reviewers 2002-2013
75% (4)
Mtap GR 4 Reviewers 2002-2013
28 pages
Flight Planning SFO MODULE FIVE PLAN
No ratings yet
Flight Planning SFO MODULE FIVE PLAN
3 pages
M Tech VLSIES 15-16 April29
No ratings yet
M Tech VLSIES 15-16 April29
72 pages
Reliabilityweb Uptime 20120203
100% (1)
Reliabilityweb Uptime 20120203
69 pages
Rutine Lining Up
100% (1)
Rutine Lining Up
92 pages
Oleh Kelompok 6
No ratings yet
Oleh Kelompok 6
129 pages
Lotus Alarm & Key Fob Guide
No ratings yet
Lotus Alarm & Key Fob Guide
2 pages
CINI at 30
No ratings yet
CINI at 30
73 pages
Ivan Sutherland - Characterization of Ten Hidden-Surface Algorithms (1974)
No ratings yet
Ivan Sutherland - Characterization of Ten Hidden-Surface Algorithms (1974)
55 pages
Effective Communication Skills
No ratings yet
Effective Communication Skills
15 pages
Q4-W3 - Weekly-Home-Learning-Plan-for-Grade-2MAY 31 - JUNE 4
No ratings yet
Q4-W3 - Weekly-Home-Learning-Plan-for-Grade-2MAY 31 - JUNE 4
4 pages
Definitions and The Scope of Applied Linguistics (Revised) - Ulfahnurfarida2
No ratings yet
Definitions and The Scope of Applied Linguistics (Revised) - Ulfahnurfarida2
3 pages
Urbanization Concepts, Dimensions and Factors: January 2018
No ratings yet
Urbanization Concepts, Dimensions and Factors: January 2018
12 pages
Disney Strategic Analysis
100% (1)
Disney Strategic Analysis
15 pages
FBW1102 en
No ratings yet
FBW1102 en
603 pages
The Impact of Positive and Negative Word of Mouth On Brand Choice (PDF Download Available) PDF
No ratings yet
The Impact of Positive and Negative Word of Mouth On Brand Choice (PDF Download Available) PDF
24 pages
Insolation PDF
No ratings yet
Insolation PDF
472 pages

Data Mining-Mining Sequence Patterns in Biological Data

Uploaded by

Data Mining-Mining Sequence Patterns in Biological Data

Uploaded by

Mining Sequence

Applies Computer Technology in Molecular

Develops algorithms and methods to manage

DNA: helix-shaped molecule whose

Proteins: Composed of 20 amino acids

Produced from DNA using 3 operations or transformations:

Gene : Sequence of hundreds of individual

Alignment given two or more input biological

Pair-wise Sequence alignment

Alignment score can be calculated

Need for alignment

Two sequences are homologous if they

Helps to construct evolution tree or phylogenetic tree

Build up Optimal Sequences

Dot matrix plot

Uses boolean matrices to represent alignments

that can be detected visually

BLAST Basic Local Alignment Search Tool

BLAST Local Alignment

Finds regions of local similarity between biosequences

DNA word size 11 bases

Variants : MEGABLAST (long alignments),

Goal To find common patterns among all

More complex than Pair wise alignment

To build gene / protein families

Series of pair-wise alignments

Computes all possible pair wise alignments by

Multiple Sequence alignment

Hidden Markov Models

HMM for Biological

Finding CpG Islands

Methylation process converts

CpG occurrence rare

Given a short sequence is it

Probability of a symbol depends only on

Hidden Markov Model

Used to find all CpG islands in a long DNA

Hidden because the states visited in generating a

Hidden Markov Models

Evaluation: Given a sequence x

determine probability P(x) Forward

You might also like