0% found this document useful (0 votes)

2 views

Data Stream Management

Uploaded by

cb250802

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

Data Stream Management

Uploaded by

cb250802

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 46

Data Stream Systems

santanoo

Based on slides by B. Babcock et.al, “Models and Issues in Data Stream Systems”,
PODS’02.
An Overview Data and
of Streams Query Models
Outline of
this Talk Other
Approximation
Research
Queries
Issues
Data Streams
 Traditional DBMS – data stored in finite,
persistent data sets
 New Applications – data input as continuous,
ordered data streams
A data stream as a growing relational table of
potentially infinite size
Using Traditional Database
User/Application

Query Result
Query Result
… …

Loader
New Approach for Data
Streams
User/Application

Stream Query
Processor
New Approach for Data
Streams
User/Application

Register Query
Results
Data
Stream Query Stream
Processor Management
System
(DSMS)
Scratch Space
(Memory and/or Disk)
Sample Applications
 Network management and traffic engineering
(e.g., Sprint)
 Streams of measurements and packet traces
 Queries: detect anomalies, adjust routing

 Telecom call data

(e.g., AT&T)
 Streams of call records
 Queries: fraud, customer call patterns, billing
Sample Applications
 Sensor Networks
 Large number of cheap, wireless sensors
 streams of real-world measurements
 Queries: monitoring, aggregate, alert

 Web tracking and personalization

(e.g., Yahoo, Google)
 Clickstreams,user query streams, log records
 Queries: monitoring, analysis, personalization
Challenges
 Multiple,continuous, rapid, time-varying,
ordered streams
 Main memory computations
 Queries may be continuous (not just one-time)
 Evaluatedcontinuously as stream data arrives
 Answer updated over time

 Queries may be ad-hoc

 Beyond relational queries (scientific, data
mining)
Meta-Questions
 Killer-apps
 Application
stream rates exceed DBMS capacity?
 Can DSMS handle high rates anyway?

 Motivation
 Need for general-purpose DSMS?
 Not ad-hoc, application-specific systems?
 Non-Trivial
 DSMS = merely DBMS with enhanced support for
triggers, temporal constructs, data rate mgmt?
DBMS versus DSMS
 Persistent relations  Transient streams
DBMS versus DSMS
 Persistent relations  Transient streams
 One-time queries  Continuous queries
DBMS versus DSMS
 Persistent relations  Transient streams
 One-time queries  Continuous queries
 Random access  Sequential access
DBMS versus DSMS
 Persistent relations  Transient streams
 One-time queries  Continuous queries
 Random access  Sequential access
 “Unbounded” disk store  Bounded main memory
DBMS versus DSMS
 Persistent relations  Transient streams
 One-time queries  Continuous queries
 Random access  Sequential access
 “Unbounded” disk store  Bounded main memory
 Only current state matters  History/arrival-order is
critical
DBMS versus DSMS
 Persistent relations  Transient streams
 One-time queries  Continuous queries
 Random access  Sequential access
 “Unbounded” disk store  Bounded main memory
 Only current state matters  History/arrival-order is
 Relatively low update rate critical
 Possibly multi-GB arrival
rate
DBMS versus DSMS
 Persistent relations  Transient streams
 One-time queries  Continuous queries
 Random access  Sequential access
 “Unbounded” disk store  Bounded main memory
 Only current state matters  History/arrival-order is
 Relatively low update rate critical
 No real-time services  Possibly multi-GB arrival
rate
 Real-time requirements
DBMS versus DSMS
 Persistent relations  Transient streams
 One-time queries  Continuous queries
 Random access  Sequential access
 “Unbounded” disk store  Bounded main memory
 Only current state matters  History/arrival-order is
 Relatively low update rate critical
 No real-time services  Possibly multi-GB arrival
 Assume precise data rate
 Real-time requirements
 Data stale/imprecise
Outline of this Talk
 An Overview of Streams
 Data and Query Models
 Approximation Queries
 Other Research Issues
Aurora/STREAM Overview
Synopses Output streams
Query Plans
Running Op
Ready Op
Applications register
Waiting Op x p continuous queries

s s x Users issue
continuous and
ad-hoc queries

Historical
Storage Administrator monitors
query execution and adjusts
run-time parameters
Input streams
Data Model
 Append-only
 Call records
 Updates
 Stock tickers
 Deletes
 Transactional data
 Meta-Data
 Control signals, punctuations

System Internals – probably need all above

Query Model
User/Application
Query Registration
Answer Availability
• Predefined
• One-time
• Ad-hoc • Event/timer based
• Predefined, inactive • Multiple-time, periodic
until invoked • Continuous (stored or
streamed)

Query Processor

Stream Access
• Arbitrary
• Weighted history
• Sliding window
DSMS
Example Queries
John May

Central Central
Office Office

Outgoing (call_ID, caller, time, event)

Incoming (call_ID, callee, time, event)

DSMS
event = start or end
Query 1 (self-join)
 Find all outgoing calls longer than 2 minutes
SELECT O1.call_ID, O1.caller
FROM Outgoing O1, Outgoing O2
WHERE (O2.time – O1.time > 2
AND O1.call_ID = O2.call_ID
AND O1.event = start
AND O2.event = end)
 Resultrequires unbounded storage
 Can provide result as data stream
 Can output after 2 min, without seeing end
Query 2 (join)
 Pair up callers and callees
SELECT O.caller, I.callee
FROM Outgoing O, Incoming I
WHERE O.call_ID = I.call_ID
 Canstill provide result as data stream
 Requires unbounded temporary storage
Query 3 (group-by
aggregation)
 Total connection time for each caller
SELECT O1.caller, sum(O2.time – O1.time)
FROM Outgoing O1, Outgoing O2
WHERE (O1.call_ID = O2.call_ID
AND O1.event = start
AND O2.event = end)
GROUP BY O1.caller
 Cannot provide result in (append-only) stream
 Output updates?
 Provide current value on demand?
Outline of this Talk
 An Overview of Streams
 Data and Query Model
 Approximation Queries
 Other Research Issues
Impact of Limited Memory
 Continuousstreams grow unboundedly
 Queries may require unbounded memory
 [ABBMW 02]
a priori memory bounds for query
 Conjunctive queries with arithmetic comparisons
 Impact of duplication elimination

 Open – general queries

Approximate Query Evaluation
 Why?
 Handling load – streams coming too fast
 Data stream is archived in a off-site data
warehouse, expensive access of archived
data
 Avoid unbounded storage and computation
 Ad hoc queries need approximate history
 Try to look at the data items only once and
in a fixed order
Approximate Query Evaluation
 How? Sliding windows, synopsis, samples, load-
shed
 Major Issues?
 Metric for set-valued queries
 Composition of approximate operators
 How is it understood/controlled by user?
 Integrate into query language
 Query planning and interaction with resource allocation
 Accuracy-efficiency-storage tradeoff and global metric
Synopses
 Queries may access or aggregate past data
 Need bounded-memory history-approximation
 Synopsis?
 Succinct summary of old stream tuples
 Like indexes/materialized-views, but base data is
unavailable
 Examples
 Sliding Windows
 Samples
 Sketches
 Histograms
 Wavelet representation
Sketching Techniques
 Self-Join Size Estimation
 Stream of values from D = {1,2,…,n}
 Let f = frequency of value i
i
 Consider S = Σ f 2, or Gini’s index of
i
homogeneity.
 Useful in parallel DB applications, error
estimation in query result size estimation and
access plan costs.
 Equivalent query: count (R |><| R)
D
Evaluating S = Σ fi2
 To update S, keep a counter fi for each value i
in the domain D  (n) space
 Has to be kept for each self-join
 Question – estimating S in sub-linear space?

(O(log n))
Self-Join Size Estimation
 AMS Technique (randomized sketches)
 Given (f ,f ,…,f )
1 2 N

Z = random{-1,1}
i

X = Σ fiZi (X incrementally computable)

 Theorem Exp[X2] = Σ fi2
 Cross-terms fiZi fjZj have 0 expectation
 Square-terms fiZi fiZi = fi2
 Space = log (N + Σ fi)
 Independent samples Xk reduce variance
Estimation Quality
 How can independent samples Xk improve
the quality of estimation?
 Keep s x s samples for X
1 2 k

s reduces variance, s2 boosts confidence

1
s1
Atomic Avg(X1j2)
Sketch
Avg(X2j2)
Median
s2 Avg(X ) 2
3j (sketch)
Avg(X4j2)
Avg(X5j2)
Sample Run of AMS
V = 3 6 2 5 7

Z1 = 1 1 -1 1 -1 Z2 = -1 1 -1 1 1

Σvi2 = 123 X1= 5, X12 = 25 X2= 14, X22 = 196 Est = 110.5

V = 4 6 2 5 7

Z1 = 1 1 -1 1 -1 Z2 = -1 1 -1 1 1

Σ vi2 = 130, X1= 6, X12 = 36, X2= 12, X22 = 144, Est = 90
Comments on AMS
 The self-join size can be computed on-line
 Sufficiently small variance (controlled by s 1 and s2)
 Can this method be extended to answer other
queries?
Complex Aggregate Queries
 A. Dobra et al. extend the idea of AMS to provide
approximate answers to complex aggregate queries.
 SELECT AGG FROM R1,R2,…,Rr where E
 AGG: COUNT/SUM/AVERAGE
 E: conjunction of (Ri.Aj = Rk.Al)
 It is proved that the error of these estimates is at
most ε with probability 1-δ.
Basic Notions of
Approximation
 For aggregate queries (e.g., SUM, COUNT), approximation
quality can be measured by relative error:
 (Estimated value – Actual value) / Actual value
 Open question: for queries involving more than simple
aggregation, how should we define approximation?
 Consider S |><|BT: (S: {A,B}, T: {B,C})

A B C A B C
10 20.5 Doctor 8 10.3 Lawyer
8 10.3 Lawyer 3 10.2 Teacher
3 10.2 Teacher

Actual Result Approximate Result

Basic Notions of
Approximation (2)
 Can we accept this kind of approximation?
A B C A B C
10 20.5 Doctor 11 21.6 Doctor
8 10.3 Lawyer 8 10.3 Student
3 10.2 Teacher 3 10.2 Teacher

Actual Result Approximate Result

Basic Notions of
Approximation (3)
 Can we provide useful (semantically correct) but stale results?

A B C A B C
10 20.5 Doctor 10 20.5 Doctor
8 10.3 Lawyer 8 10.3 Lawyer
3 10.2 Teacher
Approximate Result
Actual Result (at time t) (correct result at time t -
)
Outline of this Talk
 An Overview of Streams
 Data and Query Model
 Approximation Queries
 Other Research Issues
Data Mining
 High-Speed Stream Data Mining
 Association Rules
 Stream Clustering
 Decision Trees

 Single-pass algorithms for infering

interesting patterns on-line (as the data
stream arrives)
 Useful for mission-critical tasks like telecom
fraud detection
Conclusion: Future Work
 Query Processing
 Stream Algebra and Query Languages
 Approximations
 Blocking Operators, Constraints, Punctuations
 Runtime Management
 Scheduling, Memory Management, Rate Management
 Query Optimization (Adaptive, Multi-Query, Ad-hoc)
 Distributed processing
 Synopses and Algorithmic Problems
 Systems
 UI, statistics, crash recovery and transaction management
 System development and deployment
References
B. Babcock, S. Babu, M. Datar, R. Motwani, J. Widom.
Models and Issues in Data Stream Systems, PODS
’02. (Paper and Talk Slides)
A. Arasu, B. Babcock, S. Babu, J. McAlister, J. Widom.
Characterizing Memory Requirements for Queries
over Continuous Data Streams, PODS ’02.
A. Dobra, M. Garofalakis, J. Gehrke, R. Rastogi.
Processing Complex Aggregate Queries over Data
Streams, SIGMOD ’02.
N. Alon, Y. Matias, M. Szegedy. The Space
Complexity of Approximating the Frequency
Moments, STOC ’96.
Thank You!

Unit 4 Notes PDF
100% (2)
Unit 4 Notes PDF
27 pages
CSE 444 Practice Problems
No ratings yet
CSE 444 Practice Problems
13 pages
FreeRADIUS Beginner's Guide
From Everand
FreeRADIUS Beginner's Guide
Dirk van der Walt
No ratings yet
Data Stream Processing - An Overview: Sangeetha Seshadri Sangeeta@cc - Gatech.edu
No ratings yet
Data Stream Processing - An Overview: Sangeetha Seshadri Sangeeta@cc - Gatech.edu
68 pages
Bda M4
No ratings yet
Bda M4
57 pages
Mining Data Streams
No ratings yet
Mining Data Streams
33 pages
Unit-II BDA
No ratings yet
Unit-II BDA
19 pages
Unit-II (Big Data)
No ratings yet
Unit-II (Big Data)
20 pages
DWDM - Unit - VII
No ratings yet
DWDM - Unit - VII
42 pages
Unit2 Bda
No ratings yet
Unit2 Bda
293 pages
Qos Management of Real-Time Data Stream Queries in Distributed Environments
No ratings yet
Qos Management of Real-Time Data Stream Queries in Distributed Environments
8 pages
DSC L2 CQL
No ratings yet
DSC L2 CQL
40 pages
Swe2011 Bda - III
No ratings yet
Swe2011 Bda - III
53 pages
FALLSEM2024-25_SWE2011_ETH_VL2024250103282_2024-08-19_Reference-Material-I
No ratings yet
FALLSEM2024-25_SWE2011_ETH_VL2024250103282_2024-08-19_Reference-Material-I
53 pages
Distributed Query Processing
No ratings yet
Distributed Query Processing
31 pages
BDA - Question Bank - 2
No ratings yet
BDA - Question Bank - 2
12 pages
An Introduction To Data Stream Query Processing: Neil Conway
No ratings yet
An Introduction To Data Stream Query Processing: Neil Conway
71 pages
Unit 4
No ratings yet
Unit 4
84 pages
BDA Mod 3
No ratings yet
BDA Mod 3
57 pages
Bda Ut2 Que Ans
No ratings yet
Bda Ut2 Que Ans
14 pages
Query Execution
No ratings yet
Query Execution
87 pages
SF8 - UNIT 2 DDB
No ratings yet
SF8 - UNIT 2 DDB
97 pages
UNIT-2 BDA
No ratings yet
UNIT-2 BDA
33 pages
Bajwa A C
No ratings yet
Bajwa A C
4 pages
NoSQL Database For Software
No ratings yet
NoSQL Database For Software
49 pages
BIG_DATA_UNIT_II_NOTES
No ratings yet
BIG_DATA_UNIT_II_NOTES
19 pages
Swe2011 Bda - III
No ratings yet
Swe2011 Bda - III
50 pages
Data Stream Management: Patrick Martin Calisto Zuzarte
No ratings yet
Data Stream Management: Patrick Martin Calisto Zuzarte
22 pages
Big Data Analytics_Unit 3
No ratings yet
Big Data Analytics_Unit 3
64 pages
Distributed Databases Data Warehousing: CPS 216 Advanced Database Systems
No ratings yet
Distributed Databases Data Warehousing: CPS 216 Advanced Database Systems
11 pages
Unit Ii BD
No ratings yet
Unit Ii BD
74 pages
Real Time Application of Database Management System Using Monitoring of Input
No ratings yet
Real Time Application of Database Management System Using Monitoring of Input
4 pages
QueryProcess Optim
No ratings yet
QueryProcess Optim
60 pages
Bda Unit II Lecture1
No ratings yet
Bda Unit II Lecture1
10 pages
Real Time Data Stream Processing Engine
No ratings yet
Real Time Data Stream Processing Engine
13 pages
Chapter 8
No ratings yet
Chapter 8
65 pages
5.1 Mining Data Streams
No ratings yet
5.1 Mining Data Streams
16 pages
Introduction To Stream Data Model
50% (2)
Introduction To Stream Data Model
15 pages
Unit 1 PDF
No ratings yet
Unit 1 PDF
33 pages
Execution
No ratings yet
Execution
37 pages
Data Streams: Immanuel Trummer
No ratings yet
Data Streams: Immanuel Trummer
94 pages
Unit 1
No ratings yet
Unit 1
28 pages
Query Execution
No ratings yet
Query Execution
25 pages
13 QP1
No ratings yet
13 QP1
33 pages
Interval Query Indexing For Efficient Stream Processing
No ratings yet
Interval Query Indexing For Efficient Stream Processing
10 pages
Unit I (Distributed Databases)
No ratings yet
Unit I (Distributed Databases)
8 pages
CSE545 Sp23 (2) Streaming Algorithms 2-4
No ratings yet
CSE545 Sp23 (2) Streaming Algorithms 2-4
60 pages
DataWarehousing - Powerpoint Canadien Cs - Sfu.ca 2e Version
No ratings yet
DataWarehousing - Powerpoint Canadien Cs - Sfu.ca 2e Version
14 pages
Data Warehouse Schemas For Decision Support
No ratings yet
Data Warehouse Schemas For Decision Support
13 pages
Continuous Queries Over Data Streams: Shivnath Babu and Jennifer Widom
No ratings yet
Continuous Queries Over Data Streams: Shivnath Babu and Jennifer Widom
12 pages
Final DBMS Unit 7
No ratings yet
Final DBMS Unit 7
48 pages
STREAM The Stanford Data Stream Management System
No ratings yet
STREAM The Stanford Data Stream Management System
21 pages
Dav Cia 2
No ratings yet
Dav Cia 2
6 pages
Chapter15 1
No ratings yet
Chapter15 1
43 pages
Database Management Systems: Instructor: Murali Mani Mmani@cs - Wpi.edu
100% (1)
Database Management Systems: Instructor: Murali Mani Mmani@cs - Wpi.edu
22 pages
Relational Query Optimization: Plan: Tree of R.A. Ops, With Choice of Alg For Each Op
No ratings yet
Relational Query Optimization: Plan: Tree of R.A. Ops, With Choice of Alg For Each Op
7 pages
Chapter 4 Bing
No ratings yet
Chapter 4 Bing
5 pages
Punishment Assignment
No ratings yet
Punishment Assignment
6 pages
4 Bda Chapter4 Answer
No ratings yet
4 Bda Chapter4 Answer
6 pages
BDA
No ratings yet
BDA
6 pages
Postgre SQL
No ratings yet
Postgre SQL
4 pages
Oracle 1z0 083 Dumps by Hyde 15-04-2024 11qa Go4braindumps
No ratings yet
Oracle 1z0 083 Dumps by Hyde 15-04-2024 11qa Go4braindumps
14 pages
Advanced SQL Injection
No ratings yet
Advanced SQL Injection
28 pages
Django Cheatsheet
No ratings yet
Django Cheatsheet
1 page
Ribbit Instagram Clone em PHP
No ratings yet
Ribbit Instagram Clone em PHP
33 pages
Db2 Redbook
No ratings yet
Db2 Redbook
350 pages
DBMS Lab Mannual
No ratings yet
DBMS Lab Mannual
13 pages
Main PRJCT Zeroth Review
No ratings yet
Main PRJCT Zeroth Review
7 pages
Cse Test 3
No ratings yet
Cse Test 3
9 pages
Tasks Overview
No ratings yet
Tasks Overview
33 pages
List of Practicals of XII Computer Science 083 Practical Files 2022 23
No ratings yet
List of Practicals of XII Computer Science 083 Practical Files 2022 23
5 pages
Node Eviction
No ratings yet
Node Eviction
14 pages
Configuring The Linux System For Oracle
No ratings yet
Configuring The Linux System For Oracle
87 pages
Postgresql Vs MySQL
No ratings yet
Postgresql Vs MySQL
17 pages
Primary, Secondary & Database Roles - by Somen Swain - Snowflake - Jan, 2023 - Medium
No ratings yet
Primary, Secondary & Database Roles - by Somen Swain - Snowflake - Jan, 2023 - Medium
7 pages
Chapter 12 13
No ratings yet
Chapter 12 13
6 pages
All COC Exam Edit
No ratings yet
All COC Exam Edit
13 pages
DBMS MCQ
No ratings yet
DBMS MCQ
32 pages
RDBMS Theory & Lab Syllabus
No ratings yet
RDBMS Theory & Lab Syllabus
5 pages
(Sign) Hendro Setiawan - Timesheet Template - Month 7
No ratings yet
(Sign) Hendro Setiawan - Timesheet Template - Month 7
3 pages
Btec HND in Computing Database Design & Development Submitted by
No ratings yet
Btec HND in Computing Database Design & Development Submitted by
5 pages
Operational Data Stores Data Warehouse: 8) What Is Ods Vs Datawarehouse?
No ratings yet
Operational Data Stores Data Warehouse: 8) What Is Ods Vs Datawarehouse?
15 pages
Ultima Forté: Required Data Inputs For Ericsson Markets 2G-3G Infrastructure (For Version 4.0 and Above)
No ratings yet
Ultima Forté: Required Data Inputs For Ericsson Markets 2G-3G Infrastructure (For Version 4.0 and Above)
28 pages
How To Build A Simple REST API in PHP - Envato Tuts+
No ratings yet
How To Build A Simple REST API in PHP - Envato Tuts+
17 pages
BDA Unit-5-PPT
No ratings yet
BDA Unit-5-PPT
39 pages
Database Management Systems Theory (4th Sem) .
No ratings yet
Database Management Systems Theory (4th Sem) .
25 pages
Unit 4 1
No ratings yet
Unit 4 1
37 pages
Data Analysis with Python and PySpark 1st Edition Jonathan Rioux pdf download
100% (1)
Data Analysis with Python and PySpark 1st Edition Jonathan Rioux pdf download
40 pages
DBMS Project Report - 19u456
No ratings yet
DBMS Project Report - 19u456
16 pages
Chapter 5 - Foundations of Business Intelligence Database and Information Management
No ratings yet
Chapter 5 - Foundations of Business Intelligence Database and Information Management
30 pages

Data Stream Management

Uploaded by

Data Stream Management

Uploaded by

Data Stream Systems

 Telecom call data

 Web tracking and personalization

 Queries may be ad-hoc

System Internals – probably need all above

Outgoing (call_ID, caller, time, event)

 Open – general queries

X = Σ fiZi (X incrementally computable)

s reduces variance, s2 boosts confidence

Actual Result Approximate Result

Actual Result Approximate Result

 Single-pass algorithms for infering

You might also like