Tecnologie e Sistemi per la Gestione di Basi di Dati e Big Data M


Programma

Architettura di un DBMS

  • Principali moduli e loro ruolo

Il Data Base fisico

  • Gestione della memoria: dispositivi, pagine e file
  • Rappresentazione di attributi e tuple
  • Lettura e scrittura di pagine: il buffer manager
  • Tipi di file
  • Valutazione dei costi di alcune operazioni di base sui file

Indici mono-dimensionali

  • Tipi di indici
  • Indici ad albero: il B-tree e il B+-tree
  • Indici hash: hash statico, hash dinamico

Gestione delle transazioni

  • Controllo della concorrenza: tipi di problemi, lock e protocollo Strict 2PL
  • Protezione dai guasti: log file, protocollo WAL, gestione del buffer e del commit, checkpoint e DB dump

Implementazione degli operatori relazionali

  • Sort (sort-merge esterno a Z vie)
  • Selezione (sequenziale, con indice, con più indici)
  • Proiezione (sort-based, hash-based, con indice)
  • Join (nested loops, block nested loops, merge scan, hash join)
  • Operatori insiemistici (unione e differenza)
  • Operatori di aggregazione

Elaborazione di interrogazioni

  • Passi del processo di elaborazione
  • Check semantici e uso dei cataloghi
  • Riscrittura di interrogazioni SQL
  • Profili statistici: valori medi e istogrammi
  • Stima dei costi e della dimensione dei risultati
  • Piani di accesso: valutazione per materializzazione e in pipeline
  • Il processo di ottimizzazione: enumerazione dei piani di accesso e regole di dominazione
  • Determinazione del piano ottimale mediante programmazione dinamica

Progettazione fisica di Basi di Dati

  • Carico di lavoro, selezione degli indici
  • Tuning delle prestazioni (indici, schema e interrogazioni)

Dati e indici multi-dimensionali (spaziali)

  • Interrogazioni spaziali: range, k-nearest neighbor, join spaziali
  • Indici per punti (k-D e k-D-B-tree, hB-tree, Grid file)
  • Indici per oggetti estesi (R-tree)
  • GiST
  • Tecniche di trasformazione dello spazio

Interrogazioni Top-k

  • Estensione di SQL per il ranking dei risultati
  • Interrogazioni Top-k mono- e multi-dimensionali: spazio degli attributi, pesatura degli attributi, funzioni distanza
  • Valutazione mediante R-tree: interrogazioni di range, k nearest neighbor e distance browsing
  • Interrogazioni Top-k di join: accessi sorted e random, funzioni di scoring. Algoritmi B0, FA, TA, CA e NRA
  • L'approccio "ranked relations"

Interrogazioni Skyline

  • Il concetto di dominazione e la relazione con le funzioni di scoring, definizione di Skyline
  • Algoritmi senza indice (NL, BNL, SFS, SaLSa) e con indice (BBS)

Big Data e Sistemi NoSQL

  • Definizioni e caratteristiche dei big data
  • Sistemi per la memorizzazione di big data

Obiettivi

Conoscenza dei principi realizzativi dei Sistemi di Gestione di Basi di Dati. Capacità di progettazione di data base fisici.

Orario delle Lezioni

  • Lunedì, 12-14, Aula 4.1
  • Mercoledì, 15-18, Aula 5.4