Prof. Claudio Sartori
Calendario Lezioni di "Processi e Tecniche di Data Mining"
Il presente calendario è puramente indicativo, gli argomenti delle lezioni future possono cambiare
Data Ora   Argomenti Durata Luogo
24.set.14 14 00 Generalita' sul processo di scoperta di conoscenza. Esempi di problemi. Tipi di scoperta del data mining, Aree e scenari applicativi. Richiami sui concetti legati alla probabilità.  180 Aula 7.7
25.set.14 9 00 Tipologie di dati di interesse per il data mining. Categorici, ordinali, intervallo, ratio. Elaborazioni e trasformazioni utilizzabili sulle varie tipologie. Misure di prossimità, problemi relativi alla dimensionalità. tecniche di discretizzazione e pre-processing. 120 Aula 5.4
01.ott.14 14 00 Regole associative, definizione e metodologie, applicazione alla Market Basket Analysis. Definizione di regola associativa, supporto e confidenza. Algoritmo Apriori per il calcolo delle regole associative. Calcolo degli itemset frequenti. Discussione sulla complessità computazionale. 120 Aula 7.7
02.ott.14 9 00 Altri metodi per il calcolo degli itemset frequenti. Ricavare le regole dagli itemset frequenti. Discussioni sulla complessità computazionale. Utilizzo delle regole associative ricavate. Problemi e affidabilita' delle regole. Esempio di generazione di regole associative con Weka. Preparazione dei dati ed esecuzione dell'algoritmo Apriori, commento dei risultati. Definizione dei parametri di lift e leverage. Confronto con la correlazione.  120 Aula 5.4
08.ott.14 14 00 Regole associative in dataset multidimensionali. Trasformazioni dal caso transazionale a quello multidimensionale e viceversa. Classificazione e predizione: differenze e problemi generali. Training set e test set. Classificazione con alberi di decisione. Definizione di guadagno informativo. Uso del guadagno informativo nella costruzione di un albero di decisione. Problema dell'overfitting. Errore sul training set e sul test set 240 Aula 7.7
09.ott.14 9 00 Esercitazione di laboratorio: regole associative per Market Basket Analysis. Particolarità del formato arff. Metodo generale di costruzione di alberi di decisione: l'algoritmo di Hunt.  120 Aula 5.4
15.ott.14 14 00 Classificazione in presenza di attributi a valori reali. Indici di impurita' delle regole. Discussione sulla complessità computazionale dell'induzione di alberi di decisione. Valutazione di classificatori, metodi hold-hout, cross validation e bootstrap. Matrici di confusione, valutazioni pesate.  180 Aula 7.7
16.ott.14 9 00 Bayesian belief networks. Classificatore basato su percettrone lineare.   120 Aula 5.4
22.ott.14 14 00 Classificazione con reti neurali. Topologia di reti neurali: strato di input, strato nascosto, strato di output. Multilayer Perceptron Network. Addestramento della rete con backpropagation. Tasso di apprendimento e bias. Support Vector Machines lineari e non lineari. 180 Aula 7.7
23.ott.14 9 00 Valutazione di un classificatore probabilistico. Diagrammi ROC. Introduzione al concetto di clustering. Algoritmo delle k-medie.  120 Aula 5.4
29.ott.14 14 00 Algoritmi di clustering gerarchico. Algoritmi  di clustering basati sulla densita': DBSCAN.  180 Aula 7.7
30.ott.14 9 00 Esercitazione di laboratorio su Weka: clustering con k-means e db-scan. Valutazione di qualità dei cluster. Altri algoritmi di clustering: metodi kernel, expectation maximization.  120 Aula 5.4
05.nov.14 14 00   -  
06.nov.14 9 00 Ruolo degli standard nel DM. PMML e aree coperte. Componenti di PMML e loro relazioni. Composizione di modelli. PMML: produttori e consumatori di modelli. Preparazione dei dati in PMML. Casi di studio 120 Aula 5.4