| Prof. Claudio Sartori | |||||
| Calendario Lezioni di "Processi e Tecniche di Data Mining" | |||||
| Il presente calendario è puramente indicativo, gli argomenti delle lezioni future possono cambiare | |||||
| Data | Ora | Argomenti | Durata | Luogo | |
| 24.set.14 | 14 | 00 | Generalita' sul processo di scoperta di conoscenza. Esempi di problemi. Tipi di scoperta del data mining, Aree e scenari applicativi. Richiami sui concetti legati alla probabilità. | 180 | Aula 7.7 |
| 25.set.14 | 9 | 00 | Tipologie di dati di interesse per il data mining. Categorici, ordinali, intervallo, ratio. Elaborazioni e trasformazioni utilizzabili sulle varie tipologie. Misure di prossimità, problemi relativi alla dimensionalità. tecniche di discretizzazione e pre-processing. | 120 | Aula 5.4 |
| 01.ott.14 | 14 | 00 | Regole associative, definizione e metodologie, applicazione alla Market Basket Analysis. Definizione di regola associativa, supporto e confidenza. Algoritmo Apriori per il calcolo delle regole associative. Calcolo degli itemset frequenti. Discussione sulla complessità computazionale. | 120 | Aula 7.7 |
| 02.ott.14 | 9 | 00 | Altri metodi per il calcolo degli itemset frequenti. Ricavare le regole dagli itemset frequenti. Discussioni sulla complessità computazionale. Utilizzo delle regole associative ricavate. Problemi e affidabilita' delle regole. Esempio di generazione di regole associative con Weka. Preparazione dei dati ed esecuzione dell'algoritmo Apriori, commento dei risultati. Definizione dei parametri di lift e leverage. Confronto con la correlazione. | 120 | Aula 5.4 |
| 08.ott.14 | 14 | 00 | Regole associative in dataset multidimensionali. Trasformazioni dal caso transazionale a quello multidimensionale e viceversa. Classificazione e predizione: differenze e problemi generali. Training set e test set. Classificazione con alberi di decisione. Definizione di guadagno informativo. Uso del guadagno informativo nella costruzione di un albero di decisione. Problema dell'overfitting. Errore sul training set e sul test set | 240 | Aula 7.7 |
| 09.ott.14 | 9 | 00 | Esercitazione di laboratorio: regole associative per Market Basket Analysis. Particolarità del formato arff. Metodo generale di costruzione di alberi di decisione: l'algoritmo di Hunt. | 120 | Aula 5.4 |
| 15.ott.14 | 14 | 00 | Classificazione in presenza di attributi a valori reali. Indici di impurita' delle regole. Discussione sulla complessità computazionale dell'induzione di alberi di decisione. Valutazione di classificatori, metodi hold-hout, cross validation e bootstrap. Matrici di confusione, valutazioni pesate. | 180 | Aula 7.7 |
| 16.ott.14 | 9 | 00 | Bayesian belief networks. Classificatore basato su percettrone lineare. | 120 | Aula 5.4 |
| 22.ott.14 | 14 | 00 | Classificazione con reti neurali. Topologia di reti neurali: strato di input, strato nascosto, strato di output. Multilayer Perceptron Network. Addestramento della rete con backpropagation. Tasso di apprendimento e bias. Support Vector Machines lineari e non lineari. | 180 | Aula 7.7 |
| 23.ott.14 | 9 | 00 | Valutazione di un classificatore probabilistico. Diagrammi ROC. Introduzione al concetto di clustering. Algoritmo delle k-medie. | 120 | Aula 5.4 |
| 29.ott.14 | 14 | 00 | Algoritmi di clustering gerarchico. Algoritmi di clustering basati sulla densita': DBSCAN. | 180 | Aula 7.7 |
| 30.ott.14 | 9 | 00 | Esercitazione di laboratorio su Weka: clustering con k-means e db-scan. Valutazione di qualità dei cluster. Altri algoritmi di clustering: metodi kernel, expectation maximization. | 120 | Aula 5.4 |
| 05.nov.14 | 14 | 00 | - | ||
| 06.nov.14 | 9 | 00 | Ruolo degli standard nel DM. PMML e aree coperte. Componenti di PMML e loro relazioni. Composizione di modelli. PMML: produttori e consumatori di modelli. Preparazione dei dati in PMML. Casi di studio | 120 | Aula 5.4 |