Informativa Privacy
|
Software
- Weka - Data Mining with open source machine learning software in Java
- se non è disponibile sulla macchina, scaricare e installare
- presentazione di Weka e della sua interfaccia grafica
Esercitazioni
- esercitazione A
- si esegua l'esercitazione specificata a questo link
- regole associative in Weka
- si utilizzino i risultati del passo precedente e si esegua l'esercitazione specificata a questo link
- considerare il dataset "retail" a questa pagina
- trasformarlo in formato csv in modo che possa essere compreso da weka
- la trasformazione deve generare tante colonne quanti sono i valori distinti e in ogni riga generare simboli T o F a seconda della presenza o assenza di quel valore; può essere effettuata con un programma in qualunque linguaggio
- il file csv deve contenere una prima riga con i nomi degli attributi separati da virgole
- applicare l'algoritmo di scoperta di regole associative e commentare i risultati
- esercitazione B
- clustering in Weka
- il quesito e i dati sono riportati al seguente link
- comprendere bene la natura dei dati e il quesito
- trasformare i dati in forma accettabile per Weka
- in caso di difficoltà a caricare o elaborare l'intero data set, effettuare un campionamento producendo un data set ridotto;
- provare il campionamento di Weka o, in alternativa
- il campionamento di una frazione f di record può essere effettuato scrivendo un semplice programma
- apri il file a in lettura e un secondo file b in scrittura
- ripeti finché ci sono record in a
- leggi un record da a
- genera un numero a caso r fra 0 e 1
- se r <=f scrivi il record su b
- NB: questo è un campionamento che non può prendere lo stesso record più volte; come si fa un campionamento che permette di prendere un record più volte? (tecnicamente si direbbe "campionamento con reimbussolamento"
- rispondere al quesito e scrivere una breve relazione sull'attività svolta
- esercitazione C - Classificazione in Weka
- eseguire questa esercitazione
- con lo stesso insieme di dati di training e di classificazione del punto precedente usare un classificatore Multilayer Perceptron
- sperimentare diverse configurazioni dei parametri nei due casi, confrontare e commentare i risultati
- esercitazione D
- considerare il seguente file di log di un server web
- in particolare, interessa studiare l'accesso alle pagine di questo sito e individuare le aree più utilizzate, quelle meno utilizzate ed eventuali problemi di navigazione
- il file compresso contiene diversi file di log, di periodi consecutivi, che devono essere riuniti in un unico file per il trattamento;
- una volta generato il file completo sottoporlo ad analisi con un programma di web analysis disponibile in rete, come ad esempio weblogexpert o WebAnalytics
- studiare i risultati dell'analizzatore e fornire una breve relazione
- produrre un dataset ridotto che considera soltanto gli accessi ai files della sottodirectory "~csartori" e fornire un'analisi di questo dataset
- studiare come trasformare il file in forma utilizzabile in Weka per la formazione di cluster.
- uso di Weka e Knowledge Flow, regressione logistica e curva ROC
|