Prof. Claudio Sartori

Data mining


Informativa Privacy

Software

  • Weka - Data Mining with open source machine learning software in Java
  • se non è disponibile sulla macchina, scaricare e installare
  • presentazione di Weka e della sua interfaccia grafica

Esercitazioni

  • esercitazione A
    1. si esegua l'esercitazione specificata a questo link
    2. regole associative in Weka
      1. si utilizzino i risultati del passo precedente e si esegua l'esercitazione specificata a questo link
      2. considerare il dataset "retail" a questa pagina
        • trasformarlo in formato csv in modo che possa essere compreso da weka
        • la trasformazione deve generare tante colonne quanti sono i valori distinti e in ogni riga generare simboli T o F a seconda della presenza o assenza di quel valore; può essere effettuata con un programma in qualunque linguaggio
        • il file csv deve contenere una prima riga con i nomi degli attributi separati da virgole
        • applicare l'algoritmo di scoperta di regole associative e commentare i risultati
  • esercitazione B
    1. clustering in Weka
    2. il quesito e i dati sono riportati al seguente link
      • comprendere bene la natura dei dati e il quesito
      • trasformare i dati in forma accettabile per Weka
      • in caso di difficoltà a caricare o elaborare l'intero data set, effettuare un campionamento producendo un data set ridotto;
      • provare il campionamento di Weka o, in alternativa
      • il campionamento di una frazione f di record può essere effettuato scrivendo un semplice programma
        • apri il file a in lettura e un secondo file b in scrittura
        • ripeti finché ci sono record in a
        • leggi un record da a
        • genera un numero a caso r fra 0 e 1
        • se r <=f scrivi il record su b
        • NB: questo è un campionamento che non può prendere lo stesso record più volte; come si fa un campionamento che permette di prendere un record più volte? (tecnicamente si direbbe "campionamento con reimbussolamento"
      • rispondere al quesito e scrivere una breve relazione sull'attività svolta
  • esercitazione C - Classificazione in Weka
    • eseguire questa esercitazione
    • con lo stesso insieme di dati di training e di classificazione del punto precedente usare un classificatore Multilayer Perceptron
    • sperimentare diverse configurazioni dei parametri nei due casi, confrontare e commentare i risultati
  • esercitazione D
    1. considerare il seguente file di log di un server web
    2. in particolare, interessa studiare l'accesso alle pagine di questo sito e individuare le aree più utilizzate, quelle meno utilizzate ed eventuali problemi di navigazione
    3. il file compresso contiene diversi file di log, di periodi consecutivi, che devono essere riuniti in un unico file per il trattamento;
    4. una volta generato il file completo sottoporlo ad analisi con un programma di web analysis disponibile in rete, come ad esempio weblogexpert o WebAnalytics
    5. studiare i risultati dell'analizzatore e fornire una breve relazione
    6. produrre un dataset ridotto che considera soltanto gli accessi ai files della sottodirectory "~csartori" e fornire un'analisi di questo dataset
    7. studiare come trasformare il file in forma utilizzabile in Weka per la formazione di cluster.
    8. uso di Weka e Knowledge Flow, regressione logistica e curva ROC

Per qualsiasi problema su questa pagina contattare il webmaster.