====== Data Mining A.A. 2008/09 ====== Docenti: * Fosca Giannotti, [[fosca.giannotti@isti.cnr.it]] * Mirco Nanni, [[mirco.nanni@isti.cnr.it]] * KDD LAB - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it ====== News ====== * **[30/08/2009]** I risultati dell'appello del 21 luglio 2009 sono online. * **[06/07/2009]** I risultati dell'appello del 30 giugno 2009 sono online. * **[29/06/2009]** I risultati dell'appello del 12 giugno 2009 sono online. * **[08/06/2009]** I risultati della seconda verifica sono online. * **[22/05/2009]** La seconda verifica è stata spostata al pomeriggio di giovedì 28 maggio. L'appello dell'8-12 giugno verrà invece spostato, causa coincidenza con elezioni europee. * Le date della seconda verifica e degli appelli sono state fissate, anche se in modo non definitivo. * Giovedì 21 maggio 2009 ci sarà una lezione extra di esercitazione. * La verifica intermedia del 7 aprile è stata anticipata alla mattina dello stesso giorno. * Gli studenti che devono ancora sostenere l'esame (scritto e/o presentazione progetto) possono farlo su appuntamento. Si prega di contattare il docente. ====== Obiettivi del corso ====== La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti: - i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati; - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi; - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. - l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza ====== Orario e Aule ====== **Lezioni:** * Martedì, ore 14-16, aula C1 * Giovedi, ore 11-13, aula D1 **Ricevimento:** * Giannotti: mercoledì 15-17, ISTI, Area Ricerca CNR, località San Cataldo, Pisa (prenotazione per e-mail) ====== Libro di Testo ====== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006 * [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php]] ====== Riferimenti bibliografici ====== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006 * Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8 * U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996. * Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002 ====== Calendario delle lezioni ====== ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^ |1.| Martedì, Febbraio 24, 14-16 | Aula C1 | //Presentazione del corso: motivazioni, classi di applicazioni // | {{:dm:dm_intro-1-2_2009.pdf|}} | Giannotti | |2.| Giovedì, Febbraio 26, 11-13 | Aula D1 | //principali metodi di DM (Cap.1) // | idem | Nanni | |3.| Martedì, Marzo 3, 14-16 | Aula C1 | //I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati - Misure di similarità (Cap.2) // | {{:dm:chap2_data.pdf|}} | Giannotti | |4.| Giovedì, Marzo 5, 11-13 | Aula D1 | //I Dati: Esplorazione dei dati (Cap.3)// | {{:dm:chap3_data_exploration.pdf|}} | Giannotti | |5.| Martedì, Marzo 10, 14-16 | Aula C1 | //Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.4, 6.7) // | | Giannotti | |6.| Giovedì, Marzo 12, 11-13 | Aula D1 | //Regole Associative: tassonomie, regole quantitative (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | | Giannotti | |7.| Martedì, Marzo 17, 14-16 | Aula C1 | //Regole Associative: Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | | Giannotti | |8.| Giovedì, Marzo 19, 11-13 | Aula D1 | //Clustering - Introduzione (Cap. 8: 8.1)// | {{:dm:chap8_basic_cluster_analysis.pdf|}} (Slides 1-82) | Nanni | |9.| Martedì, Marzo 24, 14-16 | Aula C1 | //Clustering - Algoritmi k-means e gerarchici (Cap. 8: 8.2, 8.3) // | idem | Nanni | |10.| Giovedì, Marzo 26, 11-13 | Aula D1 | //Clustering - Algoritmi gerarchici e density-based (Cap. 8: 8.3, 8.4, 8.5.1)// | Idem | Nanni | |11.| Martedì, Marzo 31, 14-16 | Aula C1 | //Esercitazione di preparazione alla verifica: Regole Associative e Clustering // | | Nanni | |12.| Giovedì, Aprile 2, 11-13 | Aula D1 | //Esercitazione di preparazione alla verifica: Regole Associative e Clustering// | | Giannotti | | | Martedì, Aprile 7, 11-13 | Aula D1 | **VERIFICA** | | | |13.| Martedì, Aprile 21, 14-16 | Aula C1 | //Classificazione con alberi di decisione, Algoritmo C4.5// | {{:dm:chap4_basic_classification.pdf|}} | Nanni | |14.| Giovedì, Aprile 23, 11-13 | Aula D1 | //Classificazione // | Idem | Nanni | |15.| Martedì, Aprile 28, 14-16 | Aula C1 | //Classificazione // | | Giannotti | |16.| Giovedì, Aprile 30, 11-13 | Aula D1 | //Classificazione: esercitazione // | | Giannotti | |17.| Martedì, Maggio 5, 14-16 | Aula C1 | // Casi di studio // | {{:dm:redemption.pdf|}} | Nanni | |18.| Giovedì, Maggio 7, 11-13 | Aula D1 | // Casi di studio / Strumenti di DM // | | Giannotti | |19.| Martedì, Maggio 12, 14-16 | Aula C1 | // Esercitazione di preparazione alla verifica: Classificazione // | | Nanni | |20.| Giovedì, Maggio 14, 11-13 | Aula D1 | // Casi di studio / Presentazione progetti // | {{:dm:coop_dw_abbandono.pdf|}} | Mazzoni/Nanni | |21.| Giovedì, Maggio 21, 11-13 | Aula D1 | // Esercitazione di preparazione alla verifica: Classificazione // | [[http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week13/Exercise11-Classification-Solution.pdf|Esercizio]] | Nanni | ====== Verifiche anni precedenti ====== === Verifiche anni precedenti (sottoinsieme) === * {{tdm:verifica2006.pdf|Verifica 2006}} * {{tdm:verifica2005.pdf|Verifica 2005}} (con soluzioni) * {{tdm:verifica2004.pdf|Verifica 2004}} === Verifiche 2007 (appelli giugno-luglio) === * {{dm:verifica.05.06.2007.pdf|Verifica 5 giugno 2007}} * {{dm:verifica.26.06.2007.pdf|Verifica 26 giugno 2007}} * {{dm:verifica.24.07.2007_corretto.pdf|Verifica 24 luglio 2007}} / {{dm:verifica.24.07.2007_soluzioni.pdf|Soluzioni}} (NOTA: il testo qui riportato potrebbe differire in alcuni dettagli da quello usato nella verifica, in seguito alla correzione di alcuni errori di editing) === Verifiche 2008 === * {{:dm:verifica.2008.04.03.pdf|Verifica 3 aprile 2008}} / {{:dm:soluzioni.2008.04.03.pdf|Soluzioni}} * {{:dm:dm-tdm.appello_2008_07_18_parte1.pdf|Verifica 18 luglio 2008 - parte 1}} * {{:dm:dm-tdm.appello_2008_07_18_parte2.pdf|Verifica 18 luglio 2008 - parte 2}} ====== Progetti ====== * Vengono proposti 5 progetti (+1 //jolly//), descritti nel seguente documento: {{:dm:progetti_adec_2009.pdf|Progetti 2009}}. * I progetti andranno svolti in gruppi preferibilmente di 2 persone, eccezionalmente anche di 1 o 3 persone. * Ogni gruppo dovrà comunicare ai docenti la propria composizione e il progetto scelto. In particolare, si richiede di indicare più precisamente l'approccio che verrà utilizzato, in termini di definizione degli obiettivi e, in linea di massima, il tipo di analisi e di metodi di mining che verranno utilizzati. In risposta a tale comunicazione verranno inviate le istruzioni per reperire i dataset di lavoro. * I progetti e le corrispondenti relazioni dovranno in linea di massima seguire le linee guida del modello CRISP-DM, brevemente riassunto nelle seguenti slide: {{:dm:crisp-dm.pdf|CRISP-DM}}. Esempio di relazione degli anni precedenti: {{:dm:1c.relazione_coop_colla.pdf|}} * La discussione del progetto avverrà in prossimità degli appelli d'esame regolari. I gruppi che intendono presentare il proprio progetto ad un dato appello sono pregati di (i) avvisare i docenti almeno 4-5 giorni prima dell'appello; e (ii) inviare la propria relazione, preferibilmente in formato PDF, almeno 2 giorni prima della'appello. Per entrambe le comunicazioni, scrivere a [[mirco.nanni@isti.cnr.it]]. * La presentazione di ogni progetto durerà tra i 20 e i 30 minuti. Al termine delle presentazioni, agli studenti verrà chiesto di fornire copia della presentazione. ===== Software ===== * I progetti possono essere svolti con qualunque software, a discrezione degli studenti, purché, ovviamente, provvisti di adeguate funzionalità di data mining. * Alcuni software di analisi potrebbero avere problemi a reggere la mole dei dati forniti. In tal caso, si consiglia di utilizzare un DBMS (Access, SQL Server, Oracle, MySQL, ...) per effettuare una adeguata selezione/sfoltimento dei dati. * Tra i software di data mining disponibili, si consigliano i seguenti: * **Weka**, scaricabile gratuitamente da questo indirizzo: [[http://www.cs.waikato.ac.nz/ml/weka/]]. * **Rialto**, scaricabile da: [[http://www.exeura.com/products.php?lan=it]]. La licenza per uso accademico (1 per gruppo) può essere richiesta ad Andrea Mazzoni: [[andrea.mazzoni@isti.cnr.it]]. ====== Appelli di esame ====== ===== Verifiche intermedie ===== ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ | 7 aprile 2009, martedì | 11-13 | Aula D1 | | [[voti.7.4.2009]] | | 28 maggio 2009, giovedì | 14-16 | Aula D1 | {{:dm:verifica.dm.2009.05.28.pdf|Testo verifica}} | [[voti.28.5.2009]] | ===== Appelli regolari ===== ^ Tipo di prova ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ | Appello 1 - scritto | 12 giugno 2009 | 10-12 | D1 | | [[appello.12.06.2009.risultati]] | | orale | 16 giugno 2009 | 10-13 | B | - | - | | Appello 2 - scritto | 30 giugno 2009 | 10-12 | D1 | {{:dm:appello.2009.06.30.pdf|Testo}} | [[appello.30.12.2009.risultati]] | | orale | 7 luglio 2009 | 10-13 | D1 | - | - | | Appello 3 - scritto | 21 luglio 2009 | 10-12 | D1 | {{:dm:appello.2009.07.21_definitivo.pdf|Testo}} | [[appello.21.07.2009.risultati]] | | orale | 24 luglio 2009 | 10-13 | D1 | - | | | Appello 4 - scritto | 3 settembre 2009 | 10-12 | C | {{:dm:appello.2009.09.03.pdf|Testo}} | [[appello.03.09.2009.risultati]] | | orale | 10 settembre 2009 | 10-12 | C | **Confermata** | | ====== Edizioni anni precedenti ===== * [[dm.2007-08]] * [[dm.2006-07]]