====== Data Mining A.A. 2007/08 ====== Docenti: * Fosca Giannotti, [[fosca.giannotti@isti.cnr.it]] * Mirco Nanni, [[mirco.nanni@isti.cnr.it]] * KDD LAB - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it ====== News ====== * Gli studenti che devono ancora sostenere l'esame (scritto e/o presentazione progetto) possono farlo su appuntamento. Si prega di contattare il docente. * Ricevimento collettivo: venerdì 30 maggio, ore 11-13, aula C1 * Pubblicati i risultati della prima verifica intermedia (3 aprile 2008) * Fissati aula e orario per la **prima verifica intermedia**: 3 aprile, ore 9-12, aula C1 ====== Obiettivi del corso ====== La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti: - i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati; - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi; - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. - l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza ====== Orario e Aule ====== **Lezioni:** * Martedì, ore 14-16, aula I1 * Giovedi, ore 11-13, aula B **Ricevimento:** * Giannotti: mercoledì 15-17, ISTI, Area Ricerca CNR, località San Cataldo, Pisa (prenotazione per e-mail) ====== Libro di Testo ====== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006 * [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php]] ====== Riferimenti bibliografici ====== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006 * Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8 * U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996. * Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002 ====== Calendario delle lezioni ====== Calendario confermato: ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^ |1.| Martedì, Febbraio 19, 14-16 | Aula I1 | //Presentazione del corso// | | Giannotti | |2.| Giovedì, Febbraio 21, 11-13 | Aula B | //Cosa è il Data Mining, Motivazioni, Classi di applicazioni, I principali metodi di datamining (Cap. 1)// | {{dm:chap1_intro.pdf|Slide Cap. 1}} | Giannotti | |3.| Martedì, Febbraio 26, 14-16 | Aula I1 | //I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati (Cap. 2) // | {{dm:chap2_data.pdf|Slide Cap. 2}} | Nanni | |4.| Giovedì, Febbraio 28, 11-13 | Aula B | //I Dati: misure di similarità (Cap. 2)// | | Giannotti | |5.| Martedì, Marzo 4, 14-16 | Aula I1 | //I Dati: Esplorazione dei dati (Cap.3)// | {{dm:chap3_data_exploration.pdf|Slide Cap. 3}} | Giannotti | |6.| Giovedì, Marzo 6, 11-13 | Aula B | //Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.4, 6.7) // | {{dm:chap6_basic_association_analysis.pdf|Slide Cap. 6}} | Giannotti | |7.| Martedì, Marzo 11, 14-16 | Aula I1 | //Regole Associative: tassonomie, regole quantitative (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | {{dm:chap7_extended_association_analysis.pdf|Slide Cap. 7}} | Giannotti | |8.| Giovedì, Marzo 13, 11-13 | Aula B | //Regole Associative: Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | | Giannotti | |9.| Martedì, Marzo 18, 14-16 | Aula I1 | //Regole Associative: Esercitazione// | | Giannotti | |10.| Giovedì, Marzo 20, 11-13 | Aula B | //Clustering - Introduzione e Algoritmo k-means (Cap. 8: 8.1, 8.2)// | {{dm:chap8_basic_cluster_analysis.pdf|Slide Cap. 8}} | Nanni | |11.| Giovedì, Marzo 27, 11-13 | Aula B | //Clustering - Algoritmi gerarchici e density-based (Cap. 8: 8.3, 8.4, 8.5.1) // | | Nanni | | | Giovedì, Marzo 27, 16-18 | A. Riun. Ovest | //Ricevimento collettivo // | | | |12.| Giovedì, Aprile 3, 9-12 | Aula **C1** | **VERIFICA** | | | |13.| Martedì, Aprile 8, 14-16 | Aula I1 | //Classificazione con alberi di decisione, Algoritmo C4.5// | {{:dm:dm_8_aprile_08.pdf|}}| Giannotti | |14.| Giovedì, Aprile 10, 11-13 | Aula B | //Classificazione: esercitazione (Cap. 4: 4.1, 4.2, 4.3) // |{{:dm:2tdm_classificazione.pdf|}} | Giannotti | |15.| Martedì, Aprile 15, 14-16 | Aula I1 | // Strumenti di Data Mining: Clementine // | | Nanni | |16.| Giovedì, Aprile 17, 11-13 | Aula B | // Casi di studio: Redemption - Customer Segmentation, Strumenti di Data Mining: Weka (1)// | {{:dm:redemption.pdf|Redemption}} {{:dm:segmentation.pdf|Segmentation}} | Nanni | |17.| Martedì, Aprile 22, 14-16 | Aula I1 | // Casi di studio: Fraud detection, Strumenti di Data Mining: Weka (2)// | {{:dm:fraud_detection.pdf|Fraud detection}} {{dm:esempio_kf.zip|Esempio-flow-Weka}} | Nanni | |18.| Martedì, Aprile 29, 14-16 | Aula I1 | // Presentazione progetti, Modello Crisp-DM, Caso di studio: COOl Patterns // | {{dm:progetti_adec_2008.pdf|Progetti}} {{:dm:crisp-dm.pdf|CRISP-DM}} {{:dm:casestudy3.coop-colla.adec2007.pdf|Market Basket}}| Nanni | |19.| Martedì, Maggio 6, 14-16 | Aula I1 | // Correzione verifica // | {{:dm:dm.projects..2008_1_.pdf|}}| Giannotti | |20.| Giovedì, Maggio 8, 11-13 | Aula B | // Privacy e Data Mining: aspetti legali ed algoritmici // | {{:dm:ppdm.08.05.08.pdf|}}| Giannotti | |21.| Martedì, Maggio 20, 14-16 | Aula I1 | // Reti Sociali e Data Mining // | {{:dm:han.ppt|}}| Giannotti | ====== Verifiche 2007 e anni precedenti ====== === Verifiche anni precedenti (sottoinsieme) === * {{tdm:verifica2006.pdf|Verifica 2006}} * {{tdm:verifica2005.pdf|Verifica 2005}} (con soluzioni) * {{tdm:verifica2004.pdf|Verifica 2004}} === Verifiche 2007 (appelli giugno-luglio) === * {{dm:verifica.05.06.2007.pdf|Verifica 5 giugno 2007}} * {{dm:verifica.26.06.2007.pdf|Verifica 26 giugno 2007}} * {{dm:verifica.24.07.2007_corretto.pdf|Verifica 24 luglio 2007}} / {{dm:verifica.24.07.2007_soluzioni.pdf|Soluzioni}} (NOTA: il testo qui riportato potrebbe differire in alcuni dettagli da quello usato nella verifica, in seguito alla correzione di alcuni errori di editing) === Verifiche 2008 === * {{:dm:verifica.2008.04.03.pdf|Verifica 3 aprile 2008}} / {{:dm:soluzioni.2008.04.03.pdf|Soluzioni}} * {{:dm:dm-tdm.appello_2008_07_18_parte1.pdf|Verifica 18 luglio 2008 - parte 1}} * {{:dm:dm-tdm.appello_2008_07_18_parte2.pdf|Verifica 18 luglio 2008 - parte 2}} ====== Progetti ====== * Descrizione progetti: {{dm:progetti_adec_2008.pdf|Progetti}} * Domande frequenti e Informazioni generali sui progetti: [[blog.progetti.2008]] ====== Appelli di esame ====== ===== Verifiche intermedie ===== ^ Data ^ Orario ^ Luogo ^ Voti ^ | 3 aprile 2008 | 9.00 - 12.00 | Aula C1 | {{:dm:compiti_aggiornati.pdf|Risultati (aggiornati)}} | | 4 giugno 2008 | 9.00 - 12.00 | Aula D1 | {{:dm:risultati.2008.06.04aggiornato.pdf|Risultati (aggiornati)}} | ===== Appelli regolari ===== ^ Tipo di prova ^ Data ^ Orario ^ Luogo ^ Voti ^ | Scritto | 12 Giugno 2008 | 9.30 - 12.30 | aula C1| {{:dm:voti120608_aggiornati.pdf|Risultati (Aggiornati)}}| | Scritto | 2 Luglio 2008 | 9.00 - 12.00 | aula D1 | {{:dm:voti020708.pdf|Risultati}}| | Presentazione progetto | 10 Luglio 2008 | 9.00 | Aula riunioni ovest, Dip. Informatica | | Scritto | 18 Luglio 2008 | 15.00 - 18.00 | aula C1 | {{:dm:voti.2008.07.18.pdf|Risultati (Aggiornati)}} | | Presentazione progetto | 21 Luglio 2008 | 10.00 | c/o studio prof.ssa Giannotti, CNR | | Scritto | 11 settembre 2008 | 9.30 - 12.30 | aula D1 | {{:dm:voti.11.09.2008.pdf|Risultati}}| | Presentazione progetto | 26 settembre 2008 | 10.00 | Aula seminari est | | Scritto e/o Presentazione progetto | Gennaio-Febbraio 2009 - **Su appuntamento** | tbd | tbd | ====== Edizioni anni precedenti ===== * [[dm.2006-07]]