Strumenti Utente

Strumenti Sito


tdm:tdm-2008-2009

Tecniche di Data Mining a.a. 2008-2009

News

  • Il docente, Prof. Pedreschi, è in congedo per l'anno accademico 2009-2010. Il corso sarà tenuto dal Dr Mirco Nanni(ISTI-CNR).
  • Appelli sessione estiva 2009:
  • 3 giugno ore 15 studio Pedreschi - orali pre-appello
  • 12 giugno (scritto: ore 10:00 aula D1) - 18 giugno (orali: ore 09:00 studio Pedreschi)
  • 30 giugno (scritto: ore 10:00 aula D1) - 08 luglio (orali: ore 09:00 studio Pedreschi)
  • 21 luglio (scritto: ore 10:00 aula D1) - 24 luglio (orali: ore 09:00 studio Pedreschi)

Docenti

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi, concentrandosi su quelli più diffusi e consolidati, ma discutendo anche gli aspetti avanzati ed ancora al limite fra tecnologia metura e ricerca. Si discutono esempi di uso delle tecniche di data mining in contesti applicativi realistici, quali la market basket analysis ed il rilevamento di frodi. Il corso si conclude con cenni sugli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza;
  2. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi, sia nelle versioni standard che avanzate;
  3. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  4. cenni sugli aspetti di privacy ed etici e delle tecnologie di analisi privacy-preserving.

Orario

  • Lunedì 14-16, Aula D1
  • Giovedì 16-18, Aula A

Libro di Testo

Riferimenti bibliografici

  • Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8
  • U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996.
  • Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002

Calendario delle lezioni

Giorno/ora Aula Argomento Materiale didattico Docente
1. Lunedì, Febbraio 23 D1 Presentazione del corso lucidi Pedreschi
2. Giovedì, Febbraio 26 A Cosa è il Data Mining, Motivazioni, Classi di applicazioni, I principali metodi di datamining Pedreschi
3. Lunedì, Marzo 02 D1 Il processo di estrazione della conoscenza, esempi: previsione di frodi fiscali, analisi competitiva, etc. lucidi Pedreschi
4. Giovedì, Marzo 05 28 A I dati: i tipi di dato, la qualità dei dati, la preparazione dei dati lucidi Pedreschi
5. Lunedì, Marzo 09 D1 Misure di similarità e dissimilarità lucidi Nanni
6. Giovedì, Marzo 12 A Esplorazione dei dati: dalla statistica descrittiva alla visualizzazione lucidiNanni
7. Lunedì, Marzo 16 D1 Clustering - Algoritmo k-means lucidi Pedreschi
8. Giovedì, Marzo 19 A Lezione cancellata per impegni istituzionali del deocente
9. Lunedì, Marzo 23 D1 Pattern discovery e regole associative. Pedreschi
10. Giovedì, Marzo 26 A Regole Associative: concetti basici, algoritmi A-Priori e FP-Growth Pedreschi
11. Giovedì, Marzo 30 A Pattern discovery e regole associative. Pedreschi
12. Lunedi, Aprile 02 D1 Ricevimento collettivo e preparazione verifica lucidi Pedreschi
13. Lunedi, Aprile 06, 14-16 D1 PRIMA VERIFICA
14. Giovedì, Aprile 16 A Pattern discovery e regole associative. Pedreschi
15. Lunedi, Aprile 20 D1 Pattern sequenziali Pedreschi
Giovedi, Aprile 23 A LEZIONE CANCELLATA lucidi Pedreschi
16. Lunedi, Aprile 27 D1 Verifica per studenti internazionali ed ERASMUS
17. Giovedi , Aprile 30 A Classificazione con alberi di decisione, Algoritmo C4.5 Ruggieri
18. Lunedì, Maggio 4 D1 Classificazione con alberi di decisione, Algoritmo C4.5 lucidi lucidi Ruggieri
19. Lunedi, Maggio 11 D1 Itemset frequenti con vincoli lucidi Pedreschi
20. Giovedì, Maggio 14 A Esercitazioni su classificazione Pedreschi
21. Lunedi, Maggio 25 D1 Mobility data mining, Privacy-preserving data mining ed aspetti etici - a seguire ricevimento collettivo lucidi lucidi Giannotti Pedreschi
22. Mercoledì, Maggio 27, 14-16 I SECONDA VERIFICA

Verifiche ed esercizi

Modalità di esame

Esame scritto e orale. Lo scritto può essere sostituito dalle due verifiche in itinere.

Appelli di esame

  • 03 giugno ore 15 studio Pedreschi - orali pre-appello
  • 12 giugno (scritto: ore 10:00 aula D1) 18 giugno (orali: ore 09:00 studio Pedreschi)
  • 30 giugno (scritto: ore 10:00 aula D1) 08 luglio (orali: ore 09:00 studio Pedreschi)
  • 21 luglio (scritto: ore 10:00 aula D1) 24 luglio (orali: ore 09:00 studio Pedreschi)

Edizioni anni precedenti

Data Mining @ BISS 2009

  • Wiki del corso di Data Mining a BISS 09, Bertinoro International Spring School 2009, 9-13 Marzo 2009.

Privacy-Preserving Data Mining @ Galilei School, June-July 2009

  • Wiki of Privacy-Preserving Data Publishing and Mining a BISS 09, Dottorato di Informatica, Galilei School, Univ. Pisa, June-July 2009.
tdm/tdm-2008-2009.txt · Ultima modifica: 23/12/2009 alle 14:29 (14 anni fa) da Dino Pedreschi