Trattamento dei dati e processi aziendali
Apprendimento Automatico e Analisi Intelligente dei Dati
Il corso copre le basi per comprendere e affrontare i problemi dell'Apprendimento Automatico e del Data Mining e più in generale le problematiche relative al processo di estrazione della conoscenza da basi di dati (KDD).
Oltre all'esposizione delle principali tematiche che caratterizzano l'apprendimento automatico (classificazione, clustering, estrazione di pattern ricorrenti) si vuole fornire allo studente una base di conoscenza di statistica e di teoria dell'informazione necessari per capire e utilizzare i fondamenti teorici di questi approcci.
Inoltre, si vogliono proporre alcune tecniche per affrontare l'analisi dei dati su grandi volumi di dati, quali le tecniche di pre-processing (pulizia dei dati, il campionamento, selezione delle dimensioni) e la validazione sui dati dei risultati dell'analisi e la loro interpretazione.
Infine si vuole proporre allo studente un ambiente di programmazione e analisi dati. Si utilizzerà Sci-kit Learn in Python e si proporranno alcune esperienze pratiche di analisi dataset pubblici e reali (UCI).
This course covers the fundamentals to understand and tackle the problems of Machine Learning and Data Mining.
More in general, it treats the tasks and the steps of the Knowledge Discovery Process from Data (KDD).
Beyond the main topics that characterise Machine Learning (classification, clustering, pattern discovery) we wish to provide a base knowledge of statistics and information theory, which are needed to understand the theoretical foundations of these approaches.
Furthermore, we wish to illustrate some techniques to afford the data analysis on big data, such as for the pre-processing steps (data cleaning, sampling, feature selection) and the evaluation on data of the analysis results and their interpretation.
Finally we wish to use a programming and data science environment. We will use Sci-kit Learn in Python and we will propose some practical experiences of data analysis on public and real datasets (UCI).