Data Mining Vorlesung WS 2006/07
Vorlesung 2SWS, DaMi, 080019, ECTS-Credits 6, Praktische Informatik
Zeit und Ort: Fr. 8.15- 9.45, LMS2 - R.Ü1
Erste Vorlesung: 20.10.2006
Übungen betreut durch Dipl.Inf. Gunar Fiedler, donnerstags 10.15- 11.45; erste Übung: 26.10.

Data Mining beschäftigt sich mit dem maschinellen Auffinden von Klassifikationsfunktionen,  Regeln und anderen formalisierbaren Zusammenhängen innerhalb von großen Datenmengen. Typische Daten sind z.B. die Kaufaktivitäten von Kunden, Worthäufigkeiten in Spam-Emails oder die Logs von Webserverzugriffen. Beispielhafte Anwendungen umfassen Aussortieren von Spam-Emails, Aufspüren von Insiderhandel auf den Börsen, Klassifizieren von Zielpersonen einer Marketingkampagne, oder das Erkennen von Anomalien im Betrieb von Computersystemen.
Wir möchten uns in dieser Vorlesung vorwiegend mit den algorithmischen Grundlagen des Data Mining beschäftigen, jedoch diese im Kontext der Anwendungen kennen lernen. Zu den Algorithmen gehören u.a. diverse Klassifikationstechniken, Assoziationsregeln, das Clustering, und Methoden der Zeitreihenanalyse. Weitere wichtige Themen umfassen Datenaufbereitung, Selektion signifikanter Attribute, und die Bewertung der Klassifikationsgüte.
Vorraussetzungen: Grundkenntnisse der Wahrscheinlichkeitsrechnung, Statistik und Logik, Datenbanken I, Informatik I - IV
Literatur:
Daniel T. Larose: Discovering Knowledge in Data, Wiley-Interscience, 2005.
Tom Mitchell, Machine Learning, McGraw Hill, 1997.
Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001.
Ian H. Witten, Elbe Frank: Data Mining. Morgan Kaufmann Publishers, 1999 (auch als deutsche Ausgabe verfügbar), oder 2005 (2nd edition).
Nong Ye (editor), The Handbook of data mining, Lawrence Erlbaum Associates Publishers, 2003.
Nada Lavrac, Saso Dzeroski, Inductive Logic Programming: Techniques and Applications. Ellis Horwood, 1994, (freier Download).
Tools:
KXen (in den Labs und students editions)
Weka 3.4 Software, http://www.cs.waikato.ac.nz/ml/weka/ 
1. Mathematische GL
2. Klassifikation
3. Assoziationen
4. Modellierung
5. Cluster-Analyse
6. Anomalien