Logo: Leibniz Universität Hannover Logo: Fachgebiet Datenbanken und Informationssysteme
 

Seminar zu Datenbanksystemen (WinSem 2009/10)

Thema: Datenbereinigung und Datenintegration

Seminar:   2 S; Besprechungen n.V., Vortragstermine im Januar 2010, vorauss. jeweils Di 16:00-18:30, F 435

Feinere, verwandte Stichworte: Duplikaterkennung, Duplikatbereinigung, Matching, Datenfusion; Datenqualität

Wie in jedem Seminar geht es um das Studieren, Verstehen und Umsetzen vorgegebener Literatur (meist in Englisch) in eine eigene Ausarbeitung (in Deutsch) und danach in eine Vortragspräsentation. Für alle Schritte vom Textverstehen bis zur Vortragsvorbereitung wird eine Betreuung angeboten.

Teilnehmerkreis: Das Seminar wird vorrangig für Studierende im Masterstudiengang Informatik angeboten, die Kenntnisse über Datenstrukturen und Datenbanksysteme mitbringen. Für Studierende nach PO 2004 bleibt das Seminar unbenotet, für Studierende nach PO 2009 wird eine Note vergeben

In diesem Seminar besteht Anwesenheitspflicht für alle teilnehmenden Studenten. Alle weiteren Interessenten sind herzlich eingeladen zuzuhören und ggf. mitzudiskutieren.

Betreuer Raum Telefon Sprechstd. E-Mail
Prof. Dr. Udo Lipeck C 102 4951 Di 10:30-12:00 und n.V. ul (at) dbs.uni-hannover.de
Dr. Hans H. Brüggemann C 105 4953 n.V. jb (at) dbs.uni-hannover.de
Dipl.-Math. Christian Stahlhut C 103 4960 n.V. cst (at) dbs.uni-hannover.de
M. Sc. Hendrik Warneke C 101 4242 n.V. hwa (at) dbs.uni-hannover.de


Ablauf:

  • Themenvergabe:
    bei Vorbesprechung in KW 27 (02.07.09)
    bzw. bei Nachmeldungen bis KW 34 (23.08.09):
    Vergabe von Themenblöcken (s.u.) an Teilgruppen
  • Einstieg:
    Lesen der Übersichtsartikel bzw. überblickartiges Lesen der Langtexte;
    Besprechung der Teilgruppen mit Betreuer und Themenvereinbarung
    (1-2-seitige stichwortartige Übersicht über Texte mitbringen!)
  • Vorbereitung und Vorbesprechungen mit Betreuer:
    zwei, bei Bedarf drei Besprechungen pro Vortrag oder Vortragsgruppe:
    1. evtl. früh inhaltliche Fragen, :
    2. Vortragstermin –2 Wochen: Ausarbeitung:
      (Extended Abstract, max. 10. Seiten, bitte in Vortragsgruppe gegs. lesen), :
    3. Vortragstermin –1 Woche: Vortragskonzept:
  • Ursprünglich geplante Durchführung:
    Bis zu 12 Vorträge, vorzugsweise in paar/tripel-weiser Vorbereitung,
    in KW 49-51 und 1-4 (Dez./Jan.), pro Termin 2,5 Stunden mit 2 Vorträgen.
  • Tatsächliche Durchführung:
    4 Vorträge, am 19. und 26.01.10, pro Termin 2,5 Stunden mit 2 Vorträgen.

Themenblöcke

  • I) Duplicate Detection
    • Übersichtsartikel: Elmagarmid, A. K., Ipeirotis, P. G., Verykios, V. S.: Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge and Data Engineering 19, 1 (2007), 16pp. (pdf)
      und weitere, insb. dort zitierte Artikel
    • in mind. 2-3 Vorträgen ausgewählte Ansätze vertiefen; mögliche Richtungseinteilung:
      1. distanzbasierte Methoden
      2. lernende Methoden (a)
      3. lernende Methoden (b)
    • 1-2 Vorträge waren vergeben, Teilnehmer haben abgesagt.
  • II) Duplicate Detection in XML Data
    • Langtext: Melanie Weis: Duplicate Detection in XML Data. Dissertation, Humboldt-Universität Berlin, 2007, 200pp. (pdf)
      und redundante Artikel der Autorin = Veröffentlichungen einzelner Schwerpunkte
    • in 1-2 Vorträgen Schwerpunktbeiträge vorstellen; mögliche Einteilung:
      4. Ähnlichkeitsmaße für XML-Daten und Algorithmen für Graph-Daten (Kap. 5,7)
      5. Beispielsystem XClean und Skalisierbarkeit von Algorithmen (Kap. 8,10)
    • 2 Vorträge sind vergeben. Betreuer: H.H.Brüggemann
  • III) Schema Matching
    • Übersichtsartikel: E. Rahm and P. A. Bernstein: A survey of approaches to automatic schema matching. VLDB Journal, 10(4):334–350, 2001, 17pp. (pdf)
      [stark klassifizierend, relativ alt]
      und wichtige Folgearbeiten, insb. zu CUPID 2001 (pdf) und COMA 2002 (pdf) ... COMA++ 2007 (pdf)
    • in 1 Vortrag ausgewählte (spätere) Ansätze vertiefen und einordnen :
      6. Generisches Schema-Matching
      7. Kombination von Schema-Matching-Methoden
    • 1 Vortrag ist vergeben. Betreuer: U.Lipeck
  • IV) Data Fusion
    • Übersichtsartikel: Jens Bleiholder, Felix Naumann: Data fusion. ACM Comput. Surv. 41(1): (2008), 41pp. (pdf, und vgl. pdf)
      [auch mit Beispiel, eigenem Schwerpunkt, und Klassifikation von Systemen]
      und weitere, insb. dort zitierte Artikel
    • in mind. 2-3 Vorträgen ausgewählte Ansätze vertiefen; Einteilung:
      8. Relationenalgebraische Techniken zur Datenfusion
      9. Konfliktauflösende Systeme
      10. Konsistente Anfragebeantwortung / Konflikt-vermeidende Systeme
    • 1 Vortrag ist vergeben. Betreuer: H.Warneke
Lokale Kopien von Volltexten werden nur für Seminarzwecke und nur passwortgeschützt bereitgestellt; diese dürfen nicht weiter verbreitet werden.

Vorträge

Block Thema Vortragende(r) Ansprech-
partner
vorauss.
Datum
vorauss.
Zeit und Ort
Links zu Ausarbeitung
und Vortrag
 
II Duplikaterkennung II.4) Duplikaterkennung in XML Irina Oelze jb Di 19.01. 16:00-
17:15h
F 435
Ausarbeitung & Vortrag
IV Data Fusion IV.1) Relationale Techniken zur Datenfusion Jiankang Yuan hwa Di 26.01. 16:00-
17:15h
F 435
Ausarbeitung & Vortrag

Auch die Vorträge werden passwortgeschützt bereitgestellt.

Weitere Tipps (Links)



letzte Änderung:  27. January 2010, 09:32

Impressum - Haftungsausschluss