Digitale Netzwerkanalyse dramatischer Texte

https://lina.digital

Peer Trilcke¹, Mathias Göbel², Dario Kampkaspar³

  1. Seminar für Deutsche Philologie, Univ. Göttingen
  2. Staats- und Universitätsbibliothek Göttingen
  3. Herzog August Bibliothek Wolfenbüttel

Präsentation: http://lina.digital/presentations/2016-berlin/

Berlin, Tagung »Digitale Geschichtswissenschaft«, 8.2.2016

Präsentation lizenziert unter CC-BY 4.0.

Gliederung

  1. Das dlina-Projekt. Ein Überblick
  2. Der Prozess der Datenedition
  3. Play(s). Crowd Editing
  4. »from numbers to meaning«

1. Das dlina-Projekt. Ein Überblick

1. Das dlina-Projekt. Ein Überblick

465 Dramennetzwerke

465 netzwerke

Download des Posters

1. Das dlina-Projekt. Ein Überblick

Zentralitätswerte zu Figuren aus »Emilia Galotti«

Character Degree Betweenness Centrality Average Distance Closeness Centrality
MARINELLI 9 16.3 1.25 0.8
DER PRINZ 8 30.83 1.33 0.75
CLAUDIA GALOTTI 7 3.0 1.67 0.6
ODOARDO GALOTTI 6 3.63 1.5 0.67
EMILIA 6 3.63 1.5 0.67
PIRRO 5 1.75 1.83 0.55
ORSINA 4 0.8 1.67 0.6
APPIANI 4 0.25 1.92 0.52
BATTISTA 4 0.8 1.67 0.6
ANGELO 2 2.08 0.48
DER KAMMERDIENER 1 2.25 0.44
CONTI 1 2.25 0.44
CAMILLO ROTA 1 2.25 0.44

Ausschnitt aus der Datei drama_character_values.html. Werte berechnet mit dramavis (Frank Fischer / Christopher Kittel), siehe Blogpost zu dramavis sowie dramavis bei GitHub

1. Das dlina-Projekt. Ein Überblick

The general methodological problem of the digital humanities can be bluntly stated: How do we get from numbers to meaning? The objects being tracked, the evidence collected, the ways they’re analyzed—all of these are quantitative. How to move from this kind of evidence and object to qualitative arguments and insights about humanistic subjects—culture, literature, art, etc.—is not clear.

Ryan Heuser & Long Le-Khac: A Quantitativ Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method (= Pamphlets of the Stanford Literary Lab 4), Mai 2012, S. 46. URL: http://litlab.stanford.edu/LiteraryLabPamphlet4.pdf.

1. Das dlina-Projekt. Ein Überblick

Wer wir sind

  • dlina = digital literary network analysis
  • interinstitutionelle Arbeitsgruppe aus Literaturwissenschaftlern und Informatikern

  • Kernmitglieder: Frank Fischer, Dario Kampkaspar, Mathias Göbel, Peer Trilcke
  • assoziierte Mitglieder derzeit: Christopher Kittel, Hanna-Lena Meiners

1. Das dlina-Projekt. Ein Überblick

Was wir machen

1. Das dlina-Projekt. Ein Überblick

Ziel: Extraktion und Analyse von Netzwerkdaten aus dramatischen Texten


Rohkorpus Struktur- und Metadaten Werte und Visualisierungen
›Preprocessing‹
Datenextraktion und -edition
›Postprocessing‹
Datenanalyse und
-visualisierung

1. Das dlina-Projekt. Ein Überblick

Korpora mit deutschsprachigen Dramen

  • Deutsches Textarchiv (DTA): sehr gute Qualität (Text und TEI), aber wenige Dramen (ca. 120)
  • Projekt Gutenberg-DE: sehr schlechte Qualität, aber viele Dramen (über 600)
  • TextGrid Repository: mittlere Qualität und viele Dramen (je nach Zählung: 690 oder 666, siehe den Blogpost »A (Not So) Simple Question«)

1. Das dlina-Projekt. Ein Überblick

Arbeitskorpus aktuell / geplant

  • aktuell: das »dlina Corpus 15.07«
    • entstanden auf Basis des TextGrid Repository
    • umfasst 465 deutschsprachige Dramen (1731 bis 1929)
    • zur Zusammensetzung siehe den Blogpost Introducing DLINA Corpus 15.07
  • geplant
    • in Kooperation mit der BBAW: großes, hochqualitatives Dramenkorpus im DTA
    • Chance: komplexere und hochwertigere Netzwerkanalysen (plus zahlreiche weitere Analyseoptionen)
    • laufender DFG-Antrag

2. Der Prozess der Datenedition

2. Der Prozess der Datenedition

Fokus auf spezifische Strukturdaten, i.e. Netzwerkdaten

  • Netzwerkdaten = Interaktionen zwischen Figuren

  • Operationalisierung von Interaktion:
    • Wenn zwei Figuren innerhalb eines vorgegebenen Segments (Szene/Auftritt; Akt/Aufzug) des Dramas jeweils einen Sprechakt vollziehen, dann interagieren sie miteinander.

2. Der Prozess der Datenedition

Annahme: Rudimentäre Struktur eines Dramas

<segment>
 <sp who="#speaker1"></sp>
 <sp who="#speaker2"></sp>
 <sp who="#speaker3"></sp>
 <sp who="#speaker1"></sp>
 <sp who="#speaker3"></sp>
 ...
</segment>
<segment>
 <sp who="#speaker4"></sp>
 <sp who="#speaker2"></sp>
 ...
</segment>
...

2. Der Prozess der Datenedition

Mangelhafte Datenqualität

  • Fehler in Folge der automatischen TEI-Konvertierung, z.B.
    • OCR-Fehler (etwa statt »Der König« -> »Der Kbnig«);
    • etc.
  • Intrinsische Probleme, z.B.
    • Variationen bei den Figurenbezeichnungen (etwa »Der König« und »König«; oder »Claudia Galloti« und »Claudia»);
    • Kollektiva (etwa »Beide«, »Alle« usw.);
    • etc.

2. Der Prozess der Datenedition

Edition der Strukturdaten

  • Formulierung von Editionsregeln (siehe den Blogpost Editing Rules)
  • Edition nicht in der Volltext-TEI-Datei, sondern in einem eigenen ›Strukturdatenformat‹ (lina-Zwischenformat)

2. Der Prozess der Datenedition

Das lina-Zwischenformat (lina.xml) - Idee

  • Ergebnis der Extraktion von (noch unsauberen) Strukturdaten aus den Texten des Korpus
  • stellt eine strukturelle Abstraktion des dramatischen Textes dar
  • Vorteile z.B.:
    • die Originaldateien bleiben unverändert (u.a. Nachvollziehbarkeit)
    • das Zwischenformat ist sehr viel übersichtlicher (Einfachheit)

2. Der Prozess der Datenedition

Das lina-Zwischenformat (lina.xml) - Features

  • wird für jedes Drama erstellt und ist Basis für die Analysen und Visualisierungen
  • ist eine XML-Datei, validiert gegen ein eigenes RNG Schema
  • speichert neben den Strukturdaten auch einige Metadaten
  • bietet die Möglichkeit, editorische Entscheidungen zu dokumentieren

2. Der Prozess der Datenedition

Das lina-Zwischenformat (lina.xml) - Extras

3. Play(s). Crowd Editing

3. Play(s). Crowd Editing

Bei insgesamt 666 Dramen aus dem TextGrid Repository (inkl. der 465 aus dem dlina-Subkorpus) gilt es, diese Probleme zu lösen.

20118 unterschiedliche Werte innerhalb von tei:speaker müssen hierfür überprüft und ausgezeichnet werden, so dass schließlich alle 438457 Sprechakte mit einem who- Attribut versehen werden können.

3. Play(s). Crowd Editing

Gamification

The process of game-thinking and game mechanics to engage users and solve problems.

Gabe Zichermann & Christopher Cunningham: Gamification by Design: Implementing Game Mechanics in Web and Mobile Apps, Beijing [u.a.] 2011, S. XIV.

3. Play(s). Crowd Editing

Social Editing

The social edition is a work that brings communities together to engage in conversation around a text formed and reformed through an ongoing, iterative, public editorial process.

User:Cultures92: »The Devonshire Manuscript. A Note on this Edition«, 23.5.2014, URL: https://en.wikibooks.org/wiki /The_Devonshire_Manuscript/A_Note_on_this_Edition

3. Play(s). Crowd Editing

Android App

screenshot von Play(s)

3. Play(s). Crowd Editing

Android App

screenshot von Play(s)

3. Play(s). Crowd Editing

Design/Status

  • Server-Client-Lösung
    • Datenbestand und Aufgaben beliebig erweiterbar
    • Zentrale Verwaltung der Eingaben
    • hier ausschließlich SSL-verschlüsselt
  • WebView App
    • Vielzahl unterstützer Systeme (Android, Firefox OS)
    • App-Entwicklung = Webseiten-Entwicklung
    • dennoch folgt die App Googles Material Design

Android App derzeit in geschlossener Alpha via Play Store, offene Beta für nächste Woche geplant

4. »from numbers to meaning«

4. »from numbers to meaning«

Netzwerkgröße von 465 deutschsprachigen Dramen (1731-1929) – Median pro Jahrzehnt

1730 (N=5)1740 (N=18)1750 (N=10)1760 (N=15)1770 (N=36)1780 (N=20)1790 (N=20)1800 (N=23)1810 (N=24)1820 (N=31)1830 (N=31)1840 (N=43)1850 (N=16)1860 (N=11)1870 (N=14)1880 (N=14)1890 (N=36)1900 (N=49)1910 (N=33)1920 (N=16)4681012141618202224Number of Characters (Median)1188.51012.515.520.5152325251717.52123231591824.5

Siehe den Blogpost 200 Years of Literary Network Data

4. »from numbers to meaning«

Dichte deutschsprachiger Dramen (1731-1929) – Mittelwert nach Genre

median per genre

Siehe den Blogpost Network Values by Genre

4. »from numbers to meaning«

Laufende Forschung: Netzwerktypen

small words network examples

Abb. aus Duncan J. Watts & Steven H. Strogatz: Collective Dynamics of ›Small World‹ Networks.
In: Nature 393, 4.6.1998, S. 440-442, hier S. 441.

Infos und Updates

Präsentation: http://lina.digital/presentations/2016-berlin/

Blog: https://dlina.github.io/

Github: https://github.com/dlina


Vorträge DHd 2016 in Leipzig

Do. 10.3.
9.00-10.30
Dramen als small worlds? Netzwerkdaten zur Geschichte
und Typologie deutschsprachiger Dramen 1730-1930
Fischer, Göbel,
Kampkaspar, Trilcke
Do. 10.3.
11.00-12.30
Play(s): Crowdbasierte Anreicherung
eines literarischen Volltext-Korpus
Göbel, Meiners
cc-by-4.0