Visuelle Dramenanalyse

https://lina.digital

Mathias Göbel¹, Dario Kampkaspar²

  1. Staats- und Universitätsbibliothek Göttingen
  2. Herzog August Bibliothek Wolfenbüttel

Präsentation: https://lina.digital/presentations/2016-graz/

Literaturhaus Graz, »Visuelle Dramenanalyse«, 13.4.2016

Präsentation lizenziert unter CC-BY 4.0.

Gliederung

  1. #DLINA
  2. Workflow
    1. Data Mining
    2. Data Editing
    3. Visualisierung & Analyse
  3. Dramen als Small Worlds
  4. Horváth im Vergleich

#DLINA

digital literary network analysis

Die dlina-Arbeitsgruppe

Team

  • dlina = digital literary network analysis
  • interinstitutionelle Arbeitsgruppe aus Literaturwissenschaftlern und Informatikern

  • Mitglieder: Frank Fischer, Dario Kampkaspar, Christopher Kittel, Mathias Göbel, Hanna-Lena Meiners, Peer Trilcke, Andreas Vogel

  • Dokumentation …

#DLINA

  • Literaturwissenschaft und Analyse sozialer Netzwerke
  • Definition der Struktureinheiten (vgl. Solomon Marcus, 1973):
    • Sprechakt (und damit verbundene Sprecher) in einer übergeordneten Einheit (Akt, Szene, …)

Die dlina-Arbeitsgruppe

Ziel

  • automatisierte, philologisch kuratierte Extraktion, Analyse und Interpretation von Netzwerkdaten aus dramatischen Texten

  • Netzwerkdaten = Interaktionen zwischen Figuren
    • Operationalisierung von ›Interaktion‹: Wenn zwei Figuren innerhalb eines vorgegebenen Segments (Szene/Auftritt; Akt/Aufzug; »Absatz«) des Dramas jeweils einen Sprechakt vollziehen, dann interagieren sie miteinander.

#DLINA

Typologie der Struktur am Beispiel

zwei Dramen Goethes

network graph of Goethe's Iphigenie auf Tauris network graph of Goethe's Götz von Berlichingen
Iphigenie auf Tauris (1787) Götz von Berlichingen (1773)

#DLINA

465 Netzwerke

Poster of 465 drama networks

»Distant Reading Showcase«: 465 deutschsprachige Dramen von 1731 bis 1929 (figshare).

Vorgehen

Workflow

Data Mining → Data Editing → Visualization & Analysis

Data Mining

Korpus

  • TextGrid Repository: umfangreichste Ressource TEI-getaggter literarischer Werke (666 Dramen, siehe Blogpost)
  • Workflow angepasst an unterschiedliche Qualität (schlechtes TEI, OCR-Fehler, etc.)

Data Mining

DLINA Corpus 15.07 (»Codename Sydney«)

  • Dramen von 1731 bis 1929
  • Auswahlkriterien:
    • genuin deutschsprachige Werke
    • nur Texte mit Sprechakten (keine Pantomime)
    • vollständige Texte
    • Dramen mit korrekturfähigen Markup
  • Ergebnis: 465 Dramen (Sydney corpus)

Data Editing

Strukturdatenextraktion

  • originale TEI-Dateien werden beibehalten
  • Überführung in das "Zwischenformat": XML, vgl. Blogpost):
    • RNG schema
    • eine Datei pro Drama (lina.xml)
    • enthält Metadaten, Strukturdaten und Dokumentation

Date Editing

automatische Verarbeitung extrahiert auch alle Fehler

  • Fehler in vorangegangenen Konversionen der Dokumente
    • OCR-Fehler
    • ...
  • Intrinsische Fehler
    • Namensvariation
    • ...

Dokumentations der Editionsregeln in einem Blogpost.

Data Editing

Crowdbasierte Anreicherung eines literarischen Volltext-Korpus

Screenshot Plays

Visualisierung & Analyse

Für jedes Drama haben wir eine Webseite erstellt: Auflistung:

  • Netzwerke (statisch und dynamisch)
  • KookkurenzMatrizen
  • Häufigkeiten (Sprechakte, Wörter, Zeichen)
  • Zwischenformat

Display & Analysis

Beispiel: G. E. Lessings "Emilia Galotti" (1772)

Analysis, thumbnail 1 Analysis, thumbnail 2 Analysis, thumbnail 3 Analysis, thumbnail 4

Dramen als ›Small Worlds‹?
Idee

Herausforderung:
Heterogenität der Dramen-Netzwerke

465 netzwerke

Download des Posters

Interpretationsszenarien,
zum Beispiel

Geschichte Typologie
Average Degree pro Dekade Vier Graphen
Siehe z.B. den Blogpost
200 Years of Literary Network Data
Laufende Forschungen:
Typen von Dramen-Netzwerken

Typen von Dramen-Netzwerken

Literaturtheoretische Hintergrund-Hypothesen

  • Dramen als kontextsensible ästhetische Modelle sozialer Formationen, d.h. …
    • … Dramen stellen soziale Formationen dar (z.B. Kleinfamilie, Königshof, ›Gesellschaft‹);
    • … diese sozialen Formationen bestehen nur in der ästhetischen Darstellung, als Modelle;
    • … diese Modelle sind (zumindest potenziell) kontextsensibel, stehen also in Wechselwirkung mit realen sozialen Formationen.

Typen von Dramen-Netzwerken:
›Small World‹-Idee

Ansatz: Bezug auf netzwerkanalytische Typologie

  • Netzwerktyp der ›Small World‹ (zuerst bei Watts & Strogatz 1998; cf. Watts 2004);
    • »widespread in biological, social and man-made systems« (Watts & Strogatz 1998, 442)
    • »highly clustered, like regular lattices, yet have small characteristic path lengths, like random graphs« (Watts & Strogatz 1998, 440)
  • Vorläufer in der Anwendung auf Dramen (hier: Shakespeare): Stiller, Nettle & Dunbar 2003; Stiller & Hudson 2005
  • im Folgenden: Anwendung auf die automatisiert (zugleich philologisch kuratiert) extrahierten Netzwerkdaten des dlina-Korpus

Typen von Dramen-Netzwerken:
›Small World‹-Idee

Relationale Bestimmung von ›Small Worlds‹

 
Regular ›Small World‹ Random
Regular Small World Random
Clustering Coefficient (C)
0,600 0,852 0,131
Average Path Length (APL)
6,261 2,346 2,258

Typen von Dramen-Netzwerken:
›Small World‹-Idee

Definition von ›Small World‹-Netzwerken

  • 1. Kriterium: Clustering Coefficient (C) des beobachteten Netzwerks ist signifikant höher als der C eines entsprechenden Random-Netzwerks
  • 2. Kriterium: Average Path Length (APL) des beobachteten Netzwerks weicht nicht signfikant ab von der APL eines entsprechenden Random-Netzwerks

Typen von Dramen-Netzwerken:
›Small World‹-Idee

Zusatzkriterium: ›Scale Free‹

  • ›Scale Free‹-Netzwerke als Variante von ›Small World‹-Netzwerken (beschrieben von Albert & Barabási 2002);
  • weisen zusätzlich eine Node Degree Distribution mit Power Law auf
NDD mit Power Law

Typen von Dramen-Netzwerken:
›Small World‹-Idee

Kriterien (Indikatoren) im Überblick

  • 1. Kriterium: Clustering Coefficient (C) des beobachteten Netzwerks ist signifikant höher als der C eines entsprechenden Random-Netzwerks
  • 2. Kriterium: Average Path Length (APL) des beobachteten Netzwerks weicht nicht signfikant ab von der APL eines entsprechenden Random-Netzwerks
  • 3. Kriterium (Scale Free): Die Node Degree Distribution lässt sich am besten mit einer Power Law-Regression beschreiben

3. Dramen als ›Small Worlds‹?
Studie

1. Kriterium: Clustering Coefficient

  • Der Clustering Coefficient (C) des beobachteten Netzwerks ist signifikant höher als der C eines entsprechenden Random-Netzwerks

  • Vorgehen
    • Berechnung von 1000 Randomnetzwerke zu jedem einzelnen Dramen-Netzwerk
    • Berechnung des Mittelwerts für die Randomnetzwerke → Clustering Coefficient (C Random)
    • Bildung des Quotienten aus C und C Random → Clustering Coefficient Abweichung (C Abw)
    • Identifizierung der Dramen mit einem signifikant höheren C Abw (signifikant höher = größer als Mean+2*SD)

2. Kriterium: Average Path Length

  • Die Average Path Length (APL) des beobachteten Netzwerks weicht nicht signfikant ab von der APL eines entsprechenden Random-Netzwerks

  • Vorgehen
    • Berechnung von 1000 Randomnetzwerke zu jedem einzelnen Dramen-Netzwerk
    • Berechnung des Mittelwerts für die Randomnetzwerke → Average Path Length (APL Random)
    • Bildung des Quotienten aus APL und APL Random → Average Path Length Abweichung (APL Abw)
    • Aussortierung der Dramen, die Kriterium 1 erfüllen, aber bei APL Abw signifikant abweichen (kleiner als Mean-2*SD bzw. größer als Mean+2*SD)

3. Kriterium: Power Law Distribution

  • Die Node Degree Distribution lässt sich am besten mit einer Power Law-Regression beschreiben

  • Vorgehen
    • Berechnung der Node Degree Distribution
    • Berechnung der Bestimmtheitsmaße (R²) für diverse Regressionen (linear, quadratisch, exponentiell, logarithmisch, Power Law)
    • Aussortierung aller Dramen, die Kriterium 1 & 2 erfüllen, aber keine Power Law-Regression aufweisen

Diskussion

Drei Fragen (von vielen)


  • 1. Was heißt eigentlich: Dramen als ›Small Worlds‹?
  • 2. Wenn ›Small World‹-Dramen die seltene ›Abweichung‹ sind: Was ist dann die ›Norm‹?
  • 3. Gibt es neben ›Small World‹-Dramen weitere ›Abweichungen‹?

1. Was heißt ›Dramen als Small Worlds‹?

1. Was heißt ›Dramen als Small Worlds‹?

Götz, 1 Götz, 2

Zentrale Figur(en) plus Cliquenbildung
hier am Bsp. von Goethe, "Götz"

1. Was heißt ›Dramen als Small Worlds‹?

Arnim, "Jerusalem" Raimund, "Der Barometermacher"
Jerusalem Der Barometermacher
Dokotor Faustus Der böse Geist
Soden, "Doktor Faustus" Nestroy, "Der böse Geist"

2. Was ist die ›Norm‹?

2. Was ist die ›Norm‹?

›Abweichung‹: u.a. Power Law z.B. in "Götz"

Goethe, Götz NDD

viele ›untere‹ Figuren - wenig ›mittlere‹ Figuren - sehr wenig ›obere‹ Figuren

2. Was ist die ›Norm‹?

In der Regel (›Norm‹) jedoch andere Verteilungen

 
Hebbel, Maria Magdalene Schiller, Die Räuber
 
viele ›mittlere‹ Figuren

3. Weitere Abweichungen?

3. Weitere Abweichungen?

Z.B.: Die ›umgekehrte‹ Power Law-Regression

Mühsam, Judas NDD

3. Weitere Abweichungen?

   
Goethe, "Götz"
Drama des ›großen Individuums‹
Mühsam, "Judas"
Drama des ›Kollektivs‹
Götz, spring Mühsam, spring
aristokratisches Modell? kommunistisches Modell?

Der Horváth im Vergleich

Average Path Length

  APl Apl random
Gesamtfassung 1,419047619 1,41912381
Endfassung 1,138339921 1,138339921

Clustering Coefficient

  CC CCR
Gesamtfassung 0,34473 0,581865746
Endfassung 0,51355 0,861728332

Geschichten aus dem Wiener Wald in DLINA

Literatur

  • Réka Albert & Albert-László Barabási: Statistical Mechanics of Complex Networks, in: Reviews of Modern Physics 74 (2002), 47–97.
  • Albert Lászlo Barabási & Bonabeau, Eric: Scale Free Networks, in: Scientific American 288 (2003) 50–59.
  • Frank Fischer, Mathias Göbel, Dario Kampkaspar & Peer Trilcke: [Blog] Network Analysis of Dramatic Texts, URL: https://dlina.github.io/
  • Franco Moretti: Network Theory, Plot Analysis, in: Stanford Literary Lab Pamphlets, No. 2 (May 1st, 2011).
  • James Stiller, Daniel Nettle & Robin I. M. Dunbar: The Small World of Shakespeareʼs Plays, in: Human Nature 14 (2003), 397–408.
  • James Stiller & Matthew Hudson, Weak Links and Scene Cliques Within the Small World of Shakespeare, in: Journal of Cultural and Evolutionary Psychology 3 (2005), 57–73.
  • Peer Trilcke: Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft, in: Philip Ajouri, Katja Mellmann & Christoph Rauen (Hg.): Empirie in der Literaturwissenschaft, Münster 2013, 201–247.
  • Duncan J. Watts & Steven H. Strogatz: Collective Dynamics of ›Small World‹ Networks, in: Nature 393 (1998), 440-442.
  • Duncan J. Watts: Six Degrees. The Science of a Connected Age, New York 2003.
cc-by-4.0