Gliederung
- #DLINA
- Workflow
- Data Mining
- Data Editing
- Visualisierung & Analyse
- Dramen als Small Worlds
- Horváth im Vergleich
#DLINA
digital literary network analysis
Die dlina-Arbeitsgruppe
Team
- dlina = digital literary network analysis
- interinstitutionelle Arbeitsgruppe aus Literaturwissenschaftlern und Informatikern
- Mitglieder: Frank Fischer, Dario Kampkaspar, Christopher Kittel, Mathias Göbel, Hanna-Lena Meiners, Peer Trilcke, Andreas Vogel
- Dokumentation …
#DLINA
- Literaturwissenschaft und Analyse sozialer Netzwerke
- Definition der Struktureinheiten (vgl. Solomon Marcus, 1973):
- Sprechakt (und damit verbundene Sprecher) in einer übergeordneten Einheit (Akt, Szene, …)
Die dlina-Arbeitsgruppe
Ziel
- automatisierte, philologisch kuratierte Extraktion, Analyse und Interpretation von Netzwerkdaten aus dramatischen Texten
- Netzwerkdaten = Interaktionen zwischen Figuren
- Operationalisierung von ›Interaktion‹: Wenn zwei Figuren innerhalb eines vorgegebenen Segments (Szene/Auftritt; Akt/Aufzug; »Absatz«) des Dramas jeweils einen Sprechakt vollziehen, dann interagieren sie miteinander.
#DLINA
Typologie der Struktur am Beispiel
zwei Dramen Goethes
|
|
Iphigenie auf Tauris (1787) |
Götz von Berlichingen (1773) |
#DLINA
465 Netzwerke
»Distant Reading Showcase«: 465 deutschsprachige Dramen von 1731 bis 1929 (figshare).
Vorgehen
Workflow
Data Mining → Data Editing → Visualization & Analysis
Data Mining
Korpus
- TextGrid Repository: umfangreichste Ressource TEI-getaggter literarischer Werke (666 Dramen, siehe Blogpost)
- Workflow angepasst an unterschiedliche Qualität (schlechtes TEI, OCR-Fehler, etc.)
Data Mining
DLINA Corpus 15.07 (»Codename Sydney«)
- Dramen von 1731 bis 1929
- Auswahlkriterien:
- genuin deutschsprachige Werke
- nur Texte mit Sprechakten (keine Pantomime)
- vollständige Texte
- Dramen mit korrekturfähigen Markup
- Ergebnis: 465 Dramen (Sydney corpus)
Data Editing
Strukturdatenextraktion
- originale TEI-Dateien werden beibehalten
- Überführung in das "Zwischenformat": XML, vgl. Blogpost):
- RNG schema
- eine Datei pro Drama (lina.xml)
- enthält Metadaten, Strukturdaten und Dokumentation
Date Editing
automatische Verarbeitung extrahiert auch alle Fehler
- Fehler in vorangegangenen Konversionen der Dokumente
- Intrinsische Fehler
Dokumentations der Editionsregeln in einem Blogpost.
Data Editing
Crowdbasierte Anreicherung eines literarischen Volltext-Korpus
Visualisierung & Analyse
Für jedes Drama haben wir eine Webseite erstellt: Auflistung:
- Netzwerke (statisch und dynamisch)
- KookkurenzMatrizen
- Häufigkeiten (Sprechakte, Wörter, Zeichen)
- Zwischenformat
Dramen als ›Small Worlds‹?
Idee
Interpretationsszenarien,
zum Beispiel
Typen von Dramen-Netzwerken
Literaturtheoretische Hintergrund-Hypothesen
- Dramen als kontextsensible ästhetische Modelle sozialer Formationen, d.h. …
- … Dramen stellen soziale Formationen dar (z.B. Kleinfamilie, Königshof, ›Gesellschaft‹);
- … diese sozialen Formationen bestehen nur in der ästhetischen Darstellung, als Modelle;
- … diese Modelle sind (zumindest potenziell) kontextsensibel, stehen also in Wechselwirkung mit realen sozialen Formationen.
Typen von Dramen-Netzwerken:
›Small World‹-Idee
Ansatz: Bezug auf netzwerkanalytische Typologie
- Netzwerktyp der ›Small World‹ (zuerst bei Watts & Strogatz 1998; cf. Watts 2004);
- »widespread in biological, social and man-made systems« (Watts & Strogatz 1998, 442)
- »highly clustered, like regular lattices, yet have small characteristic path lengths, like random graphs« (Watts & Strogatz 1998, 440)
- Vorläufer in der Anwendung auf Dramen (hier: Shakespeare): Stiller, Nettle & Dunbar 2003; Stiller & Hudson 2005
- im Folgenden: Anwendung auf die automatisiert (zugleich philologisch kuratiert) extrahierten Netzwerkdaten des dlina-Korpus
Typen von Dramen-Netzwerken:
›Small World‹-Idee
Definition von ›Small World‹-Netzwerken
- 1. Kriterium: Clustering Coefficient (C) des beobachteten Netzwerks ist signifikant höher als der C eines entsprechenden Random-Netzwerks
- 2. Kriterium: Average Path Length (APL) des beobachteten Netzwerks weicht nicht signfikant ab von der APL eines entsprechenden Random-Netzwerks
Typen von Dramen-Netzwerken:
›Small World‹-Idee
Zusatzkriterium: ›Scale Free‹
- ›Scale Free‹-Netzwerke als Variante von ›Small World‹-Netzwerken (beschrieben von Albert & Barabási 2002);
- weisen zusätzlich eine Node Degree Distribution mit Power Law auf
Typen von Dramen-Netzwerken:
›Small World‹-Idee
Kriterien (Indikatoren) im Überblick
- 1. Kriterium: Clustering Coefficient (C) des beobachteten Netzwerks ist signifikant höher als der C eines entsprechenden Random-Netzwerks
- 2. Kriterium: Average Path Length (APL) des beobachteten Netzwerks weicht nicht signfikant ab von der APL eines entsprechenden Random-Netzwerks
- 3. Kriterium (Scale Free): Die Node Degree Distribution lässt sich am besten mit einer Power Law-Regression beschreiben
3. Dramen als ›Small Worlds‹?
Studie
1. Kriterium: Clustering Coefficient
- Der Clustering Coefficient (C) des beobachteten Netzwerks ist signifikant höher als der C eines entsprechenden Random-Netzwerks
- Vorgehen
- Berechnung von 1000 Randomnetzwerke zu jedem einzelnen Dramen-Netzwerk
- Berechnung des Mittelwerts für die Randomnetzwerke → Clustering Coefficient (C Random)
- Bildung des Quotienten aus C und C Random → Clustering Coefficient Abweichung (C Abw)
- Identifizierung der Dramen mit einem signifikant höheren C Abw (signifikant höher = größer als Mean+2*SD)
2. Kriterium: Average Path Length
- Die Average Path Length (APL) des beobachteten Netzwerks weicht nicht signfikant ab von der APL eines entsprechenden Random-Netzwerks
- Vorgehen
- Berechnung von 1000 Randomnetzwerke zu jedem einzelnen Dramen-Netzwerk
- Berechnung des Mittelwerts für die Randomnetzwerke → Average Path Length (APL Random)
- Bildung des Quotienten aus APL und APL Random → Average Path Length Abweichung (APL Abw)
- Aussortierung der Dramen, die Kriterium 1 erfüllen, aber bei APL Abw signifikant abweichen (kleiner als Mean-2*SD bzw. größer als Mean+2*SD)
3. Kriterium: Power Law Distribution
- Die Node Degree Distribution lässt sich am besten mit einer Power Law-Regression beschreiben
- Vorgehen
- Berechnung der Node Degree Distribution
- Berechnung der Bestimmtheitsmaße (R²) für diverse Regressionen (linear, quadratisch, exponentiell, logarithmisch, Power Law)
- Aussortierung aller Dramen, die Kriterium 1 & 2 erfüllen, aber keine Power Law-Regression aufweisen
Diskussion
Drei Fragen (von vielen)
- 1. Was heißt eigentlich: Dramen als ›Small Worlds‹?
- 2. Wenn ›Small World‹-Dramen die seltene ›Abweichung‹ sind: Was ist dann die ›Norm‹?
- 3. Gibt es neben ›Small World‹-Dramen weitere ›Abweichungen‹?
1. Was heißt ›Dramen als Small Worlds‹?
1. Was heißt ›Dramen als Small Worlds‹?
Zentrale Figur(en) plus Cliquenbildung
hier am Bsp. von Goethe, "Götz"
1. Was heißt ›Dramen als Small Worlds‹?
Arnim, "Jerusalem" |
Raimund, "Der Barometermacher" |
|
|
|
|
Soden, "Doktor Faustus" |
Nestroy, "Der böse Geist" |
2. Was ist die ›Norm‹?
›Abweichung‹: u.a. Power Law z.B. in "Götz"
viele ›untere‹ Figuren - wenig ›mittlere‹ Figuren - sehr wenig ›obere‹ Figuren
2. Was ist die ›Norm‹?
In der Regel (›Norm‹) jedoch andere Verteilungen
|
|
|
|
viele ›mittlere‹ Figuren |
3. Weitere Abweichungen?
Z.B.: Die ›umgekehrte‹ Power Law-Regression
3. Weitere Abweichungen?
|
|
Goethe, "Götz" Drama des ›großen Individuums‹ |
Mühsam, "Judas" Drama des ›Kollektivs‹ |
|
|
aristokratisches Modell? |
kommunistisches Modell? |
Der Horváth im Vergleich
Average Path Length
|
APl |
Apl random |
Gesamtfassung |
1,419047619 |
1,41912381 |
Endfassung |
1,138339921 |
1,138339921 |
Clustering Coefficient
|
CC |
CCR |
Gesamtfassung |
0,34473 |
0,581865746 |
Endfassung |
0,51355 |
0,861728332 |
Geschichten aus dem Wiener Wald in DLINA
Literatur
- Réka Albert & Albert-László Barabási: Statistical Mechanics of Complex Networks, in: Reviews of Modern Physics 74 (2002), 47–97.
- Albert Lászlo Barabási & Bonabeau, Eric: Scale Free Networks, in: Scientific American 288 (2003) 50–59.
- Frank Fischer, Mathias Göbel, Dario Kampkaspar & Peer Trilcke: [Blog] Network Analysis of Dramatic Texts, URL: https://dlina.github.io/
- Franco Moretti: Network Theory, Plot Analysis, in: Stanford Literary Lab Pamphlets, No. 2 (May 1st, 2011).
- James Stiller, Daniel Nettle & Robin I. M. Dunbar: The Small World of Shakespeareʼs Plays, in: Human Nature 14 (2003), 397–408.
- James Stiller & Matthew Hudson, Weak Links and Scene Cliques Within the Small World of Shakespeare, in: Journal of Cultural and Evolutionary Psychology 3 (2005), 57–73.
- Peer Trilcke: Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft, in: Philip Ajouri, Katja Mellmann & Christoph Rauen (Hg.): Empirie in der Literaturwissenschaft, Münster 2013, 201–247.
- Duncan J. Watts & Steven H. Strogatz: Collective Dynamics of ›Small World‹ Networks, in: Nature 393 (1998), 440-442.
- Duncan J. Watts: Six Degrees. The Science of a Connected Age, New York 2003.