Gliederung
Das dlina-Projekt. Ein Überblick
Der Prozess der Datenedition
Play(s). Crowd Editing
»from numbers to meaning«
1. Das dlina-Projekt. Ein Überblick
1. Das dlina-Projekt. Ein Überblick
Zentralitätswerte zu Figuren aus »Emilia Galotti«
Character Degree Betweenness Centrality Average Distance Closeness Centrality MARINELLI 9 16.3 1.25 0.8 DER PRINZ 8 30.83 1.33 0.75 CLAUDIA GALOTTI 7 3.0 1.67 0.6 ODOARDO GALOTTI 6 3.63 1.5 0.67 EMILIA 6 3.63 1.5 0.67 PIRRO 5 1.75 1.83 0.55 ORSINA 4 0.8 1.67 0.6 APPIANI 4 0.25 1.92 0.52 BATTISTA 4 0.8 1.67 0.6 ANGELO 2 2.08 0.48 DER KAMMERDIENER 1 2.25 0.44 CONTI 1 2.25 0.44 CAMILLO ROTA 1 2.25 0.44
Ausschnitt aus der Datei drama_character_values.html .
Werte berechnet mit dramavis (Frank Fischer / Christopher Kittel), siehe Blogpost zu dramavis sowie dramavis bei GitHub
1. Das dlina-Projekt. Ein Überblick
The
general methodological problem of the digital humanities can be bluntly
stated: How do we get from numbers to meaning? The objects being tracked,
the evidence collected, the ways they’re analyzed—all of these are
quantitative. How to move from this kind of evidence and object to
qualitative arguments and insights about humanistic subjects—culture,
literature, art, etc.—is not clear.
Ryan Heuser & Long Le-Khac: A Quantitativ Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method (= Pamphlets of the Stanford Literary Lab 4), Mai 2012, S. 46. URL: http://litlab.stanford.edu/LiteraryLabPamphlet4.pdf .
1. Das dlina-Projekt. Ein Überblick
Wer wir sind
dlina = digital literary network analysis
interinstitutionelle Arbeitsgruppe aus Literaturwissenschaftlern und Informatikern
Kernmitglieder: Frank Fischer, Dario Kampkaspar, Mathias Göbel, Peer Trilcke
assoziierte Mitglieder derzeit: Christopher Kittel, Hanna-Lena Meiners
1. Das dlina-Projekt. Ein Überblick
Was wir machen
2013 - Vorarbeiten (theoretische Sondierung u. Vorstudie)
2014 - Gründung der Arbeitsgruppe
seit 2015 - Dokumentation im Blog und bei GitHub
flankierende Teilprojekte
1. Das dlina-Projekt. Ein Überblick
Ziel: Extraktion und Analyse von Netzwerkdaten aus dramatischen Texten
Rohkorpus
➞
Struktur- und Metadaten
➞
Werte und Visualisierungen
›Preprocessing‹ Datenextraktion und -edition
›Postprocessing‹ Datenanalyse und -visualisierung
1. Das dlina-Projekt. Ein Überblick
Korpora mit deutschsprachigen Dramen
Deutsches Textarchiv (DTA): sehr gute Qualität (Text und TEI), aber wenige Dramen (ca. 120)
Projekt Gutenberg-DE: sehr schlechte Qualität, aber viele Dramen (über 600)
TextGrid Repository : mittlere Qualität und viele Dramen
(je nach Zählung: 690 oder 666, siehe den Blogpost »A (Not So) Simple Question« )
1. Das dlina-Projekt. Ein Überblick
Arbeitskorpus aktuell / geplant
aktuell: das »dlina Corpus 15.07«
entstanden auf Basis des TextGrid Repository
umfasst 465 deutschsprachige Dramen (1731 bis 1929)
zur Zusammensetzung siehe den Blogpost Introducing DLINA Corpus 15.07
geplant
in Kooperation mit der BBAW: großes, hochqualitatives Dramenkorpus im DTA
Chance: komplexere und hochwertigere Netzwerkanalysen (plus zahlreiche weitere Analyseoptionen)
laufender DFG-Antrag
2. Der Prozess der Datenedition
2. Der Prozess der Datenedition
Fokus auf spezifische Strukturdaten, i.e. Netzwerkdaten
Netzwerkdaten = Interaktionen zwischen Figuren
Operationalisierung von Interaktion:
Wenn zwei Figuren innerhalb eines vorgegebenen Segments (Szene/Auftritt; Akt/Aufzug) des Dramas jeweils einen Sprechakt vollziehen, dann interagieren sie miteinander.
2. Der Prozess der Datenedition
Annahme: Rudimentäre Struktur eines Dramas
<segment>
<sp who= "#speaker1" ></sp>
<sp who= "#speaker2" ></sp>
<sp who= "#speaker3" ></sp>
<sp who= "#speaker1" ></sp>
<sp who= "#speaker3" ></sp>
...
</segment>
<segment>
<sp who= "#speaker4" ></sp>
<sp who= "#speaker2" ></sp>
...
</segment>
...
2. Der Prozess der Datenedition
Mangelhafte Datenqualität
Fehler in Folge der automatischen TEI-Konvertierung, z.B.
OCR-Fehler (etwa statt »Der König« -> »Der Kbnig«);
etc.
Intrinsische Probleme, z.B.
Variationen bei den Figurenbezeichnungen (etwa »Der König« und »König«; oder »Claudia Galloti« und »Claudia»);
Kollektiva (etwa »Beide«, »Alle« usw.);
etc.
2. Der Prozess der Datenedition
Edition der Strukturdaten
Formulierung von Editionsregeln (siehe den Blogpost Editing Rules )
Edition nicht in der Volltext-TEI-Datei, sondern in einem eigenen ›Strukturdatenformat‹ (lina-Zwischenformat)
2. Der Prozess der Datenedition
Das lina-Zwischenformat (lina.xml) - Idee
Ergebnis der Extraktion von (noch unsauberen) Strukturdaten aus den Texten des Korpus
stellt eine strukturelle Abstraktion des dramatischen Textes dar
Vorteile z.B.:
die Originaldateien bleiben unverändert (u.a. Nachvollziehbarkeit)
das Zwischenformat ist sehr viel übersichtlicher (Einfachheit)
2. Der Prozess der Datenedition
Das lina-Zwischenformat (lina.xml) - Features
wird für jedes Drama erstellt und ist Basis für die Analysen und Visualisierungen
ist eine XML-Datei, validiert gegen ein eigenes RNG Schema
speichert neben den Strukturdaten auch einige Metadaten
bietet die Möglichkeit, editorische Entscheidungen zu dokumentieren
2. Der Prozess der Datenedition
Das lina-Zwischenformat (lina.xml) - Extras
3. Play(s). Crowd Editing
3. Play(s). Crowd Editing
Bei insgesamt 666 Dramen aus dem TextGrid Repository (inkl.
der 465 aus dem dlina-Subkorpus) gilt es, diese Probleme
zu lösen.
20118 unterschiedliche Werte innerhalb von tei:speaker
müssen hierfür überprüft und ausgezeichnet werden, so
dass schließlich alle 438457 Sprechakte mit einem who-
Attribut versehen werden können.
Bei den insgesamt 666 Dramen des TextGrid-Repositories
(inkl. der 465 für das DLINA-Subkorpus ausgewählten) gilt
es, die eben beschriebenen Probleme unter Berücksichtigung
der in diesem Zusammenhang genannten Editionsregeln zu bearbeiten.
Es müssen also 20118 unterschiedliche Werte innerhalb des
tei:speaker-Elementes durchgesehen werden, unterschiedliche
Sprecher und Kollektiva erkannt und eindeutlig aufgelöst bzw.
zugeordnet werden. Das klingt nach einer Aufgabe,
für die man 2 Hilfskräfte einige Monate beschäftigen könnte –
ohne das uns Personalmittel zur Verfügung stehen. Peer und Dario
haben das tatsächlich für das DLINA-Korpus auch getan, allerdings
fehlen hier nach wie vor weitere Metadaten, zum Beispiel zum
Geschlecht der Akteure, sofern bestimmbar. Die Idee, diese Aufgabe
nicht mit einem Text- oder XML-Editor zu machen, sondern statt
dessen ein Webinterface zu gestalten, welches die unterschiedlichen
Sprecher auflistet und eine Zuordnung ermöglicht, lag recht nahe.
Vergibt man für jede dieser Zuordnungen und für die Erfassung
weiterer Metadaten auch noch Punkte, versammelt die Nutzer geordnet
nach erreichter Punktzahl dann auf einer Liste – einer Highscore-Liste,
führt dann zu Gamification...
3. Play(s). Crowd Editing
Gamification
The process of game-thinking and game mechanics to engage users and solve
problems.
Gabe Zichermann & Christopher Cunningham: Gamification by Design: Implementing Game Mechanics in
Web and Mobile Apps, Beijing [u.a.] 2011, S. XIV.
Beispiele dafür gibt es international bereits:
Digitalkoot: http://www.digitalkoot.fi/
Zooniverse: zooniverse.org
Im deutschsprachigen Raum wäre Artigo zu nennen,
bei dem Spielerinnen kunsthistorische Werke verschlagworten.
Bezieht man eine möglichst große Gruppe in die Editionsarbeit ein,
erreicht man, was auch unter dem Begriff...
3. Play(s). Crowd Editing
Social Editing
The social edition is a work that brings communities together to
engage in conversation around a text formed and reformed through an
ongoing, iterative, public editorial process.
User:Cultures92: »The Devonshire Manuscript. A Note on this Edition«, 23.5.2014, URL:
https://en.wikibooks.org/wiki
/The_Devonshire_Manuscript/A_Note_on_this_Edition
social editing bekannt ist. Auch dafür gibt es Beispiele:
das amerikanische Projekt Transcribe Bentham oder
Devonshire Manuscript,
beide auf Wiki-Systemen basierend.
Nutzerinnen wird hier ein ganzer Katalog von Transkriptionsregeln zur
Verfügung gestellt und auch philologisch streitbare Details wie unklare
Lesarten müssen selbstständig ausgezeichnet werden.
Wir müssen keine Volltexte bearbeiten, die Schwierigkeit ist eher in
der möglichst kleinen Dimensionierung der Aufgaben zu sehen.
Unterschiedliche Aufgaben bauen aufeinander auf und daraus ergebene
sich die zu bewältigenden Levels.
3. Play(s). Crowd Editing
Android App
Level 1: Auflösung der Dopplungen („Claudia“ = „Claudia Galotti“)
3. Play(s). Crowd Editing
Android App
Level 2: Aggregationen/Kollektiva ausfindig machen („Robert und Helfer“, „Alle“)
Level 3: Instanzen den Gruppen zuordnen („Robert und Helfer“: [„Robert“, „Helfer“])
Level 4: Bestimmung der Geschlechter (mit Option „unknown“)
Level 5: Genauere Bestimmung der mit unbestimmbaren Geschlecht ausgezeichneten (Moral, Tier, Geist, …)
Level 6: Bühnenanweisungen typisieren (hierfür gibt es bei TEI Richtlinien)
+++ BONUSPUNKTE +++
3. Play(s). Crowd Editing
Design/Status
Server-Client-Lösung
Datenbestand und Aufgaben beliebig erweiterbar
Zentrale Verwaltung der Eingaben
hier ausschließlich SSL-verschlüsselt
WebView App
Vielzahl unterstützer Systeme (Android, Firefox OS)
App-Entwicklung = Webseiten-Entwicklung
dennoch folgt die App Googles Material Design
Android App derzeit in geschlossener Alpha via Play Store, offene Beta für nächste Woche geplant
Sowohl die Struktur des Spiels, als auch das zu Grunde liegende Korpus sind erweiterbar.
Die resultierende „Lösung“ muss dann rückführbar auf die Daten des Korpus sein.
In diesem Fall wird die Datenquelle unangetastet in der eXist-db belassen, in der
Prozessierung werden den einzelnen Sprechern ids entsprechend ihres ersten Auftretens
im Drama zugewiesen. Diese ids sind jeweils wiederherstellbar und können schließlich
genutzt werden, um die TEI-Dokumente mit den erzeugten Daten zu verbessern. Diese
ließen sich dann problemlos wieder im TextGrid-Repository ablegen.
4. »from numbers to meaning«
4. »from numbers to meaning«
Netzwerkgröße von 465 deutschsprachigen Dramen (1731-1929) – Median pro Jahrzehnt
1730 (N=5) 1740 (N=18) 1750 (N=10) 1760 (N=15) 1770 (N=36) 1780 (N=20) 1790 (N=20) 1800 (N=23) 1810 (N=24) 1820 (N=31) 1830 (N=31) 1840 (N=43) 1850 (N=16) 1860 (N=11) 1870 (N=14) 1880 (N=14) 1890 (N=36) 1900 (N=49) 1910 (N=33) 1920 (N=16) 4 6 8 10 12 14 16 18 20 22 24 Number of Characters (Median) 11 8 8.5 10 12.5 15.5 20.5 15 23 25 25 17 17.5 21 23 23 15 9 18 24.5
Siehe den Blogpost 200 Years of Literary Network Data
4. »from numbers to meaning«
Dichte deutschsprachiger Dramen (1731-1929) – Mittelwert nach Genre
Siehe den Blogpost Network Values by Genre
4. »from numbers to meaning«
Laufende Forschung: Netzwerktypen
Abb. aus Duncan J. Watts & Steven H. Strogatz: Collective Dynamics of ›Small World‹ Networks.
In: Nature 393, 4.6.1998, S. 440-442, hier S. 441.