Sonntag, 13. Dezember 2015

Was meint ihr dazu? Probevisualisierung mit Gephi

Wie ein paar von euch vielleicht schon mitbekommen haben, schreibe ich gerade meine Bachelorarbeit zum Thema: Die Generierung von Metadaten in der Kunstgeschichte. Eine praktische Untersuchung.

Unteranderem habe ich in meiner Arbeit einen Fragebogen an die Museumsbesucher der Sammlung Schack verteilt, mit der Bitte, drei Bilder zu annotieren. (Anselm Feuerbach: Hafis am Brunnen & Der Garten des Ariost und Moritz von Schwind: Die Hochzeitsreise)
Diese Annotationen möchte ich jetzt sinnvoll auswerten Was ist aber die beste Methode?

Bei einem herkömmlichen Balkendiagramm in Excel stellt sich folgendes Problem: Die Liste wird einfach zu lang, wenn man jeden Tag berücksichtigt. Daher bin ich ganz nach ARTigo Regelung vorgegangen und habe nur alle Tags, die mehr als zwei Mal genannt wurden, berücksichtigt. Dadurch fallen aber 80% meiner Begriffe weg. Das ist ganz schön viel, vor allem, da es ja korrekte Bezeichnungen sind und sie eine viel größere Sprachvielfalt wiedergeben als bei ARTigo.
Dazu kommt, dass das Balkendiagramm zwar übersichtlicher ist, aber trotzdem noch lang. Auf jedes einzelne Wort will ich natürlich auch nicht eingehen, das ist auch bei einer Menge von ca. 250 unique Tags pro Bild unmöglich. Daher habe ich mich entschlossen die Begriffe in Gruppen einzuteilen, um so eine bessere Übersicht zu bekommen und alle Begriffe zu berücksichtigen. Die Einteilung in Nomen, Adjektiv und Verb greift hierbei aber zu kurz. Ich habe meine Liste daher noch etwas um Begriffe wie Stil, Analyse etc. erweitert.
Insgesamt hat meine csv-Datei jetzt 1566 Tags (so viele Schlagwörter sind für alle drei Bilder im Museum getaggt worden) Das ist eine viel zu große Menge an Daten, um das noch selbst fassen zu können. Eine Visualisierung muss einfach her!
Aber wie gehe ich am besten vor? Mein Freund hat zu mir gesagt: "Mach doch einfach ein Excel-Tortendiagramm, dann hast du die Prozentzahlen und deine Gruppen." Ich habe mich jetzt aber für Gephi entschieden, weil dabei die einzelnen Wörter als Knoten dargestellt werden. Ich kann meine Begriffsgruppen auch deutlicher hervorheben und die Tags, die stärker gewichtet sind, weil sie öfter getaggt wurden, stehen näher an der Begriffsgruppe.
So sieht das Ganze dann vorerst aus:
Man kann hier schon die dickeren Kanten (die Verbindungslinien) erkennen. Sie weisen größere Gewichtungen auf, als die Knoten, die weiter weg stehen und deren Kanten dünner sind. 
Das Programm erlaubt einem auch die Labels anzuzeigen (meine Tags). Allerdings wird es dadurch in der png Datei etwas unübersichtlich und verpixelt. Weiß jemand zufällig wie man dieses Problem löst?
Wenn ich die Darstellung als PDF sichere, kann ich richtig reinzoomen und alles ziemlich gut erkennen. Lasse ich mein Layout noch etwas weiterlaufen, damit die Knoten weiter auseinanderstehen, geht die Grafik einfach zu weit auseinander (finde ich). Ich habe mir auch überlegt, ob ich nur die Begriffsgruppen benennen soll und die Labels der Tags weglassen soll. 
Was meint ihr denn generell zu diesem Problem? 


Kommentare:

  1. Ja sieht doch schon richtig gut aus! Ich würde die Labels für die Gruppenbezeichnung (also Objekt, Adjektiv,...) stehen lassen und vielleicht vereinzelt Screenshots von partiellen Vergrößerungen (wären dann eben nur Ausschnitte) der Tags machen, damit man die dann wirklich gut lesen kann. Warum es aber bei png so verpixelt ist, bzw. wie man das beheben kann weiß ich leider auch nicht...

    AntwortenLöschen
  2. Beim Export auf "Options..." klicken und die Höhe und Breite größer angeben. Das erhöht die Auflösung der Pixelgraphik.
    Besser ist es aber, das Netzwerk als Vektorgraphik, z.B. Pdf, zu exportieren. Dort lässt sich beliebieg tief hineinzoomen. Und wenn man möchte kann man davon auch einen Screenshot für das Web machen.

    AntwortenLöschen
  3. Also, bei dieser Graphik haette ich keine Zweifel. das schaut ja perfekt aus und ist ausserdem noch informativ korrekt.

    AntwortenLöschen
  4. das schaut ja perfekt aus und ist ausserdem auch korrekt. Excel ist dagegen ein Schmarren.

    AntwortenLöschen