Silvia Altrichter, Dominique Bost, Thorsten Föhringer, Özkan Ünlü, Melissa Zindl
West Coast Movie
Unser Prototyp WestCoast Movie stellt die Drehorte verschiedener Filme und Serien an der Westküste der USA, speziell in der Stadt San Francisco und Umgebung, visuell dar. Dem Nutzer wird die Möglichkeit geboten, über verschiedene Filter den Datensatz zu explorieren.
In unserem Projekt untersuchten wir, ob Auffälligkeiten zwischen Drehorten und anderen mitwirkenden Parteien, wie Regisseur oder Produktionsfirma bestehen. Zusätzlich fügten wir die IMDb Bewertung (Internet Movie Database) pro Film/Serie manuell hinzu, um festzustellen, ob eine Aussage über den Drehort und die Bewertung möglich ist.
Einführung / Konzept
Einführung
Das vorliegende Projekt ist im Rahmen der Vorlesung “Grundlagen der Datenvisualisierung” (GDV) der Fakultät Informatik der Hochschule Mannheim entstanden. Ziel des Projekts ist es offen zugängliche Datenquellen des Bereichs Kunst und Kultur auszuwerten und die Ergebnisse zu visualisieren. Wir haben uns für Daten der Stadt San Francisco in Kalifornien entschieden, da wir für das Projekt mehr in Kunst in Form von Filmen interressiert sind als in klassische Kunst und Kultur, wie Gemälde oder Skulpturen.
Motivation / Konzept
Nach einer internen Besprechung sind wir auf die Idee gekommen, dass eine Visualisierung von Drehorten in der Stadt San Francisco (USA, California) durch Markierungen auf der Landkarte am meisten aufzeigen würde. Zusätzlich wollten wir durch verschiedene Filterfunktionen eine Möglichkeit bieten neue Erkenntnisse zu gewinnen, indem man diese explorativ Nutzen kann. Mögliche Filterfunktionen sind in diesem Falle die Filterung nach Genre, Produktionsjahr oder Bewertung.
Verwandte Arbeiten
Für das Festlegen der späteren Benutzeroberfläche untersuchten wir verschiedene, bereits vorhandene Datenvisualisierungen. Dabei achteten wir auf die vorhandenen Interaktionselemente der Visualisierungen und das diese eine Karte als zentrales Interaktionselement besaßen. Folgende Visualisierungen fanden wir bei unserer Recherche:
Name | Urteil | Funktionalität | Sprache |
---|---|---|---|
Sonic Fiber | - | Vielfach-Zoom | JavaScript Code |
SF Census | Vorteile: Vorhandene Unterteilung in Districte Nachteile: keine Zoom Möglichkeit Bemerkungen: Die vorhandene Unterteilung in Districte ist für uns interessant, jedoch haben wir uns dazu entschieden, dass wir die Unterteilung selbst vornehmen. Dies kostet zwar mehr Zeit, jedoch erweitern sich dadurch unsere Möglichkeiten. | kein Zoom | JavaScript Code |
SF Crime Map | Vorteile: Vorhandene Zeitleiste mit der Möglichkeit der Filterung auf das Jahr, sowie die zusätzliche Möglichkeit einer Filterung des Jahrs nach dem Kriterium “von-bis”. Eine Zoom-Funktion ist ebenfalls vorhanden. Zusätzlich gibt es die Möglichkeit der Filterung durch Checkboxen durch vorgegebene Kriterien. | Vielfach-Zoom, Zeitleiste | JavaScript Code |
SF Film Map | - | Vielfach-Zoom, Suchfunktion | Ruby Code |
SF Food Map | Nachteile: Ohne Zeitleiste ist es als Idee verworfen worden. | Zoom | JavaScript Code |
Daten / Auswertung
Datenquellen
OpenData-Portal
Über das OpenData-Portal von San Francisco werden Daten zu verschiedenen Themenbereichen und in verschiedenen Dateiformaten zur Verfügung gestellt. Die Daten zu den Film-Drehorten standen in verschiedenen CSV-Formaten (mit Komma oder Semikolon als Trennzeichen) zur Verfügung und enthielten Filmname, das Drehjahr und die Adresse des Drehortes. Außerdem Informationen zu Regisseur, Drehbuchautor, Hauptdarstellern, Produktionsfirma und eventuell vorhandene Fun Facts. Um die Adressen in eine für Tableau und andere Visualisierungstools geeignetes Format zu bringen, war es notwendig die Geodaten der Adressen zu sammeln. Um dies schnell und effizient umzusetzen, haben wir mittels eines Java-REST-Clients die Adressen aus der CSV-Datei ausgelesen und über die Google-Maps-Geocaching-API die Längen- und Breitengrade aus der zurückerhaltenen JSON-Datei in die CSV-Datei geschrieben.
GeoJSON
In dem OpenData-Portal von San Francisco haben wir eine Geojson-Datei gefunden, in welcher die offiziellen Districte San Franciscos vermerkt sind. In dieser Datei ist ein Array von Distrikten, die von mehreren Koordinaten umgrenzt werden. Die Koordinaten sind ebenfalls in einem Array gespeichert.
International-Movie Database
Da wir zusätzlich zu diesem OpenData-Datensatz noch die Bewertungen der Filme/Serien und den zugehörigen Film-Genre mit in unsere Visualisierung einbringen wollten, war eine manuelle Recherche auf der IMDb-Website notwendig. Die gefundenen Rankings wurden dann per Hand in eine neue Spalte “IMDB Rating” eingetragen.
Datenerhebung
Da wir bereits erhobene Daten für unser Projekt verwendeten, war eine eigene Datenerhebung nicht notwendig.
Datenauswertung
OpenData-Portal
Da bei manchen Filmen in unserem Datensatz zusätzlich zum Filmname auch die Episoden- oder Staffelnummer vermerkt war, haben wir diese manuell entfernt. So ist nur der Name in unserem Datensatz lesbar, damit die Infomationen zu diesem Film oder dieser Serie mit diesem Namen zusammengefasst werden können. Weiterhin haben wir bei der Angabe der Produktionsfirma auf einheitliche Namen geachtet. In unserem Datensatz war zu Beginn beispielsweise sowohl “ABC” als auch “American Broadcasting Company (ABC)” enthalten. Hier wurde jeweils der ausgeschriebene Name verwendet und auf Abkürzungen verzichtet. Ebenfalls wurde bei einzelnen Produktionsfirmen die nicht immer einheitliche Angabe von “Corp” oder “Corporation” entfernt.
International-Movie Database
Hierbei stellten wir fest, dass nicht alle Filme/Serien von der IMDb eine Bewertung erhielten da erst ab 10 Rezensionen in der IMDb eine Bewertung eingetragen wird. Damit wir mit den Daten arbeiten können, setzen wir die Bewertung in unserer CSV-Datei auf 0. So können wir in unseren späteren Datenvisualisierung diese entsprechend kenntlich machen. Bei den Filmgenres stellten wir fest, dass Filme und Serien in vielen Fällen nicht eindeutig einem Genre zugeordnet werden können. Deshalb legten wir jeweils alle zutreffenden Genres als kommagetrennte Liste in der Gernre-Spalte der CDV-Datei ab. Unser späterer Prototyp kann die Aufteilung der Genres zur Weiterverarbeitung vornehmen.
Prototyp
Aufgestellte Fragen
Folgende Fragen haben wir über die Film- und Serieninformationen unseres Datensatz aufgestellt:
- Besteht ein auffälliger Zusammenhang zwischen Drehort und Regisseur?
- In welchem Stadtviertel wurden die meisten Filme gedreht?
- Besteht ein auffälliger Zusammenhang zwischen Drehort und Produktionsfirma?
- Erreichen Filme an bestimmten Drehorten ein höheres IMDb-Ranking?
- Gibt es einen Zusammenhang zwischen dem Veröffentlichungsjahr und dem Drehort?
Visualisierung
Erste Visualisierungsidee nach Einigung auf den Datensatz der FIlmdrehorte in San Francisco:
Implementierung
Für die Umsetzung des Prototyps wurde Java verwendet, da alle Gruppenmitglieder die meiste Programmiererfahrung damit hatten und es zudem einige nützliche Bibliotheken für die Verarbeitung und Visualisierung von Daten gibt. In den folgenden Unterkapiteln wird auf die einzelnen Elemente der Implementierung eingegangen und die verwendeten Bibliotheken kurz vorgestellt.
Karte
Zur Umsetzung der interaktiven Karte verwendeten wir die Bibliothek UnfoldingMaps, bei der wir dankenswerterweise die aktuelle Beta-Version 0.9.9 von Prof. Dr. Nagel erhielten. Mit Hilfe der Bibliothek konnten wir eine Karte von San Francisco abbilden. Auf der Karte zeigen wir die einzelnen Stadtbezirke an und die Drehorte werden als farbliche Punkte dargestellt. Mit den farblichen Drehort-Markierungen kann interargiert werden. Nach dem Auswählen eines Punktes werden weitere Informationen (Titel des Films, Adresse, Regie uvm.) zum Drehort angezeigt. Da sich bei einer großen Zoomstufe die einzelne Drehorte überlappen, entschieden wir uns die Informationen aller markierten Drehorte gleichzeitig anzuzeigen. Diese Anzeige ist aber auf die verfügbare Fläche im Programm begrenzt (siehe Abbildung: Karte des Prototypen).
Schieberegler
Als weitere Interaktionselemente entschieden wir uns verschiedene Filtermöglichkeiten anzubieten: Für die Umsetzung des Elemente wurde die Java-Bibliothek controlP5 in der aktuellen Version 2.2.5 verwendet, die ebenfalls wie “unfoldingMaps” auf die Java-Visualisierungsbibliothek Processing aufbaut und diese erweitert. Mit Hilfe eines horizontalen Schiebereglers erlauben wir den Nutzern, die Drehorte nach Zeiträumen zu filtern. Durch das Verschieben des Reglers werden die Drehort-Markierungen auf der Karte entsprechend ihres Veröffentlichungsjahres ein- oder ausgeblendet (siehe Abbildung Zeitachse).
Listen
Neben den beiden Schiebereglern als Filterungsmöglichkeit, wollten wir den Nutzern auch die Filterung nach weiteren Parametern, wie Regisseur, Genre, Produktions- und Vertriebsfirma des Films, anbieten. In der ersten Version solten alle Elemente der jeweiligen Kategorie zur Auswahl stehen um eine möglichst explorative Nutzung des Prototyps zu ermöglichen. Dabei stellten wir aber fest, dass es je nach Kategorie mehr als 400 Einträge gab, die nicht sinnvoll dargestellt werden konnten (siehe Abbildung Filter Erste Version).
Die Verbesserung war, dass je nach Fensterhöhe jeweils die 5 bis 15 häufigsten Elemente einer Kategorie als Filter angeboten werden sollen. Es sollten die häufigsten Elemente dargestellt werden, da die explorative Nutzung dadurch sichergestellt ist. Wir gehen davon aus, dass die Nutzer eher nach bekannten und damit häufig vorkommenden Regisseure, Produktions- und Vertriebsfirma suchen und filtern möchten.
Für die Implementierung setzten wir Radiobuttons, aus der “ControlP5”-Bibliothek ein, um die entsprechenden Elemente auswählen zu können. Zudem erlauben wir über einen Button nach allen Datensätzen zu filtern (siehe Abbildung Filter Finale Version).
Diagramme
Neben der Karte als Visualisierung der Daten, visualisierten wir die Elemente der einzelnen Kategorien ebenfalls. Mit der Darstellung wie viele Elemente von einer Filtereinstellung betroffen werden, bieten wir dem Nutzer bei der Interaktion mit den Filtermöglichkeiten einen Orientierungspunkt. Für den Zeitraum platzierten wir ein Histogramm leicht über den Schieberegler. Dieses stellt die Verteilung der Daten über die Jahre da. Es ist für den Nutzer klar erkennbar, bei welcher Position des Schiebereglers viele oder wenige Daten auf der Karte zu erwarten hat (siehe Abbildung Zeitachse). Für die IMDb-Bewertung benutzten wir ebenfalls ein Histogramm, drehten es aber um 90° um es am entsprechenden Schieberegler auszurichten und hier ebenfalls das Gesetz der Nähe anwenden zu können (siehe Abbildung IMDb-Bewertung). Für die Elemente in der Liste nutzten wir Balkendiagramme. Dabei legten wir fest, dass das häufigste Element 100% darstellen soll und alle anderen Elemente prozentual weniger. Diese Darstellung macht den Unterschied zwischen den einzelnen Elementen besser sichtbar, als wenn von der Gesamtzahl aller Elemente ausgegangen wird (siehe Abbildung Vergleich Balkendiagramme).
Datenhaltung und Verarbeitung
Die Daten hatten wir alle in einer CSV-Datei zur Verfügung und diese haben wir bereits mit allen zusätzlichen Informationen, wie den Geo-Daten und den IMdb-Bewertungen, ausgestattet. Wir konnten wir ohne eine Seperate Datenbank auskommen, da unser Prototyp die CSV-Datei beim Starten der Anwendung auslesen und entsprechende Liste von FilmLocation-Objekten erzeugen kann. Für die Verarbeitung der Daten, um z.B. die Filterungen umzusetzen, verwendeten wir die in Java 1.8 eingeführten Streams und Lambda-Ausdrücke, die eine schnelle und anpassbare Filterung der Daten ermöglichen.
Fertiger Prototyp
Der fertige Prototyp, der im Rahmen der iExpo Studierenden und Professoren der Hochschule Mannheim vorgestellt wurde, enthielt alle ursprünglich geplanten Funktionalitäten. Auf der Karte konnten die verschiedenen Drehorte markiert werden, um weitere Informationen zu erhalten. Über die verschiedenen Filtermöglichkeiten konnten die Daten vom Nutzer erforscht und Kenntnisse gewonnen werden.
Der komplette Prototyp mit den verschiedene Visualisierung und den verwendeten Daten ist öffentlich als GitHub-Repository verfügbar und kann über den folgenden Link heruntergeladen werden:
https://github.com/Craig92/gdv
Erkentnisse
Auswertung der aufgestellten Fragen.
Frage: Besteht ein auffälliger Zusammenhang zwischen Drehort und Regisseur?
Erkenntnis: Zwischen Drehort und Regisseur fällt auf, dass Andrew Haigh mit 125 Drehorten am häufigsten in San Franciscio gedreht hat. Die Drehorte befinden sich dabei alle sehr zentral in San Francisco und sind hauptsächlich Drehorte zur Serie “Looking” und dem dazugehörigen Film.
Bei den anderen Regisseuren fällt auf, dass sie meist nur zwei bis drei Film in San Francisco gedreht haben. Diese Drehorte befinden sich ebenfalls hauptsächlich zentrumsnah oder vereinzelt auch in Außenbereichen von San Francisco.
Frage: In welchem Stadtviertel wurden die meisten Filme gedreht?
Erkenntnis: In dem Viertel “Peskin” wurden mit 534 Drehorten die meisten Filme gedreht, gefolgt von dem Viertel “Kim” mit 282 Drehorten. An dritter Stelle kann sich das Stadtviertel Farrell mit 174 Drehorten platzieren.
Frage: Besteht ein auffälliger Zusammenhang zwischen Drehort und Produktionsfirma?
Erkenntnis: Bei den Produktionsfirmen ist sehr gut zu sehen, dass die großen und bekannten Produktionsfirmen, wie Warner Bros. Pictures, Paramount Pictures und Columbia Pictures Corp. hauptsächlich in den beiden Vierteln “Peskin” und “Kim” Drehorte haben. Kleinere und weniger bekannte Produktionsfirmen haben im Gegensatz dazu häufiger Drehorte in anderen Viertel der Stadt.
Bei den Produktionsfirmen fällt zudem auf, dass nicht die größten und bekanntesten Firmen die meisten Drehorte in San Francisco haben, sondern die Firma “Mission Street Production”, welches ein Tochterunternehmen von HBO und unter anderem für die Produktion der Serie “Looking” verantwortlich ist.
Frage: Erreichen Filme an bestimmten Drehorten einen höheren IMDb?
Erkenntnis: Aus unserem Datensatz erhielten wir das Ergebnis, dass in den Distrikten „Ronen“ und „Sheehy“ die IMDb- stärksten Filme zu finden waren. Hierbei beschränkt sich der Datensatz auf die Filme Looking, Looking Special und Sense 8, welche alle zwischen dem IMDb-Ranking 8,2 und 8,4 liegen.
Frage: Gibt es einen Zusammenhang zwischen dem Veröffentlichungsjahr und dem Drehort?
Erkenntnis: Über die Jahre ist vor allem zu erkennen, dass sich das Viertel „Peskin“ zu einem beliebten Ort für den Filmdreh etabliert hat.
Hier wurde im Jahre 1915 – 1935 lediglich 1 Film gedreht, 1956– 1976 waren es bereits 71.
Für den Zeitraum von 1998- 2018 ist Peskin mit 294 Drehorten an der Spitze der Viertel mit den meisten Drehorten. Als Viertel mit den wenigsten Drehorten über die gesamten Jahre platziert sich Tang (11 Drehorte 1915-2018) auf dem letzten Platz.
Thesenunabhängige Erkenntnisse
Weiterhin konnten wir feststellen, dass fast die Hälfte der Filme und Serien unseres Datensatzes aus den Jahren 2000 - 2018 stammt. Das ist möglicherweise darauf zurückzuführen, dass vor dem 21. Jahrhundert solche Daten nicht festgehalten wurden und das nachträgliche Dokumentieren zu aufwändig ist.
Erkenntnisse erster Version des Prototyps
In der ersten Version unseres Prototyps legten wir die Position der einzelnen Bereiche für die Karte, die Zeitraum- und IMDb-Bewertungs-Schieberegler und der Filterliste fest und implementierten die entsprechenden Logiken für die Karte und die Filterliste. Neben der bereits oben erwähnten Erkenntnis, dass es nicht möglich und sinnvoll ist alle Elemente aller Kategorien als Filter anzubieten, stellten wir eine ungewollte Beziehung zwischen der Karte und den Schiebereglern fest. Durch die Positionierung der beiden Schieberegler links und unterhalb der Karte entstand eine Beziehung ähnlich der X- und Y-Achse in einem Koordinatensystem. So wirkte der IMDb-Regler als Y-Achse und der Zeitraum-Regler als X-Achse der Karte (siehe Abbildung Positionierung Erste Version). Darum entschieden wir uns den IMDb-Regler auf die linke Seite neben den Filterlisten zu platzieren um diese Beziehung aufzulösen (siehe Abbildung Positionierung Finale Version).
Fazit
Reflektion
iExpo
Bei der Vorstellung unseres Prototyps im Rahmen der iExpo am 27. Juni 2018 intergagierten neben Komilitonen und anderen Studierenden der Hochschule auch zahlreiche Professoren mit unserem Prototypen. Dabei stellten wir fest, dass nicht alle Interaktionselemente für die Nutzer sofort klar erkannt wurden und teilweise falsch bedient wurden. Bei den Filterlisten war es nicht allen Nutzern klar, dass die einzelnen Punkte an- und abwählbar waren. Dass kann daran liegen, dass die Checkboxen nicht mit einem Haken oder Kreuz, sondern mit heller und dunklen Farbe dargestellt werden. Dies hätte durch eine Legende im Prototypen gelöst werden können. Außerdem führte es teilweise zu Verwirrung, dass bei der Auswahl eines Filters in einer Kategorie alle Filter in allen Kategorien abgewählt wurden. Hier wäre es verständlicher, wenn nur die Auswahlmöglichkeiten in der betroffenen Kategorie abgewählt werden würden. Ebenfalls konnten die beiden Schieberegler für die IMDb-Bewertung und dem Zeitraum nicht von allen Nutzern intuitiv bedient werden, da die beiden Regler über das Ziehen und Verschieben verändert werden und nicht, wie von einigen Nutzern erwartet, durch Klicken auf die entsprechende Position. Hier hätten Pfeilsymbole auf den Schieberegler eventuell die Bedienung klarer gemacht. Ebenfalls hätte man zu den Markierungen auf der Karte eine Legende hinzufügen können, die die Bedeutung der verschiedenen Farbtöne (Anzahl der Drehorte an einem Ort) und der Auswahl einer Markierung, erläutert hätte.
Allgemein
Wir stellten im Rahmen des Projektes fest, dass die Datenaufbereitung einen großen Teil der verfügbaren Zeit beanspruchte. Einen besonders großen Teil dieser Zeit verbrachten wir mit der Ergänzung der Daten um Informationen, die für unsere Visualisierung benötigt wurden. Der originale Datensatz enthielt beispielsweise keine Informationen zu den Genres und den IMDb-Bewertungen eines Films. Diese mussten manuell von der IMDb Seite abgelesen und in den Daten eingefügt werden. Außerdem wurden die genauen Geodaten zu den Drehorten benötigt sowie Daten zur Abgrenzung der Distrikte, welche wir selbst erarbeiten mussten. Durch die schnelle Entwicklung eines ersten Prototypen, konnten wir schon früh nach Projektstart erste Erkenntnisse sammeln. Dies bezieht sich sowohl auf Erkenntnisse aus den Daten, um unsere Hypothesen zu prüfen, als auch zur Gestaltung des Prototypen. Es ermöglichte uns einige Designs auszuprobieren (z.B. IMDb-Slider auf der linken Seite der Karte), diese konkret in der Gruppe besprechen und ggf. verwerfen oder beibehalten zu können. Außerdem war der Prototyp hilfreich um Feedback von Außenstehenden zu sammeln, wodurch wir einiges Aspekte intuitiver gestalten konnten.
Ausblick
Mit der Erweiterung unseres Datensatzes könnte das Interesse der Ansicht der Drehorte und den produzierenden Firmen weiter steigen. Man könnte die Drehorte, welche im Datensatz als Adresse eingetragen werden beispielsweise durch einen 1-2 km Radius erweitern und so Filmdrehorte in ähnlichen Bereichen aufzeigen. Weiterhin könnte im Informationskasten, welcher bei anklicken des Drehortes erscheint, ebenfalls ein Link zu dem Trailer des Films erscheinen, soweit hier von einer vorhanden ist. Um Vergleiche zwischen verschiedenen Filtereinstellungen vornehmen zu können und damit leichter neue Erkenntnisse zu gewinnen, wäre eine Multi-Map-Ansicht oder unterschiedliche Farben für die Markierungen eine Möglichkeit, die die explorative Nutzung des Prototypen weiter unterstützt. Eine weitere Möglichkeit zur Weiterentwicklung des Programms, wäre die Entwicklung einer mobilen Anwendung. Dazu wäre ein neues Design nötig, um die Filtermöglichkeiten sinnvoll anzubieten. Dies würde es dem Nutzer ermöglichen direkt unterwegs vor Ort nachzuschauen, welche Filme in seiner Nähe gedreht wurden. Damit wären die die Anwendungsmöglichkeiten des Programms erweitert.