Leoni Gora, Christoph Huber, Maurice Mack & Hamid Ahmetovic
carclicks
[Abstract] Sind Automarken in der Landessprache ihrer Herkunftsländer beliebter als in anderen Landessprachen?
Um dies zu beantworten, visualisieren wir ausgewählte Automarken aus Japan, Deutschland, Italien und Frankreich und vergleichen diese nach ihrer Beliebtheit auf Wikipedia für das Jahr 2016. Als Grad wird die Anzahl der Aufrufe auf der jeweiligen Wikiseite der Automarken in verschiedenen Sprachversionen (deutsch, italienisch und französisch) gewählt.
Einführung / Konzept
Wikipedia ist heutzutage eine der größten Informationsplattformen im Internet. In Wikipedia ist es einem Nutzer möglich sich über die verschiedenen Automarken der Welt Informationen zu beschaffen.
Die Aufrufe auf die Seiten ausgewählter Automarken aus Deutschland, Frankreich, Japan und Italien nutzen wir, um die Beliebtheit der Automarken in verschiedenen Sprachversionen zu vergleichen. Wir haben uns entschieden die Sprachversion der jeweiligen Herstellungsländer der Automarken zu verwenden. Die Datenerhebung der Aufrufzahlen erfolgt von Anfang Januar 2016 bis Ende Dezember 2016. Wir zeigen damit den Beliebtheitsgrad einer Automarke im Verlauf von einem Jahr.
In unserer Visualisierung wollen wir folgende Fragen beantworten:
- Sind Automarken in der Landessprache ihrer Herkunftsländer beliebter als im Ausland?
- Welche Automarke sticht auf der Beliebtheitsskala aller betrachteten Sprachversionen besonders hervor?
- Wie verändert sich die Beliebtheit einzelner Automarken im Jahr 2016? Beispiel: Wie oft werden deutsche Autos außerhalb der deutschen Sprachversion angeklickt?
Daten / Auswertung
Daten
Für unsere Visualisierung verwenden wir die Aufrufzahlen von 30 ausgewählten Automarken aus vier verschiedenen Ländern (Italien, Deutschland, Frankreich und Japan) in insgesamt 4 Sprachversionen (Italienisch, Deutsch, Japanisch, Französisch). Als Quelle hierfür dient uns der “wikimedia pageviews api”.
Die Wikipediaseiten der Automarken haben in den unterschiedlichen Sprachversionen auch unterschiedliche Namen und Schriftzeichen (z.B.: In Japanisch). Wir haben ein JSON Dokument manuell erstellt bei dem wir jeweils die unterschiedlichen Namen und Schriftzeichen gepflegt haben. Dadurch vermeiden wir Probleme bei der Datenbeschaffung.
json
{
"Smart" : [
{"languageVersion":"de", "searchquery":"Smart_(Automarke)"},
{"languageVersion":"fr", "searchquery":"Smart"},
{"languageVersion":"it", "searchquery":"Smart"},
{"languageVersion":"ja", "searchquery":"スマート_(自動車)"}
]
},
Die Abfrage an die von wikimedia angebotene Schnittstelle erfolgte nach folgendem Schema:
wikimedia.org/api/rest_v1//metrics/pageviews/per-article/{project}/{access}/{agent}/{article}/{granularity}/{start}/{end}
Für den Aufruf wurden die Folgenden Parameter gewählt:
{article} = “searchquery” aus dem Hilfs-JSON
{granularity} = monthly
{start} = 2016010100
{end} = 2016123100
Beispielaufruf für die monatlichen Aufrufzahlen der Automarke Audi in der deutschen Sprachversion von Wikipedia:
https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/de.wikipedia/all-access/all-agents/Audi/monthly/2016010100/2016123100
Der Aufruf liefert das folgende ergebnis JSON:
json
{
"items":[
{
"project": "de.wikipedia",
"article": "Audi",
"granularity": "monthly",
"timestamp": "2016010100",
"access": "all-access",
"agent": "all-agents",
"views": 51613
},
{
"project": "de.wikipedia",
"article": "Audi",
"granularity": "monthly",
"timestamp": "2016020100",
"access": "all-access",
"agent": "all-agents",
"views": 48916
},
Zum Darstellen des Datums wurde das Format wie folgt angepasst:
Originaler Timestamp: 2016020100
Geparster Timestamp: 2016-02-01
Prototyp / Ergebnisse
Visualisierung
Nachdem wir, unsere Daten gewählt hatten, fingen wir an erste Visualisierungsversuche in Tableau zu machen, um uns mit den Daten vertraut zu machen.
Schnell kamen wir zu dem Schluss, das eine Landkarte um die Herstellungsländer dazustellen nicht sinnvoll ist. So kamen wir zu unserem ersten Entwurf, das wir mithilfe von Google Charts erstellten. Außerdem entschlossen wir uns nur Automarken aus den 4 Länder Deutschland, Frankreich, Italien und Japan zu nutzen, da diese für uns große und interessante Autoherstellungsländer darstellen. Wir entschieden uns gegen die USA oder England, das diese Sprachversion auf der ganzen Welt genutzt werden und die Daten deutlich herausstachen. Wir überlegten uns allerdings die englischen Sprachversion als neutralen Vergleich zu nutzen, haben uns dann aber aufgrund von Zeitmangel dagegen entschieden. Wir wollten lieber weniger Länder dazustellen, um diese intensiver vergleichen zu können.
Erster Prototyp:
Die Herstellungsländer sind hier durch die Flaggen repräsentiert. In einem Pie-Chart werden die einzelnen Automarken, des ausgewählten Landes angezeigt. In einem weiterm Balkendiagramm können verschiedene Automarken miteinander verglichen werden, wenn man sie auswählt. Diese Visualisierung hatte den Fehler, das es zu viele Klicks benötigte, um zu einer Erkenntniss zu kommen. Es ist schwierig den Betrachter mit dieser Visualisierung neugiereig zu machen und zu der Erkenntniss zu leiten. Also musste eine neue Idee her.
Wir trafen uns zu einem gemeinsamen Brainstorming, bis wir zu unserer fertigen Visualisierungsform kamen: Einer Small Multiples - Matrix.
Mit Hilfe einer Matrix aus Balkendiagrammen, ist es uns gelungen dem Betrachter auf den ersten Blick einen Einblick in das Thema zu geben. Er muss nicht viel Klicken um zu einer Erkenntniss zu gelangen. Auf der x-Achse sind die Herstellungsländer der Autos dargestellt, die von den Länderfalggen repräsentiert sind. Direkt darunter finden wir Pie-Charts. Diese zeigen alle Automarken, aus dem Herstellungsland das darüber dargestellt ist. So kann der Bertachter sich zunächst einen Gesamtüberblick, über diese Automarken verschaffen. Die x-Achse wird in der gesamten Matrix durch das Farbsystem repräsentiert. Jedes Herstellungsland ist in seiner zugeordneten Farbe gekennzeichent.
Die y-Achse zeigt die Sprachversionen von Wikipedia, nach denen die Balkendiagramme gefiltert sind. Mit dieser Martix, sind jetzt alle Daten, die wir visualisiernen wollen dargestellt. Auch unsere Fragen, ob die Automarken in den Sprachversionen des Herstellungslandes beliebter sind können wir leicht beantworten. Es ist auf der Diagonalen der Matrix zu erkennen. Wir sehen hier die Automarken in der Sprachversion ihres Herstellungslandes. Es fällt auf, dass Automarken in dieser Sprachversion die größten Aufrufzahlen haben.
Zusätzlich haben wir für jeder Sprachversion einen Mittelwert der Beliebtheit der Automarken des passenden Herstellungslandes errechnet und in dieser Spalte als Mittelwert angezeigt. So wird es für den Betrachter noch einfacher zu erkennen, welche Automarken in anderen Sprachversionen beliebter sind als die “Eigenen” Automarken.
Die Visualisierung hat durch das Farbsystem und die Visualisierungsart einen spannenden Look. Auch das Thema Autos hat einen großen Grad an Interesse, was dazu führt das die Visualisierung Aufmerksamkeit auf sich zieht. Das haben wir auch auf der IExpo gemerkt.
Erkenntnisse
Eine weitere spannende Erkenntniss, die wir mit unserer Visualisierung erlangt haben, ist das deutsche Automarken auch sehr beliebt in anderen Sprachversionen sind. Vorallem BMW und VW stechen in anderen Sprachversionen oftmals heraus, und liegen über dem Durchschnitt. Doch auch die italienischen Automarken Lamborghini und Ferrari sind in allen Sprachversionen vergleichsweise sehr beliebt, was dafür spricht, dass Wikipedia genutzt wird sich über Traumautos zu informieren.
Implementierung
Als Bibliothek für die Charts haben wir Google Charts verwendet:
-
Für die Visualisierung der Small-Multiples haben wir eine Kombination aus Bar-Charts und Line-Charts verwendet (Combo-Chart).
-
Für die Donut-Charts (Pie-Chart)
Weitere Bibliotheken/Frameworks:
- AngularJS
- jQuery
- Bootstrap
Fazit
Die Frage ob Automarken in der Landessprache ihrer Herkunftsländer beliebter sind als im Ausland können wir mit ja beantwoerten. Unsere Visualisierung lässt erkennen, in welcher Sprachversion welche Automarken beliebt sind. Wir haben unser Ziel erreicht, doch haben Ideen die Visualisierung zu erweitern.
Um Verfälschungen zu vermeiden, könnte ein größerer Zeitraum einbezogen werden, die für größere Klickzahlen sorgen, wie z.B. der hundertste Geburtstag von BMW. Die Herstellungsländer sind unterschiedlich groß und haben nicht die gleichen Einwohnerzahlen. Die Aufrufzahlen der einelnen Ländern müsste man deshalb nochmal anpassen. Ein Idee für den nächsten Schritt, ist das Einbeziehen von weiteren Datensätzen, wie zum Beispiel die Zulassungszahlen der Automarken. So wäre es einfacher die Realität mit den Klickzahlen auf Wikipedia zu vergleichen. Wir sind uns sicher so zu weiteren spannenden Erkenntnissen zu gelangen.