Tredje visualisering af bølgedata

At forstå konvergensen af ​​værktøjer, målgrupper og tilstande

Dette er en skrivning af min hovednote fra Tapestry Conference 2018 (ovenfor). Du kan se dias (hvorfra jeg har afledt mange af billederne nedenfor) med højttalernotater her.

Forestil dig, hvordan det var at gøre datavisualisering for 30 år siden. Det er 1988, og du bruger Excel 2.0 til enkle diagrammer som cirkeldiagrammer og linjediagrammer, eller måske noget som SPSS til mere kompliceret udforskning og Arc / Info til geospatial datavisualisering. Nogle korttyper, der er blevet temmelig allestedsnærværende, som treemap, er ikke engang blevet opfundet endnu. Men i 1988 var Edward Tufte's The Visual Display of Quantitative Information allerede fem år gammel.

Optagelser af analytikere, der bruger Excel 2.0 til at lave cirkeldiagrammer c. 1988

Forestil dig nu, hvordan det var at lave datavisualisering for 15 år siden. Der var ingen D3, ingen Tableau, ingen ggplot eller endda Prefuse / Flare. Hvis du ville gøre netværksvisualisering, kan du bruge det nyligt udgivne Cytoscape, selvom det var fokuseret på bioinformatik. Geospatiale indstillinger var mere avancerede, da ArcGIS leverede mere og mere kartografisk funktionalitet i dets mange røde værktøjskasser.

Forskellen i de traditioner, der bakker geografisk datavisualisering og netværksdatavisualisering: i 2003 var det allerede version 8.0 af ArcGIS, hvorimod det samme år blev frigivelsen af ​​det første moderne netværksdatavisualiseringsværktøj: Cytoscape.

Jeg ved, hvor meget datavisualiseringen er ændret, fordi jeg har brugt de sidste ti år på at fremstille datavisualiseringsprodukter i en eller anden form. Stort offentligt vendende arbejde som ORBIS og Kindred Britain samt mindre visualisering af offentlige data for sjov eller til støtte for forskning, analyse og udforskning. Sammen med praktisk arbejde med datavisualisering skrev jeg en bog om det mest kraftfulde datavisualiseringsbibliotek i verden i dag: D3. Og så skrev jeg den bog igen. I det sidste år har jeg opbygget mit eget kortbibliotek, Semiotic. Jeg har også kørt en årlig undersøgelse af fagfolk inden for datavisualisering i de sidste to år. Og undervejs har jeg skrevet om datavisualisering her på Medium.

Det var ikke grunden til, at jeg blev inviteret til at give en grundlæggende kommentar på Tapestry. Jeg blev inviteret, fordi jeg kommenterer brændende kommentarer på sociale medier og i interviews og lejlighedsvis i samtaler. Jeg har længe sagt, at vi skal være mere komfortable med kritik i datavisualisering, men uden kontekst kan de bemærkninger, jeg fremsætter, virke vilkårlige og ubehagelige.

Så jeg var glad for at have denne mulighed for at give kontekst og udtrykke min bekymring for, at der har været en konvergens af værktøjer og tilstande, men ingen tilsvarende omorganisering af tanker og praksis. Det ser ud til, at vi stadig snakker om og evaluerer datavisualisering, som om det var 1988 eller 2003, hvor antallet af mennesker, der udfører datavisualisering, kapaciteterne i deres værktøjer og forventningerne til deres målgrupper, er dramatisk steget.

Vi fortsætter med at opdele datavisualiseringsfællesskabet i gamle kategorier som analytikere, der bruger BI-værktøjer til at oprette rapporter, udviklere, der bruger kode til at lave brugerdefineret datavisualisering, journalister, der opretter datadrevne historier eller dataforskere, der anvender efterforskende dataanalyse. Inden for eller mellem disse grupper har vi datakunstnere, professionelle videnskabsfolk, forretningsanalytikere og værktøjsmaskiner af den art, vi måske ser udødeligt i tegnefilmene fra Susie Lu. Disse kategorier af praksis kortlægger direkte til bestemte værktøjer og tilstande, som sent er begyndt at transformere.

1. bølge: klarhed

Og så vil jeg gerne oplyse, at der i den moderne forstand af datavisualisering var en 1. bølge centreret om Edward Tufte, der understregede klarhed, enkelhed og direkte 1 til 1 kortlægning af datapunkter, der undgår så meget transformation som muligt . Fra denne æra ser vi fremkomsten af ​​spartanske farveskemaer - ofte fokuseret på neutrale eller desaturerede farver med én fremtrædende farve - betydningen af ​​etiketter og naturlige sprogtitler og en slags idealisering af det perfekte diagram, der er umiddelbart læsbart, tilgængeligt og handlingsbart . En slags diagram-som-sætning med klare strukturer og regler, som du måske kan se i The Elements of Style.

Bølge 1: klarhed

2. bølge: systemer

Den 2. bølge fokuserede på systematisering af kodning af information, der er nødvendig for udvikling af værktøj til at producere datavisualisering. Det er centreret om det mest indflydelsesrige arbejde om dette emne: The Grammar of Graphics af Leland Wilkinson. I stedet for skemaet som en sproglig analogi, er det skemaet som en ekstrudering fra en gyldig specifikation. Grammatikken i grafik stræbte efter at gøre det muligt for folk at skabe et ensemble af grafik, og hvis vi kigger på et datavisualiseringsbibliotek, er min egen inkluderet og ser den filosofi i aktion.

Disse værktøjer og biblioteker reklamerer for store mængder eksempler, og væk er den omhyggelige brug af farve og tekst, erstattet med et kærlighedsbrev til geometri. Hele “for eksempel” -tilgangen er så indgroet i disse værktøjer, at Mike Bostock skrev et helt stykke om det.

Wave 2: Systemer

Som alle værktøjer fra denne periode er D3 direkte inspireret af eller stærkt påvirket af The Grammar of Graphics. Semiotiske, sejr, highcharts, plot: Alle disse kommer fra eller er selv stærkt påvirket af D3. De to g'er i Grammar of Graphics er hvor ggplot får sit navn. Leland Wilkinson, forfatteren, var en forskningsforsker ved Tableau. Grammatikken i grafik fokuserer på en knivskarp måde på at kode data via kanaler til geometri. Dette er et system til kodning af grafik fra data, hvor dataattributterne svarer og dynamisk påvirker længden, vinklen, farven eller positionen (eller en hvilken som helst anden grafisk karakter) baseret på dataene og ændringerne i dataene.

Wave 2 handlede om at tage disse teoretiske systemer og fremstille de nødvendige værktøjer til enhver datavisualiserende udøver til at skabe ethvert grafisk udtryk baseret på data. Det er fantastisk for ingeniører og software arkitekter, der prøver at opbygge biblioteker for at muliggøre datavisualisering, men ikke nødvendigvis for praktikere, der opretter datavisualiseringsprodukter. Derfor har vi set en sådan spredning af værktøjer og biblioteker til datavisualisering, men en samtidig stigning i grusom grafik, der udgør som diagrammer.

Søgningen efter en perfekt specifikation for kodning af dataattributter gennem grafiske kanaler er et middel til en ende. Men kraften og succesen med de systemer, der blev bygget i denne periode, blev ender for sig selv, som løber ud fra en grundlæggende forudsætning for The Grammar of Graphics:

Dette system er i stand til at producere nogle forfærdelige grafikker. … Dette system kan dog ikke producere en meningsløs grafik.

Med dette betyder Wilkinson, at der er et logisk forhold mellem grafik og data, men bare fordi grafik har en slags "opskrift", betyder det ikke, at det på en eller anden måde er "ikke meningsløst". Datavisualisering er en form for kommunikation, og hvis du fremstiller forfærdelige diagrammer, betyder det, at de er ulæselige, og det betyder, at de er meningsløse.

Datavisualisering er en form for kommunikation, og hvis du fremstiller forfærdelige diagrammer, betyder det, at de er ulæselige, og det betyder, at de er meningsløse.

2. Wave Data-visualisering med sin manglende vægt på design til fordel for systemer producerede en skov af forfærdelige instrumentbræt og rapporter. Hver ingeniørafdeling i hvert selskab har mindst et grimt realtidskort skrevet med nogle rammer bygget på D3. Hver udøvende har et dusin tablåpaneler fyldt med faner og visninger af de samme 10-farver desaturerede linjediagrammer. Vi ser skærmbilleder fra, hvad der tilsyneladende er sonderende dataanalyse, faldet i dokumenter eller integreret i dashboards uden nogen form for optimering. Alt dette sker på trods af den voksende funktionsparitet på tværs af teknologier.

3. bølge: konvergens

Vi har et desperat behov for at revurdere og omdøbe vores tilstande. For 5 eller 10 år siden, hvilken type datavisualisering, du lavede - hvad enten det var et instrumentbræt, en notesbog, en rapport eller et skræddersyet kommunikationsstykke - var meget forskelligt afhængigt af det sprog, bibliotek eller værktøj, du brugte. Det er ikke længere tilfældet.

Vi er nødt til at forestille os nye tilgange, der anerkender, at konvergens ikke kun sker i funktionaliteten af ​​værktøjer, men også i forventning fra brugere, der ikke længere er villige til at acceptere, at de er nødt til at gå ud af en tilstand for at optimere til en anden. Det medfører, at vores vægt flyttes væk fra individuelle diagrammer til konstruktion, evaluering og levering af de produkter, hvor disse diagrammer vises.

Nteract notebook-platformen reklamerer ikke kun for traditionelle notebook-brugere (forskere og dataforskere) men til et bredt publikum, der er interesseret i mere end bare

Notebooks bliver mere dashboardlignende, dashboards bliver mere historiefortællende og generelt er der en voksende krydsbestøvning og konvergens blandt medier / tilstande. Du kan lave smuk grafik med R, du kan have hierarkiske diagrammer i Tableau, du kan nemt distribuere e-mail-rapporter fra dit brugerdefinerede dashboard.

Hos Netflix eksperimenterer vi med analytiske notesbøger, der ikke er designet til efterforskende dataanalyse, men forklarende datavisualisering og de samarbejds- og kommunikationsbehov, der kræves i denne tilstand. Historiefortællingsteknikker, der er almindelige for datajournalistik, er top-of-mind for interessenter, der er vokset sofistikerede i deres smag og forventer cued animation og personaliserede referencerammer.

Der er flere og flere af disse tendenser, som vi har brug for bedre at forstå:

  • Når esoteriske korttyper, som treemaps og node-link diagrammer, nu er så tilgængelige, at de vises overalt, og nu kræver det et rigtig underligt kort at blive erklæret som en xenografisk.
  • Notebooks bruges som dashboards og også som artefakter i datateknik og transformationsprocessen.
  • Datavisualisering i R er vokset næsten lige så robust og interaktiv som datavisualisering i BI-værktøjer eller brugerdefinerede applikationer.
  • Folk bliver mere komfortable med stiliseret datavisualisering (tegnet men også ISOTYPE).

Hvor skal vi hen?

Disse faktorer bidrager alle til, hvad jeg tror vil definere en tredje bølge af datavisualisering, hvor tilstande som notebooks, dashboards og langformet historiefortælling konvergerer, ligesom værktøjerne til at skabe dem og læseevne for det publikum, de er lavet til. Dette har fundet sted i nogen tid, og vi har reageret på det, men jeg tror, ​​det er på tide at aktivt overveje, hvad det betyder.

Clickbait-diagrammer

Det kræver, at vi bevæger os væk fra forventningen om, at vi laver isolerede diagrammer, der er optimeret til øjeblikkelig læsbarhed. Vi evaluerer og fejrer i øjeblikket datavisualisering, der er designet og optimeret til et enkelt besøg. Det er fint, men vi er også nødt til at fremme og evaluere og bedre forstå datavisualisering designet og optimeret til flere besøg. UI og UX skal være førsteklasses bekymringer, og interaktivitet kan ikke bare være en attribut for geometrien. For at gøre dette er vi nødt til at bevæge os væk fra modellen med det isolerede geni skabe skræddersyet datavisualisering og bringe bedste praksis fra samarbejdsprojekter, der er fælles for det større softwareudviklingssamfund.

Fremme kritik

Det er let at nedbringe nogle 3D-cirkeldiagrammer eller det nyeste "fantastiske kort". Det kan synes at være, hvordan det sidste punkt blev placeret, men det er det ikke, det er et forsøg på at skubbe os til at være i stand til ikke kun at fejre det, der er godt ved datavisualisering, men også tale ærligt om, hvad der er dårligt. Vi er nødt til at gøre mere af det, hvis vi ønsker at komme videre som et samfund. Men kritik er hård - svært at høre og svært at give godt.

En del af grunden til, at vi er så dårlige til at give, tage og fremme kritik, er, at datavisualisering længe har været en individualistisk forfølgelse. Den anden grund til, at vi ikke er så gode til at kritisere, er, at vores er et samfund af fest. Men fejring er ikke en helt positiv handling, når den afskærer og eksotiserer magtfulde mekanismer til at fremme kommunikation gennem implikationen, at de kun er tilgængelige for journalister eller freelancere.

Til dels tror jeg, at dette har at gøre med vores vægt på individuelle kanaler i den akademiske litteratur. Vi er meget komfortable med at kritisere cirkeldiagrammer, fordi vi ved, at vinkler er dårlige til at kode værdi. Men vi mangler retningslinjer for, hvordan vi evaluerer mere holistisk, så vi ikke er i stand til at forklare, hvorfor nogle kodningsvalg, selvom de ikke er isoleret isoleret, kan vise sig værdifulde i praksis. Vi ved heller ikke, hvordan vi evaluerer appel, så vi mangler sproget eller strukturen til at forklare, hvorfor folk kan lide cirkler i store bier i bivarme plot og graduerede symboldiagrammer så let, som vi kan forklare, hvorfor cirkler er et dårligt valg til kodningsværdi.

Gendesign af Giorgia Lupi's kort af Alberto Cairo fra The Functional Art.

En anden grund til, at vi ikke er gode til at kritisere, er, at vi har denne meget fremtrædende model af kritik (forkæmpet af Alberto Cairo såvel som Fernanda Viegas & Martin Wattenberg), der indebærer, at den bedste måde at kritisere en viz er at genindspille det. Selvom dette er en værdifuld tilgang, er det så dyrt i arbejdskraft og intellektuel investering, at det naturligvis gør det mindre almindeligt end blot at påpege ting, der ikke fungerer i et datavisualiseringsprodukt. Sammen med denne tilgang er vi nødt til at fremme og øge vores komfortniveau med mindre involverede former for kritik.

Vi kan ikke bare gøre dette ved at skrive en masse tænkestykker om kritik, skønt det ville være dejligt at have et par taksonomier af kritik, ligesom vi har taksonomier af diagrammer. Vi er nødt til aktivt at arbejde for at udvikle vores samfund til at være et sted at give, modtage og modellere kritisk diskurs. Ben Jones 'nylige stykke om opbygning af et sundt datavisualiseringsfællesskab giver nogle gode vejledninger baseret på erfaring fra den virkelige verden, som vi alle burde følge.

Forstå design

Nogle designrelaterede resultater fra 2018-visualiseringsundersøgelsen.

Undersøgelsessvar og samtale viser, at design er et vigtigt tema for at forbedre datavisualiseringspraksis. Men udøvere har udtrykt forvirring over, hvad design betyder. Mener vi grafisk design? UI-design? Generelle designtankekoncepter? Informationsdesign? Der er en mangel på kødfulde designmetoder i datavisualisering, som kan undervises og læres af fagfolk i den tidlige karriere.

Dejlige farver og gifs som dem, der findes i Nadieh Bremers Dragonball Z-datavisualisering eller enkle hacks som linjeskiftet i

Omfavn opmærksomhedsøkonomien

Jeg tror, ​​at dagen for 'øjenbevidsthed' snart nærmer sig.
- Otto Neurath

Da jeg først kom til Netflix fra Stanford, tænkte jeg naivt, at fordi det var en virksomhed, ville medarbejderne blive tvunget til at bruge og lære den datavisualisering, jeg lavede. Jeg fandt hurtigt ud af, at det ikke var tilfældet. Netflix 'egen kultur var imod sådanne diktatoriske foranstaltninger, men endnu mere forsøgte mine interessenter at tage kritiske beslutninger, og mine datavisualiseringsprodukter konkurrerede med et dusin eller flere andre dashboards og rapporter.

Som et resultat leverer det arbejde, vi udfører internt på Netflix, billeder, gifs, legende farve og nye visuelle metoder til glæde for brugere. Selvom det generelle forbud mod chartjunk er en god regel, kan det som alle ting anvendes for strengt. En mere dekorativ tilgang, der anerkender eksistensen af ​​en opmærksomhedsøkonomi, selv i en datadrevet organisation, vil resultere i mere effektiv datavisualisering.

Nyt blod

Vi har allerede gennemgået en rodet periode, hvor vores samfund følte behov for radikalt at distancere sig fra ældre ledelse, til det punkt, at blokering på Twitter af Edward Tufte er blevet en slags passage af passagen. Vi skulle ikke være nødt til at gøre det for at høre og forstærke nye stemmer. Vi er nødt til at identificere og aktivt fremme nye stemmer i ledelse af datavisualisering.

Hvem er ledere for en 3. bølgedata visualisering? Hvem drager fordel af de nye muligheder, som konvergensen af ​​tilstande, målgrupper og værktøjer giver? Hvordan ser det nye arbejde ud? Er det notesbøger med funktioner på dashboards og datadrevet historiefortælling som Krist Wongsuphasawats Boba Science? Er det nye tilgange til kortlægningsværktøjer som Charticulator? Eller brugen af ​​R til at fremstille datavisualiseringsgrafik til nyhederne, som den, der ses i arbejdet med John Burn-Murdoch? Eller Gavia Lupi-dataviz i Tableau, som Neil Richards har gjort? Eller er det den uklare grænse mellem datavisualisering, marginalia, tegneserie og tekst, der ses i RJ Andrews 'INFO WE TRUST? Eller er det den fantastiske håndtegnede tilgang fra Mona Chalabi? Eller er det noget andet?

En ting er helt sikkert, vi har eksempler på dem, der har optimeret til fortidens bedste praksis, nu har vi brug for dem, der viser en ny bølge af datavisualisering.