Tilbake til tidslinjen
hobby 2020

Fargepolygraf

Et selvinitiert prosjekt fra andre året på videregående. Jeg laget en spørreundersøkelse med tjue fargespørsmål, sendte den ut til rundt 160 000 elever via Osloskolens katalog, og endte opp med 6 731 rensede svar og et lite nevralnett som kunne gjette deltakerens alder, kjønn og selvrapporterte humør basert kun på hvilke fargeflater de trykket på.

Utforsk dataene

Først leketøyet, så teksten. Dra i boksen for å rotere den, dobbeltklikk for å starte den treige auto-rotasjonen igjen. Knappene veksler mellom menn, kvinner, forskjellen mellom dem, fellesfavorittene, og to frie glidere. Trykk «Snu» for å snu visningen til hva hver gruppe misliker i stedet. Aldersfilteret er av som standard; trykk på «Alle aldre» for å skru på aldersglideren. Hver lysende prikk er én celle i et 8×8×8 RGB-grid, og størrelsen viser hvor ofte farger fra cellen ble valgt sammenlignet med hvor ofte de ble vist.

R G B
alle alle aldre n = 0

6 alder · 13–18 68
0 glede 1
0 timer 23

Mest likte farger

Cellene med høyest preferanseskår: vist til mange og valgt langt oftere enn tilfeldig.

Minst likte farger

Celler folk fikk se gang på gang, men nesten aldri valgte. Grumsete gulbrune taper hver popularitetskonkurranse.

Spørsmålet

Ligger det nok signal i hvilke farger du foretrekker, og hvordan du klikker på dem, til å forutsi hvem du er? Jeg hadde en magefølelse om at svaret var ja, og jeg ville at datasettet skulle være stort nok til at svaret ikke ble en tilfeldighet.

Undersøkelsen

Deltakerne svarte på tre demografiske spørsmål (alder, kjønn og en humørscore fra 0 til 60 der 0 er glad og 60 er sur), og gikk så gjennom en farge-cup. Hver runde viste fire fargeflater, og favoritten gikk videre til neste runde:

  1. 64 farger
  2. 16 runder16 vinnere
  3. 4 runder4 vinnere
  4. 1 runde1 vinner

Ved siden av selve valgene registrerte undersøkelsen interaksjonssignaler: hvor lang tid hvert svar tok, hvor på flaten klikket landet, og rekkefølgen deltakerne skannet valgene i.

Rekkevidde og respons

  • Rundt 160 000 elever åpnet eposten via Osloskolens katalog
  • Rundt 20 000 fullførte hele undersøkelsen (omtrent 12,5 % fullføring)
  • Hvert svar lagret med tidsstempel og en sesjons-lokal salt
Som sekstenåring var ikke modellen det mest overraskende. Det var å se et datasett med tjue tusen menneskelige svar tikke inn på to dager.

Hvem tok den, og hvordan

Når dataene var renset, var selve deltakerne nesten like interessante som fargevalgene. Under er hvordan de 6 731 gyldige sesjonene ser ut delt opp på ulike måter. Hvert linjediagram tegner menn og kvinner for seg, så forskjellen, der det finnes en, blir synlig.

Nøkkeltall

    Svar de første dagene

    Daglige fullføringer fra start. Den andre bølgen på dag 9 er den andre epostrunden jeg sendte ut.

    menn kvinner

    Aldersfordeling

    Hver gyldige sesjon, etter oppgitt alder. Toppen 13–18 er elevene; den lange halen er lærere, vikarer, administratorer og andre kommunalt ansatte som jobber eller har jobbet i skolesystemet.

    Menn og kvinner per alder

    Der kjønnsfordelingen levde. Elevårene er ganske jevnt fordelt; den voksne halen heller mot kvinnene (norsk grunnskolepersonale er stort sett kvinner).

    menn kvinner

    Glede etter alder

    Selvrapportert humør, omregnet til glede (1 = glad, 0 = sur). Pubertets-dalen lander omtrent der du venter: en lang dal fra 13 til 18.

    menn kvinner

    Svar gjennom dagen

    Når folk faktisk klikket gjennom testen, etter hvilken time de begynte (Europe/Oslo). Skoledag-vinduet dominerer; kveldsbøyen rundt 21:00 er stort sett eldre respondenter hjemme.

    menn kvinner

    Glede gjennom dagen

    Gjennomsnittlig glede hos de som begynte testen, etter når de begynte (Europe/Oslo). 15-minutters bøtter gjennom den aktive perioden (08–22), timesvis ved skuldrene, og 01–05 hoppet over siden datasettet er for tynt der.

    menn kvinner

    Hvor lang tid testen tok, etter alder

    Gjennomsnittlig totaltid for å fullføre farge-cupen. Sesjoner over ti minutter er droppet her som åpne faner.

    menn kvinner

    Tid per spørsmål etter alder

    Gjennomsnittlige sekunder brukt på hvert fargevalg. Reaksjonstiden vokser med alderen; tenåringer klikker raskest.

    menn kvinner

    Tid per skjermbilde gjennom cupen

    Gjennomsnittlige sekunder brukt på hvert av de 21 klikkene. Sp1 bærer oppstartstreghet (lese siden, sette seg), så akselererer klikkene etter hvert som cupen går videre. Runde 2 begynner ved Sp17 og finalen ved Sp21.

    menn kvinner

    Hvor lang tid brukte folk?

    Fordeling av total testtid i 15-sekunders bøtter, menn og kvinner lagt oppå hverandre. De fleste blir ferdige innen to minutter.

    menn kvinner

    Rensing av dataene

    Datasettet kom inn skittent. Rundt 20 000 personer fullførte undersøkelsen, men boksen helt øverst kjører bare på 6 731 av dem. Resten ble filtrert vekk gjennom en kjede med sjekker som jeg bygde opp etter hvert som jeg så hvilke ting som gikk galt:

    • Det selvoppgitte kjønnet måtte stemme med kjønnet som lå inne i Osloskolens katalog. De som sa det motsatte tullet stort sett.
    • Den selvoppgitte alderen måtte være rimelig nær alderen i katalogen. En førsteklassing som påstår å være 47 svarer ikke seriøst.
    • Alle under 6 ble droppet. Det samme ble alle over 68. Veldig mange av de «voksne» i rådataen påsto at de var akkurat 69.
    • Sesjoner der nesten alle klikkene landet på samme skjermkoordinat ble droppet. Noen som banker i samme hjørne tjue ganger velger ikke farger.
    • Sesjoner der gjennomsnittstiden per svar var under 0,3 sekunder ble droppet. Du rekker ikke å lese fire fargeflater så fort.
    • Pluss en del mindre heuristikker for duplikate IDer, manglende felter, urealistiske totaltider, og folk som klikket gjennom uten å bevege musen i det hele tatt.

    Det som er igjen er 6 731 sesjoner der jeg er rimelig sikker på at et ekte menneske tok et ekte valg. Det er det rensede settet boksen øverst tegner fra.

    Modellen

    Features

    • Per runde: valgt farge (one-hot), tre avviste farger, dveletid, klikkoordinater relativt til midten av fargeflaten
    • Per sesjon: total tid, tidsvarians, første-klikk-skjevhet

    Arkitektur

    Et lite, fullt sammenkoblet nettverk. Tre mål, trent samtidig: alder (regresjon), kjønn (binær klassifikasjon), humør (ordinal 0 til 60, lavere er gladere). Jeg lente meg like mye på metafeaturene som på selve fargevalgene. De viste seg å bære mye av signalet, særlig for alderhodet.

    Det jeg lærte

    Tre ting. Først at hvordan du klikker er minst like informativt som hva du klikker. Reaksjonstid og klikkoordinater veide tyngre på alderhodet enn selve fargevalgene gjorde. For det andre at å kjøre en studie i skala handler mindre om modellen og mer om alt det kjedelige rundt: undersøkelser, lagring, deduplikering, misbrukshåndtering, den rensings-pipelinen jeg akkurat gikk gjennom. Modellen var den minste filen i hele prosjektet.

    For det tredje at nesten to tredjedeler av et «fullført» datasett kan være støy. De 13 000 sesjonene jeg kastet var ikke alle ondsinnede. Mange var unger som speedrunet undersøkelsen for moro skyld, eller folk som skrev 69 som alder av gammel vane. Lærdommen har sittet i. Hvert datasett jeg har rørt siden behandler jeg som skyldig til det er bevist rent.

    Jeg ville gjort dette annerledes i dag: tydeligere samtykke, bedre aggregering, en publisert oppsummering. Det var et videregåendeprosjekt og det synes innimellom, men det lærte meg at data slår smarthet, og det har jeg aldri helt sluppet.

    Utforsk dataene selv

    Alt som driver boksen øverst ligger åpent i repoet. Råeksporten, Python-skriptet som renset 20 000 svar ned til 6 731, og aggregatoren som lager JSON-filene visualiseringen leser, ligger alle i prosjektmappen. Vil du prøve en annen binning, et annet filter, eller trene ditt eget lille nett på det, er det her du starter.

    Tilbake til tidslinjen