Brug af algoritmer til at forudsige valg: en chat med træk linzer

2025

Drew vil præsentere på Big Data Innovation Summit, 30. og 31. januar i Las Vegas: http://analytics.theiegroup.com/bigdata-lasvegas, sammen med talere fra Obama for America, Best Buy, LinkedIn, The New York Times, Nokia, Bitly, Barnes & Nobles, Walmart Labs og mange flere.

Registreringslink: http://bit.ly/Zs3wms

Dette interview blev gennemført af George Hill og offentliggjort i Big Data Innovation Magazine.

Hvilken reaktion har der været på dine forudsigelser?

Det meste af reaktionen har fokuseret på forskellen i nøjagtighed mellem dem af os, der studerede meningsmålingerne, og "magefølelse" forudsigelser fra populære forståsegpåere og kommentatorer. På valgdagen stillede dataanalytikere som mig, Nate Silver (New York Times FiveThirtyEight-blog), Simon Jackman (Stanford University og Huffington Post) og Sam Wang (Princeton Election Consortium) alle Obamas muligheder for genvalg på over 90% og forudså korrekt 332 valgstemmer for Obama som det mest sandsynlige resultat. I mellemtiden sagde undervisere som Karl Rove, George Will og Steve Forbes, at Romney ville vinde - og i nogle tilfælde let. Dette har ført til snak om en "sejr for quanterne", som jeg er håbefuld vil gennemføre til det kommende valg.

Hvordan vurderer du den algoritme, der bruges i dine forudsigelser?

Min prognosemodel estimerede resultatet af statens afstemninger og den endelige valgafstemning hver dag i kampagnen, der starter i juni. Jeg ønskede, at vurderingen af disse prognoser skulle være så retfærdig og objektiv som muligt - og ikke efterlade mig noget vigkelokale, hvis de var forkert. Så cirka en måned før valget offentliggjorde jeg på mit websted et sæt af otte evalueringskriterier, jeg ville bruge, når resultaterne var kendt. Som det viste sig, fungerede modellen perfekt. Den forudsagde i løbet af sommeren, at Obama ville vinde alle sine 2008-stater minus Indiana og North Carolina, og knap nok undgås fra denne forudsigelse, selv efter at støtten til Obama sænkede opad i september og derefter dyppede efter den første præsidentdebat.

Mængden af data, der blev brugt i hele denne kampagne både af uafhængige analytikere og kampagneteam, har været enorm, hvad slags implikationer har dette for dataforbruget i 2016?

Kampagnen i 2012 beviste, at flere, forskellige kilder til kvantitativ information kunne styres, tillid og anvendes med succes i en række forskellige mål. Vi udenforstående var i stand til at forudsige valgresultatet langt på forhånd. Inde i kampagnerne var der enorme fremskridt inden for valg af målretning, opinionssporing, fundraising og valgdeltagelse. Nu hvor vi ved, at disse metoder kan fungere, tror jeg, der ikke er nogen tilbage. Jeg forventer, at journalister og kampagnekommentatorer tager undersøgelsessammensætningen meget mere alvorligt i 2016. Og selvom Obama og demokraterne i øjeblikket ser ud til at have en fordel inden for kampagneteknologi, ville jeg blive overrasket, hvis republikanerne ikke hurtigt indfangede det.

Tror du, at succesen med denne datadrevne kampagne har betydet, at kampagneledere nu skal være både analytiker og strateg?

Kampagneledere behøver muligvis ikke at være analytikere selv, men de burde have en større forståelse for, hvordan data og teknologi kan udnyttes til deres fordel. Kampagner har altid brugt undersøgelsesundersøgelser til at formulere strategi og måle vælgerens holdning. Men nu findes der en række andre kraftfulde værktøjer: sociale netværkswebsteder, vælgerdatabaser, mobile smartphones og e-mail-marketing, for kun at nævne nogle få. Og det er i tillæg til de nylige fremskridt inden for afstemningsmetoder og statistisk opfattelsesmodellering. Der sker en masse innovation i amerikansk kampagnepolitik lige nu.

Det lykkedes dig at forudsige valgresultatet 6 måneder på forhånd, hvad tror du er den realistiske maksimale tidsramme til nøjagtigt at forudsige et resultat ved hjælp af dine analyseteknikker?

Omkring fire eller fem måneder er omtrent så langt tilbage, som videnskaben lader os gå lige nu; og det er endda skubbe det lidt. Før det er meningsmålingerne bare ikke tilstrækkelig informative om det eventuelle resultat: For mange mennesker er enten ubeslutte eller er ikke begyndt at være opmærksomme på kampagnen. De historiske økonomiske og politiske faktorer, der har vist sig at korrelere med valgresultaterne, begynder også at miste deres forudsigelsesmagt, når vi kommer ud over det ca. 4-5 måneders interval. Heldigvis giver det stadig kampagner masser af tid til at planlægge strategi og træffe beslutninger om, hvordan man afsætter deres ressourcer.