Q:
Hvorfor kan nogle maskinlæringsprojekter kræve et enormt antal skuespillere?
EN:Når du tænker på maskinlæring, har du en tendens til at tænke på dygtige dataforskere, der arbejder på tastaturer i computerrum. Der er ekstrem vægt på kvantitativ analyse og algoritmer. Der er ikke en hel masse øjeblikkelige kontekster i den virkelige verden til mange af disse programmer - i det mindste er det, hvad mange ville synes.
Imidlertid bruger nogle af nutidens mest banebrydende maskinuddannelsesprogrammer verificerede hære af menneskelige skuespillere ude på gaden, i butikker og overalt, så de kan modellere grundlæggende menneskelige aktiviteter som gå, arbejde eller shoppe.
Gratis download: Machine Learning og Why It Matters |
En kablet artikel af Tom Simonite illustrerer dette meget godt med den passende titel "At gøre AI smartere, udfører mennesker Oddball lavbetalte opgaver."
Ved hjælp af eksemplet med korte videoer, der er taget i en Whole Foods-købmand, fremhæver Simonite de slags arbejde, der vil hjælpe med at bygge nogle af den næste fase af maskinlæring.
Dette fører til spørgsmålet om, hvorfor alle disse mennesker engagerer sig i at filme sig selv i korte og enkle videoer, der dokumenterer handlinger så rudimentære som at bevæge en arm eller et ben.
Svaret kaster lys over, hvor maskinlæring er, og hvor den går.
”Forskere og iværksættere ønsker at se AI forstå og handle i den fysiske verden, ” skriver Simonite og forklarer, hvorfor han og andre kører med kameraer. ”Derfor er det nødvendigt, at arbejdstagerne udfører scener i supermarkeder og hjem. De genererer instruktionsmateriale for at undervise algoritmer om verden og menneskene deri. ”
Som mange eksperter vil påpege, involverer nogle af de største grænser inden for maskinlæring billedbehandling og naturlig sprogbehandling. Dette er ekstremt kvantitative procedurer - med andre ord er der ikke et bredt spektrum af input, som der er i "performante" miljøer i den virkelige verden. I stedet bruger maskinlæringsprogrammerne visuelle og lyddata på meget specifikke måder til at opbygge modeller. Med billedbehandling vælger det funktioner fra et (endeligt) synsfelt. For NLP er det montering af fonemer.
At gå ud over disse specifikke inputkategorier involverer noget, du muligvis kalder "billed- og talegap" - ved at gå ud over ting som billedbehandling og talegenkendelse bevæger du dig ind i områder, hvor computere skal være analytiske på forskellige måder. Træningssætene vil være grundlæggende forskellige.
Gå ind i hæren af videografer. I nogle af disse nye maskinlæringsprojekter er de mindste ideer om menneskelige aktiviteter træningssætene. I stedet for at blive trænet til at se efter funktioner og kanter og pixels, der komponerer til klassificeringsopgaver, bruger computere i stedet træningsvideoer til at vurdere, hvordan forskellige typer handlinger ser ud.
Det centrale er, hvad ingeniører kan gøre med disse data, når de er samlet og indlæst, og når computeren er trænet i dem. Du vil snart se resultaterne i forskellige felter - for eksempel vil dette gøre overvågningen ekstremt effektiv. Computere vil være i stand til at "se" i det visuelle felt, hvad folk laver, og anvende det på felter som markedsføring og salg, eller måske i nogle tilfælde regeringsagenturarbejde eller kriminel retfærdighed.
Afgrænsningerne lægger også noget lys på debatten mellem spørgsmål vedrørende maksimal fordel og privatliv. Meget af brugen af disse videoer vil bygge maskinlæringsmodeller, der fungerer til overvågning - men hvad med folk, der ikke ønsker at blive overvåget? Når disse nye maskinlæringsprogrammer implementeres i det offentlige rum, hvad er rettighederne for den enkelte, og hvor trækkes denne linje?
Under alle omstændigheder bruger virksomheder disse slags menneskelige og videoressourcer til virkelig at grave i nogle runder på næste niveau med maskinlæringsfremskridt, der faktisk vil gøre det muligt for computere at genkende, hvad der sker omkring dem, snarere end bare at klassificere billeder eller arbejde med foneme af tale. Dette er en ekstremt interessant og kontroversiel udvikling inden for kunstig intelligens, og en, der fortjener sin andel af opmærksomhed i de tekniske medier og videre.