Hjem Lyd Hvordan er skrabering af data til maskinlæring blevet den mest arbejdskrævende flaskehals siden manuel indtastning af data i ældre migration?

Hvordan er skrabering af data til maskinlæring blevet den mest arbejdskrævende flaskehals siden manuel indtastning af data i ældre migration?

Anonim

Q:

Hvordan er skrabering af data til maskinlæring blevet den mest arbejdskrævende flaskehals siden manuel indtastning af data i ældre migration?

EN:

Et af de praktiske problemer, som virksomhederne måske støder på, når de prøver at starte et maskinuddannelsesprojekt (ML) -projekt, er udfordringen ved at erhverve de oprindelige træningssæt. Dette kan omfatte arbejdsintensive processer som webskrapning eller anden dataskrapning.

Betegnelserne webskrapning og dataskrapning refererer stort set til automatisk aktivitet af computersoftware, men for mange ML-projekter vil der være tilfælde, hvor computere ikke har den sofistikerede at indsamle de rigtige målrettede data, så det bliver nødt til at blive gjort "med hånden." Dette kan du muligvis kalde "human web / data scraping", og det er et utaknemmeligt job. Det indebærer generelt at gå ud og kigge efter data eller billeder for at "fodre" ML-programmet gennem træningssæt. Det er ofte temmelig iterativt, hvilket gør det kedeligt, trægt og krævende arbejde.

Gratis download: Machine Learning og Why It Matters

Dataskrapning til ML-træningssæt repræsenterer en unikt problematisk flaskehals i maskinlæring, delvis fordi så meget af det andet arbejde er yderst konceptuelt og ikke gentagne. Mange mennesker kan komme med en god idé til en ny app, der udfører maskinlæringsopgaver, men møtrikker og bolte og det praktiske arbejde kan være meget sværere. Især kan delegering af arbejdet med samling af træningssæt faktisk være en af ​​de sværeste dele af et ML-projekt, som det udforskes fuldt ud i Mike Judges TV-program "Silicon Valley". I en sæson fire-episode mobber en startende iværksætter først en partner til at udføre det arbejdskrævende arbejde og prøver derefter at videregive det til universitetsstuderende ved at forklæde det som en lektieopgave.

Dette eksempel er lærerigt, fordi det viser, hvor mislikt og tilsyneladende uvæsentlig den manuelle dataskrapning er. Det viser imidlertid også, at denne proces er nødvendig for en lang række maskinuddannelsesprodukter. Selvom de fleste hader dataregistrering, skal træningssætene samles på en eller anden måde. Eksperter på processen anbefaler ofte at bruge en web-skrabetjeneste - i det væsentlige bare at outsourcere dette meget arbejdskrævende arbejde til eksterne parter, men det kan have sikkerhedsforbedringer og forårsage andre problemer. Når man holder det manuelle dataindsamlingsarbejde internt, skal der igen tages en bestemmelse om, hvad der ofte er en meget manuel og tidskrævende proces.

På nogle måder ser "skrapning af menneskelig data" til maskinlæring ud som den manuelle indtastning af data, der undertiden måtte udføres i arvemigration. Da skyen blev mere og mere populær, og virksomheder placerede deres processer og arbejdsgange i skyen, fandt nogle, at de ikke havde arbejdet gennem de praktiske aspekter af, hvordan man får deres virksomhedsdata fra et isoleret legacy-system til cloud-native applikationer. Som et resultat fandt nogle mennesker, der ellers var datavidenskabsmænd eller kreative mennesker med essentielle it-færdigheder, at de udfører ubehagelige dataindtastningsopgaver.

Det samme vil sandsynligvis ske med maskinlæring. Du hører måske en dataforsker, der klager over, at "jeg er en kreativ person" eller "Jeg er på udviklingssiden" - men nogen skal gøre det beskidte arbejde.

Igen, hvis den kreative strøm ikke matches med en praktisk vurdering af workflow-delegation, vil der være et misforhold i, hvordan opgaven håndteres. Når et firma ikke har folk til at udføre dataskrapningsarbejdet ved indsamling af datasæt, mangler det en vigtig del af procedurekæden for et vellykket projekt. Det er værd at huske på dette, hver gang en virksomhed forsøger at gøre god til en idé, der bygger på at udvikle nye maskinlæringsapplikationer.

Hvordan er skrabering af data til maskinlæring blevet den mest arbejdskrævende flaskehals siden manuel indtastning af data i ældre migration?