Q:
Hvorfor er kommentarer til data vigtige i nogle maskinlæringsprojekter?
EN:Datamarkering er vigtig i maskinlæring, fordi det i mange tilfælde gør arbejdet med maskinlæringsprogrammet meget lettere.
Dette har at gøre med forskellen mellem overvåget og uovervåget maskinlæring. Med overvåget maskinlæring er træningsdataene allerede mærket, så maskinen kan forstå mere om de ønskede resultater. For eksempel, hvis formålet med programmet er at identificere katte i billeder, har systemet allerede et stort antal fotos mærket som kat eller ej. Derefter bruger de disse eksempler til at kontrastere nye data for at gøre deres resultater.
Gratis download: Machine Learning og Why It Matters |
Ved uovervåget maskinlæring er der ingen mærker, og systemet skal derfor bruge attributter og andre teknikker til at identificere katte. Ingeniører kan træne programmet i at genkende visuelle egenskaber hos katte som snørre eller haler, men processen er næppe lige så ligetil som det ville være i overvåget maskinlæring, hvor disse mærker spiller en meget vigtig rolle.
Dataregistrering er processen med påføring af etiketter på træningsdatasættet. Disse kan anvendes på mange forskellige måder - ovenfor talte vi om binær dataanotation - katte eller ikke katte - men andre former for dataanotation er også vigtige. For eksempel kan det i det medicinske felt dataanmerkning involvere mærkning af specifikke biologiske billeder med mærker, der identificerer patologi eller sygdomsmarkører for andre medicinske egenskaber.
Dataregistrering tager arbejde - og udføres ofte af teams - men det er en grundlæggende del af, hvad der får mange maskinindlæringsprojekter til at fungere nøjagtigt. Det giver den første opsætning til undervisning i et program, hvad det skal lære, og hvordan man kan diskriminere forskellige input for at komme med nøjagtige output.