Hjem Lyd Hvad er nogle af de vigtigste måder at automatisere og optimere datavidsprocesser?

Hvad er nogle af de vigtigste måder at automatisere og optimere datavidsprocesser?

Anonim

Q:

Hvad er nogle af de vigtigste måder at automatisere og optimere datavidsprocesser?

EN:

Datavidenskabelige processer i forbindelse med maskinlæring og AI kan opdeles i fire forskellige faser:

  1. dataindsamling og efterforskning,
  2. modelbygning,
  3. modelinstallation og
  4. online evaluering og forfining.

Fra min erfaring er de mest hindrende faser dataindsamling og modeludviklingsfaser i enhver maskinlæringsbaseret datavidenskabelig proces, og her er to måder at optimere dem:

1. Opret en meget tilgængelig datastore.

I de fleste organisationer gemmes data ikke på et centralt sted. Lad os bare tage oplysninger relateret til kunder. Du har kundekontaktoplysninger, kundesupport-e-mails, kundefeedback og kundeopkaldshistorie, hvis din virksomhed er en webapplikation. Alle disse data er naturligt spredt, da de tjener forskellige formål. De kan opholde sig i forskellige databaser, og nogle kan være fuldt strukturerede og nogle ustrukturerede og kan endda gemmes som almindelige tekstfiler.

Desværre er spredningen af ​​disse datasæt meget begrænsende til datavidenskabsarbejde, da grundlaget for alle NLP-, maskinlærings- og AI-problemer er data . Så at have alle disse data ét sted - datastore - er af afgørende betydning for at fremskynde modeludvikling og implementering. I betragtning af at dette er et afgørende stykke for alle datavidsprocesser, bør organisationer ansætte kvalificerede dataingeniører til at hjælpe dem med at opbygge deres datastores. Dette kan let starte med, at enkle datadumpes til et sted og langsomt vokse til et gennemtænkt dataregister, fuldt dokumenteret og forespørgsel med hjælpeværktøjer til at eksportere delmængder af data til forskellige formater til forskellige formål.

2. Udsæt dine modeller som en service til problemfri integration.

Ud over at muliggøre adgang til data er det også vigtigt at være i stand til at integrere de modeller, der er udviklet af dataforskere, i produktet. Det kan være ekstremt vanskeligt at integrere modeller udviklet i Python med en webapplikation, der kører på Ruby. Derudover kan modellerne have en masse datafhængigheder, som dit produkt muligvis ikke kan levere.

En måde at tackle dette på er at opsætte en stærk infrastruktur omkring din model og udsætte lige nok funktionalitet, der kræves af dit produkt til at bruge modellen som en "webtjeneste." Hvis din ansøgning f.eks. Har behov for holdningsklassificering på produktanmeldelser, det eneste, det skulle være nødvendigt at gøre, er at påberope sig webtjenesten, levere den relevante tekst, og tjenesten vil give den passende stemningsklassificering tilbage, som produktet direkte kan bruge. På denne måde er integrationen simpelthen i form af et API-opkald. Afkobling af modellen og det produkt, der bruger den, gør det virkelig let for nye produkter, du kommer frem til, at også bruge disse modeller med lidt besvær.

Nu er installation af infrastrukturen omkring din model en helt anden historie og kræver en tung initial investering fra dine teknikhold. Når infrastrukturen først er der, er det bare et spørgsmål om at bygge modeller på en måde, der passer ind i infrastrukturen.

Hvad er nogle af de vigtigste måder at automatisere og optimere datavidsprocesser?