Blandt nystartede teknologier er dataforsker et stadig mere almindeligt udtryk, der bruges til at henvise til datavirke, der er i stand til at bygge bro traditionelt adskilte funktionelle områder af dataintelligens. En datavidenskabsmand er en person, der har det godt med at udføre flere (hvis ikke alle) aspekter af data-intelligens-projekter:
- Dataindsamling: Dette kan medføre skrivning af brugerdefinerede parsere og webcrawlere eller scripts, der er målrettet mod specifikke webservices eller API'er til ikke-traditionelle datakilder.
- Datastyring: ETL, manipulere, forespørge og vedligeholde data i databaser, nøgleværdier eller Hadoop.
- Informationsvisualisering: Afdækning af mønstre ved brug af statiske visualiseringsværktøjssæt og / eller interaktive platforme baseret på Flash, JavaScript eller Processing.
- Analytics: Dette kan variere fra enkle til komplekse teknikker i multivariat statistik, maskinlæring og NLP.
- Insight: Ekstraher, opsummer og præsenter nøgle fund for et bredt publikum.
Der er mange værktøjer, færdigheder og tekniske detaljer, og man kan bruge år på at mestre hver af de ovennævnte varer. Mens en dataforsker muligvis ikke besidder ægte ekspertviden på nogen af områdene, er han eller hun komfortabel med at springe frem og tilbage og udføre grundlæggende opgaver i dem alle. Resultatet er en datafarvet kvikk nok til hurtigt at undersøge et dataprojekt og producere svar på (højt) spørgsmål fra ledelsen. (om datavidenskabsmænd i Data Scientists: The New Rock Stars of the Tech World.)
For at pleje dataforskere skal virksomhederne fokusere mere på kultur og organisationsstruktur. Mange databearbejdere har tilstrækkelige kvalifikationer og uddannelse til hurtigt at blive produktive inden for flere områder af datainformation. Problemet er, at de fleste ikke fungerer i miljøer, der tilskynder dem til at blive dataforskere. De sidder fast i siloer og er begrænset til et eller to områder af datainformation. Ofte er de begrænset til at bruge værktøjer "godkendt" af deres ledere.