Data Science – de toekomst van webanalisten?

  • Bericht auteur:
  • Leestijd:12 minuten gelezen

Onze analytics expert Arend Zwaneveld heeft voor Webanalisten.nl een artikel geschreven over Data Science de toekomst van webanalisten?

Zoals in vorige blogartikelen op webanalisten.nl reeds enthousiast betoogd, beschikken de meeste technisch georiënteerde webanalisten van vandaag over een aantal vaardigheden die hen in potentie zeer geschikt maken als analist van ongestructureerde databronnen, in uitbreiding op het analyseren van webstatistieken.

Examples of “unstructured data” may include books, journals, documents, metadata, health records, audio, video, analog data, files, and unstructured text such as the body of an e-mail message, Web page, or word-processor document. While the main content being conveyed does not have a defined structure, it generally comes packaged in objects (e.g. in files or documents, …) that themselves have structure and are thus a mix of structured and unstructured data, but collectively this is still referred to as “unstructured data”.

Noel Yuhanna, Principal Analyst, Forrester Research

Van webanalist naar Data Scientist: skill-voor-skill

Webanalisten met technische kennis beschikken nú al over een aantal Data Science skills (zie ook quotes onderaan), die hen wellicht een betere basis geven om door te kunnen groeien tot Data Scientist dan bijvoorbeeld marketingdatabase- en business-analisten:

  1. Diep inzicht in data(-bronnen) en gevoel voor datakwaliteit(-issues) en data kunnen verzamelen
  2. Ervaring met statistiek en ‘hypothese-gedreven’ werken
  3. Commercieel ‘business’ inzicht
  4. Gevoel voor data-visualisatie (met dank aan tools als Google Analytics)
  5. Teamwork – kunnen werken in multi-disciplinair verband
  6. Bekend met de gevoeligheden die kunnen horen bij het communiceren data-driven inzichten
  7. Extreem nieuwsgierig en leergierig

120917visualisationmain-433x236 Data-visualisatie is een essentiële skill voor iedere webanalist en data scientist. Klik op de afbeelding voor een overzicht van de top 20 datavisualisatie tools. Bron: .net Magazine

Na een paar maanden intensief bezig geweest te zijn om het vak van Data Scientist te beheersen (zie nuttige links!), blijkt dat ik het gemak waarmee ik/een webanalist (eigenlijk voor iedere niet-programmeur!) op korte termijn Data Scientist kan worden behoorlijk heb onderschat.

Aanleren Data Science skills maakt doorgroei webanalisten tot Data Scientist op korte termijn (!) onrealistisch

Data Science vereist namelijk een groot aantal extra vaardigheden, waarvan de meeste niet op korte termijn te leren zijn… Hieronder de belangrijkste vaardigheden die webanalisten zullen moeten bijleren:

  • zeer stevige algemene kennis van statistiek: Bayes, lineaire regressie, logaritmische regressie
  • Kennis van algebra en lineaire algebra
  • ‘natural language processing’
  • ‘predictive analytics’ (obv Machine Learning)
  • kennis van tools – anders dan Excel – om deze methodieken toe te passen, zoals ‘R’ en Python, Hadoop en Pig
  • kennis van gebruik UNIX command line om deze tools überhaupt geïnstalleerd en gestart te krijgen

Met name deze allerlaatste noodzakelijke skill is voor de meeste webanalisten waarschijnlijk al direct een ‘show stopper’. Niet omdat het onmogelijk is… maar wel omdat het leren ervan ‘vanaf nul’ zéér veel geduld en doorzettingsvermogen vereist.

Hoe word ik Data Scientist? 16 nuttige links

Hoewel je niet van de ene op de andere dag Data Scientist wordt, leven we gelukkig (!) in een tijd dat de vele kennis die ervoor nodig wél gewoon gratis beschikbaar is, onder andere met dank aan Coursera. Hieronder een met zorg samengestelde lijst met nuttige links om je op weg te helpen je Data Science ambities zo snel mogelijk waar te maken!

  1. Analytics made skeezy van John Foreman (CEO MailChimp): Ingewikkelde data science methodes begrijpelijk uitgelegd… in Excel! NB: de verhelderende tutorials zijn op basis van fictieve datasets uit de criminele onderwereld!
  2. Gratis online Coursera cursus “Introduction to Data Science
    door Bill Howe, University of Washington (TIP!)
  3. Gratis online Coursera cursus “Machine Learning
    door Coursera oprichter Andrew Ng, Stanford University
  4. Hilarische dummy-proof (!) introductie van ‘R’ (TIP!)
  5. Gratis online Coursera cursus “Data Analysis” op basis van ‘R’
    door Jeff Leek, John Hopkins University (TIP!)
  6. Introductiecursus Python op Code Academy
    (vriendelijkste programmeertaal ooit!)
  7. Download open source statistisch analyse programma “R
    (Excel voor gevorderden… én mbv ‘package’ MapR te combineren met MapReduce/Hadoop zodat je ook grote data-sets kunt analyseren)
  8. Introductie UNIX command line en text editor “vi” (onmisbaar!)
  9. Leer je eigen Big Data cloud opzetten mbv Amazon Web Services (Hadoop, Pig, Hive, etc…)
  10. Introduction to Data Science van Cloudera University
  11. Kaggle.com ‘Data science competities’: hier strijden de groten der aarde en hun bewonderaars online tegen elkaar op het gebied van ‘predictive analytics’. Je kunt als bedrijf ook je eigen ‘besloten’ competitie starten.
    Tip: elke competitie bevat uitgebreide toelichting op de doelstelling, dikwijls voorzien met uitgebreide code-voorbeelden (R en Python) om je op weg te helpen!
  12. OpenIntro:Statistics, een ideële organisatie die – uit overtuiging en tegen kostprijs – mensen de basisbeginselen van statistiek wil bijbrengen
  13. Coursera cursus, o.a. van de auteurs van OpenIntro:Statistics “Statistics, making sense of data
  14. Wat kun je allemaal met Data als je een échte Data Scientist bent?
    Zie deze video van Andrew Ng over “Deep Learning“: dé trend in Machine Learning, met zeer indrukwekkende toepassingen
  15. Stephane Hamel over de groei van Digital Analyst naar Data Scientist: Big Data and what it means for the future of the digital analyst (slideshare)
  16. Nature blog: “So you want to be a data scientist?

Wanneer mag je jezelf eigenlijk een Data Scientist noemen?

In dit artikel ben ik expres niet ingegaan op wat een Data Scientist nu precies is… alleen wat hij/zij allemaal moet kunnen en in hoeverre webanalisten al over deze vaardigheden beschikken. De exacte definitie van Data Scientist is waarschijnlijk net zo moeilijk te geven als de definitie voor Big Data:

“Big Data” is “it doesn’t fit in Excel”

Stéphane Hamel – één van inmiddels meer dan 30 definities van Big Data!.

Het antwoord op de vraag? Nog meer vragen! Wil je weten hoe ver je bent op weg naar het Data Scientist-schap? Probeer dan deze groeiende lijst met “job interview questions for data scientists” en laat je inspireren door onderstaande citaten:

Whoever chose the term data scientist has downplayed what’s most important about this job. A data scientist needs to be someone who can bridge the gap between complex analytics on large data sets and the dreams of company leadership. A data scientist needs to be creative about indentifying ways that data can solve company problems. And if the data’s not collected yet to solve a problem? They need to figure out how to get it.

John Foreman – Analytics made skeezy

Certifying data scientists is difficult, as the ability to create data products is the real mark of a practicing data scientist.

Cloudera University

Data scientists solve business problems that aren’t immediately apparent, turning research into something unexpected.

Drake Baer over Hilary Mason van Bit.ly

The real science, in my opinion — the part where you form hypotheses, test them, revise them — comes less in the modeling and more in the scrub and explore steps.

Nina Zumel – “On Being a Data Scientist”

I’ve learned […] the importance of “Hypothesis-driven data analysis” rather than “blind/brute-force data analysis”. This highlighted the importance of understanding the business domains really well before trying to extract meaningful insights from the data.

Prasoon Sharma – Software engineer’s guide to “getting started with data science

We feel that a defining feature of data scientists is the breadth of their skills — their ability to single-handedly do at least prototype-level versions of all the steps needed to derive new insights or build data products. We also feel that the most successful data scientists are those with substantial, deep expertise in at
least one aspect of data science, be it statistics, big data, or business communication.

O’Reilly Strata – There’s More Than One Kind of Data Scientist

A data scientist is somebody who is inquisitive, who can stare at data and spot trends. It’s almost like a Renaissance individual who really wants to learn and bring change to an organization.

Anjul Bhambhri, Vice President of Big Data Products, IBM

I think that what makes a good data scientist is more of the right attitude than skills. Besides a strong background in statistics or computer science, a good data scientist is a person who loves to solve problems. (S)he is not afraid of putting in (possibly) unrecognized hard work because shortcuts rarely produce good results from data. And (s)he is open-minded and is excited to learn new things.

Xavier Conort – #1 data scientist op Kaggle

Aanvullingen (quotes, links), tips, commentaren en praktijkervaringen bij het opdoen van bovenstaande skills zijn van harte welkom!!

Origineel geplaatst op 17 juli 2013 op Webanalisten.nl