La sabiduría popular lo tiene claro, un científico de datos (un data scientist) es "un estadístico que trabaja en San Francisco". Y es que, desde hace unos años, esta profesión está de moda gracias, en parte, al mundo startupil. Pero la ciencia de datos va mucho más allá y está convirtiéndose en una de las profesiones más prometedoras de hoy en día.
La fiebre de los datos ha hecho que empecemos a escuchar hablar de esta disciplina por todos lados. Pero, no podemos dejar de preguntarnos si es una moda pasajera o los científicos de datos han venido para quedarse. Repasamos qué es exactamente eso de la data science, sus oportunidades laborales y las posibilidades que existen para formarse.
¿Qué es un científico de datos?
Otra forma de verlo es la de Josh Wills. Wills usa otra definición que me parece mucho más acertada e intuitiva: "Científico de datos (n): Persona que sabe más de estadística que cualquier programador y que a la vez sabe más de programación que cualquier estadístico". Un poco más en serio, un científico de datos es sencillamente un profesional dedicado a analizar e interpretar grandes bases de datos. O lo que es lo mismo, uno de los profesionales más importantes en cualquier empresa de internet hoy en día.
¿Por qué se ha puesto de moda?

La respuesta nos la daba Javi Pastor: la tecnología actual no solo necesita del mejor talento sino de datos, mucho datos. Muchos. Es decir, que la moda por lo abierto y el giro hacia los datos no es más que la enésima máscara del mismo espíritu corporativo de siempre buscando el próximo yacimiento. Y lo que vale para los entornos de inteligencia artificial y de machine learning, vale para casi cualquier tecnología.
Lo curioso es que este gran valor de los datos contrasta con que precisamente los datos son el recurso más abundante del planeta. Se calcula que la cantidad de datos que había en el mundo a principios de este 2020 era de aproximadamente 44 zettabytes. Es decir, que el número de bytes en el universo digital era 40 veces mayor que el número de estrellas en el universo observable. No parecen cosas fáciles de compatibilizar. ¿Cómo es posible que algo tan abundante sea tan valioso? Aunque fuera por pura oferta y demanda, acumular datos debería ser algo trivial. Y lo es, lo complejo es procesarlos.
Hasta hace relativamente poco sencillamente no podíamos hacerlo. A finales de los años 90, el campo del machine learning (aprendizaje automático) empezó a tomar entidad autónoma, nuestra capacidad de trabajar con cantidades inmensas de datos se abarató y la irrupción social de internet hizo el resto. Desde hace unos años nos encontramos ante la primera gran 'democratización' de estas técnicas. Y, con ello, el boom de los científicos de datos: nadie quiere tener una mina de oro sin aprovechar.
En busca de un científico de datos

El problema es que todo esto ha conllevado que surgiera una gran demanda de un perfil que hasta hace no mucho prácticamente no existía. Recordemos que se precisan conocimientos estadísticos que un programador no suele tener y conocimientos informáticos que un estadístico no suele ni siquiera imaginar.
La mayor parte de las veces se ha solucionado con formación autodidacta que completa las habilidades básicas que debería tener programa formativo pero no tiene. Por eso, hoy por hoy, podemos encontrar una gran diversidad de perfiles profesionales en el mundo de la ciencia de datos.
Si analizamos los datos del portal de empleo Indeed, los científicos de datos provienen de los campos de estudio más diversos (los ingenieros de software estarían justo en el extremo opuesto). La mayoría, eso sí, tienen una formación eminentemente técnica, aunque hay un 5% de ellos que provienen de las ciencias sociales. Además, llama la atención que ya hay un 9% de científicos de datos que provienen de estudios específicos en la materia. Algo que sorprende puesto que, hasta hace no mucho, no había programas universitarios de ciencia de datos.
Según estos mismos números, los científicos de datos son los profesionales que más estudios de doctorado suelen tener, aunque no sea algo necesario: uno de cada 5 científico de datos tiene una titulación de este rango.
Cómo formarse

Grados
A día de hoy, algunas unviersidades ofrecen ya grados de titulación para ser un científico de datos, como Grado de Ciencia de Datos Aplicada/Applied Data Science de la Universitat Oberta de Catalunya, Grado en Ciencia de Datos de la Politécnica de Valencia, Grado en Ciencia de Datos de la Universidad de Valencia o Grado en Ciencia de Datos de la Universidad Europea.
Existen algunos grados dobles en ingeniería informática y matemáticas (Autónoma de Madrid, Granada, Politécnica de Cataluña, Complutense, Murcia Autónoma de Barcelona) o en informática y estadística (Universidad de Valladolid).
Posgrados
El de los posgrados es un mundo muy diverso. Podemos encontrar posgrados, másteres o cursos de especialización en casi todas las universidades y una oferta privada realmente desmesurada. Por poner algunos ejemplos tenemos posgrados en la UAB, la UPM o la Pompeu Fabra. De todas formas, en posgrados es más difícil recomendar un curso en concreto. La clave está en buscar complementar nuestra formación previa y, en ese sentido, la diversidad es una buena noticia.
Cabe recordar, además, que en la formación de posgrado se prima mucho el componente de 'orientación de negocio' que a veces escasea en las titulaciones universitarias. No debemos olvidar que la mayor parte del trabajo de los científicos de datos está en empresas que buscan rentabilizar sus bases de datos, porque lo que la orientación al mercado es algo muy recomendable. De hecho, muchos de los másteres en 'big data' lo ofrecen escuelas de negocios como OEI o Instituto Empresa.
MOOCS
Uno de los recursos más interesantes que podréis encontrar son los moocs (ya sabéis, los cursos abiertos masivos online). De hecho hace poco, vimos que esta opción autoformativa podía tener mucho futuro. Empezando por el programa de especialización en big data de Coursera, podemos encontrar cursos online de las mejores universidades del mundo. Todo esto sin hablar de las numerosas herramientas para aprender lenguajes como Python o R.
Certificados y otras opciones
También existen una serie de certificados o acreditaciones que permiten avalar nuestros conocimientos en ciencia de datos: el Certified Analytics Professional (CAP), Cloudera Certified Professional: Data Scientist (CCP:DS), el Open Certified Data Scientist (Open CDS) o los que ofrecen algunas empresas, como EMC: Data Science Associate (EMCDSA), los de SAS, el de Google Certified Professional Data Engineer, el IBM Data Science Professional Certificate (disponible en Coursera) o el de Microsoft Certified Azure Data Scientist Associate. Algunos de estos certificados tienen unos requisitos muy duros pero son una buena alternativa si hemos estado trabajando en este campo con anterioridad.
Otros recursos interesantes son las asociaciones (como R Hispano o Python España) y los grupos informales tipo Databeers que tanto éxito están teniendo por todo el país. Además, basta buscar en MeetUp para darse cuenta de la diversidad de eventos y reuniones en data science que hay creados.
¿Qué lenguajes hay que aprender?

En realidad, como cualquier iniciado sabe, en programación la elección de un lenguaje u otro siempre es complicada. En esta elección intervienen desde factores técnicos o formativos a simples preferencias personales.Lo que sí está claro es que hay algunos lenguajes más populares que otros y que estos también van cambiando con el tiempo y según avanza esta ciencia de datos.
Los tres mosqueteros de la Ciencia de Datos
Un estudio de Kaggle de 2018 reveló que Python, SQL y R son los lenguajes de programación más populares. El de más aceptación, con diferencia, fue Python (el 83% de los encuestados lo usaban). Además, 3 de cada 4 profesionales de datos recomendaron que los aspirantes a científicos de datos aprendan Python primero.

Un insustituible
- SQL: El 44% de los científicos de datos usan SQL y si incluyéramos a todas las bases de datos, completaríamos casi el 100 por 100 de los encuestados. Es algo necesario no sólo por la inmensa cantidad de datos de los que hablamos sino porque la mayor parte de los datos que usa un científico de datos profesional provienen de internet.
La gran división
- R: En torno a un 36% de los dateros usan R para su trabajo usual. Tiene a su favor que ha sido el lenguaje estadístico por excelencia durante muchos años y podemos encontrar códigos y paquetes para casi cualquier cosa que se nos ocurra. Tiene en su contra que su sintaxis es más antigua, compleja y fea que otros lenguajes más modernos que empujan fuertes. Es el lenguaje de los que se acercan desde un background científico.
- Python: El 83% por ciento de los dateros usan Python de forma habitual. Es la némesis de R en este caso: tiene una sintaxis muy buena y moderna pero aún queda mucho por trabajo por hacer desarrollando su ecosistema. No obstante, para ser justos, Python cada vez es más competitivo y iniciativas como SciPy están poniéndole las cosas muy difíciles a R. Es el lenguaje de los que se acercan desde un background informático.
Aunque el sentido común nos dice que cada uno de los lenguajes es mejor para determinadas cosas, en la práctica hay cierta rivalidad. Personalmente, uso R pero suelo recomendar Python. No sólo porque es más bonito, sino porque es multipropósito y eso siempre es una ventaja.
El pequeño D'Artagnan
- Julia: Julia es la esperanza blanca de la ciencia de datos (aunque conforme pasan los años, parece que ha perdido su gran oportunidad). Un lenguaje diseñado para conservar la potencia de lenguajes como fortran o C combinado con las facilidad de sintaxis de los nuevos lenguajes. Si tuviera que apostar, a día de hoy, no lo haría por Julia. Le queda mucho trabajo si quiere ser algo más que el refugio de los fortraneros más abiertos al cambio.
Otras herramientas

Un incombustible
- Excel: No es un lenguaje y no suele gustar a aquellos que trabajan con datos a nivel profesional. O eso dicen cuando se les pregunta porque las encuestas dicen lo contrario: Un 59% por ciento de los encuestados usan habitualmente excel. Así que, en fin, la aplicación de hojas de cálculo de Office sigue dando mucha guerra.
El hermano corporativo y otros lenguajes y programas
Algunos lenguajes o entornos gozan de cierto éxito empujados por la inercia corporativa: es el caso del clásico Matlab pero ha ido oscilando su uso y ahora está en el 14%.
Si examinamos las encuestas podemos encontrar muchos más lenguajes que obedecen a necesidades más particulares de la práctica de los científicos de datos (o de los programas que usan): Scala (17%), Slack (10%), Perl (12%), C# (6%), Mahout (3%), Apache Hadoop (13%) o Java (23%).
También, aunque es posible que debiéramos hablar de ellos por separado, hay muchos programas específicos (libres o privativos) que se usan en la ciencia de datos con distintos usos. Por poner algún ejemplo, podríamos hablar de Tableau, RapidMiner o de Weka.
El mercado laboral: sueldos y oportunidades

Los sueldos, como en general en el mundo del desarrollo de software, cambian mucho dependiendo del lugar, las funciones y el empleador. Según Glassdor, el sueldo base para un Data Scientist en España se sitúa, de media, en los 35.394 euros al año. Una cifra similar a la que también ofrece PayScale, que lo sitúa en so 35.925 euros.
En Estados Unidos la cifra es mucho más abultada: 124.251 dólares al año, según Indeed.
No obstante, estos sueldos medios hay que tomarlas con mucha prudencia. Mientras el salario medio en Estados Unidos es de 50.965 euros al año (4.247 euros al mes), el salario medio español se sitúa en 1.658 euros brutos mensuales, según Adecco Institute.
Puede que el mercado haya ido madurando y, por tanto, los salarios también se hayan ido reajustando a la oferta y la demanda. Pero también parece que en el futuro se seguirán necesitando científicos de datos que sean capaces de extraer el valor de toda la información que estamos generando.
Imágenes | Jer Thorp, Alan Levine, Opensource, Tax Credits, yaph
Ver 41 comentarios
41 comentarios
omeda29
Soy programador y estadístico y no cobro ni la décima parte de eso, ¿la razón? vivo en Venezuela y no puedo emigrar jajaja triste realidad.
sarpullido
Os ha faltado Haskell que empieza a pegar bastante fuerte en estos temas por ser formal.
En cualquier caso, y aunque me pusieran una montaña de billetes, me la machacaba con 2 piedras antes que ser estadista..., por muuuucha orientacion a la informatica y herramientas que me den, es sencillamente horrible, insoporta, aburrida, soporifera, sin base cientifica mas alla del prueba y falla (curioso eso) y para colmo no predice un carajo por que todos los datos son intepretables de 1000 formas distintas.
nakasone
Conozco una data miner que estudió matemáticas. Trabaja en Suiza y le pagan muy bien.
Aún recuerdo cuando yo decía hace 15 años que me planteaba estudiar matemáticas, y se me reían en la cara diciendo que me moriría de hambre... y elegí otra cosa... y ahora mira... perra vida...
trackball
Tableau un lenaguaje de programacion? Soy Ing Informatico con 7 años de experiencia en Business Intelligence que esta realizando un Master en Big Data En las ofertas piden 2, 3 y 4 años de experiencia en proyectos Big Data!!! Y ni acaba de empezar.. El problema? El departamento de recursos humanos de las empresas que es un cancer para los Informaticos ya que no saben ni lo que significa el Big Data.
obijuancojones
Honestamente pienso que esta carrera ya debería impartirse de manera independiente en las facultades de informatica, la ciencia de datos es mucho más que aplicar un algoritmo de ML, el procesamiento y tuning de datos es todo un arte y no es de extrañar que varios de los mejores profesionales recurran al máster y además al doctorado (aprender a hacerlo bien toma tiempo y entendimiento )
No soy un experto (apenas estoy estudiando el grado) pero desde mi humilde opinión yo no dejaría de lado a la matemática y me aventuraría a recomendar las siguientes asignaturas y subtemas, quizá algunos conceptos no sean tan importantes pero sin duda dan siempre un entendimiento muy completo y ante situaciones nuevas e inesperadas podrían abrir la puerta a ayudarte a ser capaz de llegar a soluciones originales, pues como bien se dice, nunca se puede llegar a saber las suficientes matemáticas.
Cálculo:
-Derivadas
-Derivadas parciales
-Integracion de una y varias variables (en lo que es el tema de ciencia de datos no he escuchado nunca hablar de una sola integración en mi vida pero de todos modos conocerla es vital para estudiar otros tópicos)
Álgebra lineal:
-Operaciones con matrices y vectores.
-Eigenvectores y eigenvalores
-Transformaciones lineales
-Espacios vectoriales
Aprendizaje automático:
-Boosting
-Regresion lineal
-Regresion logística
-NN shallow
-Anomalias con distribución gaussiana
-Maquinas de vector soporte
-arboles
-Bayes credulo
-Reduccion de dimensionalidad o análisis de componente principal.
Optimización numérica/evolutiva :
-Gradiente de descenso (convergencia por lotes, mini lotes , estocastica...Etc)
-Algoritmos genéticos
-Gradiente con boosting
Estadística inferencial:
-Estimadores
-Regresion lineal
-Estadística bayesiana (útil para algunos algoritmos de ML)
Si se está en la universidad y se tiene la oportunidad , tomar Análisis y modelado matemático... La materia bien impartida es extraordinariamente difícil pero da buenos fundamentos y enseña a pensar.
Por último:
-Filtros de Kalman (no se donde colocarlo puesto que se usa en muchas disciplinas).
Puede que haya varios científicos de datos que ni de cerca apliquen todo eso pero no obstante diversos de los mejores escritores en quora recomiendan una lista parecida (yo solo tome en cuenta el aspecto matemático, a esto todavia hay que añadirle muchísimas materias nucleo de la informatica -computo de alto desempeño, programación, diseño de software, diseño de algoritmos...Etc).
Mucha suerte y exito
josemicoronil
Me hace bastante gracia esa división entre Python y R, ya que Python es uno de los lenguajes de scripting más fáciles de implementar a otros programas mientras R, el lenguaje descendiente de uno de los dialectos de Lisp (el llamado lenguaje de programación "programable"), es uno de los mas completos en dicho campo debido a tener todas las funciones estadísticas y matemáticas utilizables de forma estándar.
Personalmente no he utilizado R pero conozco gente estudiando bioquímica y matemáticas el cual lo utilizan de forma bastante amplia y les da un gran resultado. En cuanto a Python no me extraña que se utilize con lo sencillo que es cargar módulos en los que viene funciones matemáticas como las que puede encontrarse en R.
Aparte, me parece raro que no utilicen en todas partes el lenguaje SQL (aunque no sea de forma directa), ya que cualquier base de datos que se precie está gestionada bajo dicho lenguaje, el cual sirve para un almacenamiento correcto y ordenado de cualquier tipo de información, y más hoy en día con lo fácil y rápido que se puede implementar en código el manejo de bases de datos online con MySQL o locales con SQLite.
Saludos !
kolmogorov
Me sorprende que no se nombre en el artículo a la UCM (la Complutense), que tiene la facultad de estadística, exclusivamente para estudiar la ciencia de los datos. Lo digo porque yo estoy estudiando el grado de estadística aplicada ahí y se trabaja con la mayoría de aspectos que tratan en el artículo, e incluso algo más. Si bien es verdad que la parte de programación es más una herramienta y se usan básicamente 2 o 3 softwares específicos para el análisis estadístico de los datos:
R: que mencionan y le dan bastante importancia, lo cual es porque es un software muy amplio que permite muchos tipos de análisis distintos, pero principalmente porque es gratuito, por lo que es bastante desorganizado y suele dar bastantes errores cuando se usa el mismo código en distintos ordenadores.
SAS: que lo mencionan de pasada y es uno de los softwares más potentes para usar con grandes bases de datos y con temas de Big Data, además de que tiene procedimientos específicos para casi cualquier técnica estadística y es muy rápido de programar y realizar los análisis; muchos profesores y profesionales de la estadística lo consideran con creces el mejor software estadístico y yo lo veo así, aunque está algo denostado por no ser programación al 100%, pero no todo es programación en la ciencia de datos. Por algo la empresa SAS está creciendo muchísimo, tiene sede en España y la mayoría de los grandes bancos lo utilizan. Pero las licencias son carísimas, lo cual es una desventaja frente a R o Python.
SPSS: que no es muy apreciado, pero es un producto de IBM con una larga trayectoria y un uso súper sencillo (más fácil que Excel). Aún así, es el mejor software para trabajar con bases de datos (incluso muy grandes), principalmente para las tareas de depuración y análisis sencillos, aunque permite profundizar bastante. Su principal problema es como SAS, las licencias son extremadamente caras. Al fin y al cabo, usar dos o tres de estos software en conjunto es como mejor se puede trabajar.
Siempre se habla de la ciencia de datos desde el punto de vista informático y a veces desde el matemático, pero precisamente cobra importancia esta disciplina porque es algo en lo que informáticos y matemáticos no están enfocados. Muchos trabajan en esto, pero lo más importante es el análisis, no la programación o las matemáticas que hay detrás (en el fondo son los propios software los que hacen los procedimientos matemáticos). Para sacar buenas conclusiones hay que conocer los comportamientos estadísticos y qué significa cada cosa, lo cual es un área muy desconocida y muy importante, por eso se llama ciencia, porque detrás de cualquier análisis hay un riguroso procedimiento científico.
Es todo un mundo, además de ser una ciencia muy joven (la mayoría de sus más importantes investigadores siguen vivos; de hecho mi nick es un estadístico, aunque de los primeros). Desgraciadamente siempre se le ha tratado muy mal a la estadística, porque se usa para intereses políticos o económicos. Pero aparentemente tiene mucho futuro (y eso espero, por mi futuro laboral).
nakasone
Si quieres trabajar en Big Data y has llegado hasta este comentario, aquí mi briconsejo: estudia la carrera de MATEMÁTICAS.
Buena suerte.
alejgo06
Hola a todos es la primera vez que escribo en xataka y pero es que tema es el que más me afecta.
Siento deciros a todos los de xataka que cuando decís que para dedicarse a ser científico de datos no hace falta ser ingeniero ni matemático. Por mi formación os aseguro que por lo menos hay un titulo en España que te acredita como científico de datos. Este titulo es graduado en ESTADISTICA APLICADA de la universidad complutense de madrid. ¿por qué digo esto? primero porque yo soy graduado en esta carrera y segundo porque es el único sitio de España donde se acredita el titulo de doctorado en data scientist.
Vale muchos dirán pero no pone ingeniería en el titulo y eso es una desventaja que también existe a la hora de buscar trabajo pero eso es solo la falta de cultura que hay en España. Fuera de España, y espero que dentro de un par de año la cosa cambie igual aquí, un científico de datos es un estadístico aplicado.
Respecto a masters la upo tiene uno de ingeniería de datos pero no es más que una repetición del temario de estadística aplicada de la UCM.
caballo_regalado
Muy bien artículo explicando qué es un "data scientist". An~adiría algunos puntos más:
- No es requisito único ser matemático, estadístico o ingenero informático para acabar en un departamento de data science. También he visto perfiles tan variopintos como economistas, ADE o biólogos en estos departamentos.
- No os olvideis de SAS! Es un programa excelente para tratar datos, derivar resultados estadísticos, y soporta volumenes de datos más grandes que R.
- En internet hay infinidad de cursos gratuitos, foros, páginas, etc. explicando cómo utilizar R, Python, o cualquier lenguage. Cualquiera con un mínimo de interés se puede auto-formar por sí solo.
caat_box
Profesión interesantísima. Lo que no sé por qué se llama "ciencia" cuando es claramente una profesión técnica.
oxid
Oh dios, el paquete R, quien haya estudiado cualquier ingeniería en la UCO sabrá de quién hablo..
comicxxx
Buena profesión, todos somos un poco científicos de datos.
speedter
Muy interesante el articulo y mas aun la profesion
llello
Javier, los 4 cursos mooc que recomiendas, ¿los recomiendas porque los has hecho?
fmorenop
Aún quedan muchos flecos por aclarar sobre tanto sistema de identificación única, sobre todo en un país en el que siempre se ha identificado a sus ciudadanos por el Documento Nacional de Identidad, tenía sentido que el DNIe acabara por imponerse a otros sistemas como el certificado electrónico o el sistema cl@ve, la verdad es que la descordinación de las administaciones, tanto hacienda como la seguridad social son un desastre como para unificar criterios y no tener a la gente haciendo cosas raras para pedir un sencillo informe de vida laboral o el propio borrador de la renta... un poco lamentable
davzo
Informáticos, estadistas, matemáticos,... Pero, ¿alguien conoce a los DOCUMENTALISTAS? Porque trabajar con bases de datos, documentos y un gran contenido de conocimientos informáticos son la base de todas las carreras de España que contienen la palabra Documentación. Y hace unos cuantos años que tratamos temas de Data mining y Big data.
soyverde58
Buenas, soy un alumno de segundo de bachillerato y no se que quiero estudiar el año que viene, tengo dudas entre ciencia de datos o ingenieria informática. Me gustan mucho los ordenadores, pero nunca me he metido a probar a programar. Me gustaría que me diesen su opinion, y algunos consejos. Muchas gracias.
ciudadanomundial
Gracias por el artículo, has dejado muy en claro qué es un científico de datos y qué se necesita para serlo.
También publicaste muchas opciones distintas para aprender esta profesión (tanto presencialmente como en línea). Por desgracia, todos esos cursos que mencionas son de paga, y muchos de ellos no son precisamente lo que alguien consideraría como baratos, haciendo que muchas personas que se interesan en el tema no puedan aprender por falta de dinero para pagar por tal educación.
¿Cómo pueden aprender esas habilidades las personas que no tienen dinero? Gracias al internet, ahora contamos con muchos cursos y guías gratuitos en línea que le permitirán a cualquiera estudiar desde su hogar y a su ritmo. Me di a la labor de organizar una lista de tales cursos y la publiqué en mi blog por si la quieren ver (Xataka no me deja poner enlaces, pero pueden visitar mi blog en ciudadanomundial punto com)
Alba Palacios
con lo mal que se me dan las mates y la programacion....me dedicare al lol...a ver si con suerte... :D