organidata
¿Queres aprender todo sobre el manejo de datos? En Organidata tenemos un curso especialmente armado
🚨⌛🚨 Últimos días para inscribirse🚨⌛🚨
Si estás buscando aprender a programar para ser análista de datos pero no sabes por dónde empezar... Tenemos la solución.
En la segunda edición de nuestro curso de análisis de datos vamos a enseñarte a programar con y las últimas herramientas de desarrollo para limpiar, manejar, visualizar y comunicar los datos. 🐍👩💻
Durante 8 semanas, vamos a juntarnos cada sábado a analizar datos juntos y vamos a darte ejemplos reales del trabajo con datos. Por último, vas a aplicar lo aprendido realizando un análisis completo para sumar a tu
portafolio personal como entrada a este mundo vasto y atrapante que es el
⚠️ No se necesitan conocimientos previos ⚠️
¿Tenés dudas? Revisá nuestras historias destacadas o escribimos por privado 📨
⚡️
Ya hablamos de que una de las buenas practicas cuando se trabaja con código es utilizar un sistema de control de versión como git, pero sabemos que la terminal puede asustar a cualquiera.
Te dejamos una lista con 5 recomendaciones de clientes git gratuitos para empezar a guardar tu trabajo sin tener que tocar la terminal nunca más.
- Github desktop
- gitkraken
- Source tree
- Tower
- Fork
Contanos en los comentarios... ¿Usas git? ¿Cuál es tu cliente favorito?
Una parte esencial del análisis de datos es la visualización de los mismos.
Graficar los datos sirve para la exploración de datos para detectar tendencias, correlaciones y patrones. Pero es también crucial para la presentación de los datos a los stakeholders.
Es muy importante siempre elegir gráficos que representen de manera acorde los datos, no todos los gráficos sirven para los mismos tipos de datos o para los mismos objetivos.
Deslizá para ver los 3 gráficos más utilizados.
Hoy vamos a ahondar un poco más en el paso de la recolección de los datos y vamos a hablar de la calidad de los datos. Para obtener buenos resultados, es importante contar con datos de calidad, poder detectar las fallas que haya en el conjunto de datos y mejorarlos antes de seguir con el análisis.
No hay una definición universal de la calidad de los datos porque, aunque debe cumplir ciertas medidas, la calidad de los datos también requiere de un juicio propio. Podemos decir que es el estado de los mismos, y que está estrechamente relacionado con su capacidad (o incapacidad) para resolver las preguntas a las que buscamos respuestas con nuestro análisis.
Algunos aspectos para controlar y evaluar la calidad de los datos son los siguientes:
- Validez
- Veracidad
- Integridad
- Coherencia
- Uniformidad
- Relevancia
Deslizá las imágenes para aprender más de cada uno de estos aspectos.
La semana que viene vamos a hablar de las mejores prácticas para asegurar siempre la calidad de nuestros datos.
Ahora que tenemos datos, entendamos un poco con que tipo de datos contamos: ¿Datos cuantitativos o cualitativos? ¿Cuál es la diferencia?
¿Qué son los datos cuantitativos?
Los datos cuantitativos se refieren a cualquier información que pueda ser cuantificada. Si se puede contar o medir, y se le da un valor numérico, son datos cuantitativos. Los datos cuantitativos pueden decirte "cuántos", "cuánto" o "con qué frecuencia", por ejemplo, ¿Cuántas personas leyeron este post? ¿Cuántos nuevos seguidores obtuvo esta cuenta en el último mes? ¿Con qué frecuencia se publica un nuevo post?
¿Qué son los datos cualitativos?
A diferencia de los datos cuantitativos, los datos cualitativos no pueden medirse ni contarse. Son descriptivos y expresados en términos de lenguaje más que en valores numéricos.
Generalmente responden a preguntas como "¿Por qué?" o "¿Cómo?". En este caso, no se trata solo de ver números, sino que le pedimos al usuario que también se exprese sobre por qué hizo algo o cómo se siente al respecto.
Los datos cualitativos también se refieren a las palabras o etiquetas utilizadas para describir ciertas características o rasgos, por ejemplo, describir el color de un objeto o etiquetar una receta como salado o dulce.
Las principales diferencias entre los datos cuantitativos y cualitativos radican en lo que nos dicen, cómo se recogen y cómo se analizan.
Los datos cuantitativos son fijos y "universales", mientras que los cualitativos son subjetivos y dinámicos.
Los datos cuantitativos se reúnen mediante la medición y el conteo. Los datos cualitativos se recogen entrevistando y observando.
Los datos cuantitativos se analizan mediante análisis estadísticos, mientras que los datos cualitativos se analizan agrupándolos en términos de categorías o temas significativos.
Vamos a empezar con lo básico...¿Qué son las librerías? 📚
Las librerías, o bibliotecas, son básicamente un conjunto de código preexistente cuyo fin es facilitar la programación y evitar la repetición. A diferencia de un programa ejecutable, el comportamiento que implementa una librería no espera ser utilizada de forma autónoma, sino que su fin es ser utilizada por otros programas, independientes y de forma simultánea.
¿Cómo funciona eso? Cuando empezamos a programar, podemos importar estas librerías y nos van a brindar muchas funciones que vamos a poder llamar en nuestro código sin necesidad de tener que desarrollar esas funcionalidades. Por ejemplo, si queremos aplicar una función logarítmica, podemos importar una librería con funciones matemáticas en vez de desarrollar nosotros mismo el cálculo logarítmico.
Esto, obviamente, salva mucho tiempo y nos permite concentrarnos en desarrollar lo que realmente necesitamos.
Python es un lenguaje con una cantidad innumerable de librerías, a continuación les contamos cuáles son algunas de las más utilizadas para el análisis de datos con Python:
1. Pandas
2. Numpy
3. Matplotlib
4. Plotly
5. Seaborn
Desliza para saber más de cada una ➡️➡️
Hoy en vamos a recomendar las 5 mejores visualizaciones de datos que vimos en el 2020.
1. Happy data: Como todos, el equipo de Pentagram se sentían abrumados por las noticias. Entonces decidieron enfocarse en lo positivo y empezaron a trabajar en una serie de vistas esperanzadoras del mundo a través de datos y dibujos.
2. Rastreador de vacunas para Covid-19: Estas visualizaciones siguen el progreso de las que han considerado las vacunas más prometedoras.
Se trata de un análisis muy completo sobre el progreso, descripciones básicas, dosis, tamaños de pruebas e incluso predicciones de los próximos pasos.
Además, es un análisis en desarrollo constante, ya que Bloomberg va a actualizarlo a medida que lleguen nuevos datos.
3. Sueños rotos: Este análisis de Reuters se enfoca en el avance de la pobreza en América Latina, causado en gran medida por la pandemia. El análisis expone las medidas tomadas en América Latina para combatir la pandemia, su relación con el aumento de la pobreza, la fragilidad de las redes de bienestar y la falta de poder financiero de los gobiernos.
4. Codex Atlanticus: The visual agency, un grupo de visualización de datos de Italia, recopiló lo que es hoy la mayor colección digital del trabajo de Leonardo Da Vinci.
Además, armaron una visualización de datos de esta colección que ha ganado múltiples premios. Esta biblioteca es un maravilloso ejemplo de cómo la historia puede ser digitalizada de una forma hermosa.
5. ¿Qué se compra online durante la pandemia?: El comportamiento de los consumidores también cambió este año, en este análisis de Visual Capitalist, se muestrandatos como que las máquinas de pan aumentaron un 652%
En el link en nuestra bio van a poder encontrar todos los links, cualquier cosa nos preguntan por mensaje. 💌
✨Bienvenido 2021✨
¿Ya tienen definido algún objetivo para el 2021?
¿Por qué no aprender una profesión de las más deseadas en el mercado?
🐍 Si, análisis de datos con Python 🐍.
Estamos muy contentos de compartirles una promo que preparamos para que cumplir este objetivo sea más fácil.
Por 2 semanas van a poder registrarse en nuestro curso de "Análisis de datos en 8 semanas" a tan solo 70 USD (o 6.000 pesos argentinos). 🙌
🤖 ¿Para quién es este curso?
Para cualquiera con ganas de aprender, no es necesario ningún conocimiento previo. Te guiamos desde la instalación hasta un proyecto terminado y listo para presumir.
🤖 ¿En qué comprende el curso?
- 8 clases en vivo (y grabadas)
- Aprender haciendo
- Ejercicios para practicar lo aprendido
- Bibliografía complementaria
- Asistencia y devolución personalizada
🤖 ¿Qué es lo que más nos emociona del curso?
Que se termina con un proyecto final integrador, en el que se realiza un análisis completo, desde la recolección de datos hasta su presentación con un set de datos a elección.
Un proyecto que va directo a tu portafolio y te sirve como plantilla para seguir trabajando por tu cuenta una vez finalizado el curso.
Además te damos una devolución personalizada sobre el proyecto, pero también sobre como podés mejorarlo, y como continuar tu camino como analista de datos.
🤖 ¿Cuándo empezamos?
Te esperamos el sábado 6 de febrero 2021.
Cualquier consulta pueden encontrar nuestro folleto en el link en bio, agendar una llamada con nosotros o escribirnos por privado.
Hoy en : "The elements of data analytics style" de Jeff Leek.
El libro se enfoca en el proceso que conlleva el , y describe cada uno de las partes de este proceso (recolección de datos, limpieza, presentación, etc).
El libro es corto, pero muy completo, explica incluso temas básicos de estadística y bases para .
Lo más útil, a mi gusto, es el último capítulo, en el que comparte una lista detallada de todos los puntos que debe completar el en un análisis completo.
Se puede descargar en formatos PDF, EPUB, MOBI o leerlo online desde la misma página web.
El link lo pueden encontrar en nuestra bio o pedirlo por mensaje directo.
Cuando hablamos de las herramientas más utilizadas mencionamos en la categoría de lenguajes de programación los dos más utilizados en el mercado: R y Python. ¿Pero cuáles son las diferencias? ¿Cómo decidir cuál elegir?
No hay mejor ni peor, va siempre a depender del tipo de análisis que queramos lograr.
Ambos son lenguajes de programación de código abierto y tienen una gran comunidad detrás. Lo que significa que nuevas librerías o herramientas se añaden continuamente y hay mucho material de ayuda disponible en la web.
La principal diferencia es que Python es un lenguaje de propósito general con una sintaxis legible y una curva de aprendizaje mucho más accesible. R, sin embargo, está construido por y para los estadísticos y su lenguaje es más específico.
R fue diseñado específicamente para el análisis de datos y estadísticas hace más de 20 años. Por el otro lado, Python tiene muchos usos diversos y se adaptó para el análisis y ciencia de datos hace tan solo algunos años mediante el desarrollo de librerías específicas (Numpy, Pandas, Scipy, Scikit-learn y Seaborn). Al punto que hoy con Python se pueden lograr prácticamente las mismas tareas que con R, pero este último cuenta aún hoy con mejores herramientas para la visualización de datos.
Al ser un lenguaje de propósito general, el código escrito en Python es más fácil de mantener y robusto que con R. A su vez, hace que la reaplicabilidad y la accesibilidad sean más fáciles que R. De hecho, si necesitas utilizar los resultados de tu análisis en una aplicación o sitio web, Python es la mejor opción.
Y vos... ¿Cuál elegís?
¡Bienvenidos a la presentación oficial del curso!
Ingresen al mundo del análisis de datos con de la mano de Organidata y aprendan sobre limpieza, agregación y visualización de datos, y comunicación de resultados a través de una experiencia agradable y práctica.
En una de nuestras tantas charlas, nos dimos cuenta de que hay mucho para aprender, muchos recursos disponibles, pero, no hay un camino claro y a veces es necesario que alguien nos lleve un poco de la mano, en especial cuando solo se tienen las ganas de empezar. Pero lo que realmente nos motivó a construir Organidata es que hay pocos recursos en español.
Es por esto que fundamos Organidata, con la idea de ayudar a quienes quieren empezar con el camino del análisis de datos. ¿Y qué mejor que hacerlo en la comodidad del idioma propio?
El curso está diseñado para que no necesiten conocimientos previos, solo una computadora y acceso a internet (además de las ganas de aprender) y será dictado en 8 clases semanales de 2 horas (aprox.) en vivo. Para los que no puedan estar presentes en el horario fijado, las mismas serán subidas como material al foro exclusivo para alumnos. En ese mismo foro podrán hacer preguntas que serán respondidas lo más rápido posible por nosotros, pero también podrán encontrar material adicional y opcional (que recomendamos aprovechen al máximo, ya que hay mucho para aprender), e incluso podrán compartir ideas y proyectos con sus compañeros actuales y todos los estudiantes de cursadas anteriores (si, el acceso es ¡de por vida!).
Párrafo aparte merecen las últimas dos clases, en las que se les presentará un caso de estudio real para que trabajen con todo lo aprendido en grupos. Hacemos hincapié en la metodología del "aprender haciendo", y queremos que se lleven una experiencia para sumar a su portafolio personal como entrada a este mundo vasto y atrapante que es el .
¿Cuándo? Nuestro próximo curso inicia el día 6 de febrero 2021, y finaliza el 27 de marzo de 2021. El mismo se dictará los días sábado.
12:00 hs Argentina
9:00 hs México
10:00 hs Colombia
¿Cómo? Mandanos un DM, o accedé al link en nuestra bio 👆
Como vimos en el post anterior, los datos en una empresa son esenciales para la toma de decisiones. Además, hay muchos pasos y tareas involucradas para que de una fuente de datos podamos llegar a sacar conclusiones válidas y fructíferas.
Además del analista de datos, podemos encontrar dos roles bien definidos involucrados en el proceso:
- Ingeniero de datos (Data engineer): Su responsabilidad principal es asegurar que los datos estén disponibles, construyendo y manteniendo infraestructuras de software. Su tarea es fundamental para el inicio de cualquier análisis. Un ingeniero de datos se ocupa de tareas como diseñar y construir el datawarehouse y de llevar a cabo los procesos ETL (extracción, transformación y carga de datos). Es una posición que requiere conocimientos similares a los de un backend, además de Python para programar, es necesario tener conocimientos avanzados de sistemas operativos y bases de datos (SQL y NoSQL). Además, se debe tener conocimientos de tecnologías de big data y datawarehousing (AWS, Hadoop, Kafka, etc).
- Científico de datos (Data scientist): Su responsabilidad es utilizar técnicas analíticas avanzadas para brindar conclusiones sobre los datos adicionales al análisis estadístico. Este tipo de técnicas pueden ser machine learning, deep learning o analítica de texto, y permiten identificar patrones o detectar tendencias en los datos. Un científico de datos requiere de conocimientos de programación en lenguajes como Python, R o SAS, amplio dominio de estadística y conocimientos de modelos de machine learning o deep learning.
Para simplificar, y poner en contexto lo aprendido, podemos pensar en que tareas cumpliría cada uno de estos roles en una empresa como Netflix. El ingeniero de datos se va a ocupar de juntar y mantener los registros de visualización de cada usuario, los listados de películas, etc. El analista de datos va a ocuparse de identificar los patrones de visualización y las tendencias, en el momento de análisis. Y por último, el científico de datos, va a utilizar ese mismo análisis para desarrollar y optimizar las recomendaciones de películas y series al usuario, tratando de predecir su comportamiento.