Ir al contenido principal

Destacados

Libros en línea para las ingenierías en Mecatrónica, Gestión Empresarial, Logística e Industrial

¡Ahora más fácil buscar un libro sobre tu carrera! Iniciamos una sección en nuestro Blog, con los libros en las áreas de Ingeniería, para Mecatrónica, Gestión Empresarial, Logística e Industrial. Imagen tomada de Pixabay (Usuario Kabompics) Estamos seguros que encontrarás algo de utilidad, para tu preparación profesional, la dirección donde lo puedes consultar de forma permanente aquí.  

🐍 Python | Pandas | Análisis de Datos

Análisis de Datos

Registro en el curso
Consulta aquí el avance de tus actividades
Registro de turnos
¿Quién sigue?

¿Cómo buscar Datasets (Bases de datos) en Kaggle?
Ingresa a la página: https://www.kaggle.com/
Cuando des click en el Dataset, te llevará a la página que puedes acceder a través de su dirección.

Una vez que hayas seleccionado un Dataset, puedes observar sus características principales:

Actividad 1: Registro
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:
Haz click en esta liga para completar tu inscripción en el curso.
🔍Evidencia: 
Formulario enviado.

Actividad 2: Crea tu usuario en los siguientes sitios
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:
Estas páginas nos servirán para programar en Python durante este curso.
Google Colab: Para programar en línea, utilizando Python 
GitHub: Te permite cargar archivos csv y usarlos en Google Colab.
Kaggle: Aquí puedes encontrar bases de datos, para descargar.
🔍Evidencia: 
Las tres páginas abiertas, con tu usuario.


Actividad 3: Leer un archivo en CSV en Google Colab
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:
Un archivo CSV (Valores separados por comas) es muy similar a una hoja de cálculo, lo puedes abrir con Excel o Google Sheets. También puedes generar un archivo en hojas de cálculo y guardarlo como CSV. 
En esta actividad vamos a trabajar con la base de datos de películas de la página IMDb: http://bit.ly/2Cjg0H9
Para cargar la base de datos, sigue las instrucciones del siguiente vídeo (Minutos 0:50 - 4:28)

🔍Evidencia: 
Ejecución correcta del código para cargar el archivo csv en Google Colab.


Actividad 4: list(df), max, min, count, describe
⏲️Duración aproximada: 
60 minutos
🗒️Descripción:
Al utilizar estos comandos puedes encontrar la descripción general de los datos, obtener el valor máximo, mínimo, incluso contar el número de registros.

list(df): Te permite obtener la lista de columnas, cuando apliques este comando obtendrás el siguiente resultado. La lista en Python se identifica con los corchetes [ ]

df['budget'].max(): Para encontrar el valor más grande de una columna, es necesario encerrar en apostrofos o comillas, el nombre de la columna. Aquí vamos a utilizar la columna de presupuesto (budget).
Si quieres saber cuál es la película y en que año salió, que tiene ese presupuesto puedes ejecutar el siguiente código.

df['budget'].min(): Se sigue el mismo procedimiento, que en el paso anterior, también incluye las líneas para saber que película es y en que año se realizó.

df['budget'].count(): Para contar el número de registros que hay en la columna, se utiliza count.

df['budget'].describe(): Con esta instrucción podrás conocer información estadística básica de la columna seleccionada.

🔍Evidencia: 
Ejecución correcta del código con cada una de las instrucciones, para la columna budget, más otra que tu elijas.

Actividad 5: unique(), value_counts(), to_csv
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:
Estos comandos nos permitiran conocer cuántos valores únicos hay en una columna, cuántos hay de cada uno de ellos y como descargar tus resultados en un archivo csv.


Unique( ): Te permite conocer los valores únicos de una columna, por ejemplo ¿Cuáles son los géneros de las películas? como se muestra en el siguiente código:




Value_counts( ): Este comando es útil, para hacer la cuenta de cada uno de los valores. El resultado queda ordenado de mayor a menor.

to_csv( ): Cuando requieras descargar los resultados en archivo CSV, o como en el caso anterior, que los datos no se visualizaban completos y esto en la salida lo ves como ( . . . ) es posible descargarlos en tu computadora y verlos en Excel.



🔍Evidencia: 
Ejecución correcta del código con cada una de las instrucciones, para la columna de los ejercicios, más otra que tu elijas.


Actividad 6: Celdas de texto, mover celdas e insertar imágenes.
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:

Puedes hacer una descripción detallada de tu trabajo en Google Colab, utilizando estas herramientas.

Celdas de texto: Para introducir un texto, solamente tienes que seleccionar la opción de texto.
Para escribir un texto, da click en las opciones de formato (Tt, B) al escribir verás los cambios en la celda.
Si quieres insertar una imagen, solamente hay que copiar su dirección.
🔍Evidencia: 
Ejecución correcta del código con cada una de las instrucciones de formato.


Actividad 7: Tipo de los datos.
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:

Para hacer gráficas con tus datos, o algún cálculo debes asegurarte que los datos, sean: Float (Números decimales) o Int (Números enteros).

dtypes: Con esta función, no solamente puedes ver el tipo de datos, también el nombre de la columna (que puedes copiar o pegar)
Para esta actividad descarga los datos -> http://bit.ly/32piq1o o también puedes probar la dirección del repositorio -> https://github.com/LilianaC/Pandas/blob/master/moviered.csv
🔍Evidencia: 

Ejecución correcta del código, con los datos de la actividad.


Actividad 8: Gráficas con Matplotlib
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:
Si requieres gráficas muy sencillas, se puede utilizar este módulo, por ejemplo para gráficas de barras o pay.

bar: En este ejemplo utilizamos la clasificación de la película, como los datos NO son númrtos, pero si usas la función value_counts( ), Python agrupa y cuenta los datos, de cada clasificación.



Pay: Para una gráfica de este tipo, la instrucción es casi idéntica, solamente cambia el tipo de grafica a pie.


Actividad 9: Gráficas con Seaborn
⏲️Duración aproximada: 
30 minutos
🗒️Descripción:
Este tipo de gráficas te puede servir, para detectar alguna tendencia entre los datos, como una correlación lineal, es decir cuando aumenta una variable, la otra también, el patrón que siguen los datos es de una línea recta.

Distplot: Esta gráfica nos permite ver el tipo de distribución que siguen los datos, para la calificación que recibe la película, se tiene casi una distribución normal, hay pocas películas calificadas como excelentes...y pocas películas calificadas como pésimas.
Nota: Puedes utilizar la función dropna para quitar los renglones (películas) que no tengan calificación.

Pairplot: Aquí puedes comparar la relación entre dos o más columnas.
NOTA: Cuando lo pruebes con tus datos, y tienes problemas con el Internet, prueba a hacer una copia de los datos y deja menos renglones (alrededor de 200) esto lo puedes modificar en Excel y guardar como CSV.



Regplot: Con esta opción, puedes hacer una regresión lineal entre dos variables, en este ejemplo, parece que se tiene una relación lineal entre el total de likes que obtiene el reparto de la película, con el total de likes que reuné el actor principal.
Actividad 10: Tu proyecto
⏲️Duración aproximada: 
120 minutos
🗒️Descripción:
Con los datos que seleccionaste, haz un nuevo bloc de notas (Python 3) utiliza una imagen característica para el tipo de datos que elegiste y agrega el texto en las celdas, como en los ejemplos anteriores. Las preguntas que se deben responder son:
  1. ¿Qué tipo de datos se tienen en la base de datos?
  2. ¿Cuántos registros se tienen?
  3. ¿Cuáles son los valores máximos y mínimos que se encontró? (Tú seleccionas las columnas a seleccionar)
  4. ¿Cuáles son las tendencias que observaste?
  5. ¿Qué tipo de gráfica te ayuda a identificar mejor la tendencia?

Comentarios

Entradas populares

Usamos cookies propias y de terceros que entre otras cosas recogen datos sobre sus hábitos de navegación para mostrarle publicidad personalizada y realizar análisis de uso de nuestro sitio.
Si continúa navegando consideramos que acepta su uso. OK Más información | Y más