Dtale
Una libreria python para EDA que deberias tener

Las bibliotecas de Python proporcionan una amplia gama de funcionalidades para los científicos de datos. Permiten a los científicos de datos trabajar con varios conjuntos de datos y realizar operaciones complejas. Las bibliotecas de Python también facilitan el aprendizaje de nuevos conceptos, lo cual es vital para los estudiantes que recién comienzan en el campo. Sin embargo, aprender Python puede ser abrumador y, al principio, algunas tareas que pueden ser fáciles para otros usuarios pueden tomar un tiempo para aprender cómo hacerlas y cómo usarlas. Ahí es donde D-Tale puede ser útil.

Incluso los usuarios experimentados de Python, algunas tareas pueden ser repetitivas y hacerle perder su valioso tiempo. Por esta razón, D-Tale puede ayudarlo a optimizar tareas como el análisis exploratorio de datos y la limpieza de datos. Al ahorrar tiempo, puede concentrarse en tareas más críticas, como refinar su código y ajustar los modelos de aprendizaje automático. Pero, ¿qué es D-Tale? Aquí está la explicación de PyPI :

D-Tale es la combinación de un back-end de Flask y un front-end de React para brindarle una manera fácil de ver y analizar las estructuras de datos de Pandas. Se integra a la perfección con portátiles ipython y terminales python/ipython. Actualmente, esta herramienta admite objetos Pandas como DataFrame, Series, MultiIndex, DatetimeIndex y RangeIndex.

Me gusta recordar a los lectores que no escribo contenido patrocinado de ningún tipo. Expreso mi opinión personal sobre la biblioteca en base a mis impresiones. ¡Ahora, divirtámonos!

Instalación

Podemos instalar D-Tale es sencillo. Simplemente escriba pip install dtaleen su Terminal. No tuve ningún error al instalarlo. Ahora, necesitaremos obtener un conjunto de datos para explorar D-Tale. Hoy usaré un conjunto de datos de COVID (Mathieu, E., Ritchie, H., Ortiz-Ospina, E. et al. Una base de datos global de vacunas contra el COVID-19. Nat Hum Behav (2021) ). Es un conjunto de datos interesante que es lo suficientemente complejo como para probar algunas de las funciones de D-Tale y lo suficientemente fácil como para comprender lo que está sucediendo.

Ahora, comencemos. Primero, importemos Pandas y D-Tale a nuestro Jupyter Notebook. Luego, necesitaremos importar el conjunto de datos, asignarlo a una variable y llamar a la variable usando D-Tale.

# Importación de bibliotecas
import dtale
import pandas as pd# Asignación del conjunto de datos a la variable
df = pd.read_csv('covid-data.csv')dtale.show(df)
GIF del autor

¡Hurra! Acabamos de abrir D-Tale GUI. A diferencia de Pandas, podemos interactuar con el conjunto de datos y la biblioteca sin escribir código. La otra cosa interesante es que D-Tale muestra más información que Pandas en la primera pantalla.

GIF del autor

Primero, podemos desplazarnos hacia abajo a la derecha para ver más datos. En Pandas, esto no es tan fácil e intuitivo como D-Tale. Luego, en la esquina izquierda, puede ver el número de columnas y filas en la esquina izquierda sin escribir ningún código. Navegando en la parte superior, verá el menú de navegación.

GIF del autor

Ahora que estamos familiarizados con D-Tale, exploraremos sus funciones. Otra cosa sobre D-Tale es que no necesitamos usarlo en Jupyter Notebook. Entonces, usemos D-Tale en una pestaña diferente para fines de demostración. Sin embargo, depende de ti cómo quieras usarlo. Utilice el código de abajo.

dtale.show(df).open_browser()
GIF del autor

Preparación de datos

Cambiar el tipo de datos con un clic

Cambiar el tipo de datos no es difícil en Pandas, incluso para los principiantes, y no debería tener problemas para cambiarlos por una o dos funciones. Sin embargo, ¿qué sucede si necesita cambiar el tipo de datos de más de 300 funciones? Esto no es raro en un entorno profesional, y escribir cientos de líneas de código no es el mejor uso de nuestro tiempo para tareas como esta. Con D-Tale, podemos cambiar los tipos de datos con unos pocos clics.

Por ejemplo, en este conjunto de datos, noté que la columna de fecha es una cadena. No queremos eso. Vamos a cambiarlo a DateTime. Simplemente haga clic en el nombre de la columna y, justo debajo del nombre de la columna, haga clic en Type Conversiony seleccione si desea cambiar inplaceo crear una nueva columna. Seleccione el tipo de datos, cambie el formato de fecha y haga clic en Aplicar. ¡Eso es todo!

GIF del autor

Hay una bonificación. Antes de aplicar el cambio, puede ver el código que se utilizará. Si está aprendiendo Python, es un complemento fantástico. Hay más. Una vez que el tipo de datos es DateTime, podemos ver información adicional al hacer clic en el nombre de la columna, como la asimetría. ¿Guay, verdad?

Imagen del autor

Crear una nueva columna con un formato diferente

También podemos crear una nueva columna con un formato diferente. Para fines de demostración, convertiremos la columna de fecha en una cadena. Simplemente haga clic en el nombre de la columna que desea convertir, luego haga clic en Type Conversion, haga clic en New Column, elija el nuevo nombre de columna y seleccione el tipo de datos. ¡Hecho!

GIF del autor

Tirando columnas

Eliminar columnas no podría ser más fácil. Seleccione la columna que desea eliminar, haga clic en Delete, haga clic en Yesen la ventana emergente y la columna desaparecerá. Y sí, escribir el código para soltar columnas es igual de fácil, pero no tan fácil.

GIF del autor

Cambiar el nombre de la columna

Proceso de cambio de nombre de las columnas: haga clic, cambie el nombre, guarde. ¡Así de fácil! Simplemente haga clic en el nombre de la columna, haga clic en Rename, elija el nombre y guárdelo. Está hecho. Esto es particularmente útil si necesita cambiar el nombre de docenas de columnas.

GIF del autor

Transformación de datos

Filtrado de datos

Filtrar datos es extremadamente fácil. Haga clic en la columna que desea filtrar. En la parte inferior, verás las opciones de filtrado. Puede filtrar cualquier tipo de datos. D-Tale tiene opciones de filtrado como igual, mayor/menor que, diferente que, etc. ¡Todo está ahí!

En el siguiente ejemplo, estoy filtrando los continentes para mostrar solo datos de América del Norte.

GIF del autor

fusionando datos

Para fusionar dos marcos de datos, haga clic en el ícono ▶ en la parte superior izquierda y se abrirá una nueva pestaña. Puede cargar conjuntos de datos directamente desde la interfaz de usuario. Elija los conjuntos de datos, cómo desea unirlos, y eso es todo. También puede ver el código en la parte inferior si lo va a usar en otro proyecto.

GIF del autor

Agrupación por

Para agrupar por, haga clic en Summarize Data, seleccione las columnas por las que desea agrupar, la función (suma, conteo, media, mediana, etc.), y listo. Puede abrirlo en la misma pestaña o en una pestaña diferente.

Describir datos

¿Necesita un resumen rápido de una función? No es un problema. Con D-Tale, puede ver información como el recuento de valores, los valores faltantes, la frecuencia, el resumen de estadísticas como la media, la mediana, los percentiles, la desviación estándar, la asimetría, el recuento de palabras y mucho más. Según el tipo de datos, también muestra un gráfico de los datos, como un histograma, una serie temporal, un gráfico de barras, etc.

Para hacerlo, simplemente haga clic en el nombre de la columna, luego haga clic en Describe (column analysis)y verá mucha información interesante.

GIF del autor

Si desea navegar rápidamente por todas las columnas, puede hacer clic en el signo ▶ en la parte superior derecha, hacer clic en la opción de resumen y podrá verificar todas las funciones individualmente con un clic.

[necesito otro GIF]

Visualización de datos

La visualización de datos es una de las tareas que consume más tiempo durante el análisis de datos. Hacer que se vean bien puede ser una pesadilla para los principiantes, pero afortunadamente, D-Tale también puede ayudar con eso. Puede crear visualizaciones con unos pocos clics, y la mejor parte: puede obtener el código y aprender lo que está sucediendo.

Parcela de barras

Empecemos a crear un gráfico de barras. Para crear un gráfico de barras, haga clic en la parte superior derecha, vaya a gráficos y se abrirá una GUI. ¡Allí, puede seleccionar un tipo de trama entre trece opciones! A partir de ahí, seleccione las variables X e Y, el tipo de agregación, si corresponde, y listo, acaba de obtener un gráfico atractivo.

En el siguiente ejemplo, pongo el continente en el eje x y el número total de casos de COVID por continente en el eje y.

GIF del autor

Si desea agrupar los datos, escriba la variable que desea agrupar y listo. En este ejemplo, estoy agrupando los países en grupos de continentes.

GIF del autor

Código de parcela

Como mencioné, puede obtener fácilmente el código para verificar cómo se creó la trama. Es una buena manera de aprender o incluso entregar productos finales, ya que los gráficos son atractivos y podrían usarse como la versión final.

GIF del autor

Gráfico de dispersión

Crear un diagrama de dispersión es tan fácil como un diagrama de barras. Elija el eje x e y, agrupe, si lo desea, y auge. Tienes un diagrama de dispersión. A continuación, compruebo la relación entre el número de casos nuevos y el número de personas vacunadas contra el COVID-19.

GIF del autor

Series de tiempo

D-Tale lleva las series temporales a otro nivel. Con un clic, puede crear fácilmente un gráfico de serie temporal con ellos y revisar diferentes tipos de series temporales, como los filtros Hodrick-Prescott y Bacter-King. Muy bien, ¿eh?

GIF del autor

Describir conjunto de datos

Ya hablamos sobre este tema, pero quiero mencionar algunas visualizaciones interesantes que puede crear con la función de resumen, como histogramas, categorías de exploración y creación de un gráfico QQ.

Sin embargo, lo mejor es que puedes interactuar las columnas elegidas con otras columnas y crear gráficos instantáneos. Esta es la mejor manera de comprender su conjunto de datos sin pasar horas escribiendo código para obtener resultados que podría obtener con un solo clic.

GIF del autor

Más características de D-Tale

Además de las opciones de análisis de datos, D-Tale también ofrece algunas configuraciones adicionales, como elegir el idioma y el modo oscuro.

Cambiar idioma y modo oscuro

D-Tale tiene algunas tareas más complejas que pueden ser confusas para personas que no hablan inglés, y si su idioma nativo es chino o portugués, tengo buenas noticias: D-Tale admite estos dos idiomas además del inglés para traducir su interfaz de usuario.

También es compatible con el modo oscuro para aquellos a quienes les gusta. No soy el mayor fanático del modo oscuro porque me resulta más difícil de leer, pero esta característica adicional debería gustarte si no tienes este problema.

Resaltar columnas

D-Tale nos permite resaltar datos dependiendo de algunas opciones. Por ejemplo, puede resaltar los datos según el tipo de datos. También podemos resaltar los valores de NaN y los valores atípicos para evitar perderlos. También puede resaltar datos en función de argumentos, como mayor o menor que un número específico.

GIF del autor

Pensamientos finales

Uf. Esto fue mucho. En este blog, vimos cómo D-Tale podría hacernos la vida más fácil, incluso para aquellos profesionales experimentados, al convertir tareas tediosas en tareas intuitivas. Hay tantas funciones interesantes y más complejas que quedaron fuera de este blog, por lo que le recomiendo que lo pruebe, explore y encuentre más funciones que le serán útiles.

¿Creo que D-Tale es para todos? En realidad, no, pero si es un profesional que necesita obtener información rápidamente de un conjunto de datos o un estudiante nuevo en el mundo de Python, esta es una gran biblioteca a tener en cuenta. Si es un usuario avanzado de Python, puede probarlo y ver qué puede obtener de él que le llevaría un tiempo escribir el código. Si lo hace, por favor hágamelo saber en la sección de comentarios. ¡Feliz codificación!


Compartir
Identificarse dejar un comentario
Redes Neuronales Recurrentes
La memoria, un paso adelante hacia la IA.
/*
*/