# Paquete DataFrames


## DataFrames.jl
Es un paquete que nos permite explorar informaci√≥n tabul√°ndola. Este paquete es alternativo y equivalente al famoso paquete 'Pandas' de Python.

Como el nombre del paquete lo indica, la informaci√≥n se maneja en una estructuta de datos llamada 'dataframe', el cual es similar a una tabla u hoja de c√°lculo (como la de Excel). Por lo tanto, el paquete nos permite explorar un dataset, transformarlo y almacenar la informaci√≥n.

Junto a [`DataFrames`](https://dataframes.juliadata.org/v0.17/##DataFrames.jl-1) se puede utilizar el paquete [`Queryverse`](https://www.queryverse.org/), el cual permite tener a mano diferentes herramientas √∫tiles para: trabajar con archivos, manipular datos y explorarlos; por tanto, permite tener mayor eficiencia.



In [453]:
using Pkg; Pkg.activate("."); Pkg.instantiate() ##Activando enviroment local



Los paquetes `DataFrames` y `Queryverse` pueden ser a√±adidos a Julia y luego ser cargados de la forma usual. Se utilizar√° el paquete Plots, para realizar algunas gr√°ficas y de esta forma visualizar datos.



In [454]:
using Plots, Queryverse, DataFrames ##Importando librer√≠as



### Cargando archivos
En Julia existen diversos paquetes que permiten cargar archivos, como el paquete `CSV`. Sin embargo, el paquete `Queryverse` permite usar la funci√≥n `load`, que permite leer no solo archivos $^*$.csv sino tambi√©n archivos: $^*$.xls, $^*$.xlsx, $^*$.dta, $^*$.sav, entre otros.

Ahora cargaremos el dataset que se estar√° utilizando para mostrar las bondades del paquete `DataFrames`.



In [455]:
datatrain = load("./titanic/train.csv");



A continuaci√≥n se muestra c√≥mo se carga los datos de una archivo $^*$.xlsx, en el cual se especifica el nombre de la hoja de c√°lculo (en el caso particular del ejemplo 'train').



In [456]:
datatest = load("./titanic/test.xlsx", "test");



Ahora podemos comprobar que los datos efectivamente ha sido cargado en las variables de ambos archivos.



In [457]:
typeof(datatrain)


In [458]:
datatest;



A menudo se requerir√° que los datos deban ser contenidos en un dataframe, para ello se utiliza el constructor `DataFrame` del paquete `DataFrames`. Podr√° notar la mejora en la presentaci√≥n de la tablas cuando se utiliza el paquete mencionado. 

Existen varias maneras de crear el dataframe, la primera es:



In [459]:
dftest = DataFrame(datatest)



La segunda es m√°s elegante y se utiliza pipe sintax:



In [460]:
dftrain = datatrain |> DataFrame;


In [461]:
typeof(datatrain), typeof(dftrain)



Como nota adicional, el m√©todo `load` tambi√©n admite pasar como par√°metro un `String` con la una url de donde el conjunto de datos pueda ser descargado, el archivo se guarda en el directorio que contiene el archivo que es ejecutado..




### Trabajando con los datos

A continuaci√≥n, se discutir√°n sobre alguna de las funciones implementadas en DataFrames para trabajar con los datos tabulados. 




#### Obteniendo informaci√≥n del dataset
Existe un conjunto de funciones que nos permite tener un overview del dataset que se ha cargado. Lo anterior ser√° importante para dar un manejo adecuado a los datos.

Para obtener las columnas del dataframe se utiliza el m√©todo `names`.



In [462]:
names(dftrain)


In [463]:
names(dftest)



Las dimensiones de dataframe se puede obtener con el m√©todo `size`.



In [464]:
size(dftrain)


In [465]:
size(dftest)



Una descripci√≥n del contenido de las columnas puede realizarse con el m√©todo `describe`. El m√©todo entrega informaci√≥n estad√≠stica de las columnas y varias propiedades.



In [466]:
describe(dftrain);


In [467]:
describe(dftest)



#### Renombrando las columnas

Renombrar una columna es √∫til cuando los nombres no son descriptivos y legibles.



In [468]:
rename!(dftrain, :PassengerId=>"Id", :Pclass=>"Class", :Sex=>"Gender")


In [469]:
rename!(dftest, :PassengerId=>"Id", :Pclass=>"Class", :Sex=>"Gender")



#### Accediendo a los elementos de un dataframe
Diferentes formas puede ser aplicado para acceder a los elementos de un dataframe. A continuaci√≥n se muestran algunas.

**Mediante el punto (.col)**



In [470]:
dftrain.Name ###Retorna un array



**Mediante el s√≠mbolo ([:col])**



In [471]:
dftrain[:Age] ###Retorna un Array



**Mediante √≠ndice**



In [472]:
dftrain[1,5]  ###Un elemento espec√≠fico


En el ejemplo anterior se accedi√≥ a solo un dato de la columna, para acceder a toda la columna ser realiza con (:)


In [473]:
dftrain[:,5] ###Retorna un Array


In [474]:
dftrain[:,[5]] ###Retorna un DataFrame



Se puede acceder a un conjunto de columnas a la vez



In [475]:
dftrain[:,[1,4,5,3]] ###Retorna un DataFrame


In [476]:
dftrain[:,[:Id,:Name,:Gender,:Class]] ###Retorna un DataFrame



Es posible que, en lugar de indicar cada columna y dependiendo del nombre que posean las columnas, estas puedan ser indicadas por medio de una expresi√≥n regular indicado con `r\"--\"`. Lo anterior trata de hacer match con los nombres de las columnas y cuando se encuentre alguna coincidencia del nombre de la columna con la regla descrita por la expresi√≥n regular esta es devuelta.

En los ejemplos anteriores se accedi√≥ a todas las filas de las columnas, sin embargo, puede accederse a un grupo limitado como se muestra a continuaci√≥n



In [477]:
dftrain[50:100,[:Id,:Name,:Gender,:Class]];


In [478]:
dftrain[[50,75,100],[:Id,:Name,:Gender,:Class]];



**Mediante una condici√≥n**



In [479]:
dftrain[dftrain.Class.==2,:];



Note como en el ejemplo anterior se utiliza broadcasting. La manera en que funciona lo anterior es de la siguiente forma: 

Primero se genera un vector con valores booleanos.



In [480]:
arraybool = dftrain.Class.==2;



Luego el arreglo se pasa en el lugar del primer √≠ndice cuado se desea acceder a los elementos del dataframe, el arreglo filtra los datos que ser√°n mostrados (todas las filas que coincidan con el valor booleano true).



In [481]:
dftrain[arraybool,:];



Para mayor legibilidad en el c√≥digo, lo mejor ser√° usar un conjunto de funciones que nos permiten hacer filtrado de la informaci√≥n, por ejemplo usar el m√©todo `filter`. Usar dichos m√©todos nos permitir√° crear condiciones m√°s robustas, complejas y claras.

En el ejemplo que sigue se utiliza el paquete `Pipe`, el cual mejora la utilidad del uso de `pipe`, teniendo la posibilidad de usar funciones y pasar argumentos.



In [482]:
Pkg.add("Pipe"); using Pipe;


In [483]:
@pipe dftrain |> filter(x->x.Class==2,_)



De igual manera, el paquete `Queryverse` proporciona la macro `@filter` para realizar el filtrado, como se muestra a continuaci√≥n.



In [484]:
dftrain |> @filter _.Class==2



Para la primera coincidencia se puede usar la funci√≥n `findfirst`



In [485]:
@pipe dftrain |> findfirst(x->x==2,_.Class) |> dftrain[_,:]



**Funciones del paquete**



In [486]:
first(dftrain,6);


In [487]:
last(dftrain,6);



#### Funciones √∫tiles
El paquete `DataFrames` dispone de varias funciones que pueden ser de utilidad cuando se manipula y se transforman datos. A continuaci√≥n se mencionan algunos de ellos.



In [488]:
@pipe dftrain |> colwise(sum,_[[:Survived,:Class]])



La funci√≥n `colwise` realiza operaciones por columnas cuando es necesario, en este caso el ejemplo no traduce a algo √∫til, pero ilustra el uso de la funci√≥n.




Para columnas que no son num√©ricas puede usarse la funci√≥n `countmap`, que cuenta el n√∫mero de veces que aparece un determinado elemento en la serie (columna) de datos. Para el uso se instala y se importa el paquete `StatsBase`.



In [489]:
Pkg.add("StatsBase"); using StatsBase


In [490]:
@pipe dftrain |> countmap(_[:Gender])


In [491]:
@pipe dftrain |> countmap(_[:Embarked ])



Otra funci√≥n interesante es `unique`, que devuelve un array con los valores no duplicados.



In [492]:
genders = dftrain[:Gender] |> unique


In [493]:
dftrain[:TotalFamily] = dftrain.SibSp + dftrain.Parch


In [494]:
dftest[:TotalFamily] = dftest.SibSp + dftest.Parch


In [495]:
dftrain[:new] = dftrain.SibSp + dftrain.Parch; 


In [496]:
dftrain



En el ejemplo anterior una columna, con el nombre `TotalFamily`, fue a√±adida al dataframe. Una columna adicional es agregado, `new`, para ilustrar c√≥mo se elimina.



In [497]:
select!(dftrain,Not([:new]))



Para eliminar una fila del dataframe se puede usar la funci√≥n `delete!` y para a√±adir una fila se puede usar la funci√≥n `push!`. En `delete!` se indica el dataframe y el √≠ndice de la fila que debe ser eliminada.

Existen otro conjunto de funciones que son de utilizada cuando se requiere realizar una consulta compleja en la data, el paquete `Queryverse` por contener el m√≥dulo `Query` ofrece opciones interesantes que pueden ser consultados en los siguientes enlaces: [link‚ÇÅ](https://www.queryverse.org/2019/02/02/query-v0.11/), [lin‚ÇÇ](https://www.queryverse.org/Query.jl/stable/standalonequerycommands/##Standalone-query-operators-1), [lin‚ÇÉ](https://www.queryverse.org/Query.jl/stable/linqquerycommands/#LINQ-Style-Query-Commands-1). 

M√°s funciones puede ser encontrado en la siguiente [introducci√≥n](https://en.wikibooks.org/wiki/Introducing_Julia/DataFrames) al paquete `DataFrames`.




### Manejo de fechas
Es usual que al indagar en los datos y transformarlos se manejen fechas. En Julia ello se realiza con el paquete `Dates`, el cual nos permite dar formato a las fechas y realizar operaciones con ellas.

Para construir un objeto tipo fecha se pueden usar los constructores `Date` y `DateTime`, los cuales diferen en la precisi√≥n (d√≠a y milisegundos respectivamente). 



In [498]:
Pkg.add("Dates"); using Dates


In [499]:
Date(2021), Date(2021,5), Date(2021,6,4)


In [500]:
DateTime(2021), DateTime(2021,5), DateTime(2021,6,4)



En algunas ocasiones se encontrar√° necesario dar formato a una cadena de caracteres que representan una fecha, para ello en los constructores se especifica el formato de la cadena de texto, en el cual existen diferentes opciones.



In [501]:
Date("2021-3","yyyy-m"), Date("2021/08/9","yy/mm/d"), Date("20210809","yyyymmdd"), Date("21-3","yyyy-m")



Si existen muchos datos de fecha a formatear y tienen un formato similar, es m√°s eficiente crear el formato primero y luego usarlo en el constructor, por ejemplo: `dateformat=DateFormat(\"dd/mm/yyyy\")`.

En los ejemplos se puede notar que exite un error para la √∫ltima fecha, cuando ocurre esas situaciones se debe parsear la cadena de texto para ser convertido a una cadena tipo fecha.



In [502]:
parse(Dates.Date,"2021-3",Dates.DateFormat("yyyy-m"))



Para conocer m√°s sobre el manejo de fechas revisar esta [documentaci√≥n](https://docs.julialang.org/en/v1/stdlib/Dates/##Dates).
md



### Respondiendo interrogantes y visualizaci√≥n de datos
Para ilustrar c√≥mo se utilizan algunas de las funciones m√°s avanzadas, mencionadas hacia el final de la secci√≥n  'Funciones √∫tiles', podemos dar respuesta a las siguientes preguntas:
+ ¬øCu√°ntas personas iban en el titanic?
+ ¬øCu√°ntos hombres y mujeres sobrevivieron?
+ ¬øCu√°l fu√© el top 10 de edad que m√°s sobrevivieron?
+ ¬øCu√°l fue el top 10 de edad que no lograron sobrevivir?


El paquete `StatPlots` ofrece una macro `@df`, el cual se usa junto con `Plots` para graficar datos de dataframe.



In [503]:
Pkg.add("StatsPlots"); using StatsPlots



A continuaci√≥n una rutina para responder la primera interrogante.



In [504]:
begin ###Preparamos los datos para unir los dataframes
	survivedtest = @pipe load("./titanic/gender_submission.csv") |> 
					DataFrame |> 
					rename!(_,:PassengerId=>"Id") |>
					Float64.(_)
	dftest‚ÇÅ = @from i in dftest begin
			  @join j in survivedtest on i.Id equals j.Id
			  @select {i.Id, j.Survived, i.Class,i.Name, i.Gender, i.Age, i.SibSp, i.Parch, i.Ticket, i.Fare, i.Cabin, i.Embarked, i.TotalFamily}
			  @collect DataFrame
	end
end;


In [505]:
df = vcat(dftrain[:,:], dftest‚ÇÅ[:,:]); ###Se deben unir los dataframes


In [506]:
describe(df);



#### ¬øCu√°ntas personas iban en el titanic?



In [507]:
length(df[:Id])



#### ¬øCu√°ntos hombres y mujeres sobrevivieron?



In [508]:
genders


In [509]:
üë® = df |> @filter(_.Gender=="male" && _.Survived==1) |> collect |> length


In [510]:
üë© = df |> @filter(_.Gender=="female" && _.Survived==1) |> collect |> length



#### ¬øCu√°l fu√© el top 10 de edad que m√°s sobrevivieron?



In [511]:
agesurviver = df[df.Survived.==1, [:Age]] |> 
				dropmissing |> 
				@groupby(_[:Age]) |>
				@map({Edades‚Çõ=key(_), Count‚Çõ=length(_)}) |>
				DataFrame;


In [512]:
agesurviver


In [513]:
@pipe sort!(agesurviver,[:Count‚Çõ],rev=true) |> first(_,10)


In [514]:
@pipe df[df.Survived.==1, [:Age]] |> 
		dropmissing |> 
		groupby(_,:Age)  |> 
		combine(_,:Age=>length=>:Count‚Çõ) |> 
		sort(_,[:Count‚Çõ],rev=true) |> 
		first(_,10)



#### ¬øCu√°l fue el top 10 de edad que no lograron sobrevivir?



In [515]:
notagesurviver = df[df.Survived.==0, [:Age]] |> 
	  			 dropmissing |> 
				 @groupby(_[:Age]) |>
				 @map({Edades‚Çô‚Çõ=key(_), Count‚Çô‚Çõ=length(_)}) |>
				 DataFrame;


In [516]:
@pipe sort!(notagesurviver,[:Count‚Çô‚Çõ],rev=true) |> first(_,10)


In [517]:
@pipe df[df.Survived.==0, [:Age]] |> 
		dropmissing |> 
		groupby(_,:Age)  |> 
		combine(_,:Age=>length=>:Count‚Çõ) |> 
		sort(_,[:Count‚Çõ],rev=true) |> 
		first(_,10)



#### Gr√°fica con Plots



In [518]:
dfplot‚Çõ = DataFrame();


In [519]:
dfplot‚Çõ[:Gender] = @pipe df[df.Survived.==1, [:Gender]] |> 
			map(x->x=="male" ? 0 : 1, _[:Gender])


In [520]:
dfplot‚Çô‚Çõ = DataFrame();


In [521]:
dfplot‚Çô‚Çõ[:Gender] = @pipe df[df.Survived.==0, [:Gender]] |> 
			map(x->x=="male" ? 0 : 1, _[:Gender])


In [522]:
@df dfplot‚Çõ plot(:Gender, seriestype=:histogram, legend=:none, bar_width=0.9, xticks=([0.15,1.15],["Var√≥n", "Mujer"]), title="Sobrevivientes")


In [523]:
@df dfplot‚Çô‚Çõ plot(:Gender, seriestype=:histogram, legend=:none, bar_width=0.9, xticks=([0.15,1.15],["Var√≥n", "Mujer"]), title="No Sobrevivientes")


In [524]:
f = DataFrame(a = 1:10, b = 10 * rand(10), c = 10 * rand(10));


In [525]:
@df f plot(:a, [:b :c])



### Paquete PlutoUI
Este paquete es que agrega syntactic sugar para alguna de las funcionalidades de Pluto. [`PlutoUI`](https://github.com/fonsp/PlutoUI.jl) puede ser implementado para colocar widgets en el cuaderno y hacer m√°s interactivo el programa que se escriba.



In [526]:
Pkg.add("PlutoUI"); using PlutoUI;


In [527]:
@bind gender Select(genders) 


In [528]:
@bind number Slider(1:9) 


In [529]:
gender, number



### Utilidades de `Queryverse`



In [530]:
datatrain |> @vlplot(:point,x=:Survived,y=:Pclass,color="Sex:n")



Es posible realizar una gr√°fica como se muestra en el ejemplo, donde no se usa `Plots.jl`.



In [531]:
datatrain |> Voyager



`Voyager` es una utilidad que permite explorar de forma r√°pida los gr√°ficos, ofreciendo la posibilidad de visualizarlos con gr√°ficos.

