<img style = "float: left" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-nd.png" width="120"> &copy; 2024-2025 Roger Villemaire, [villemaire.roger@uqam.ca](mailto:villemaire.roger@uqam.ca)  
[Creative Commons Paternité - Pas d'Utilisation Commerciale - Pas de Modification 3.0 non transcrit](http://creativecommons.org/licenses/by-nc-nd/3.0/)

# Usage des modules avec ``pandas``

Un module (ou une bibliothèque) est un ensemble de fonctions. Pour illuster l'usage des modules, mais aussi parce qu'elle offre des fonctionnalités qui sont intéressantes dans le cadre d'un doctorat en informatique cognitive, nous allons nous
initier à l'usage de la bibliohthèque ``pandas`` pour l'analyse des données. 

Quelle que soit la bibliothère utilisée, il est toujours conseillé de consulter sa [documentation](https://pandas.pydata.org/docs/).

Nous allons maintenant faire l'installation de ``Pandas`` dans l'environnement Anaconda. Pour les autres environnements, il faudrait consulter la documentation ci-dessus si la cellule plus bas contenant l'**import** ne s'exécute pas correctement.

Pour installer ``Pandas``, revenir à Anaconda-navigator et à l'onglet *Environments* choisir notre environnement actuel (DIC9101). Dans la fenêtre de droite, dans le menu déroulant, choisir maintenant *not-installed* et chercher (champ en haut à droite), et cocher, ``pandas``. Finalement, faire Apply pour lancer l'installation. Anaconda en profitera pour installer d'autres modules nécessaires au fonctionnement
de ``Pandas``. C'est là tout l'intérêt de cet environnement !

Au début du programme Python il est nécessaire d'importer le module pour que ses fonctions soient incorporées à l'environnement. Ici la clause ``as pd`` permettra d'écrire ``pd.`` plutôt que ``pandas.`` lorsqu'on veut accéder un élément du module ``pandas``. C'est d'ailleurs une convention usuelle pour ``pandas``.  
Ci-dessous, on accède la variable ``__version__`` du module ``pandas`` pour afficher le numéro de version.

In [None]:
import pandas as pd

print(pd.__version__)

*Remarque :* Plutôt que de faire *Maj-Tab* après la parenthèse ouvrante, pour obtenir la docstring, on peut aussi faire suivre le nom d'une fonction par un *?*. Nous allons donc nous en servir à l'instant pour une des fonctions de la bibliothèque ``pandas``.

In [None]:
pd.read_csv?

On voit donc que ``read_csv`` permet de lire un fichier CSV qui est un tableur dont les colonnes sont séparées par la valeur de l'argument ``sep``, la virgule par défaut.

*Note :* Ici ``sep`` est un paramètre *nommé* plutôt que positionnel, ce qui est usuel avec les paramètres ayant une valeur par défaut.

Mais quel type d'objet est retourné par ``read_csv`` ?

In [None]:
df = pd.read_csv("cours_locaux.csv")
type(df)

Un ``DataFrame`` est une structure de données propre à ``pandas`` qui représente un tableau bi-dimensionnel.

*Note :* C'est une bonne pratique de ne faire la lecture qu'une seule fois (sauf si le fichier est modifié) et d'affecter le DataFrame, qui contient tout le contenu du fichier, dans une variable. 

On peut aussi voir comment sera affiché un ``DataFrame``.

In [None]:
print(df)

 ``print``suit la convention Python qui dans la mesure du possible affiche le contenu de la structure.  
 Comme d'habitude, il est aussi possible de faire afficher le ``DataFrame`` directement par Jupyter-lab :

In [None]:
df

**Exercice**  
Ouvrez le fichier ``cours_locaux.csv`` avec un tableur (CSV viewer ou Editor dans JypiterLab, Excel dans Office, ou autre) et en choisissant ``,`` comme séparateur si on vous pose la question. Vérifiez maintenant que le contenu du fichier correspond bien à ce qui est affiché par l'instruction ``print``.

**Attention :** il faut choisir le bon séparateur et Excel, en fonction de la langue, va préférer le ';' ou le tabulateur, à la ',' !

Ouvrez le fichier *cours_locauxPV.csv* pour vérifier que le séparateur de colonnes y est plutôt le ';'.

Si on tente maintenant d'ouvrir le fichier avec le séparateur par défaut qui est la ',',

In [None]:
df2 = pd.read_csv("cours_locauxPV.csv")

on peut voir qu'on obtient qu'une seule colonne qui contient d'ailleurs le ';' !

In [None]:
df2

Il est donc nécessaire de préciser le séparateur :

In [None]:
df2 = pd.read_csv("cours_locauxPV.csv", sep=";")

On peut maintenant vérifier qu'on a bien deux colonnes !

In [None]:
df2

*Conseil :* il est donc bon d'ouvrir le fichier pour tout d'abord vérifier quel en est le séparateur.

## Fonctions sur les ``DataFrame`` et ``Series``

Les deux structures de données fondamentales de ``pandas`` sont le ``DataFrame``, une structure de données bidimensionnelle, et le ``Series``, qui est unidimensionnel. Nous allons nous concentrer sur les ``DataFrame`` puisque les fonctions sur les ``Series``sont similaires.

Comme d'habitude, en appuyant sur la touche tabulateur, après le point, on peut voir les méthodes qui sont définies pour ces types d'objets. Il y en a un nombre considérable. Ceci est usuel. Il reste que toutes les méthodes ne sont pas d'égale importance et qu'elles ne sont pas toutes nécessaires dans tous les contextes. De plus, la documentation est indispensable si l'on veut faire un usage sérieux d'un module intéressant.

In [None]:
df.

Parmi les fonctions les plus fréquemment utilisées, on peut mentionner les suivantes.

Obtenir d'un DataFrame les lignes du début, ou de la fin. Faire Ctrl-Tab ou ``?`` pour avoir plus d'information.

In [None]:
df.head(2)

In [None]:
df.tail(3)

In [None]:
df.head(3).tail(2)

On peut aussi obtenir de l'information sur le contenu du DataFrame. Faire afficher l'info pour plus de détails !

In [None]:
df.shape

In [None]:
df.describe()

In [None]:
df.dtypes

## Affichage graphique avec ``matplotlib``

``JupyterLab`` permet l'intégration de la bibliothèque d'affichage de graphiques ``matplotlib``, ce qui est très utile pour visualiser les données.

Il faut toutefois s'assurer que ``matplotlib`` soit installée, en suivant la même procédure que pour ``Pandas`` !

*Note :* Si la fonction *plot* ci-dessous ne marche pas, il sera nécessaire, à l'aide de la *magic command* suivante, du noyau IPython, qui débutent toujours par un %, comme %debug, %lsmagic (pour obtenir la liste des fonctions magiques) d'indiquez à JupyterLab de configurer correctement l'affichage des graphiques.

Ici ``inline`` indique de faire l'affichage dans le notebook plutôt que dans une nouvelle fenêtre, ce qui plus agréable.


In [None]:
%matplotlib inline

Nous allons donc lire et faire afficher sous forme de graphique le contenu d'un fichier CSV.

In [None]:
df = pd.read_csv("budget.csv",sep=";")

In [None]:
print(df)

In [None]:
df.plot(x="année",y=["budget","déficit"])

In [None]:
df.plot?

Le paramètre ``kind`` permet de spécifier le type de graphique. Extrait de la documentation :

  * "area" is for area plots.
  * "bar" is for vertical bar charts.
  * "barh" is for horizontal bar charts.
  * "box" is for box plots.
  * "hexbin" is for hexbin plots.
  * "hist" is for histograms.
  * "kde" is for kernel density estimate charts.
  * "density" is an alias for "kde".
  * "line" is for line graphs.
  * "pie" is for pie charts.
  * "scatter" is for scatter plots.
  
The default value is "line".

In [None]:
df.plot(y="déficit",kind="pie")

In [None]:
print(df)

On peut aussi ne faire afficher que certaines colonnes.

In [None]:
df.plot(x="année",y="déficit")

In [None]:
df

Si l'on cherche les fonctions pouvant s'appliquer à un DataFrame, on va normalement trouver toutes les opérations naturelles en analyse de données, par exemple le tri.

In [None]:
triée = df.sort_values(by="déficit", ascending=True)

In [None]:
triée

Du DataFrame obtenu après le tri, on peut ne garder que certaines lignes.

In [None]:
top_5 = df.sort_values(by="déficit", ascending=False).head(3)

In [None]:
top_5.plot(x="année",y=["budget"],kind="hist")

On peut aussi extraire certaines colonnes et en faire afficher les caractéristiques.

In [None]:
df.drop(labels=[0,2],axis="index")

In [None]:
df

In [None]:
df.drop(labels=["année","déficit"],axis="columns").describe()

In [None]:
df.drop(labels=["année","déficit"],axis="columns").count()

In [None]:
df.drop(labels=["année","déficit"],axis="columns").max()

Finalement un DataFrame peut être converti en dictionnaire, ce qui permet de traiter l'information avec les fonctions Python usuelles.

In [None]:
mon_dict2 = df.head(2).to_dict()

In [None]:
df.head(2)

In [None]:
mon_dict2

In [None]:
mon_dict2['déficit'][0]

In [None]:
mon_dict = df.head(2).to_dict(orient='index')

In [None]:
mon_dict

In [None]:
mon_dict[0]['déficit']

Nous reviendrons sur ces notions, mais il est aussi possible de
  * construire un DataFrame à partir d'un dictionnaire avec ``df.from_dict()``
  * et d'écrire un DataFrame dans un fichier CSV avec ``df.to_csv()``

**Exercice**

Pour réaliser ces exercices, il faut tout d'abord **installer** la bibliothèque ``openpyxl``.

1. En utilisant ``pd.`` et le tabulateur, trouvez la fonction qui permet de lire dans un fichier Excel (.xlsx). 
2. Utilisez la fonction précédente pour lire dans le fichier ``budget.xlsx`` et affectez la valeur retournée dans la variable ``df3``. *Note :*  l'argument ``sep`` ne sera pas nécessaire cette fois-ci !
3. Faites afficher les données avec la fonction ``plot``.