Introduction à la data-science et à ses outils


Master, Paris Est MLV

@comeetie

Visualisation



Master, Paris Est MLV

@comeetie

Visualiser

=

encoder dans des

variables graphiques

les données

Variables graphiques

Bertin Jacques, Sémiologie graphique, Paris, Mouton/Gauthier-Villars, 1967.

Variables graphiques

Bertin Jacques, Sémiologie graphique, Paris, Mouton/Gauthier-Villars, 1967.

Questions ? type des variables ?

continues ? discrètes ? ordonnées ? temporelles ? spatiales ?

1 variable catégorielle

et

une quantité

le bar chart

bar chart

plot of chunk unnamed-chunk-2

Ordre ? bar chart trié

plot of chunk unnamed-chunk-3

Horizontal ?

plot of chunk unnamed-chunk-4

2 variables catégorielles

et

une quantité

Ex :
consomation par type de véhicule et type de moteur

Double encodage ?

plot of chunk unnamed-chunk-6

Variante ?

plot of chunk unnamed-chunk-2

Variante ?

La ligne :

1 variable numérique

en fonction du

temps

Ordre naturel imposé par le temps

plot of chunk unnamed-chunk-7

Ordre naturel imposé par le temps

plot of chunk unnamed-chunk-8

Aspect ratio

plot of chunk unnamed-chunk-9

Aspect ratio

plot of chunk unnamed-chunk-10

Aspect ratio, 45°

Heuristic: use the aspect ratio that results in an average line slope of 45°.

Cleveland, William S., Marylyn E. McGill, and Robert McGill. "The shape parameter of a two-variable graph." Journal of the American Statistical Association 83.402 (1988): 289-300.

Aire + Echelle

plot of chunk unnamed-chunk-11

Changement de point de vue

plot of chunk unnamed-chunk-12

1 variable numérique

en fonction du

temps

+ catégories

plot of chunk unnamed-chunk-14

Line charts superposés

plot of chunk unnamed-chunk-15

Nombre de catégories ?

plot of chunk unnamed-chunk-16

Small multiples

2 variables numériques

+ catégories

Scatter plot + couleurs

3 variables numériques

+ catégories

Scatter plot + size + couleurs

Scatter plot + size + couleurs ! échelle

Taille des cercles : échelle aire ou rayon ?

Rayon

Aire

Principes :

Eviter de mentir,
Lie Factor

$$\textrm{Lie factor} = \frac{\textrm{visual effect size}}{\textrm{data effect size}}$$

Lie factor :

$$\textrm{data effect size} = \frac{27.5 - 18}{18} \times 100 = 53 \%$$

Edward Tufte, The Visual Display of Quantitative Information, Cheshire, CT, Graphics Press,‎ 2001, 2e éd. (1re éd. 1983)

Lie factor :

$$\textrm{visual effect size} = \frac{5.3 -0.6}{0.6} \times 100 = 783 \%$$

Edward Tufte, The Visual Display of Quantitative Information, Cheshire, CT, Graphics Press,‎ 2001, 2e éd. (1re éd. 1983)

Lie factor :

$$\textrm{Lie factor} = \frac{783}{53} = 14.8$$

Edward Tufte, The Visual Display of Quantitative Information, Cheshire, CT, Graphics Press,‎ 2001, 2e éd. (1re éd. 1983)

Lie factor : 9.4

Edward Tufte, The Visual Display of Quantitative Information, Cheshire, CT, Graphics Press,‎ 2001, 2e éd. (1re éd. 1983)

Principes :

Augmenter la densité de données

$$\textrm{graph data density} = \frac{\textrm{number of entries in data matrix}}{\textrm{area of data display}}$$

Data density :

Eviter les graphique à faible densité

Edward Tufte, The Visual Display of Quantitative Information, Cheshire, CT, Graphics Press,‎ 2001, 2e éd. (1re éd. 1983)

Data density :

Meilleure densité de donnée

Edward Tufte, The Visual Display of Quantitative Information, Cheshire, CT, Graphics Press,‎ 2001, 2e éd. (1re éd. 1983)

Bonnes pratiques :

Visualisation en python

Visualisation en python

https://python-graph-gallery.com/

Quelques notebook pour l'inspiration

Visualisation pour aller + loin

http://www.cs.ubc.ca/~tmm/courses/547-17F/#markschannels http://www.cs.ubc.ca/~tmm/talks/minicourse14/vad15fls.pdf