Apprentissage statistique et visualisation pour la fouille de données

données massives de mobilité et autres projets

Etienne Côme COSYS/GRETTIA
Ifsttar

Séminaire Medialab Science-Po, 2 Avril 2019

Etienne Côme

Ifsttar, recherche appliquée

données urbaines, données transport

apprentissage semi,non-supervisé, modèles génératifs

Background :Modèles genératifs à variables latentes

Background :Modèles genératifs à variables latentes

Background :Modèles genératifs à variables latentes

Background

Données massive de mobilité

Des capteurs partout ...


pour qui, pour quoi ?

Nécessite de fouiller !

Utopie ?

Ouvrir la boite noire des technologie urbaines ?
Transparence / Confiance / Données personnelles

Utopie ?

Améliorer la gouvernance urbaine (co-réguler) ?
Réconcilier des intérêts antagonistes ?

Distopie ?

Améliorer la gouvernance urbaine (co-réguler) ?
Quels rapports de forces ?

Distopie ?

Améliorer la gouvernance urbaine (co-réguler) ?
Quelles limites à l'observation ?

Traces Numériques




de mobilité

Intérêt des données billettiques

faciliter la gestion des payements mais aussi ...

Données billettiques vs. données classiques (ex. enquêtes)


Intérêt majeur pour les opérateurs de transport...


... et pour les autorités organisatrices des transports

Visualiser et analyser des données Vélib'

2 sources de données :

Les Stocks

en open-data quasiment partout

Les Flux

Origines / Destinations parfois en open-data et parfois pas

Des stocks en mouvements

Des stocks en mouvements

Stocks data : vlsstat

Stocks data : vlsstat

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Des flux pour décortiquer la dynamique urbaine

http://www.comeetie.fr/galerie/velib/

Modèle


Approche générative :

$$Z_s\sim\mathcal{M}(1,\pi)$$ $$X_{sdt}|\{Z_{sk}=1,W_{dl}=1\}\sim\mathcal{P}(\alpha_s\lambda_{klt})$$ + contraintes $\sum_{l,t}D_l\lambda_{klt}=DT, \forall k \in\{1,...,K\}$,
avec $D_l$ nbr de jours du cluster $l$.

Données contextuelles

hab/ha emp/ha serv/ha com/ha
* 162 237 4.2 3.7
Leisure (1) 367 189 6.3 4.4
Leisure (2) 261 322 7.7 6.9
Parks 172 90 2 1.7
Stations 209 206 2.4 1.8
Mixed 375 108 3.8 2.7
Jobs(1) 138 409 4.5 2.8
Jobs(2) 157 456 5.7 5.6
Average 301 163 3.8 2.8

Latent Dirichlet Allocation

Pour l'analyse de matrices Origine-Destination dynamiques

Avec :

Latent Dirichlet Allocation

Pour l'analyse de matrices Origine-Destination dynamiques


Pour chaque activité latente $a$ : $\Lambda_a\sim\mathcal{D}(\beta)$
Pour chaque sac de déplacement
Tirer les portions de chaque activité : $\pi_t \sim \mathcal{D}(\alpha)$
Pour chaque déplacement
    Tirer son activité
    $A \sim \mathcal{M}(1,\pi_t)$
    Tirer l'origine-destination
    $D \sim \mathcal{M}(1,\Lambda_A)$

Résultats de la décomposition $\pi_t$

Sélection de modèle perplexité
(saut abrupt pour K=5)
Balances des stations : Domicile→Travail
Balances des stations : Travail→Domicile
Balances des stations : Début de soirée

Données billetiques TC

Des données simples


Open-Data ? (ex STIF données aggrégées)

Des données simples


Une donnée à part l'identifiant usager

Un jeu de données riche


2 ans de profondeur temporelle

Que faire sans identifiant ?

Que permet de faire l'identifiant usager ?

Analyse des volumes entrant

Des profils qui varient dans l'espace et dans le temps

Des profils qui varient dans l'espace et dans le temps

Des profils qui varient dans l'espace et dans le temps

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Qui s'explique majoritairement par des effets calendaires

Qui peuvent être exploités pour détecter des outliers


Qui peuvent être exploités pour détecter des outliers

#Rennes #metro #Star des chaises jetées sur la ligne aérienne de métro à Villejean. Dégâts importants. Trafic interrompu pendant 2h?

— Samuel Nohra (@SamuelNohra) 29 mars 2016

Ou faire des prévisions à moyen terme

Ou faire des prévisions à moyen terme

Une variabilité également spatiale

Une variabilité également spatiale

Une variabilité également spatiale

Une variabilité également spatiale

L'identifiant usager

Pour enrichir les données

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Enrichissement des données


72% de destinations reconstruites


→ Permet des aggrégations par OD
→ Analyse des Pôles d'échange (C. Richer)
→ Matrice OD dynamique ou serpent de charge

Sankeystif

http://www.comeetie.fr/galerie/sankeystif/

Clustering usagers

pour une analyse centrée sur l'utilisateur

Objectif

Objectif

Un usage pendulaire

Profil moyen d'un cluster 4.55% du jeu de données

Un usage pendulaire

Profil moyen d'un cluster 12.54% du jeu de données

Un usage pendulaire

Profil moyen d'un cluster 3.6% du jeu de données

Mais pas que

Profil moyen d'un cluster 15.13% du jeu de données

Mais pas que

Profil moyen d'un cluster 6.44% du jeu de données

Mais pas que

Profil moyen d'un cluster 8.64% du jeu de données

Clustering de graphes

Modèle SBM



$$Z_i \,\sim\, \mathcal{M}(1,\pi)$$ $$X_{ij}|Z_{ik}Z_{jl}=1\,\sim\, \mathcal{B}(\beta_{kl})$$

Modèle SBM



Modèle SBM

prise en compte des degrés



$$Z_i \,\sim\, \mathcal{M}(1,\pi)$$ $$X_{ij}|Z_{ik}Z_{jl}=1\,\sim\, \mathcal{P}(\theta_i\beta_{kl}\theta_j)$$

Modèle SBM

prise en compte des degrés (graphes orientés)



$$Z_i\,\sim\, \mathcal{M}(1,\pi)$$ $$X_{ij}|Z_{ik}Z_{jl}=1 \,\sim\, \mathcal{P}(\theta^{out}_i\beta_{kl}\theta^{in}_j)$$

Algorithme hiérarchique

SBM + algorithme hiérarchique

Données simulées

SBM + algorithme hiérarchique

Données simulées

SBM + algorithme hiérarchique

Données simulées

SBM + algorithme hiérarchique

Données simulées

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Blogs politiques (US)

dc-SBM + algorithme hiérarchique

Migrations résidentielles inter-départementales

dc-SBM + algorithme hiérarchique

Migrations résidentielles inter-départementales

dc-SBM + algorithme hiérarchique

Migrations résidentielles inter-départementales

Travaux en cours : Modèle gravitaire





$$\lambda_{ij} = \frac{d_{i}^{out}d_{j}^{in}}{dist(i,j)^{\beta}}$$ $$X_{ij} \,\sim\, \mathcal{P}(\lambda_{ij})$$

Modélisation et visualisation

Tous les modèles sont faux

mais certains sont utiles

Toutes les cartes/visualisations sont fausses

mais certaines sont utiles

En cet empire, l'Art de la Cartographie fut poussé à une telle Perfection que la Carte d'une seule Province occupait toute une ville et la Carte de l'Empire toute une Province. Avec le temps, ces Cartes Démesurées cessèrent de donner satisfaction et les Collèges de Cartographes levèrent une Carte de l'Empire, qui avait le Format de l'Empire et qui coïncidait avec lui, point par point.
Moins passionnées pour l'Etude de la Cartographie, les Générations Suivantes réfléchirent que cette Carte Dilatée était inutile et, non sans impiété, elle l'abandonnèrent à l'Inclémence du Soleil et des Hivers. Dans les Déserts de l'Ouest, subsistent des Ruines très abimées de la Carte. Des Animaux et des Mendiants les habitent. Dans tout le Pays, il n'y a plus d'autre trace des Disciplines Géographiques. (Suarez Miranda, Viajes de Varones Prudentes, Livre IV, Chapitre XIV, Lérida, 1658.)(1)

J.L. Borges

L'auteur et autres textes

De l'importance de se placer
à la ou aux bonnes
échelles

Trajectoire

Trajectoire

Découverte de R (+ggplot) et de D3

osm / stamen / mapbox / mapzen

Webmapping

= Cartographie

+ Web

Webmapping

= Cartographie

+ interaction

Webmapping

= Cartographie

+ zoom

Données carroyées

francepixels

Insee poc

Batiparis

Hearthsone

Outils :

Stockage, traitement : R, python, mongo db, elastic search, spark

Visualisation : D3, leaflet, mapbox gl...

Merci de votre attention !

@comeetie, http://www.comeetie.fr, http://www.ifsttar.fr