Recueil et exploration de données VLS

Séminaire ANR VLS
19 Juillet 2016

Etienne Côme COSYS/GRETTIA
Ifsttar

Etienne Côme

Ifsttar, recherche appliquée

données urbaines, données transport

apprentissage semi,non-supervisé, modèles génératifs

Traces Numériques




de mobilité

Des capteurs partout ...

pour qui, pour quoi ?

Nécessite de fouiller !

et de rendre visible

pour permettre leurs réapropriation

Un dialogue à construire

Le citoyen, le militant

Le passager, l'usager, le client

L'état, les collectivités locales

Le secteur privé

Le chercheur

Utopie ?

Ouvrir la boite noire des technologie urbaines ?

Transparence / Confiance / Données personnelles

Utopie ?

Améliorer la gouvernance urbaine (co-réguler) ?
Réconcilier des intérêts antagonistes ?

Distopie ?

Améliorer la gouvernance urbaine (co-réguler) ?
Quels rapports de forces ?

Distopie ?

Améliorer la gouvernance urbaine (co-réguler) ?
Quelles limites à l'observation ?

Utopie ?

Trouver de l'intérêt aux données au delà des buts initiaux...

Quelques exemples de jeu de données ouverts

Visualiser et analyser des données Vélib'

Visualiser et analyser des données Vélib'

2 sources de données :

Les Stocks

en open-data quasiment partout

Les Flux

Origines / Destinations parfois en open-data et parfois pas

Des stocks en mouvements

Des stocks en mouvements

Stocks en Stats

Stocks en Stats

Clustering fonctionel sur données de stocks

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering fonctionel sur données de stocks

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering fonctionel sur données de stocks

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering fonctionel sur données de stocks

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering fonctionel sur données de stocks

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering fonctionel sur données de stocks

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Des flux pour décortiquer la dynamique urbaine

http://www.comeetie.fr/galerie/velib/

Modèle


Approche générative :

$$Z_s\sim\mathcal{M}(1,\pi)$$ $$X_{sdt}|\{Z_{sk}=1,W_{dl}=1\}\sim\mathcal{P}(\alpha_s\lambda_{klt})$$ + contraintes $\sum_{l,t}D_l\lambda_{klt}=DT, \forall k \in\{1,...,K\}$,
avec $D_l$ nbr de jours du cluster $l$.

Modèle


Vraisemblance :

$$Lc(\mathbf{\Theta};\mathbf{X},\mathbf{Z},\mathbf{\alpha},\mathbf{W})=\sum_{s,k}Z_{sk}\log\left(\pi_{k}\prod_{d,t,l}po(X_{sdt};\alpha_s\lambda_{klt})^{W_{dl}}\right)$$ Estimation par EM, extension pour prendre en compte la météo

Des flux pour décortiquer la dynamique urbaine

http://www.comeetie.fr/galerie/velib/

Des flux pour décortiquer la dynamique urbaine

Croisement // données socio-économiques, localisation des emplois

Croisement // données socio-économiques, localisation du logement

Croisement // données socio-économiques

hab/ha emp/ha serv/ha com/ha
* 162 237 4.2 3.7
Sorties (1) 367 189 6.3 4.4
Sorties (2) 261 322 7.7 6.9
Parcs 172 90 2 1.7
Gares 209 206 2.4 1.8
Logements 375 108 3.8 2.7
Emplois(1) 138 409 4.5 2.8
Emplois(2) 157 456 5.7 5.6
Moyennes 301 163 3.8 2.8

Latent Dirichlet Allocation

Pour l'analyse de matrices Origine-Destination dynamiques

Avec :

Latent Dirichlet Allocation

Pour l'analyse de matrices Origine-Destination dynamiques


Pour chaque activité latente $a$ : $\Lambda_a\sim\mathcal{D}(\beta)$
Pour chaque sac de déplacement
Tirer les portions de chaque activité : $\pi_t \sim \mathcal{D}(\alpha)$
Pour chaque déplacement
    Tirer son activité
    $A \sim \mathcal{M}(1,\pi_t)$
    Tirer l'origine-destination
    $D \sim \mathcal{M}(1,\Lambda_A)$

Résultats de la décomposition $\pi_t$

Sélection de modèle perplexité
(saut abrupt pour K=5)

Analyse des $\Lambda_a$

Simulation de matrice OD simple loi multinomiale de paramètre Ndep, (nombre de déplacements) et $\Lambda_a$ : $$OD\sim\mathcal{M}(Ndep,\Lambda_a)$$ Calcul de la balance (Vélos entrants - Vélos sortants) d'une stations $B_s$ : $$B_s=\sum_jOD_{js}-\sum_jOD_{sj}$$ Etude de l'espérance $\mathbb{E}[\mathbf{B}]=Ndep(\Lambda_a^t-\Lambda_a)\mathbf{1}$
Balances des stations : Domicile→Travail
Balances des stations : Travail→Domicile
Balances des stations : Début de soirée

Bilan sur LDA et données OD

Résultats

Limites

2 petites expérimentations

Une autre lecture de la ville

Des flux et des zones de chalandises

Des flux et des zones de chalandises

$$f(y|x)=\sum_{i}\sum_j\pi_i(x) od_{ij} K_\sigma(y,s_j), $$ avec $\pi_i(x)=\frac{K_{\beta}(x,s_i)}{\sum_k K_{\beta}(x,s_k)},$ et $K_{\beta}(.,.)$, $K_{\sigma}(.,.)$,$K_{\beta}(.,.)$ des noyaux normalisés (triangulaire).

Conclusion



Merci de votre attention !

@comeetie, http://www.comeetie.fr, http://www.ifsttar.fr

Outils :

Stockage, traitement : R, mongo db, elastic search, spark

Visualisation : D3, leaflet, ...