Apprentissage non supervisé, application à des données de mobilité

Etienne Côme UGE/COSYS/GRETTIA

Séminaire IA & Mobilité, 18 Mars 2021

Etienne Côme





UGE, recherche appliquée

données urbaines, données transport

apprentissage semi,non-supervisé, modèles génératifs

Background

Données massive de mobilité

Mobility




Lets a lot of Digital Footprints

Des capteurs partout ...


pour qui, pour quoi ?

Sensors :

Nécessite de fouiller !

Distopie ?

Améliorer la gouvernance urbaine (co-réguler) ?
Quelles limites à l'observation ?

Traces Numériques




de mobilité

Intérêt des données billettiques

faciliter la gestion des payements mais aussi ...

Données billettiques vs. données classiques (ex. enquêtes)


Intérêt majeur pour les opérateurs de transport...


... et pour les autorités organisatrices des transports

Digital Revolution and Mobility

Data mining

Trends

Operationnal objectives

For urban stakeholders (operators, transport authorities, city managers)

For citizens

Replica

We believe this powerful data source can help do just that. Meet Replica: a user-friendly modeling tool that uses anonymized mobile location data to give planning agencies a comprehensive portrait of how, when, and why people travel in urban areas. Replica provides a full set of baseline travel measures that are very difficult to gather and maintain today, including the total number of people on a highway or local street network, what mode they’re using (car, transit, bike, or foot), and their trip purpose (commuting to work, going shopping, heading to school, etc). By updating these measures every three months, Replica also provides the ongoing ability to detect changes in these measures over time — helping planners answer questions about land use and transportation from a regional level all the way down to a city block.

Replica

Replica uses this anonymized data from about 5 percent of the population to learn about travel patterns and create a travel behavior model — basically, a set of rules to represent who’s moving where, when, why, and how. But models aren’t perfect. So we gut check these rules using on-the-ground data (such as manual traffic counts or transit boardings) to make sure Replica is consistent with real-world movement patterns.

Replica

We then match these models with what planners often call a “synthetic” population. That’s a very technical term, but the basic idea is that planners can use incomplete samples of census demographic data to create a broad new data set that is statistically representative of the full population.

Replica

Replica

Status :

Autres entreprises Ex:

Visualiser et analyser des données Vélib'

2 sources de données :

Les Stocks

en open-data quasiment partout

Les Flux

Origines / Destinations parfois en open-data et parfois pas

Des stocks en mouvements

Des stocks en mouvements

Stocks data : vlsstat

Stocks data : vlsstat

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Clustering sur les données de stock

The Discriminative Functional Mixture Model for the Analysis of Bike Sharing Systems [preprint]

Des flux pour décortiquer la dynamique urbaine

http://www.comeetie.fr/galerie/velib/

06

Données contextuelles

hab/ha emp/ha serv/ha com/ha
* 162 237 4.2 3.7
Leisure (1) 367 189 6.3 4.4
Leisure (2) 261 322 7.7 6.9
Parks 172 90 2 1.7
Stations 209 206 2.4 1.8
Mixed 375 108 3.8 2.7
Jobs(1) 138 409 4.5 2.8
Jobs(2) 157 456 5.7 5.6
Average 301 163 3.8 2.8

Latent Dirichlet Allocation

Pour l'analyse de matrices Origine-Destination dynamiques

Avec :

Latent Dirichlet Allocation

Pour l'analyse de matrices Origine-Destination dynamiques


Pour chaque activité latente $a$ : $\Lambda_a\sim\mathcal{D}(\beta)$
Pour chaque sac de déplacement
Tirer les portions de chaque activité : $\pi_t \sim \mathcal{D}(\alpha)$
Pour chaque déplacement
    Tirer son activité
    $A \sim \mathcal{M}(1,\pi_t)$
    Tirer l'origine-destination
    $D \sim \mathcal{M}(1,\Lambda_A)$

Résultats de la décomposition $\pi_t$

Sélection de modèle perplexité
(saut abrupt pour K=5)
Balances des stations : Domicile→Travail
Balances des stations : Travail→Domicile
Balances des stations : Début de soirée

Données billetiques TC

Des données simples


Open-Data ? (ex STIF données aggrégées)

Des données simples


Une donnée à part l'identifiant usager

Un jeu de données riche


2 ans de profondeur temporelle

Que faire sans identifiant ?

Que permet de faire l'identifiant usager ?

Analyse des volumes entrant

Des profils qui varient dans l'espace et dans le temps

Des profils qui varient dans l'espace et dans le temps

Des profils qui varient dans l'espace et dans le temps

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Une variété inter journalière visible (CAH)

Qui s'explique majoritairement par des effets calendaires

Qui peuvent être exploités pour détecter des outliers


Qui peuvent être exploités pour détecter des outliers

#Rennes #metro #Star des chaises jetées sur la ligne aérienne de métro à Villejean. Dégâts importants. Trafic interrompu pendant 2h?

— Samuel Nohra (@SamuelNohra) 29 mars 2016

Ou faire des prévisions à moyen terme

Ou faire des prévisions à moyen terme

Une variabilité également spatiale

Une variabilité également spatiale

Une variabilité également spatiale

Une variabilité également spatiale

L'identifiant usager

Pour enrichir les données

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Permet de reconstituer une partie siginificative des trajets

Enrichissement des données


72% de destinations reconstruites


→ Permet des aggrégations par OD
→ Analyse des Pôles d'échange (C. Richer)
→ Matrice OD dynamique ou serpent de charge

Sankeystif

http://www.comeetie.fr/galerie/sankeystif/

Clustering usagers

pour une analyse centrée sur l'utilisateur

Objectif

Objectif

Un usage pendulaire

Profil moyen d'un cluster 4.55% du jeu de données

Un usage pendulaire

Profil moyen d'un cluster 12.54% du jeu de données

Un usage pendulaire

Profil moyen d'un cluster 3.6% du jeu de données

Mais pas que

Profil moyen d'un cluster 15.13% du jeu de données

Mais pas que

Profil moyen d'un cluster 6.44% du jeu de données

Mais pas que

Profil moyen d'un cluster 8.64% du jeu de données

Conclusion


Travaux en cours

Analyse des flux dans un pôle multimodal (RATP)

Analyse des flux dans un pôle multimodal (RATP)

Décomposition de série temporelles pour l'analyse long terme

Analyse des flux dans un pôle multimodal (RATP)

Décomposition de série temporelles pour l'analyse long terme

Analyse des flux dans un pôle multimodal (RATP)

Décomposition de série temporelles pour l'analyse long terme

Analyse des flux dans un pôle multimodal (RATP)

Décomposition de série temporelles pour l'analyse long terme

Analyse des flux dans un pôle multimodal (RATP)

Décomposition de série temporelles pour l'analyse long terme

Analyse des flux dans un pôle multimodal (RATP)

Décomposition de série temporelles pour l'analyse long terme

Analyse des flux dans un pôle multimodal (RATP)

Décomposition de série temporelles pour l'analyse long terme

Analyse des flux dans un pôle multimodal (RATP)

Segmentation et prediction

Analyse des flux dans un pôle multimodal (RATP)

Segmentation et prediction

Analyse des flux dans un pôle multimodal (RATP)

Segmentation et prediction

Analyse des flux dans un pôle multimodal (RATP)

Segmentation et prediction

Prédiction de charge (RATP)

Prédiction de charge a partir de données Tps Réels

Prédiction de charge (RATP)

Prédiction de charge a partir de données Tps Réels

Prédiction de charge (RATP)

Prédiction de charge a partir de données Tps Réels

Merci de votre attention !

@comeetie, http://www.comeetie.fr, scholar