dimanche 29 juin 2014

"Triturage" RPLS


Depuis 2011 ans les données EPLS ont été remplacées par des données "RPLS" plus facilement accessibles et explicitement ouvertes aux EPCI. Ce simple changement de nom n'est pas anodin.
Il s'avère qu'il existe des différences importants entre les deux fichiers qui entrainent des modifications dans les possibilités de traitement :
-Le fichier EPLS regroupait les informations par résidence ce qui facilitait leur utilisation pour des analyses à l'échelle des quartiers ou des communes (pour moi près de 400 lignes au lieu de 16 000).
-Du point de vue de la couverture de ces données, RPLS est moins complet qu'EPLS. Les deux bases n'étant en tout état de cause jamais exhaustives. En particulier ne sont pas recensés les logements foyers.

Pour ceux qui avaient mis en place un traitement sur EPLS il s'avère qu'il n'est pas facile de reprendre les éléments de ce travail pour l'adapter à RPLS. Il faut repartir à zéro. Explications ...

Difficulté à localiser ces données

Pour EPLS, j'avais construit une table de correspondance avec mon "Atlas LLS" qui recense (normalement) tout le parc LLS du territoire sur la base de l'identifiant du programme, issu à la fois des sytèmes d'information des bailleurs que d'EPLS.
Compte tenu de l'échelle des données, au logement, l'identifiant issu du SI des bailleurs est très différent de celui existant dans l'ex fichier EPLS à l'échelle de l'opération et il n'est pas incrémenté de manière homogène selon les bailleurs. En faisant simple, d'après mes tests il n'est pas possible d'enlever les quatres chiffres finaux pour retomber sur l'identifiant à l'opération.
Après avoir passé pas mal de temps à recréer cette "jointure", j'ai finalement décidé de tout remettre à plat en m'inspirant de l'expérience d'un "collègue", chargé d'observatoire en Ile-de-France.
Néanmoins, notons que le nouvel identifiant recréé dans RPLS apparait, d'après les travaux de mon collègue, comme un identifiant stable qui peut être utilisé  pour réaliser des comparaisons et étudier l'évolution du parc d'une livraison à l'autre.

Ce que je vous propose ici est justement de vous présenter nos deux méthodes de travail, leurs points communs, des détails sur nos traitements, et la méthode retenue par chacun.
-De mon côté j'ai décidé de regrouper les données à l'opération pour me simplifier les travaux de localisation ensuite
-Mon collègue a lui décidé de garder les données au logement pour les géolocaliser directement.
Mais dans les deux cas il s'avère qu'un important travail de nettoyage initial est indispensable

Nettoyage des informations à l'adresse, exemple Ile-de-France

La base RPLS est remplie individuellement par chacun des bailleurs sociaux, c’est pourquoi la partie « adresses » à une qualité de remplissage plutôt aléatoire.
-Il y a 4 colonnes principales : numéro de voirie, indice de répétition, type de voie, nom de voie, + une dizaines de colonnes sur les compléments d’identification du logement (étage, numéro de bâtiment…).
-De mon côté pour le travail sur les adresses j'ai beaucoup utilisé le champ "complément d'identification bâtiment autre".
-Il faut donc utiliser ces différentes colonnes, remplies différemment selon les bailleurs, pour créer une nouvelle information adresse qui permettra la géolocalisation. Souvent les adresses sont notées intégralement dans la partie nom de voie ou dans les compléments d’identification mais d'autres fois "un peu par ci un peu par là".
L’idée c’est de prendre tous les éléments d’adresse disponible dans le tableau, de les coller en fin de tableau, puis de tout dissocier (fonction convertir dans exel), de trier, et enfin de tout recombiner en concaténant en vue d'un géocodage. La méthode de nettoyage des adresses sous excel est un peu artisanale mais plutôt efficace : 18 000 adresses nettoyées en une matinée !

Repérage du nom de résidence, mon exemple

Il est possible de reconstituer le nom de la résidence à partir de deux champs : "complément d'identification du bâtiment immeuble" ou "nom de voie". Pour faire simple je n'ai pas créé de colonne supplémentaire mais j'ai "nettoyé" et harmonisé le champ "complément d'identification du bâtiment immeuble".

Rien qu'à travers le nom des champs on voit la complexité du travail. 
Ces noms de champs ne sont pas très explicites ce qui ne doit pas faciliter la cohérence dans la collecte d'infos. On a l'impression que les opérateurs ne savent pas exactement quel champ utiliser ou l'autre ?
Ceci dit comme je couvre deux départements et deux régions, j'ai eu deux livraisons distinctes et je n'ai pas noté de grandes différences dans le remplissage des données entre les deux départements, plutôt d'un bailleur à l'autre.

Traitements et géolocalisation

Une fois ce travail de nettoyage réalisé je peux récapituler les données à la résidence sur la base du champs "complément d'identification bâtiment immeuble". Je retraite les données sous forme d'analyse croisée dans access pour avoir des informations intéressantes à l'opération : nombre de logements bien évidemment et détail des typologies, nombre de logements comptabilisés SRU et nombre de logements conventionnés, détails en matière d'occupation des logements avec la vacance et par exemple les occupations associatives, type de financement.
Côté adresse je retiens la "première". Une fois ce regroupement réalisé on peut passer à l'étape de "géocodage" avec l'adresse ou de localisation avec l'Atlas LLS. (j'en suis là).

Côté Ile-de-France le travail de géolocalisation a fait l'objet d'aller-retours entre le SIG et l'observatoire en allant même jusqu'à des vérifications terrain pour les cas les plus complexes. Il a ensuite débouché sur un dessin des périmètres des résidences. Cette localisation fine permet ensuite de procéder à des analyses à différentes échelles : quartier, ZUS/CUCS, ...

Et encore plus

Pour l'observatoire Ile-de-France une démarche partenariale d'observatoire du parc social a été engagée en parrallèle avec les bailleurs du territoire. Il a consisté notamment en la récolte et l’analyse des données OPS (occupation du pars social).
Ces données sont récoltées obligatoirement maintenant tous les 2 ans par les bailleurs. Les bailleurs récoltent à l’échelle des résidences une masse importante de données sur les ménages : structure familiale, âge des occupants, ressources des ménages (au regard des plafonds HLM), rapport à l’emploi, vacance des logements. Ces indicateurs sont disponibles pour les ménages en place et pour les emménagés depuis moins de 2 ans.
Comme d’une part ces indicateurs étaient disponibles à l’échelle des résidences et d’autre part on a des infos sur le patrimoine, il a été possible de réaliser un atlas du logement social mêlant occupation et structure du parc avec à la fois des analyses à une échelle large comparant les quartiers et secteurs de l’Agglomération entre eux et aussi de fournir des fiches d’identité de secteurs (avec ici aussi patrimoine et occupation).  Le lien OPS RPLS peut se faire ici à travers l'identifiant logement dans le SI du bailleur.

Voici les principaux champs d’analyse traités dans cet observatoire :
  • Age du parc pour localiser le parc ancien, le parc 1960-70, le développement récent
  • La typologie des logements pour faire ressortir la localisation des grands logements, ou des petits,
  • Les classements DPE,
  • La répartition par quartier des modes de financement à travers une nomenclature simplifiée des financements (PLAI/PLUS/PLS),
  • Les niveaux de loyer segmentés par époque de construction et taille des logements et représentés à travers une carte carroyée.
  • La rotation calculée à l’aide de la date d’emménagement des locataires,
  • L'occupation avec 3 indicateurs : le stock avec les ménages en place, les flux avec les emménagés récents, et la comparaison à la moyenne agglo. 
  • Les revenus avec 2 niveaux d’alerte, la part des ménages aux revenus inférieurs à 40 et 60% du plafond PLUS. Pour la prochaine mise à jour de l’observatoire un indicateur supplémentaire sera rajouté avec les ménages au dessus de 130% des plafonds PLUS. 
  • La structure familiale à travers principalement le taux de familles monoparentales 
  • Le pourcentage de ménages dont la personne de référence à moins de 30 ans ou plus de 65 ans

Une base en éternel renouvellement

On voit donc là qu'il est possible d'utiliser les données RPLS pour des analyses très intéressantes et qui pourront nous aider à apporter des informations pour nos prochains sujets "peuplement" apportés par la loi ALUR.
Néanmoins la base RPLS est somme toute difficile à utiliser avec un important travail de nettoyage initial à réaliser, comme le montre nos deux exemples.
Et enfin, cette base ne parait pas aujourd'hui parfaitement consolidée. Depuis la première livraison en 2011, les données ont été enrichies. Pour  la dernière livraison "Ile-de-France", il a été notamment ajouté les réservataires, avec une nomenclature peu pertinente, on a par exemple un item « Collectivités territoriales » qui ne sépare pas la commune, le département, la région. Bien que ce soit une excellente initiative, ce champ n’est rempli qu'à 50%.


Aucun commentaire:

Enregistrer un commentaire