Skip to content

Instantly share code, notes, and snippets.

@andypetrella
Last active August 29, 2015 14:01
Show Gist options
  • Save andypetrella/239f2b1580bb341c0a94 to your computer and use it in GitHub Desktop.
Save andypetrella/239f2b1580bb341c0a94 to your computer and use it in GitHub Desktop.
Sujets de mémoire; ULg, montéfiore.

Utilisation des systèmes distribués pour l'analyse géospatiale et sociale du changement de territoire.

Le but du travail sera d'implémenter des techniques d'apprentissage et de prédiction de l'évolution d'un territoire en se basant sur un historique d'images satellitaires et envisager l'intégration des informations présentent dans un réseau social.

L'analyse géospatiale de la couverture et de l'utilisation du territoire est un des principaux sujets de recherche en géomatique et télédétection. Cela fait intervenir plusieurs techniques provenant de domaines divers, entre autres on peut citer les système de règles avec contraintes, les automates cellulaires, les réseaux probabilistes (ainsi que leurs combinaisons).

Le perfectionnement de ces techniques est indéniable mais il souffrira à terme de problèmes de performance et de "scalabilité". Cette apréhension se base sur le constat du pourcentage grandissant de la couverture des territoires, l'historique des données qui s'alonge ou encore la diversité et le nombre de thèmes identifiable dans l'imagerie.

À titre illustratif, une image satellitaire Landsat-8 peut contenir jusqu'à 11 couches avec une précision (pixel/terrain) de 30m. Ainsi la taille classique d'une seule image est approximativement 1 Go (compressé).

En outre, l'EU a mis en place un programme de pré-traitement et classification (CORINE), les spécifications sont intéressantes, mais la fréquence de production reste faible.

La première partie de ce travail sera donc de prendre une de ces techniques et de l'adapter aux systèmes distribués. La technique qui sera envisagée est celle des automates cellulaires Markoviens qui combinent l'analyse des probabilités de transition dans l'espace et le temps.

De plus, les techniques actuelles omettent bien souvent un aspect important de la société géo-économique de cette décennie, les réseaux sociaux. Aussi, la seconde partie du travail sera de faire preuve de créativité afin d'inclure au modèle des données sociales et géo-économique.

L'environnement distribué dans lequel le modéle sera implémenté est Spark ainsi que Geotrellis. Spark étant un environnement de calcul distribué implémenté en Scala au sein de l'université de Berkeley, US. Il s'agit d'un système dit "in-memory" qui, a contrario d'Hadoop, a l'avantage d'être efficace même avec des procédures itératives, récursives (machine learning, deep learning). Geotrellis est un outil de distribution d'images géospatiales à haute disponibilité, lui aussi implémenté en Scala par la société Azavea.

Spark et Geotrellis sont des solutions open source, il en sera de même de l'implémentation réalisée dans ce travail. Ce qui permettra une exposition importante et une visibilité intéressante sur le travail.

Cahier des charges

État de l'art des technologies d'apprentissage et prédictif de l'évolution d'un territoire.

Familiarisation avec le monde de l'information géospatiale.

Choix et adaptation d'une technique dans le système Spark, Geotrellis.

Proposition et implémentation de l'intégration de l'information provenant d'un réseau social (Twitter?) et de l'Open Data.

Références:

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment