Actualités

Liste des actualités

Offre de stage - Moteur de recommandation intelligent pour la découverte et le partage de données

Stage M2 : Moteur de recommandation intelligent pour la découverte et le partage de données océanographiques H/F

Informations générales

  • Intitulé du stage : Moteur de recommandation intelligent pour la découverte et le partage de données océanographiques
  • Lieu de travail : Paris ou Brest
  • Date de publication : 27/11/2025
  • Type de contrat : stage rémunéré
  • Durée du contrat : 6 mois
  • Date d'embauche prévue : entre le 1er février et 1er mars 2026
  • Quotité de travail : 100%
  • Rémunération : selon barème M2 (≈ 700–1000 €/mois)
  • Niveau d'études souhaité : M2
  • Expérience souhaitée : Niveau Master 2 (informatique, mathématiques appliquées, data science ou ingénierie logicielle), élève d’une grande école d’ingénieurs
  • Personnes ressources : Dimitry Khvorostyanov (encadrant), Erwan Bodéré et Francis Clément (experts), Clémence Cotten et Joël Sudre (conseil scientifique - perspective utilisateur), Christelle Pierkot (responsable de l’EarthPortal).
  • Candidature : envoyez CV + lettre de motivation en spécifiant le nom de l'offre de stage dans l'objet du mail, à Dimitry Khvorostyanov  

Contexte de travail

Le pôle ODATIS de l’IR Data Terra fédère au niveau national des activités de gestion de données et d’expertise scientifique en sciences marines. Sa mission principale est de mettre à disposition des données, des produits, des logiciels, des outils et /ou des services destinés principalement à la communauté scientifique française travaillant dans le domaine de la recherche océanographique. ODATIS contribue ainsi à décrire, quantifier et comprendre l’océan dans sa globalité, hauturier et côtier.

Afin de valoriser ces données et d’améliorer leur accessibilité, le Pôle développe actuellement des outils de recherche sémantique et des chatbots intelligents basés sur des modèles de type RAG (Retrieval-Augmented Generation) et sur une infrastructure de graphes de connaissances représentant les relations entre données, projets, variables, instruments, et thématiques scientifiques.

Cependant, si ces outils permettent une recherche contextuelle efficace, ils ne tirent pas encore parti du comportement des utilisateurs (requêtes, téléchargements, projets associés) pour proposer des recommandations personnalisées.

Le stage proposé vise à concevoir et expérimenter un moteur de recommandation hybride (sémantique + comportemental) pour enrichir l’expérience utilisateur et favoriser les synergies scientifiques. L’approche développée s’appuiera notamment sur l’EarthPortal pour identifier et exploiter les artefacts sémantiques nécessaires à la construction des graphes de connaissances. 

Missions principales

Le/la stagiaire aura pour missions de :

  • Concevoir et développer un moteur de recommandation hybride combinant approches sémantiques (graphes de connaissances), comportementales (filtrage collaboratif) et conversationnelles (intégration RAG)
  • Évaluer et comparer différentes approches par un benchmark rigoureux des modèles sémantiques et comportementaux selon des critères de pertinence, diversité, explicabilité et acceptation utilisateur
  • Valoriser les résultats par un démonstrateur fonctionnel et des recommandations techniques pour le passage à l'échelle

Activités principales

1. Analyse des besoins et conception (en collaboration avec les groupes de travail du Pôle concernés)

  • Analyser conjointement les besoins en recommandation du catalogue de métadonnées
  • Identifier avec l’équipe les cas d’usage prioritaires : recommandations de données similaires ou complémentaires, suggestions de collaborations entre chercheurs, enrichissement des chatbots de recherche sémantique
  • Définir, avec l’appui de l’encadrant, l’architecture du système hybride et les stratégies de fusion entre approches sémantiques et comportementales

2. Développement du moteur de recommandation

  • Implémenter les modules de recommandation basés sur les graphes de connaissances (similarité sémantique, traversée de graphe, embeddings)
  • Développer les composants de filtrage collaboratif (ALS, SVD, filtrage collaboratif neuronal)
  • Créer le module de fusion intégré dans l'architecture RAG existante
  • Développer l'API de recommandation (FastAPI) et les interfaces nécessaires

3. Benchmark et évaluation

  • Définir un protocole d’évaluation du moteur de recommandation et de sa composante conversationnelle (Precision@K, NDCG, diversité, cohérence, satisfaction)
  • Comparer les performances des différentes approches (sémantiques vs. comportementales)
  • Évaluer l'explicabilité des recommandations et recueillir les retours utilisateurs
  • Analyser et documenter les résultats dans un rapport de benchmark

4. Intégration et déploiement

  • Intégrer le moteur avec les services existants : catalogue de métadonnées, graphes RDF/Neo4j, Elasticsearch, chatbots RAG
  • Déployer le système sur un environnement de test (conteneurisation Docker)
  • Effectuer des tests fonctionnels et de performance
  • Documenter l'architecture et produire un guide d'intégration

5. Valorisation et communication

  • Développer un démonstrateur web interactif (Vue.js)
  • Rédiger le rapport de stage et la documentation technique
  • Présenter les résultats à l'équipe du Pôle et aux parties prenantes
  • Formuler des recommandations pour le futur passage à l'échelle

Profil recherché

Niveau de diplôme et domaine

Étudiant·e de Master 2 en informatique, mathématiques appliquées, data science ou ingénierie logicielle, ou élève d’une grande école d’ingénieurs (ENSTA, Télécom, Centrale, ENS, Polytechnique, etc.)

Expérience 

  • Bonnes connaissances en apprentissage automatique et traitement du langage naturel.
  • Expérience souhaitée en systèmes de recommandation ou recherche sémantique (RAG, embeddings).
  • Pratique de la programmation scientifique en Python (pandas, scikit-learn, PyTorch/TensorFlow).
  • Expérience en développement d’API REST (FastAPI, Flask) et manipulation de bases de données.
  • Intérêt pour les graphes de connaissances et les données environnementales.

Compétences techniques / métiers

  • Langages : Python, JavaScript, SQL
  • Frameworks : FastAPI, Flask, Vue.js
  • IA / Recommandation : scikit-learn, LightFM, embeddings sémantiques, filtrage collaboratif
  • Données / Recherche : Elasticsearch, Neo4j, RDF/SPARQL, PostgreSQL
  • Outils : Git, Docker, Linux

Qualités personnelles

  • Autonomie, rigueur, curiosité
  • Goût pour la recherche appliquée et la mise en œuvre concrète (prototypage, intégration, expérimentation)
  • Intérêt pour les sciences de la mer et de l’environnement apprécié.

Autres informations

  • Encadrement : ingénieur(s) du Pôle ODATIS (data science, ML et ingénierie logicielle). Le/la stagiaire sera amené·e à échanger avec des utilisateurs finaux (équipe catalogues du pôle, chercheurs) pour recueillir leurs besoins et évaluer les recommandations.
  • Earth Portal
  • Email : contact@odatis-ocean.fr