Données de santé et IA : quels leviers pour transformer l'innovation thérapeutique en oncologie ?
Qualité de la donnée, automatisation via les LLMs, accès précoces : quel rôle l'intelligence artificielle peut-elle jouer pour affiner la médecine de précision et soutenir la recherche ?
Dec 23, 2025
5 minutes
En dix ans, le nombre d’essais cliniques en oncologie a doublé et les innovations thérapeutiques se multiplient. Pour accompagner cette dynamique, la recherche et la médecine personnalisée nécessitent de plus en plus de données afin de mieux caractériser des sous-populations de patients spécifiques.
Cependant, ces données soulèvent de nombreux défis : collecte, structuration, qualité, et interopérabilité. Si les bases médico-administratives existantes (SNDS) sont riches, elles montrent leurs limites face aux besoins de précision de la médecine moderne. L’intégration d’outils digitaux et de l’IA dans la chaîne de valeur offre alors de nouvelles perspectives pour libérer le potentiel des données de vie réelle.
Marco Fiorini, Directeur Général de la FIAC (Filière Intelligence Artificielle & Cancers), nous livre son éclairage dans cette interview issue de notre conférence « Données de santé : enjeux et perspectives pour accélérer l’innovation thérapeutique ». Merci à lui de nous avoir partagé sa vision sur l'avenir de la donnée en oncologie.
L'industrie pharmaceutique est un acteur majeur de l'innovation thérapeutique. Quels sont aujourd'hui ses besoins spécifiques en matière de données de santé et quelles limites rencontrez-vous avec les outils actuels ?
Dans l’industrie pharmaceutique, nous sommes plutôt des utilisateurs secondaires de la donnée, une fois que celle-ci a été produite.
Nous disposons de données médico-administratives extraordinaires, comme le SNDS (Système National des Données de Santé) ou encore la carte vitale. Cette dernière est très intéressante, mais a été conçue pour rembourser les soins, et non pour faire de l’épidémiologie.
L’industrie pharmaceutique, l’industrie diagnostic et l’industrie santé en général ont besoin de savoir ce qui se passe sur le terrain avant de mettre en place une innovation. Ils vont vouloir la tester pour accéder au marché et savoir comment elle va transformer les pratiques. En ce sens, le SNDS est tout à fait remarquable. Mais il ne fait pas tout : il nous faut des données plus récentes, plus précises et exactes.
À titre d’exemple, si votre innovation s’adresse à des patients CBNPC mutés BRAF V600E, vous aurez très peu de cas. Si vous n’arrivez pas à les filtrer, vous aurez du mal à voir quel est le parcours de ces patients. Cela va se complexifier avec la médecine personnalisée car les séquences de traitements s’affinent. Il faut donc que les données permettent d’avoir la focale exacte afin de prendre des décisions exactes. Plus votre vision est grossière, moins vos mesures sont pertinentes. C’est pour cela que nous croyons beaucoup à ce que fait Resilience Care ou d’autres acteurs avec les modèles de langage pour pouvoir transformer le raffinement, la production de données précises et récente.
Enfin, tout cela ne vaut rien si nous ne sommes pas sûrs que la donnée remontée est exacte et reflète bien ce que vivent les patients. Moins on est sûrs, moins la donnée a de valeur, et cela est vrai pour tous les acteurs. Au sein de la FIAC, nous dialoguons avec la Haute Autorité de Santé (HAS) afin de définir un score d’exactitude pour garantir l’exactitude de la donnée remontée. Il est important pour nous d’affiner ce score afin que lorsque l’on passe le seuil de ce score d’exactitude, nous soyons sûrs que la donnée ne pose plus de question à la HAS ou au Comité économique des produits de santé (CEPS) sur sa valeur.
La FIAC mène justement plusieurs expérimentations sur le terrain. Quels types de projets concrets déployez-vous pour exploiter ces données de vie réelle ?
Notre rationnel est de créer des projets prototypes, au sens industriel du terme, c’est-à-dire des projets destinés à devenir des séries. Aujourd’hui, nous avons 14 projets prototypes utilisant toujours de la donnée de vie réelle. Pour vous donner une vision des thématiques, nous avons des projets autour :
- Des parcours patients : avec la capacité à mieux voir, grâce à des focales de plus en plus précises, ce qu’ils vivent dans l’hétérogénéité des aires thérapeutiques et de la géographie française.
- De la qualité de vie des patients : est-ce que l’IA peut nous aider, en pratique clinique courante, à générer de la qualité de vie reconnue par les autorités réglementaires et par les patients qui prennent les traitements ?
- De la prévention avec de l’IA : dans le cancer du côlon par exemple, l’IA peut-elle, avec un score de risque et à partir d’une simple prise de sang, vous permettre d’aller faire un dépistage si vous n’y êtes pas encore allé ? Est-ce que cela va changer les pratiques de la médecine de ville ? Comment est-ce que les praticiens se comportent face à une solution d’IA ? Aujourd’hui, il y a un impératif de garantie humaine. Par échantillonnage, il y a donc un panel d’experts qui doit voir périodiquement si ce que produit l’IA est pertinent avec leur pratique. Paradoxalement, en testant cette prévention par l’IA, nous nous sommes rendus compte que le risque le plus fort est que les praticiens fassent totalement confiance à l’IA et ne vérifient plus. C’est quelque chose d’intéressant auquel je ne m’attendais pas lorsque nous avons lancé ce projet designé par Roche Diagnostics.
- Des accès précoces : des cas d’usage utilisant les modèles de langage.
- Nous avons aussi quelques projets intéressants sur la génération automatique de comptes rendus. Par exemple, si je vous parle et qu’il y a une transcription automatique, cela peut être utilisé lorsqu’un praticien parle à son patient. Nous pouvons même imaginer qu’il y ait trois compte rendus : un pour la recherche épidémiologique, un pour le soin et un pour le patient et ses aidants.
Ce ne sont pas des choses hors de portée. Il faut juste voir comment nous les déployons et pensons l’acceptation car rien de cela ne fonctionnera si les gens n’adhèrent pas. Et ils n’adhèrent pas si cela ne leur fait pas gagner du temps et n’apporte pas de la valeur à ce qu’ils font en termes médicaux et, pourquoi pas, de la valeur économique si on réutilise les données.
Pour conclure, je pense que produire de la donnée de qualité plus facilement avec des modèles de langage peut aussi être transposé à l’imagerie. Par exemple, nous avons envie de créer des cohortes qui puissent extraire directement avec des LLMs (Large Language Models) des données pour constituer la cohorte. Sauf que la source n’est pas toujours du texte. Nous voulons aussi faire en sorte d’utiliser des modèles à partir de l’imagerie parce que tous les modèles d’IA autour des images marchent très bien. Historiquement, c’est peut-être même ce qui se faisait de mieux jusqu’à l’explosion de ChatGPT. Donc, peut-être que les cohortes de demain, pour la recherche, seront constituées à partir de textes avec des modèles de langage et à partir de l’imagerie.
La France dispose d'un dispositif avantageux avec les accès précoces. Comment l'IA et les modèles de langage peuvent-ils répondre au défi de la collecte de données dans ce cadre spécifique ?
Les accès précoces sont une chance française, puisque la France peut donner accès à des innovations avant la mise sur le marché. Les données provenant des accès précoces sont précieuses, puisque l’on voit comment les molécules innovantes se comportent en vie réelle. Mais ces données, lorsqu’elles sont saisies à la main, sont très incomplètes.
On a lu des choses autour de 40 % de taux de complétion mais lorsque nous regardons réellement ce qui se passe, nous sommes même en dessous, autour de 20 à 25 %. Nous nous sommes donc interrogés : est-ce que les petits, moyens et grands modèles de langage peuvent nous aider à automatiser la remontée de données pendant ces accès précoces ? Plusieurs collègues de laboratoires pharmaceutiques ont designé un projet visant à comparer deux bras :
- un bras « traditionnel », de remontée de données pour suivre un accès précoce ;
- un bras qui concernerait les mêmes patients mais dont les données seraient généréesautomatiquement par des modèles de langage quels qu’ils soient.
Nous voulons donc comparer, sur une trentaine de notions, ce qui remonte du côté de l’IA et ce qui remonte du côté de la collecte traditionnelle. Nous avons mis la barre assez haut puisque nous avons la chance d’avoir trois batches d’accès précoces. Nous allons colliger les données et voir comment elles se comparent pour essayer d’apprécier un score d’exactitude, co-défini avec la HAS, comme un élément de valeur des don- nées remontant par l’IA. Nous parlons des accès précoces mais une fois ce genre de pratique mise en place à l’échelle française, nous pouvons l’utiliser pour beaucoup d’autres choses.
Pour conclure, quels sont les leviers indispensables pour garantir l'adoption de ces nouveaux outils et leur impact réel sur notre système de santé ?
Je pense que l’enjeu essentiel, c’est l’adoption de ces nouveaux outils. Si vous faites gagner du temps aux praticiens, de la pertinence en termes de recherche épidémiologique, de la qualité de vie au patient, et si vous apportez quelque chose aux gens qui vivent les choses, en pratique ou dans leur chair, alors les modèles d’IA seront adoptés.
Mais ce n’est pas une fin, ce sont juste des outils qui doivent servir l’utilité. Si nous arrivons à être assez agiles pour faire cela, la formidable décentralisation et accessibilité de ces modèles va créer une véritable modernité du système. N’oublions pas malgré tout la centralisation. Il faut qu’à l’échelle de l’État il y ait des grands projets pour essayer de donner une vision commune autour de ce que nous pouvons faire. Voici donc les éléments importants : une utilité pour les praticiens et pour les patients ; une démarche décentralisée avec la décentralisation de l’accès aux outils d’IA ; et aussi une œuvre centralisatrice, avec des visions communes, en particulier sur des cas d’usage partagés.
Enfin, un dernier élément : il ne faut pas servir juste le patient ou juste le praticien, les start-ups, l’industrie pharmaceutique ou le CEPS. Il faut essayer de voir comment une donnée peut avoir de la valeur pour que nous ayons tous une vision plus précise de ce qui se passe dans notre écosystème de santé. Si nous sommes face à des problèmes de soutenabilité de notre système de santé, c’est aussi parce que nous en avons une vision granulométriquement grossière. Et ça, c’est parce que nous n’avons pas la donnée. Plus la donnée servira une vision claire de ce qui se passe, plus les décisions que nous prendrons seront efficaces pour avoir, in fine, quelque chose de moderne et efficient. Il s’agit vraiment d’un combat que nous devons tous adresser ensemble : que l’IA serve une production agile et exacte de données plus fines, afin d’avoir une vision plus pertinente de ce qui se passe dans notre écosystème de santé. Aujourd’hui, vous seriez étonnés de connaître les fondements analytiques de certaines décisions qui sont, par nature, prises à partir de données granulométriquement assez grossières.
Pour poursuivre la réflexion, nous vous invitions à consulter notre livre blanc intitulé “Données de santé : enjeux et perspectives pour accélérer l’innovation thérapeutique”.



