Principes d’évaluation de l’efficacité d’un (nouveau) médicament

25 novembre 2013

Auteurs : J. Berbis, M. Alessandrini, G. Karsenty, P. Auquier
Référence : Prog Urol, 2013, 15, 23, 1208-1212

Objectif

Pour le praticien urologue, évaluer l’efficacité d’un nouveau médicament n’est pas simple. Les sources d’informations sont multiples et de qualité inégale. Cette mise au point fourni un guide de lecture critique simple des essais thérapeutiques médicamenteux de phase III et développe la notion d’efficacité en thérapeutique humaine.

Méthode

Synthèse établie par une équipe de santé publique universitaire et illustrée d’exemples dans le domaine de l’urologie.

Résultats

La lecture critique des essais thérapeutiques soutenant la mise sur le marché (études pivots) reste le moyen le plus objectif de « se faire une idée » de l’efficacité d’un nouveau médicament. Pourtant la notion d’efficacité des études pivots peut être éloignée du bénéfice ressenti par les patients, de leur motivation à poursuivre le traitement, ou du gain de santé en termes collectif.

Conclusion

L’évaluation de l’efficacité d’un nouveau médicament se fonde sur la connaissance des patients et du contexte d’une pathologie (pertinence des déterminants de la satisfaction du patient et de l’efficience) confrontés aux données objectives et limitées issus des essais thérapeutiques de phase III.

   
 
 

 

 

Introduction

Pour obtenir une autorisation de mise sur le marché (AMM), un médicament doit satisfaire à plusieurs critères explorés à différents temps du développement [1

Cliquez ici pour aller à la section Références].

Dans un premier temps, le développeur (privé ou public) cherchera à connaître sa tolérance (effets secondaires), son action sur le métabolisme, sa pharmacocinétique lors de la première administration du médicament chez l'humain. Ces études de Phase I n'ont en général pas pour objectif d'explorer l'efficacité. Dans un second temps (études de Phase II), on cherchera à préciser la posologie optimale et la pharmacodynamique du candidat médicament. Enfin, en Phase III, on cherchera à évaluer l'efficacité de ce potentiel nouveau traitement.

C'est au regard de l'ensemble de ces informations, mais aussi des données d'expérimentations précliniques, que la demande d'AMM sera examinée en France par l'Agence nationale de sécurité du médicament et des produits de santé (ANSM) [2

Cliquez ici pour aller à la section Références].

L'évaluation de l'efficacité d'un nouveau médicament repose en Phase III sur la mise en place d'essais prospectifs, comparatifs, randomisés, en aveugle appelés parfois essais cliniques ou études expérimentales. Cette mise au point propose un guide pratique pour lire et interpréter ce type d'étude. La question de l'efficacité est plus spécifiquement discutée.

 

Méthode

Cette synthèse a été établie par une équipe de santé publique universitaire à destination de cliniciens non spécialistes de santé publique et illustrée d'exemples dans le domaine de l'urologie.

 

Résultats

 

Qu'est-ce qu'un essai d'efficacité ?

Dans un groupe de patients atteints d'incontinence urinaire, observer une réduction du nombre de fuites urinaires de 20 %, 8jours après la prise d'un nouveau produit ne permet pas pour autant de conclure que ce produit est efficace ; ce résultat peut être dû à une évolution spontanément favorable ou à une rémission de la maladie ou à un effet placebo. L'évaluation d'un nouveau produit ne peut donc s'envisager que dans le cadre d'une comparaison des performances de ce nouveau produit à celles observées dans un groupe témoin qui n'a pas reçu la substance en question mais autre chose, soit un placebo, soit un produit de référence. Cette comparaison doit être directe, c'est-à-dire qu'elle doit être réalisée dans le cadre d'une même étude, confrontant les deux médicaments à comparer. Enfin, la comparaison se fait au regard des résultats finaux observés dans les deux groupes et non par comparaison de l'état avant et après du produit testé [3

Cliquez ici pour aller à la section Références].

 

Quels en sont les principes généraux ?

 
Principe de comparabilité

Le seul principe de mise en place d'un comparateur ne peut être suffisant pour porter un jugement quant à l'efficacité potentielle du candidat médicament. Pour que cette comparaison soit valide, cela suppose d'une part que les groupes de patients traités, souffrant par exemple d'un cancer de la prostate non métastatique, soient comparables à l'inclusion des patients dans l'étude et que ces groupes restent comparables pendant toute la durée de l'étude.

La comparabilité initiale pour tout ce qui n'est pas le traitement reçu repose sur le tirage au sort (randomisation) de l'attribution des traitements. La randomisation est le seul moyen d'assurer la comparabilité initiale des deux groupes de patients de l'essai en répartissant au hasard entre les deux groupes les facteurs pronostiques connus ou non de façon identique. Toute autre méthode que la randomisation n'est ni scientifiquement ni éthiquement acceptable. Par exemple, l'attribution par le seul clinicien, face à ce qu'il sait ou attend du nouveau traitement, de la connaissance de la spécificité de son patient, aboutirait à constituer des groupes dont les différences initiales pourraient expliquer les différences portant sur les résultats finaux. En cas de facteur de confusion majeur à prendre en compte, comme par exemple le score de Gleason biopsique dans le cancer de la prostate, on peut choisir de stratifier le tirage au sort sur le facteur considéré, de telle sorte que ce facteur (ici le score de Gleason biopsique) soit uniformément réparti entre les groupes de traitements (médicament évalué et comparable).

Le maintien de la comparabilité des groupes est assuré par la mise en Å“uvre de procédures d'aveugle. L'aveugle repose sur les principes suivants :

le patient ignore quel traitement il reçoit (simple insu) afin de limiter les biais liés à l'autosuggestion ;
l'équipe soignante ne connaît pas le traitement reçu (double insu) : uniformisation de la qualité de la prise en charge, de la surveillance des effets indésirables et de l'évaluation du traitement.

Si le double insu n'est pas réalisable (par exemple : effet indésirable permettant de repérer l'un des deux traitements) alors on peut recourir à une tierce personne non impliquée dans l'étude en charge de juger de l'effet des traitements étudiés (c'est l'analyse qui sera faite en aveugle).

 
Randomiser, maintenir la comparabilité et après ? Principe de jugement de signification

Dans une étude comparative chez des patients atteints d'incontinence urinaire, la réduction du nombre de fuites urinaires est de 60 %, 8jours après la prise d'un nouveau médicament, contre seulement 45 % avec le traitement de référence ; la différence observée de 15 % est une réalité chez les patients inclus. Cependant, cette différence observée aurait-elle été du même ordre si deux autres groupes de patients avaient été étudiés, ou cette différence est-elle le fait d'une simple fluctuation d'échantillonnage (variabilité) et non une différence « réelle ». Seul un test statistique permet de dire si cette différence est statistiquement significative, c'est-à-dire d'existence très probable pour un risque d'erreur (de se tromper) en général de 5 %, ou si c'est le hasard qui a abouti à l'observation d'une telle différence [3

Cliquez ici pour aller à la section Références].

 

Ce que nous dit étude dit protocole

Toute étude, a fortiori les essais randomisés, repose sur l'écriture préalable d'un protocole d'étude. Le protocole est un élément assurant la qualité du projet. C'est ce document qui sera soumis aux autorités en vue de l'autorisation de conduite de l'étude aux instances compétentes : comité de protection des personnes (CPP), ANSM... Ce document permet que le projet soit développé dans des conditions identiques en des lieux différents.

Un protocole précisera tout particulièrement :

la justification du projet au regard de la connaissance au moment de son écriture (littérature) ;
l'objectif clair et précis de l'étude, qui conditionne le plan d'expérience mis en Å“uvre ;
la population étudiée, en précisant les critères d'inclusion et de non-inclusion : cela permettra, sous réserve que la population étudiée soit conforme à ces critères d'apprécier la population cible (extrapolation) visée par les conclusions de l'étude ;
le plan de déroulement chronologique de l'étude ;
les médicaments comparés ;
le critère de jugement et les variables étudiées ;
le nombre a priori de sujets à étudier ;
l'analyse prévue au terme du projet ;
les modalités de déroulement.

Ces 9 différents éléments seront constitutifs du rapport et des articles produits au terme de l'étude conduite.

Si ces éléments sont bien connus, ils méritent cependant, dans le contexte actuel d'évaluation des médicaments par les autorités sanitaires, d'être précisés.

 
Quel est votre objectif ?

Sa formulation répond à des critères classiques : clair, unique, simple, compréhensible, utile... Cependant, dans une étude expérimentale randomisée comparative il convient de distinguer deux principaux types d'essais en fonction des objectifs poursuivis :

les essais dits de supériorité, destinés à mettre en évidence la supériorité éventuelle d'un candidat médicament par rapport au médicament de référence ou son placebo ;
les essais de non-infériorité, appelés parfois abusivement d'équivalence, destinés à démontrer qu'un candidat médicament est au moins aussi efficace que le médicament de référence auquel il est comparé, ou à défaut qu'il ne lui est pas inférieur.

Ces objectifs différents impliquent des stratégies d'analyses différentes et adaptées.

 
Quel plan d'étude choisir ?

Les deux principaux types de plan expérimental rencontrés sont :

le plan en groupes parallèles : chaque groupe de patients (ou bras) reçoit soit le nouveau produit, soit le traitement de référence (ou placebo) ; c'est le schéma le plus classique ;
le plan en « cross over », au cours duquel chaque patient devient son propre témoin et reçoit les deux traitements comparés lors de deux périodes successives dans un ordre aléatoire ; ce plan d'étude qui minimise le nombre de sujets nécessaire souffre de conditions d'applications très restrictives.

 
Quel critère de jugement ?

Avant tout, le critère de jugement d'une étude est unique : un essai contrôlé randomisé ne peut répondre qu'à une seule question. Les critères de choix sont ceux habituellement connus : disponibilité du critère, consensus dans la communauté, reproductibilité et fiabilité du critère... Cependant, il convient aussi de s'interroger sur sa pertinence, tout particulièrement dans un souci d'éclairer la décision tant publique que dans le cadre du soin. En cancérologie, la survie sans métastase à deux ans après traitement d'une tumeur infiltrante de la vessie peut être recevable car la majorité des évolutions (80 %) s'opère sur un mode systémique métastatique dans les deux ans ; dans le cancer de la prostate résistant à la castration, l'usage du PSA est de manière beaucoup plus incertaine un substitutif acceptable de la survie (dans le contexte de l'oncologie, la FDA a ainsi recommandé le recours à la mesure de la qualité de vie en l'absence de capacité de démonstration d'un gain en termes de survie globale) ; dans la suite de notre exemple à propos de l'incontinence urinaire, l'intérêt de la mesure du nombre de fuites sur 3jours est discutable et peut être moins pertinent que le nombre de patients sec ou avec un réduction du nombre de fuites>50 % ou encore avec un indice de satisfaction élevé. Il existe donc de réels enjeux sur la nature même de la mesure d'efficacité, trop souvent appréhendée par des mesures indirectes (proxy, surrogate) dont le lien avec l'efficacité réelle est rarement démontré.

 
Pourquoi faut-il justifier du nombre de sujets dans une étude ?

La question du nombre de sujets, qui est perçue comme résultant d'une démarche mystérieuse, repose sur une démarche très simple et essentielle. Quand on parle de nombre de sujets nécessaires (NSN), il convient de se poser la question « nécessaire à quoi ? ». Nécessaire à démontrer, sous réserve que l'hypothèse que fait l'investigateur soit juste (c'est en tout cas ce qu'il espère), avec une probabilité importante d'arriver à démontrer celle-ci (la puissance de l'étude), pour un risque minimal de conclure à tort à une différence entre les deux médicaments comparés (le fameux risque alpha). Classiquement, les études sont menées avec une puissance minimale de 80 % ; de même le risque de conclure à tort à une différence est fixé au pire à moins de 5 %. Reste alors la question centrale : quelle est l'hypothèse à démontrer : le candidat médicament est plus efficace que la référence, mais à partir de quand considère-t-on un gain d'efficacité. C'est une question essentielle à résoudre car au-delà du problème du calcul du nombre de sujets, c'est la pertinence clinique de cette différence dans la « vraie » vie qui est en jeu. Certains gains « significatifs » de survie de quelques semaines, démontrés en oncologie entre deux bras de traitement ont-ils toujours une pertinence ? Quel est l'impact réel de diminuer « significativement » le nombre de fuites urinaires entre deux bras de traitements de 1,3 par jour si les patients ont toujours des fuites ? Ces questions doivent être formulées à ce stade de la réflexion.

Sur ces bases, le calcul du « fameux » NSN n'est alors plus qu'un triste calcul et ce nombre sera d'autant plus important que la différence pertinente à mettre en évidence entre les deux bras est faible, que la variabilité du critère de jugement principal est importante, que la puissance de l'étude est élevée et que le risque consenti de conclure à tort est faible.

On comprend mieux alors pourquoi au terme d'une étude on ne peut répondre qu'à une seule question, celle traduite dans le différentiel espéré sur le critère de jugement principal et sur lui seul [4

Cliquez ici pour aller à la section Références].

 
Analyse prévue au terme du projet

Nous ne développerons pas ici les détails de l'analyse d'un essai randomisé, cependant on retiendra les éléments suivants comme essentiels.

En premier lieu, au regard des éléments précédents, l'analyse doit porter sur le critère défini a priori comme critère principal. Ce critère, en principe, ne peut être changé, en particulier au vu des résultats. L'analyse des critères dits secondaires est donc documentaire et complémentaire mais ne permet pas de conclusion inférentielle. C'est sur la base du différentiel espéré de réponse au critère de jugement principal entre les groupes qu'a été calculé le NSN assurant la puissance de l'étude.

En second lieu, selon l'objectif de l'étude, dite de supériorité ou de non-infériorité, les modalités de conduite de l'analyse diffèrent. Cela oblige à respecter un certain nombre d'impératifs.

Dans un essai de supériorité, l'analyse doit être « en intention de traiter » (ITT : Intent to treat analysis), c'est-à-dire qu'elle doit porter sur l'ensemble des sujets inclus et randomisés, quels qu'aient été leurs écarts au protocole et en particulier leur observance du traitement. L'analyse dite « per protocole » (analyse PP), qui ne prend en compte que les sujets ayant parfaitement respecté le protocole tout au long de l'étude, ne peut être retenue car elle anéantirait le principe de la comparabilité initiale des groupes due à la randomisation. Cependant, plus ces écarts au protocole seront nombreux, moins la conclusion sera crédible.

À l'inverse, l'analyse d'une étude de non-infériorité doit être conduite sur la totalité de la population qui a respecté le protocole et non en ITT [5

Cliquez ici pour aller à la section Références].

Enfin, on retiendra que les conclusions d'une étude randomisée reposent sur une et une seule analyse. Ainsi les analyses dites « en sous-groupes », dans lesquelles ne sont considérés, pour des motifs souvent opportunistes, que certains sous-groupes de malades dont la comparabilité initiale n'a pas été assurée, sont par nature biaisées et ne peuvent être conduites qu'à titre documentaire, sauf si elles ont été prévues dans le schéma de l'étude (stratification spécifique, NSN adapté). L'analyse de la survie sans progression à 12 mois d'un cancer de la vessie comparant une nouvelle chimiothérapie à la stratégie de référence pourrait ne pas montrer de différence significative en ITT ; la même analyse conduite sur les seuls patients les plus jeunes pourrait isoler une différence significative encourageant faussement à conclure à l'efficacité du nouveau traitement chez les sujets de moins de 60ans. Enfin, pour les mêmes raisons, les analyses intermédiaires, qui ne portent pas sur la totalité des patients inclus dans l'essai, ne sont pas légitimes sauf si elles ont été prévues au protocole (adaptation du NSN afin de maîtriser le risque alpha). La multiplication des comparaisons non prévues entraîne une augmentation non maîtrisée du risque alpha (de conclure à tort). Cependant, les analyses intermédiaires programmées, à partir d'un nombre de sujets inclus (le tiers ou la moitié) ou à partir d'une durée d'étude (un an au lieu de la durée totale de l'essai, par exemple) sont légitimes dans des pathologies où les enjeux éthiques sont majeurs : pour une pathologie à la survie très faible, dans le cas où le candidat médicament se révélerait plus efficace ou plus rapidement efficace que prévu, une analyse intermédiaire permettrait d'interrompre l'essai plus précocement afin de faire bénéficier tous les patients du nouveau traitement dans les meilleurs délais. Le Tableau 1 résume la démarche face à un essai phase 3.

 

Conclusion

En conclusion, l'étude de l'efficacité d'un nouveau médicament en urologie, comme dans tous les autres domaines, repose sur des méthodes éprouvées. C'est sur la base de ces études comparatives randomisées que les autorités sanitaires se prononceront sur l'appréciation du rapport bénéfice/risque. Au-delà, les autorités sanitaires, en France la Commission de la transparence, jugeront du service médical rendu par le médicament et de l'amélioration de ce service par la mise à disposition du médicament au regard de l'arsenal thérapeutique disponible dans la pathologie. Ce qui est en jeu ici est l'appréciation de l'efficacité en vie réelle de ce médicament et de son impact en termes de santé publique renvoyant aux remarques faites sur la formulation du critère de jugement des études qui est le plus souvent un critère indirect de l'efficacité réelle. Les sociétés savantes, comme l'Association française d'urologie, ont donc toute leur place dans le débat permettant de faire émerger ces critères d'efficacité en vie réelle qui doivent permettre de ne pas écarter les aspects plus perceptuels de la santé comme la qualité de vie ou les mesures de résultats rapportés par le patients (Patient Reported Outcomes). Une autre place pour les sociétés savantes serait de participer à un recueil indépendant des données de tolérance en phase IV (post-AMM) en particulier les données concernant les EI non graves afin d'affiner la connaissance du profil efficacité/tolérance d'une nouvelle molécule.

Enfin, et cela renforce l'aspect multidimensionnel de la notion d'efficacité d'un traitement, on ne peut négliger les éléments d'efficience ; l'efficience étant le rapport entre les coûts et l'efficacité. Le critère économique d'efficience vise à aider au choix stratégique entre des médicaments ayant une efficacité importante et un coût plus élevé et des médicaments de moindre efficacité mais moins coûteux [6

Cliquez ici pour aller à la section Références].

 

Déclaration d'intérêts

Pour Gilles Karsenty : investigateur pour des études, orateurs ou consultant pour les laboratoires Allergan, Astellas, Bouchara Recordati, Coloplast, IPSEN, Laborie, Medtronic, Pierre Fabre, Steba.

Les autres co-auteurs déclarent ne pas avoir de conflits d'intérêts en relation avec cet article.

   

 



Tableau 1 - Trois questions face à un essai clinique de phase III de médicament.
Validité interne de cet essai : le résultat annoncé est-il fiable non biaisé (cf. lecture critique) 
Cohérence externe : les résultats sont-ils validés par d'autres ou concordant avec les connaissances sur ce sujet (connaissance du sujet abordé) 
Pertinence clinique : ce résultat représente-t-il un bénéfice réel au plan clinique dans ma situation (géographie, population, forme clinique de la pathologie) 

 

Légende :
Deux calculs simples :
NST (nombre de sujets à traiter) pour éviter un événement : 1/(A−B), A : fréquence de l'événement bras témoin ; B : fréquence bras traitement ;
estimation du bénéfice/risque : NST pour éviter un événement vs NST pour voir apparaître un effet indésirable.
 
 
 

Références

 

www.anses.fr/. Les procédures d'autorisation de mise sur le marché. Mise à jour 21/02/2013. Agence nationale de sécurité sanitaire de l'alimentation, de l'environnement et du travail.
 
Constitution-de-dossier-d-AMM/. Constitution de dossier d'AMM.
 
Bouvenot G., Vray M. Essais cliniques, théories, pratique et critique  : Médecine-Science Flammarion (2006). 
 
Laplanche A., Com-Nougé C., Flamant R. Méthodes statistiques appliquées à la recherche clinique  : Médecine-Science Flammarion (1993). 
 
Cucherat M., Lièvre M., Leizorovicz A., Boissel J.P. Lecture critique et interprétation des résultats d'essais cliniques pour la pratique médicale  : Médecine-Science Flammarion (2004). 
 
guide_methodo_vf.pdf. Choix méthodologiques pour l'évaluation économique à la HAS. Octobre 2011.
 
   
 
 
   

 

© 2013  Publié par Elsevier Masson SAS.