Comparaison de la réponse à l'I-PSS selon le mode d'administration du questionnaire : en hétéro ou auto évaluation

10 février 2006

Mots clés : prostate, hyperplasie prostatique, dysfonction urinaire, questionnaires.
Auteurs : RUFFION A., MARIONNEAU N., TAIEB C., PERRIN P
Référence : Prog Urol, 2005, 15, 1080-1084
Objectif: Comparer l'I-PSS selon son mode d'administration (par le médecin versus en auto-évaluation). Méthodes: 388 patients étaient inclus dans les 3 mois suivant leur diagnostic d'hyperplasie de la prostate. Le médecin généraliste complétait l'I-PSS et remettait un questionnaire I-PSS à son patient à compléter à son domicile et à retourner sous enveloppe pré-affranchie au centre de saisie. La méthode de Bland & Altman a été choisie pour visualiser les différences individuelles et quantifier le biais entre les 2 modes d'évaluation.
Résultats : Le médecin surestimait l'I-PSS de 1.3 points [0,9-1,7] 95% en moyenne. Chez 42% des patients, ces différences individuelles atteignaient 3 points ou plus. La surestimation était significativement confirmée à 6, 12 et 18 mois de suivi.
Conclusion : Un biais significatif a été mis en évidence selon le mode d'administration de l'I-PSS. Nous recommandons de conserver le même mode d'administration au cours d'une étude clinique.



L'International Prostatic Symptom Score (I-PSS) est aujourd'hui l'auto-questionnaire de référence permettant de mesurer les troubles mictionnels de l'homme. Initialement construit pour des études cliniques, il s'est progressivement imposé comme un outil utile dans le cadre de l'évaluation des patients en pratique clinique, reconnu par l'OMS [14]. Il a en effet été traduit dans de nombreuses langues, sans altération de ses qualités psychométriques, présente une bonne fiabilité interne (alpha de Cronbach = 0.85) [2] et sa reproductibilité (test-retest) est excellente (r=0.93). En revanche, l'utilisation d'un auto-questionnaire en pratique clinique se heurte à de nombreux obstacles (problèmes de compréhension du questionnaire, temps de réponse ...). Ces difficultés peuvent amener le praticien à utiliser l'IPSS sous la forme d'un interrogatoire structuré, en aidant le patient pour expliquer la signification des questions et parfois proposer une réponse.

Le but de ce travail a été d'étudier l'influence de ce mode de recueil sur les résultats de l'I-PSS en les comparant à l'auto-questionnaire. Nous nous sommes attachés à étudier non seulement la corrélation entre les données recueillies des deux façons, mais aussi à quantifier le biais éventuel que l'on pouvait ainsi observer afin de savoir s'il était acceptable, en utilisant la méthode de comparaison des données suivant Bland et Altman [5].

Enfin une étude longitudinale a été conduite pour s'assurer de la constance de nos observations.

METHODES

L'étude était observationnelle longitudinale prospective et investiguée par des médecins généralistes (MG) français. L'I-PSS était administré à 907 patients souffrant de Troubles Urinaires du Bas Appareil (TUBA) et présentant une hyperplasie de la prostate (HP) diagnostiquée depuis moins de 3 mois et sans antécédents chirurgicaux.

La sévérité des symptômes de l'HP était évaluée grâce à l'I-PSS, échelle reconnue et validée en langue française [20]. D'une part cette échelle était utilisée par le médecin pour évaluer le patient au cours de l'interrogatoire (IPSS-med). Le questionnaire était également remis au patient pour l'auto-évaluation (IPSS-pat) dans le cadre de ses visites (tous les 6 mois), une enveloppe T pour le retour lui était également remise. Le remplissage du questionnaire pouvait être effectué au domicile du patient. Chacune de ces évaluations (IPSS-med et IPSS-pat) fournit un score I-PSS global, calculé d'après les réponses aux 7 questions constituant le questionnaire. Le score I-PSS est compris entre 0 et 35 points et augmente avec la sévérité des symptômes urinaires.

Les résultats croisés (médecin & patient) de cette échelle étaient disponibles pour 388 patients à l'inclusion. Au moins un des deux questionnaires I-PSS (IPSS-med ou IPSS-pat) était incomplet (partiellement ou totalement) ou non retourné pour 519 patients.

Les 388 patients à l'étude étaient, en moyenne, âgés de 66 ans (e.t. : 9), suivis depuis 9 ans (e.t. : 6) par leur médecin généraliste et vivaient à 81% en couple, 35% résidaient en milieu rural (inférieur à 5000 habitants) et 22% exerçaient une activité professionnelle rémunérée. Sur les critères socio-démographiques évalués, aucune différence significative n'a été mise en évidence avec les 519 patients n'ayant pu être inclus dans l'étude par défaut d'I-PSS. En effet, ces derniers étaient âgés de 65 ans (e.t. : 9), étaient suivis depuis 9 ans (e.t. : 6) par leur médecin généraliste et vivaient à 79% en couple, 35% résidaient en milieu rural et 21% exerçaient une activité professionnelle rémunérée.

L'analyse statistique était réalisée sur le logiciel SAS version V8.2. Le seuil des comparaisons était fixé à 5% en bilatéral. La correction de Bonféroni était utilisée pour les analyses répétées. Cette méthode est utilisée pour maïtriser le risque a de première espèce (a : risque de conclure à une différence qui n'existe pas). En effet, répéter des tests statistiques dans le temps sur une même population augmente le risque de conclure à tort en la différence des variables comparées.

Afin de maintenir le risque a global (sur l'ensemble des tests réalisés) à 5% maximum, la correction de Bonféroni divise le risque par le nombre de comparaisons effectuées. Ainsi, pour deux tests, chaque comparaison est réalisée en choisissant un risque de 2,5%, la p value attachée à cette différence devra être inférieure à 0,025 pour rejeter l'hypothèse d'égalité des variables étudiées.

Le score I-PSS global était comparé entre les 2 évaluations (IPSS-med et IPSS-pat) par un test t de Student pour séries appariées et ceci à chaque visite à but exploratoire. Les coefficients de corrélation de Pearson des scores I-PSS étaient également calculés entre ses 2 modes d'évaluation.

La détermination du biais entre les 2 modes d'évaluation de l'I-PSS utilisait la technique de Bland & Altman. Ce biais et son intervalle de confiance à 95% étaient explorés à chaque visite semestrielle. Un biais correspond à une erreur de "visée" [...] qui si elle existe se répète à chaque échantillon [6]. Il s'agit d'une erreur systématique, c'est à dire qu'elle ne se répartie pas au hasard autour de la valeur "réelle". Ce biais est dans notre étude lié à l'observateur : médecin ou patient. Il produit une estimation systématiquement plus élevée ou plus basse que la valeur réelle du paramètre étudié (ici le score IPSS). Pour étudier la cohérence entre deux méthodes d'évaluation d'un même paramètre, une approche plus puissante qu'une régression linéaire est l'approche proposée par Bland & Altman. Il s'agit d'une approche simple à mettre en oeuvre : il suffit de représenter, pour chaque couple d'observations (score IPSS évalué par le patient et score IPSS évalué par le médecin), la différence moyenne entre les scores issus des 2 méthodes (ici les 2 observateurs : médecin et patient) en fonction de la moyenne des deux scores. Sur un tel graphique, la moyenne des différences correspond au biais moyen entre les deux méthodes. Cependant cette approche ne permet pas de conclure à la supériorité d'une méthode par rapport à l'autre.

Enfin, la détermination du coefficient alpha de Cronbach a été évaluée sur les auto-questionnaires. Cet indice mesure la fiabilité interne (encore appelée fidélité ou précision) de l'échelle. Cette cohérence interne reflète l'homogénéité des items de l'instrument.

Le coefficient a de Cronbach est d'autant plus grand que les items sont corrélés entre eux et il varie entre 0 et 1. Un coefficient alpha de 1 correspondrait à une redondance des items entre eux dans la dimension étudiée [7] et un coefficient de 0 correspondrait à une absence de cohérence entre les items.

La fiabilité est une propriété relative à un ensemble d'items mais aussi à une population, donc même si un instrument est déjà validé, il faut estimer à nouveau la fiabilité pour la population que l'on étudie.

Résultats

L'analyse globale(Tableau 1) révélait que quelque soit la visite, le médecin évaluait la symptomatologie de son patient en moyenne significativement plus sévèrement par rapport à l'évaluation du patient lui-même. Le coefficient a de Cronbach observé à l'inclusion sur les questionnaires I-PSS auto-administrés était de 0.79.

Coefficient de corrélation

Les coefficients de corrélation de Pearson des scores I-PSS auto et hétéro-évalués étaient de 0.78, 0.71, 0.85, et 0.81 pour les visites d'inclusion, de 6 mois, de 12 mois et de 18 mois respectivement. Ils montraient tous un lien étroit entre les 2 évaluations (p<0.0001 pour chaque visite) mais la valeur de ces coefficients n'était pas excellente étant donné que les deux évaluations étaient censées mesurer la même chose. La figure 1 montre la répartition de cette double évaluation à l'inclusion.

Figure 1 : A gauche, nuage de points des scores I-PSS auto-évalués en fonction des scores I-PSS évalués par le médecin ; à droite, représentation de Bland & Altman : différence des scores I-PSS entre les 2 modes d'administration en fonction de la moyenne des scores de ces 2 évaluations

Etude des différences entre hétéro et auto-évaluation de l'I-PSS en fonction de la moyenne des 2 scores I-PSS (IPSS-med et IPSS-pat) selon la méthode de Bland et Altman.

Evaluation de la différence à l'inclusion (Figure 1, Tableau II)

A l'inclusion, 95% des différences entre IPSS-pat et IPSS-med étaient comprises entre - 9.3 et + 6.7 points, l'erreur type de la différence des 2 scores était de 0.208 et le biais à l'inclusion était significatif : biais I-PSS patient/médecin = - 1.3 [- 1.7 ; - 0.9] IC95%.

Le patient évaluait en moyenne son score I-PSS 1.3 points en dessous du score I-PSS évalué par le médecin : 42% des patients présentaient une différence de 3 points ou plus sur l'échelle des symptômes par rapport à l'évaluation du médecin. Evaluation de la différence à 6 mois, 12 mois et 18 mois (Tableau II)

A 6 mois, 95% des différences entre IPSS-pat et IPSS-med étaient comprises entre - 10.5 et + 7.5 points, l'erreur type de la différence des 2 scores était de 0.256 et le biais à 6 mois était significatif : biais I-PSS patient/médecin = - 1.5 [- 2.0 ; - 1.0] IC95%.

Le patient évaluait en moyenne son score I-PSS 1.5 points en dessous du score I-PSS évalué par le médecin.

A 12 mois, 95% des différences entre IPSS-pat et IPSS-med étaient comprises entre - 6.8 et + 5.0 points, l'erreur type de la différence des 2 scores était de 0.180 et le biais à 12 mois était significatif : biais I-PSS patient/médecin = - 0.9 [- 1.3 ; - 0.5] IC95%.

Le patient évaluait en moyenne son score I-PSS 0.9 points en dessous du score I-PSS évalué par le médecin.

A 18 mois, 95% des différences entre IPSS-pat et IPSS-med étaient comprises entre - 7.1 et + 5.5 points, l'erreur type de la différence des 2 scores était de 0.216 et le biais à 18 mois était significatif : biais I-PSS patient/médecin = - 0.8 [- 1.2 ; - 0.4] IC95%.

Le patient évaluait en moyenne son score I-PSS 0.8 points en dessous du score I-PSS évalué par le médecin.

Quelle que soit la visite (inclusion, 6 mois, 12 mois, 18 mois), un biais systématique était observé entre les deux évaluations de l'I-PSS (médecin vs patient) dans le sens d'une surévaluation de la fréquence des symptômes par le médecin.

Discussion

L'I-PSS permet un interrogatoire structuré d'un patient souffrant de troubles mictionnels associés à l'hyperplasie de la prostate. Le coeficient a de Cronbach observé est satisfaisant, Nunnaly [15] recommande une valeur supérieure à 0.70. La fiabilité de l'IPSS est confirmée sur la population étudiée.

L'utilisation de l'IPSS en pratique clinique courante est encouragée par de nombreuses sociétés savantes. En effet, la catégorisation des patients issue des valeurs du questionnaire pourrait permettre une rationalisation des pratiques, en édictant des règles de bonne conduite suivant le score IPSS des patients [2]. Cependant, force est de constater que l'utilisation sous la forme d'un auto-questionnaire se heurte à de nombreux obstacles. Tout d'abord, certains items peuvent dérouter le patient, conduisant à de mauvaises réponses [17]. Les problèmes de compréhension se rencontrent d'autant plus lorsque l'on s'adresse à des patients avec des difficultés de déchiffrage de la langue (populations immigrées) [10, 12], mais existent aussi chez des patients avec un très bon niveau socioculturel [18]. Cam [10] rapporte par exemple jusqu'à 14% de questionnaires I-PSS incomplets chez des patients ayant un niveau d'éducation de type universitaire. Par ailleurs, le questionnaire doit être parfaitement traduit, faute de quoi les difficultés de compréhension peuvent être très fréquentes, allant jusqu'à la moitié des patients interrogés [18, 19]. Enfin, l'auto-questionnaire est une pratique qui consomme du temps et il faut une organisation rigoureuse pour que le patient ait le temps de répondre au questionnaire avant qu'il soit vu en consultation. Ceci explique probablement pourquoi cet outil n'est utilisé, au mieux par seulement un quart des urologues comme en attestait une récente enquête du CTMH [11].

L'interrogatoire par le praticien, bien que cette possibilité n'ait jamais été discutée dans la presse médicale, semble donc un mode d'utilisation de l'I-PSS intellectuellement séduisant qui permettrait un enregistrement plus exhaustif des données. Mais ce mode d'administration modifie les qualités psychométriques du questionnaire, en introduisant un biais lié à l'interrogatoire par un intervenant extérieur.

Nous présentons une erreur moyenne de 1.3 point [0.9-1.7]IC95%, statistiquement significative et retrouvée à plusieurs mesures dans le décours de l'étude.

Nos résultats diffèrent de ceux retrouvés dans la littérature.

Barry ne montre aucune variation significative du résultat de l'I-PSS suivant le mode d'interrogation [1]. Il note cependant un score moyen d'I-PSS discrètement plus élevé lorsque l'interrogatoire était fait par le médecin que par le patient lui-même et conseille d'évaluer les patients de la même façon à deux occurrences différentes, afin de diminuer au maximum un biais éventuel.

Des résultats assez voisins sont rapportés dans la littérature, même si les tendances sont parfois divergentes, les différences moyennes ne sont pas significatives (Tableau III).

L'originalité de notre travail a été de rechercher le biais et l'étendue de la discordance en utilisant la méthode décrite par Bland et Altman [5].

Le biais, dans notre série est significatif quelque soit le temps de l'évaluation après correction de Bonféroni. Il ne peut donc pas être négligé contrairement aux évaluations précédentes.

A l'échelle individuelle l'étendue de la différence peut atteindre 3 points ou plus chez 42% des patients dont les résultats sont présentés ici à l'inclusion. Cet élément apporte une information complémentaire sur la répartition du biais mis en évidence par la méthode de Bland & Altman. En effet, Barry a montré qu'en moyenne, une différence de 3 points correspondait à la différence minimale perceptible [4].

L'utilisation du score I-PSS est un grand progrès dans l'évaluation clinique cependant son application doit être rigoureuse, c'est-à-dire de la même manière au long de l'étude, sous peine d'introduire des biais d'analyse significatifs.

L'erreur moyenne est non seulement significative sur le plan statistique mais elle est proche des variations enregistrées lors des essais cliniques d'efficacité sur les traitements médicaux de l'HP, ce qui confirme l'importance de ce phénomène dans le déroulement d'une étude clinique.

Cependant quatre réserves doivent être faites.

L'ordre d'administration des questionnaires peut influer sur le résultat. Barry [1] a étudié l'effet de l'ordre de passage par un plan expérimental de type cross-over sans toutefois pouvoir conclure en raison d'une interaction ordre d'administration-mode d'administration.

La différence que nous décrivons entre les modes d'administration peut-être le reflet d'un bruit de fond comme on le mesure par le test-retest. Barry [3] estime à 1.0 ± 3.8 la variation naturelle produite par le test-retest. Le format de notre étude ne permet pas de répondre à ce problème.

Cette étude était menée en France, et par la même avec la version française du questionnaire I-PSS. Cette langue, réputée pour ses nombreuses nuances, peut être source de difficultés de compréhension pour certains sujets ; et ceci d'autant plus que la formulation des réponses proposées (environ 1 fois sur 5, environ 2 fois sur 3...) n'est pas habituelle en langue française. Il serait alors envisageable que l'amplitude des différences d'évaluation croisée (auto versus hétéro évaluation) de cette échelle soit influencée par sa version et ainsi soit différente d'un pays à l'autre. Nous pouvons ainsi suggérer de réitérer cette expérience dans les autres versions. Le principe de précaution nous conduit à recommander de conserver le même mode d'évaluation au cours d'une étude clinique tant que l'identité des évaluations ne sera pas prouvée pour la langue en question.

Une autre limitation de la généralisation des résultats de cette étude vient de la différence d'effectifs observée entre les 388 patients analysés et les 907 patients inclus. Ceci est le reflet du retour des paires de questionnaires dûment complétés (2 jeux de 7 questions cochées). En effet, à partir du moment où une des 7 questions de l'un des deux questionnaires n'était pas cochée, le patient n'était pas analysé (pas de remplacement des données manquantes). Ce contraste cumule d'une part, les effets de l'absence de retour de l'un des questionnaire (au moins) et d'autre part, du retour de questionnaires vierges (ou pas de retour du tout). Soulignons que le taux de questionnaires vierges ou incomplets peut être le reflet d'un défaut de validation culturelle du questionnaire IPSS (traduction en français), comme nous l'avons abordé dans le paragraphe précédent.

L'analyse des données selon Bland et Altman permet de visualiser les variations individuelles qui sont importantes et de décrire le biais entre les auto et hétéro questionnaires. Ce biais est statistiquement significatif et cliniquement pertinent puisqu'il se situe dans la fourchette des variations produites par l'effet des traitements médicaux.

Conclusion

Quelle que soit la visite considérée : inclusion, 6 mois, 12 mois et 18 mois, nous avons mis en évidence un biais significatif entre les évaluations de l'I-PSS du médecin et du patient : le patient évaluait la symptomatologie liée à son HP significativement plus faiblement que ne le faisait son médecin.

Nous pouvons proposer une approximation de ce biais à 1.3 points (IC95%. : [0.9 ; 1.7]).

Ce biais a été estimé à partir des résultats obtenus à l'inclusion qui étaient ainsi moins sujet à biais de sélection engendré par les sorties d'étude.

Cette différence était cliniquement pertinente. Si l'on prend comme critère de jugement une différence minimale de 3 points, 42% des patients étaient évalués plus défavorablement par leur médecin en comparaison à leur propre évaluation.

Compte tenu de l'importance de la quantification des symptômes dans la recherche clinique mais aussi en pratique courante il parait capital de standardiser le mode d'application du questionnaire I-PSS.

Références

1. BARRY M.J., FOWLER F.J., CHANG Y., CHANG Y., LISS C.L., WILSON H., STEK M. Jr. The American Urological Association symptom index : does mode of administration affect its psychometric properties ? J. Urol., 1995 ; 154 : 1056-1059.

2. BARRY M.J., FOWLER F.J. JR., O'LEARY M.P., BRUSKEWITZ R.C., HOLTGREWE H.L., MEBUST W.K., COCKETT A.T. The American Urological Association symptom index for benign prostatic hyperplasia. The Measurement Committee of the American Urological Association. J. Urol., 1992 ; 148 : 1549-1557.

3. BARRY M.J., GIRMAN C.J., O'LEARY M.P., WALKER-CORKERY E.S., BINKOWITZ B.S., COCKETT A.T.K., GUESS H.A. : Using Repeated Measures of Symptom Score, Uroflowmetry and Prostate Specific Antigen in the Clinical Management of Prostate Disease. J. Urol., 1995 ; 153 : 99-103.

4. BARRY M.J., WILLIFORD W.O., CHANG Y., MACHI M., JONES K.M., WALKER-CORKERY E., LEPOR H.

5. BLAND M.J., ALTMAN D.G. : Statistical method for assessing agreement between two methods of clinical measurement. The Lancet, 1986 ; 307-310.

6. BOUYER J., HEMON D., CORDIER S., DERRIENNIC F., STUCKER I., STENGEL B., CLAVEL J. : Epidémiologie: Principes et méthodes quantitatives. Editions INSERM, 1995 ; 94.

7. BOYLE G.J. : Does item homogeneity indicate internal consistency or item redundancy in psychometric scales ? Person. Individ. Diff., 1991 ; 12 : 291-294.

8. BOZLU M., DORUK E., AKBAY E., ULUSOY E., CAYAN S., ACAR D., KANIK E.A. Effect of administration mode (patient vs physician) and patient's educational level on the Turkish version of the International Prostate Symptom Score. Int. J. Urol., 2002 ; 9 : 417-421.

9. CAM K., AKMAN Y., CICEKCI B., SENEL F., EROL A. Mode of administration of international prostate symptom score in patients with lower urinary tract symptoms: physician vs self. Prostate Cancer Prostatic Dis., 2004; 7 : 41-44.

10. CAM K., SENEL F., AKMAN Y., EROL A. The efficacy of an abbreviated model of the International Prostate Symptom Score in evaluating benign prostatic hyperplasia. BJU Int, 2003 ; 91 : 186-189.

11. DE LA TAILLE A., DESGRANDCHAMPS F., SAUSSINE C., LUKACS B., HAILLOT O. Do urologists apply benign prostatic hyperplasia clinical practice guidelines ? Survey on the complementary investigation request modalities in France]. Prog. Urol., 2004 ; 14 : 320-325.

12. FUKATSU A., ONO Y., ITO M., YOSHINO Y., HATTORI R., GOTOH M., OSHIMA S. Relationship between serum prostate-specific antigen and calculated epithelial volume. Urology, 2003 ; 61 : 370-374.

13. GARCIA-LOSA M., UNDA M., BADIA X., RODRIGUEZ-ALCANTARA F., CARBALLIDO J., DAL-RE R. Effect of mode of administration on I-PSS scores in a large BPH patient population. Eur. Urol., 2001 ; 40 : 451-457.

14. McCONNELL J.D., BARRY M.J., BRUSKEWITZ R.C., Benign prostatic hyperplasia : diagnosis and treatment." In: Clinical Practice Guideline. Rockville, MD: Agency for Health Care Policy and Research, 1994.

15. NUNNALLY J.C. : "Psychometric theory", New-York : Mac Graw-Hill, 1982.

16. PLANTE M., CORCOS J., GREGOIRE I., BELANGER M.F., BROCK G., ROSSIGNOL M. The international prostate symptom score: physician versus self-administration in the quantification of symptomatology. Urology, 1996 ; 47 : 326-328.

17. RAGAB A.A. : Validity of self-assessment outcome questionnaires: patient-physician discrepancy in outcome interpretation. Biomed. Sci. Instrum., 2003 ; 39 : 579-584.

18. RODRIGUES NETTO N. JR., DE LIMA M.L., DE ANDRADE E.F., APUZZO F., DA SILVA M.B., DAVIDZON I.M., MOISES M.J., CHAMMA E.J., BOGADO H. Latin American study on patient acceptance of the International Prostate Symptom Score (IPSS) in the evaluation of symptomatic benign prostatic hyperplasia. Urology, 1997 ; 49 : 46-49.

19. RUSSO F., DI PASQUALE B., ROMANO G., VICENTINI C., MANIERI C., TUBARO A., MIANO L. International prostate symptom score : comparison of doctor and patient. Arch. Ital. Urol. Androl., 1998 ; 70 : 15-24.

20. SAGNIER P.P., RICHARD F., BOTTO H., TEILLAC P., DREYFUS J.P., BOYLE P. : Adaptation and validation in the French language of the International Score of Symptoms of Benign Prostatic Hypertrophy. Prog. Urol., 1994 ; 4 : 532-538.