Takaisin

Lonkka- ja polvinivelrikon vaikeusasteen radiologiset luokittelumenetelmät ja menetelmien toistettavuus

Näytönastekatsaukset
Risto Ojala ja Jari Arokoski
23.8.2012

Näytön aste: B

Lonkka- ja polvinivelrikon Kellgren & Lawrence -luokituksen toistettavuus näyttää olevan vähintään kohtalainen.

Lonkka- ja polvinivelrikosta on julkaistu useita radiologisia luokituksia. Kellgren & Lawrence -luokitus on ollut käytetyin radiologinen luokitusmenetelmä epidemiologisissa ja kliinisissä tutkimuksissa.

Sun työryhmineen esitti MEDLINE-kirjallisuushaulla vuosilta 1984–96 julkaistut tutkimukset koskien polvi- ja lonkkanivelrikon luokittelussa käytettyjä luokittelumenetelmiä «Sun Y, Günther KP, Brenner H. Reliability of radio...»1. Hakuun otettiin myös ennen 1984 tehdyt tutkimukset kirjallisuusreferenssien perusteella. Hakusanoina käytettiin termejä, ”osteoarthritis”, ”index severity”, ”severity”, ”radiographic grading”, ”radiological assessment” ja ”reliability”. Kirjallisuuskatsauksessa todetaan, että vuosien 1957 ja 1994 välillä on julkaistu yhteensä 8 luokittelua lonkkanivelrikosta ja 13 luokittelua polvinivelrikosta. Menetelmien luotettavuuden arvioinnissa on käytetty menetelmiä ICC, Kappa, r- ja t-testit. Menetelmien luotettavuutta tai toistettavuutta on tutkittu niin mittaajan sisällä (intra-rater-reliability) kuin mittaajien välillä (inter-rater-relibility). Kellgren & Lawrence (K & L) -luokitus todettiin yhdeksi käytetyimmistä luokittelumenetelmistä niin kliinisissä kuin epidemiologissa tutkimuksissa. Alkuperäinen K & L -luokitusmenetelmä sisältää luokitusasteikon 0–4. Toiseksi K & L-luokituksen luotettavuutta on selvitetty dikotomisena luokitteluna: l. jako on tehty luokkiin 0–1 ja 2–4, jolloin luokkaa ≥ 2 on pidetty nivelrikkotapauksena.

Muina luokitusmenetelminä on käytetty muun muassa Summersin, Kannuksen, Croftin ja Lanen työryhmien esittämiä luokituksia. Näiden viimeksi mainittujen menetelmien luotettavuutta on tutkittu selvästi vähemmän ja pääasiassa pelkästään tutkijoiden omissa työryhmissä.

Ensimmäisen kerran K & L -menetelmän luokittelua selvitettiin 1957, jolloin r-arvoilla arvioituna kahden eri arvioijan välinen korrelaation kerroin (r) oli lonkassa 0.40 ja polvessa 0.83 ja yhden mittaajan sisällä vastaavasti 0.75 lonkassa ja polvessa 0.83. Sittemmin K & L -luokituksen luotettavuutta on selvitetty 8 muun tutkijaryhmän taholta 1987 jälkeen. Polven osalta luokituksen luotettavuuskerroin on ollut parhaimmilla Felsonin ja työryhmän selvityksessä ICC = 0.85–0.94 (inter/intra-rater – reliability) ja huonoimmillaan arvot ovat Baggen työryhmineen esittämänä қ = 0.51/0.74 (inter/intra-rater – reliability). Cerhanin työryhmän selvityksessä K & L -luokitusta käytettiin dikotomisena. Tuolloin polvinivelrikon osalta қ = 0.77/0.80 ja lonkkanivelrikon osalta қ = 0.50/0.84–92 (inter/intra-rater – reliability).

 • Tutkimuksen laatu: kelvollinen
 • Sovellettavuus suomalaiseen väestöön: hyvä

Reijmanin työryhmän katsausartikkelissa «Reijman M, Hazes JM, Koes BW ym. Validity, reliabi...»2 arvioitiin muun muassa lonkkanivelrikon luokituksessa käytettyjen käytetyimpien radiologisten luokitusten toistettavuutta. Katsausartikkeliin koottiin tutkimukset 1966–3/2002 MEDLINE-tietokannasta ja 1999–3/2002 Cochrane-tietokannasta. Arvioitavin luokittelumenetelminä oli muun muassa K & L -luokitus (0–4 tai katkaisuraja ≥ 2) ja Croftin luokitus (0–5). Uusimmissa 1998–2000 tehdyissä lonkkanivelrikon toistettavuutta selvittävissä tutkimuksissa K & L -luokituksen mittaajien välinen toistettavuus on ollut luokitusasteikolla 0–4, ICC = 0.59–0.67. Dikotomisella jaolla arvioituna (katkaisuraja ≥ 2) mittaajien välinen toistettavuus on ollut қ = 0.60–0.75. Croftin luokittelu todettiin huonommin toistettavaksi kuin K & L -luokitus.

 • Tutkimuksen laatu: tasokas
 • Sovellettavuus suomalaiseen väestöön: hyvä

Reijmanin työryhmä selvitti epidemiologisessa tutkimuksessa (ns. Rotterdam-study) «Reijman M, Hazes JM, Pols HA ym. Validity and reli...»3 lonkkanivelrikon luokituksessa käytettyjen radiologisten nivelrikon vaikeusasteen arviointimenetelmien validiteettia ja toistettavuutta niin poikkileikkausasetelmassa kuin myös pitkittäisessä tutkimusasetelmassa. Radiologisina menetelminä käytettiin K & L -luokitusta, Croft-luokitusta ja ns. MJS-luokitusmenetelmiä (minimal joint space). Luokitusten validiteetti arvioitiin luokituksen kykynä tunnistaa kliiniset lonkkanivelrikko-oireet ja toisaalta luokitusten ennustearvo lonkkatekonivelleikkauksen osalta seurannassa. Mittaajien välinen K & L -luokituksen toistettavuus dikotomisena muuttujana (katkaisuraja ≥ 2) oli 0.68 (0.44–0.92). K & L -luokituksen toistettavuus oli parempi kuin Croftin luokituksen. K & L -luokitus oli merkittävästi yhteydessä lonkkakipuun (KL ≥ 2 OR 2.6 (1.8–3.6) ja KL ≥ 3 OR 6.6 (3.6–12.1) ja K & L -luokitus (katkaisuraja ≥ 2) oli parhaiten yhteydessä seurannassa tehtyyn tekonivelleikkaukseen (oikea lonkka OR 30.6 (17.5 – 53.5) ja vasen lonkka OR 34.3 (18.1 – 65.2)).

 • Tutkimuksen laatu: tasokas
 • Sovellettavuus suomalaiseen väestöön: hyvä

Günther ja Sun «Günther KP, Sun Y. Reliability of radiographic ass...»4 selvittivät lonkka- ja polvinivelrikossa K & L -luokituksen toistettavuutta tutkimuksessa, jossa kolme arvioitsijaa (yksi ortopedi, jolla oli pitkällinen kokemus radiologisten kuvien tulkinnasta ja kaksi ortopediaan erikoistuvaa lääkäriä) luokittelivat 100 lonkan röntgenkuvaa (50 lantiokuvaa) ja 100 polven röntgenkuvaa (ap- ja sivukuvat) kahtena ajankohtana 3 kuukauden välein. Luokittelun toistettavuus arvioitiin ICC-kertoimella. Polven radiologisen luokittelun ICC-kerroin oli 0.81 mittaajien välillä ja mittaajan sisällä 0.85–0.93. Lonkan radiologisen luokittelun ICC- kerroin oli 0.88 mittaajien välillä ja mittaajan sisällä 0.85–0.91. K & L -luokitus todettiin erittäin toistettavaksi siis sekä mittaajien välillä että mittaajien sisällä niin polven kuin lonkankin osalta.

 • Tutkimuksen laatu: kelvollinen
 • Sovellettavuus suomalaiseen väestöön: hyvä

Galli työryhmineen «Galli M, De Santis V, Tafuro L. Reliability of the...»5 selvitti Ahlbäckin luokituksen (luokitus 0–5) toistettavuutta polvinivelrikossa. Tutkijat totesivat johdannon kirjallisuuskatsauksessa, että vaikka Ahlbäckin luokitusta on käytetty laajalti sen julkaisemisen jälkeen (1968), siitä huolimatta sen toistettavuudesta ei ole selvityksiä. Tutkimuksessa oli kolme arvioijaa (senioriortopedi, ortopediaan erikoistuva lääkäri ja lääketieteen opiskelija). Kuvat arvioitiin yhden kuukauden välein. Tulosten toistettavuus arvioitiin қ-kertoimella. Mittaajien väliset қ-kertoimet vaihtelivat välillä 0.15–0.45. Mittaajan sisäiset қ-kertoimet vaihtelivat välillä 0.17–0.32. Tutkijat totesivat, että polvinivelrikon Ahlbäck-luokitus ei näyttäisi olevan sovelias kliinisen käyttöön huonon toistettavuutensa vuoksi.

 • Tutkimuksen laatu: kelvollinen
 • Sovellettavuus suomalaiseen väestöön: hyvä

Toivanen työryhmineen selvitti Kansanterveyslaitoksen Terveys 2000 -tutkimus osatutkimuksessa «Toivanen AT, Arokoski JP, Manninen PS ym. Agreemen...»6 Kellgren & Lawrence -luokituksen toistettavuutta sekä sen yhteyttä kliiniseen nivelrikon diagnoosiin. Koko tutkimukseen valittiin väestörekisteritietojen perusteella valikoitumaton, edustava otos yli 30-vuotiaista suomalaisista. Tutkittavien kokonaismäärä oli 8 028. Heistä 88 %:lle tehtiin terveystietojen haastattelu, 80 %:lle laaja terveystarkastus ja 5 %:lle suppeampi, kotioloissa suoritettu tarkastus. Edellisten joukosta kutsuttiin kaikki yli 45-vuotiaat Kuopiossa tai lähikunnissa asuvat (noin 140) Kuopio OA 2000 -tutkimukseen Kuopion yliopistolliseen sairaalaan. 130 kutsutuista (92.9 %) suostui ja heistä otettiin polven kuormitusröntgenkuvat ja heille tehtiin myös tarkempi, polvea ja lonkkaa koskeva kliininen tutkimus, jonka suoritti ortopedin ja fysiatrin perehdyttämä lääketieteen opiskelija. Tutkittavat olivat iältään 45–82-vuotiaita (keski-ikä 60 ± 10 vuotta).

Terveys 2000 -tutkimuksessa polvinivelrikon kliiniset diagnoosit teki Kuopion alueella kaksi kokenutta kliinikkoa (reumatologi ja työterveyslääkäri). Diagnoosia koskevien päätelmien yhdenmukaisuuden varmistamiseksi diagnoosikriteerit oli annettu heille kirjallisesti, ja heitä oli koulutettu tehtävään. Polven kohdalla selvitettiin erityisesti nivelrikkoon viittaavia kipu- ja jäykkyysoireita, aikaisempia tapaturmia, polveen kohdistuneita röntgentutkimuksia sekä leikkauksia ja muita hoitoja. Kliinisen tutkimuksen vakiomuotoinen status koski kummankin polven liikerajoitusta, arkuutta, deformiteetteja, hydropsia ja stabiliteettia. Kliininen diagnoosi perustui statuslöydöksiin, potilaan kuvaamiin oireisiin ja aiempaan tautidokumentaatioon. Osa potilaista toi tutkimukseen mukanaan myös radiologien lausuntoja. Kahdelle potilaalle oli aiemmin tehty polven tekonivelleikkaus nivelrikosta johtuen.

Tutkittavilta otettiin molemmista polvista etu-takasuunnan kuormituskuvat polven ollessa täysin ojennettuna ja lisäksi sivusuunnan kuvat tutkittavan ollessa makuulla. Tässä tutkimuksessa käytetyt luokittelut tehtiin perustuen tibiofemoraalinivelen etu-takasuunnan kuviin. Kuvat otettiin Kuopion yliopistollisen sairaalan röntgenissä. Kokenut yliopistosairaalan radiologian erikoislääkäri tulkitsi röntgenkuvat käyttäen kolmea luokittelua: Kellgren–Lawrence, Ahlbäck ja Piperno. Radiologilla oli käytettävissä vertailukuvasto Kellgrenin ja Lawrencen luokittelusta. Arvio tehtiin erikseen molemmista polvista ja sekä mediaalisesta että lateraalisesta tibiofemoraalisesta nivelosasta. Analyysiin otettiin huonomman nivelosan tulos. Kellgrenin ja Lawrencen mukaan luokittelu tapahtui luokkiin 0–4 ja Ahlbäckissä ja Pipernossa luokkiin 0–5.

Potilaalle diagnosoitiin radiologinen polvinivelrikko, jos ainakin toisessa polvessa luokittelu Kellgrenin ja Lawrencen mukaan oli luokka 2 tai enemmän, Ahlbäckin mukaan luokka 1 tai enemmän ja Pipernon mukaan luokka 2 tai enemmän. Radiologisista luokitteluista tai diagnooseista ei lääkäreillä ollut tietoa. Tutkijan sisäisen toistettavuuden kappa-arvot eri luokitteluissa vaihtelivat välillä 0.45–0.74 (Ahlbäck 0.45, Kellgren & Lawrence 0.61 ja Piperno 0.74) ja vastaavasti tutkijoiden välisen toistettavuuden kappa-arvot välillä 0.26–0.48 riippuen käytetystä luokittelumetodista (Ahlbäck 0.34, Kellgren & Lawrence 0.48 ja Piperno 0.26).

Polven kliinisen nivelrikkodiagnoosin ja Kellgrenin ja Lawrencen luokittelun mukaan asetetun radiologisen diagnoosin välinen yhtäpitävyys kappa-arvona (nivelrikko vähintään toisessa polvessa, tekonivelpotilaat laskettu nivelrikkopotilaina mukaan molemmissa ryhmissä) oli 0.57 (maksimikappa 0.79, saadun kapan %-osuus maksimista 71.2 ja 95 % luottamusväli 0.38–0.75).Vastaavasti kliinisen diagnoosin ja Ahlbäckin luokittelun mukaisen diagnoosin yhtäpitävyys oli kappa-arvona 0.38 (maksimi 0.75, %-osuus 48.1, luottamusväli 0.17–0.59). Kliinisen diagnoosin ja Pipernon luokittelun mukaisen diagnoosin yhtäpitävyys oli kappa-arvona 0.38 (maksimi 0.67, %-osuus 56.5, luottamusväli 0.18–0.57).

 • Tutkimuksen laatu: tasokas
 • Sovellettavuus suomalaiseen väestöön: hyvä

Kirjallisuutta

 1. Sun Y, Günther KP, Brenner H. Reliability of radiographic grading of osteoarthritis of the hip and knee. Scand J Rheumatol 1997;26(3):155-65. «PMID: 9225869»PubMed
 2. Reijman M, Hazes JM, Koes BW ym. Validity, reliability, and applicability of seven definitions of hip osteoarthritis used in epidemiological studies: a systematic appraisal. Ann Rheum Dis 2004;63(3):226-32. «PMID: 14962953»PubMed
 3. Reijman M, Hazes JM, Pols HA ym. Validity and reliability of three definitions of hip osteoarthritis: cross sectional and longitudinal approach. Ann Rheum Dis 2004;63(11):1427-33. «PMID: 15479891»PubMed
 4. Günther KP, Sun Y. Reliability of radiographic assessment in hip and knee osteoarthritis. Osteoarthritis Cartilage 1999;7(2):239-46. «PMID: 10222223»PubMed
 5. Galli M, De Santis V, Tafuro L. Reliability of the Ahlbäck classification of knee osteoarthritis. Osteoarthritis Cartilage 2003;11(8):580-4. «PMID: 12880580»PubMed
 6. Toivanen AT, Arokoski JP, Manninen PS ym. Agreement between clinical and radiological methods of diagnosing knee osteoarthritis. Scand J Rheumatol 2007;36(1):58-63. «PMID: 17454937»PubMed