Cochrane-katsaukseen «Randall M, Egberts KJ, Samtani A ym. Diagnostic te...»1 (Randall ym, 2018) on koottu julkaisut heinäkuussa 2016 seuraavalla valintaperusteella: Kootut tutkimukset kuvaavat diagnostisen testin tarkkuutta jonkin seuraavan diagnostisen työkalun osalta: Autismikirjon diagnostinen haastattelu (ADI-R), Gilliam Autism Rating Scale (GARS), Autismikirjon diagnostinen haastattelu (DISCO), Erotteludiagnostinen haastattelu (3di), Autismikirjon havainnointitutkimus (ADOS) ja autismin arviointiasteikko (CARS). Tutkittaville tehtiin autismikirjon diagnosoimiseksi moniammatillinen arvio, jota käytettiin katsauksessa tutkittavan testin vertailukohtana.
Cochrane-katsauksessa oli mukana 21 analyysiä 13 julkaisusta, yhteensä 2 900 lasta. Selkeimmät tulokset saatiin kolmesta arviointimenetelmästä: ADOS (moduulit 1 ja 2), CARS ja ADI-R. Muiden menetelmien osalta tutkimuksia oli liian vähän ja ne olivat liian pieniä johtopäätösten tekemiseen, ja siksi niiden tuloksia ei tässä analysoitu.
Tutkittavat lapset (n = 2 900) olivat iältään 12 kuukautta – 8 vuotta, keskiarvo alle 6 vuotta. Kahdessa tutkimuksessa tyypillisesti kehittyneet lapset jätettiin pois analyyseistä. Kaikissa 21 tutkimuksessa lapsilla oli samanaikainen kielen kehityksen, kokonaiskehityksen tai molempien viive. Yhdeksässä analyysissä osalla lapsista oli kehitysvamma tai psykiatrinen häiriö (ADHD, ahdistuneisuus tai kiintymyssuhdehäiriö).
Cochrane-katsauksen «Randall M, Egberts KJ, Samtani A ym. Diagnostic te...»1 yhteenvetotaulukossa «https://www.cochranelibrary.com/cdsr/doi/10.1002/14651858.CD009044.pub2/full#CD009044-sec-0029»1 on kuvattu ADOS-, CARS- ja ADI-R-tutkimusten pätevyys autismikirjon häiriön diagnostiikassa alle kouluikäisillä lapsilla.
Tässä katsauksessa on mukana ADOS-moduuleista 1 ja 2 tehdyt 12 tutkimusta, joissa mukana oli 1 625 lasta. ADOSin herkkyys vaihteli 0,76:sta 0,98:aan ja spesifisyys vaihteli 0,20:stä 1,00:aan. Yhdistetty sensitiivisyys oli 0,94 (95 % luottamusväli 0,89–0,97) ja spesifisyys 0,80 (95 % luottamusväli 0,68–0,88).
CARS oli mukana neljässä analyysissä, joissa oli mukana 641 lasta. CARSin sensitiivisyys oli 0,66–0,89 ja spesifisyys 0,21–1,00. Yhdistetty sensitiivisyys oli 0,80 (95 % luottamusväli 0,61–0,91) ja yhdistetty spesifisyys 0,88 (95 % luottamusväli 0,64–0,96).
ADI-R oli mukana viidessä analyysissä, joissa oli 634 lasta. ADI-R:n sensitiivisyys oli 0,19–0,75 ja spesifisyys vastaavasti 0,63–1,00. Yhdistetty sensitiivisyys oli 0,52 (95 % luottamusväli 0,32–0,71) ja spesifisyys 0,84 (95 % luottamusväli 0,61–0,95).
Harhan riski: Harhan riskiä arvioitiin käyttäen QUADAS-2-menetelmää. Vain yhdessä tutkimuksista (CARS) harhan riski oli pieni kaikilla osa-alueilla (potilasvalinta, indeksitesti ja vertailustandardi, tutkimuksen kulku ja ajoitus). Yhdessäkään ADOS-tutkimuksessa harhan riski ei ollut pieni kaikilla osa-alueilla, mutta yhdessä epäselvän riskin tutkimuksessa harhan riski oli pieni kolmella osa-alueella (potilasvalinta, indeksitesti ja vertailustandardi) ja epävarma tai epäselvä riski liittyi tutkimuksen kulkuun ja ajoitukseen. Suurin harhan lähde tutkimuksissa oli sokkoutuksen puute indeksitestin ja referenssinä käytetyn moniammatillisessa tiimissä annetun diagnoosin välillä. Joissakin tutkimuksissa tutkittava testi toteutettiin osana vertailtavaa diagnostista prosessia. Nämä kaksi tekijää aiheuttavat suuren harhan riskin tutkimuksille, koska ne mahdollisesti vaikuttavat tutkittavan testin saamaan sensitiivisyyteen ja spesifisyyteen. Lisäksi 29 %:ssa tutkimuksista julkaisun kirjoittajalla oli mahdollinen eturistiriita. ADOSille ja CARSille tehty sensitiivisyysanalyysi osoittaa, että tutkittu menetelmä on altis harhan riskille, koska laskennallinen spesifisyys oli pienempi niissä tutkimuksissa, joissa harhan riski oli arvioitu pieneksi.
Yhteenveto: Cochrane-tutkijat havaitsivat merkittävää vaihtelua kaikkien testien herkkyydessä ja tarkkuudessa, mikä johtui todennäköisesti metodologisista eroista ja rekrytoitujen väestöryhmien kliinisten ominaisuuksien vaihtelusta. Kun vertailtiin ADOSin, CARSin ja ADI-R:n yhteenvetotilastoja, havaittiin, että ADOS oli herkin. Kaikkien kolmen arviointivälineen tarkkuudessa ei havaittu eroja. Yhdessä julkaisussa tarkasteltiin ADI-R:n käyttöä yhdessä ADOSin kanssa ja todettiin, että molempien työkalujen käyttö yhdessä ei ollut sen tarkempaa kuin pelkän ADOS:n käyttö.
Katsauksessa esitetyt havainnot viittaavat siihen, että ADOS on pätevin autismikirjon häiriötä diagnosoiva arviointimenetelmä, koska riski vääriin positiivisiin tuloksiin on suhteellisen pieni. ADOSilla on hyväksyttävä tarkkuus väestöryhmissä, joissa autismikirjon esiintyvyys on suuri. Ylidiagnosointi on kuitenkin todennäköistä, jos ADOS-menetelmää käytetään väestössä, joissa autismikirjon esiintyvyys on pieni.
Kommentti: Tässä tutkimuksessa oli mukana vain alle kouluikäisiä lapsia, joilla oli myös kielen kehityksen tai kokonaiskehityksen viive. Tyttöjen osuutta ei raportoitu. Tutkimuksessa on käytetty vanhaa versiota CARS-havainnoinnista. ADOS-havainnoinnin osalta tässä ei ole käytetty uutta ADOS-2-versiota. Menetelmiä ei ole validoitu suomalaisella aineistolla.
Tulosten luotettavuutta heikentää suuri harhan riski miltei kaikissa tutkimuksissa.
Tämän katsauksen tulos tukee nykyistä suositeltua käytäntöä, jonka mukaan autismikirjon diagnostiikkatyökaluja käytetään osana monialaista arviointia eikä erillisenä diagnostiikkavälineenä.
Falkmerin ym. (2013) systemoidussa katsauksessa «Falkmer T, Anderson K, Falkmer M ym. Diagnostic pr...»2 tavoite oli selvittää, mikä tai mitkä diagnostiset välineet soveltuvat parhaiten autismikirjon diagnostisiksi välineiksi. Tutkimusta varten käytiin läpi julkaisut ajalta 2000 – tammikuu 2012. Mukaan otettiin kohorttitutkimuksia, poikkileikkaustutkimuksia, satunnaistettuja tutkimuksia tai tapaus-verrokkitutkimuksia.
Tutkimuksiin osallistuneet olivat iältään 12 kuukautta – 55 vuotta.
Jos tutkimusvälineestä oli tehty alle 2 tutkimusta, arvioitiin näytön olevan riittämätön välineen luotettavuuden arvioimiseen. Tämän perusteella kolmen instrumentin kohdalla näytön arvioitiin olevan riittävä sen luotettavuuden arvioimiseen: CARS (8 tutkimusta, n = 1 889), ADI-R (11 tutkimusta, n = 2 546) ja ADOS (5 tutkimusta, n = 3 786). Diagnostisten välineiden sisäinen johdonmukaisuus, pysyvyys, arvioitsijoiden välinen toistettavuus ja tutkimuskertojen välinen toistettavuus analysoitiin ja niiden keskiarvosta laskettiin lukuarvo kuvaamaan, kuinka hyvin välineen ajateltiin erottelevan autismi- tai autismikirjodiagnoosia verrattuna moniammatillisen tiimin tekemään arvioon.
CARS erotteli parhaiten sekä autismia (0,86) että autismikirjon diagnooseja (0,81). ADOSin vastaava laskennallinen lukuarvo oli 0,80, ADI-R:n 0,85 yli 3-vuotiaille ja 0,78 alle 3-vuotiaille. Kolmessa tutkimuksessa, joissa yhdistettiin ADI-R ja ADOS, vastaava autismia erotteleva lukuarvo oli 0,88 alle 3-vuotiailla ja 0,84 3-vuotiailla ja sitä vanhemmilla. Autismikirjon häiriön diagnoosissa ADOS yhdistettynä ADI-R:ään saavutti erottelevan lukuarvon 0,80, mikä oli suurempi kuin kummallakaan tutkimuksella yksin.
Kommentti: Tutkijoiden mukaan moniammatillinen tutkimus, joka sisältää strukturoidun arviointimenetelmän, muodostaa autismikirjon diagnostiikassa niin kutsutun kultaisen standardin. Tutkimusmenetelmistä tutkijat suosittelevat ADI-R- ja ADOS-tutkimuksen yhdistämistä.
Meta-analyysissä oli saatavilla niukalti tietoa mukaan otetuista tutkimuksista. Suuri harhan riski tutkimuksissa heikentää niiden luotettavuutta.
Lebersfeldin ym. (2021) systemaattisessa katsauksessa ja meta-analyysissä «Lebersfeld JB, Swanson M, Clesi CD ym. Systematic ...»3 tutkittiin ADOSin ja ADI-R:n pätevyyttä diagnostisena välineenä. Lisäksi tutkittiin menetelmän pätevyyttä kliinisessä tutkimusasetelmassa verrattuna tutkimusta varten luotuun tutkimusasetelmaan. Arviointiin hyväksyttiin vertaisarvioidut alkuperäistutkimukset, joissa käytettiin prospektiivista, retrospektiivista poikittais- tai pitkittäistutkimuksen tutkimusasetelmaa. Haku tehtiin syyskuussa 2018. Tähän meta-analyysiin soveltuviksi katsottiin sellaiset tutkimukset, joissa käytettiin joko molempia tai toista ADI-R- ja ADOS-2-menetelmää ensimmäisenä tutkimusmenetelmänä joko kliinisessä tutkimusasetelmassa tai tutkimusta varten rakennetussa tutkimusasetelmassa. Mukana oli 14 tutkimusta ADOS-2-arvioinnista (n = 3 584) ja 13 tutkimusta ADI-R-arvioinnista (n = 3 876) (yhteensä 22 tutkimusta).
Tutkittavat olivat iältään 15 kuukautta – 14 vuotta (keskiarvo).
Tutkimuksessa verrattiin ADOS- ja ADI-R-tutkimuksen tulosta kattavassa autismikirjon diagnostisessa arvioinnissa yhteisymmärryksessä toteutettuun arvioon (autismikirjo vs. ei-autismikirjoa). Vertailuarvion piti sisältää ADOS-havainnointitutkimus ja jokin autismikirjoon kohdennettu kliininen haastattelu. Niissä tutkimuksissa, joissa ADOS-2 oli tutkittu menetelmä, ei edellytetty ADI-R-haastattelun mukana olemista osana arviointia, vaan jokin muukin autismikirjon kliininen haastattelu oli hyväksyttävä. Niissä tutkimuksissa, joissa ADI-R oli tutkittu testimenetelmä, edellytettiin ADOS-tutkimusta osana arviointiprosessia.
Tilastolliset analyysit tehtiin erikseen ADOS-2 ja ADI-R suhteen. Tutkimusasetelman (kliininen tutkimus, tai rakennettu tutkimusympäristö tai molemmat) vaikutusta diagnostisen testin pätevyyteen tutkittiin käyttämällä HSROC-mallia. Tutkimustulokset piirrettiin graafisesti HSROC-kuvioon ja tarkistettiin mahdolliset poikkeavat havainnot. ADOS-2-analyysien osalta poikkeavan pieni spesifisyys oli yhdessä tutkimuksessa, jossa useilla tutkittavilla oli vaikeita kehityksellisiä ja käyttäytymisen haasteita. ADI-R-tutkimusten osalta ei ollut poikkeavia havaintoja.
ADOS-2-tutkimuksen sensitiivisyys oli 0,89–0,92 ja spesifisyys 0,81–0,85. Kun vertailtiin kliinisissä olosuhteissa tehtyjen ja tutkimusasetelmassa tehtyjen tutkimusten ADOS-2:n tuloksia, todettiin, että ADOS-2:n herkkyys säilyy suhteellisen vakaana asetelmasta riippumatta, mutta spesifisyydessä oli vaihtelua. Poikkeavan havainnon (jossa useilla tutkittavilla oli vaikeita kehityksellisiä ja käyttäytymisen haasteita) jättäminen pois analyyseistä ei vaikuttanut juurikaan sensitiivisyyteen, mutta nosti kliinisessä tutkimusasetelmassa spesifisyyden 0,80:sta 0,90:een.
ADI-R:n yhdistetty sensitiivisyys oli 0,75, spesifisyys oli 0,82, ja tutkimusten välillä oli suurta vaihtelua (sensitiivisyys = 0,33–1,00, spesifisyys = 0,61–1,00). Kliinisessä ja tutkimusasetelmassa tulokset vastasivat toisiaan sensitiivisyyden osalta (kliinisessä tutkimusasetelmassa yhdistetty sensitiivisyys = 0,71; tutkimusta varten rakennetussa asetelmassa vastaavasti = 0,73). Spesifisyys oli suurempi tutkimusasetelmassa (0,85) verrattuna kliiniseen aineistoon (0,72).
Yhteenvetona tutkijat toteavat, että tämän systemaattisen katsauksen perusteella ADOS-2 on pätevämpi diagnostisena välineenä kuin ADI-R kliinisissä aineistoissa. ADOS-2:n osalta sensitiivisyys ja spesifisyys säilyivät suhteellisen vakaina asetelmasta riippumatta, ja tutkijat suosittelevat sitä diagnostisena välineenä autismikirjon diagnostisessa prosessissa. Siitä huolimatta on huomioitava, että diagnostiset tutkimukset voivat olla vähemmän luotettavia kliinisessä asetelmassa kuin tutkimusasetelmassa.
Harhan riski: Harhan riskiä ja soveltuvuutta arvioitiin käyttäen QUADAS-2-välinettä soveltuvilta osin. Harhan riski oli epäselvä tai suuri 12:ssa 22:sta tutkimuksesta (54 %). Verrokkina käytetyn menetelmän riski arvioitiin epäselväksi tai suureksi kaikissa tutkimuksissa. Tämä johtui ensisijaisesti siitä, että kliinikko tiesi arvioitavana olevan testin tuloksen ennen kuin verrokkina toimiva arvio toteutettiin (sokkoutus). Harhan riski oli pieni tutkittavana olevien testien, tutkimuksen kulun ja ajoituksen sekä tulosten sovellettavuuden osalta.
Kommentti: Meta-analyysiä varten tunnistettiin vain pieni määrä kliinisessä aineistossa toteutettuja tutkimuksia. Jatkossa tarvitaan lisää tutkimusta kliinisessä aineistossa. Tämän tutkimuksen tuloksia sovellettaessa on otettava huomioon myös diagnostisten kriteerien muutos. ADI-R-haastattelua ei ole vielä muokattu uusien diagnostisten kriteerin (DSM-5) mukaiseksi, kun taas ADOS-2-tutkimus on päivitetty niiden mukaiseksi (mm. vaikeusasteeltaan lievän autismikirjon häiriön huomioiminen). Tutkimuksista ei käy ilmi tutkittavien sukupuolijakauma.
Tulosten luotettavuutta heikentää epäselvä tai suuri harhan riski 54 %:ssa tutkimuksista.
Moonin ym. (2019) systemaattinen katsaus ja meta-analyysi «Moon SJ, Hwang JS, Shin AL ym. Accuracy of the Chi...»4 arvioi CARS-asteikon luotettavuutta ja pätevyyttä autismikirjon arvioinnissa. Arvioitavana oli CARS 2 perusmuodossaan ja CARS 2-HF -versio, joka on suunniteltu kielellisesti taitavien yli 6-vuotiaiden lasten, joilla ÄO on vähintään 80, arviointiin. CARSin (rajana yli 30 pistettä) tulosta verrattiin DSM-luokittelun mukaan autismikirjon diagnostiset kriteerit täyttäviin.
Meta-analyysiin koottiin tutkimukset, joissa oli arvioitu CARS-versioiden luotettavuus autismikirjon oireiden tunnistamisessa. Tieto kerättiin MEDLINE-, CINAHL-, PsycINFO-, Embase- ja OpenDissertations-tietokannoista. Mukana oli 24 tutkimusta vuosina 1989–2017 julkaistuista lehtiartikkeleista. CARS-arvioinnin toteutti joko psykiatri, psykologi tai heidän muodostamansa tiimi.
Mukana oli yhteensä 4 433 osallistujaa. 24 tutkimuksesta 13 tutkimuksen mukana olleiden keski-ikä oli vähintään 6 vuotta, yhdeksän tutkimuksen keski-ikä oli alle 6 vuotta, ja kahdessa tutkimuksessa näitä tietoja ei ollut. Naispuolisten osallistujien osuus oli vähintään 20 prosenttia puolessa tutkimuksista.
Harhan riskiä arvioitiin QUADAS-2-menetelmän avulla. Kahdessa tutkimuksessa arvioitiin harhan riskin olevan pieni. Näissä tutkimuksissa CARS-menetelmän herkkyys oli 0,86 ja 0,71 ja tarkkuus 0,79 ja 0,75.
Kommentti: CARS-menetelmä ei ole saatavilla Suomessa tällä hetkellä. CARS-menetelmän herkkyyden katsottiin olevan hyväksyttävä, kun taas tarkkuus arvioitiin heikommaksi. Tämän pääteltiin viittaavan siihen, että CARS-arviointia olisi käytettävä yhdessä muiden arviointivälineiden kanssa.