O colecție de noi studii asupra activității genice arată că instrumentele AI nu sunt foarte bune.
Activitatea genică pare să rămână dincolo de abilitățile AI în acest moment. Credit: Bsip
Biologia este un domeniu al științei în care abordările AI și de învățare automată au văzut unele succese spectaculoase, cum ar fi proiectarea Enzime pentru a digera materialele plastice și proteine la Blocați veninul de șarpe. Dar, într -o epocă a AI aparent nesfârșită, ar putea fi ușor să ne gândim că am putea doar să ne dezvăluim AI pe movile de date pe care le -am generat deja și să ajungem la o bună înțelegere a majorității domeniilor biologiei, permițându -ne să omitem o mulțime de experimente dezordonate și neplăcerea cercetării asupra animalelor.
Dar biologia implică mult mai mult decât simple structuri proteice. Și este extrem de prematur să sugerezi că AI poate fi la fel de eficient pentru a gestiona toate aspectele biologiei. Așadar, am fost intrigați să vedem un studiu care compară un set de pachete software AI concepute pentru a prezice cât de active vor fi genele în celulele expuse la diferite condiții. După cum se dovedește, sistemele AI nu reușesc să facă mai bine decât o metodă simplificată în mod deliberat de a prezice.
Rezultatele servesc ca o precauție utilă că biologia este incredibil de complexă, iar dezvoltarea sistemelor AI care funcționează pentru un aspect al acesteia nu este un indiciu că pot lucra în general pentru biologie.
AI și activitate genică
Studiul a fost realizat de un trio de cercetători cu sediul în Heidelberg: Constantin Ahlmann-Eltze, Wolfgang Huber și Simon Anders. Ei observă că o mână de studii suplimentare au fost lansate în timp ce munca lor a fost pe un server pre-imprimeu, toate ajungând la aproximativ aceleași concluzii. Dar abordarea acestor autori este destul de ușor de înțeles, așa că o vom folosi ca exemplu.
Software -ul AI au examinat încercările de a prezice modificări ale activității genelor. În timp ce fiecare celulă poartă copii ale celor aproximativ 20.000 de gene din genomul uman, nu toate sunt active într -o celulă dată – „activ” în acest caz, ceea ce înseamnă că produc ARN -uri de mesagerie. Unii oferă o funcție esențială și sunt activi la niveluri ridicate în orice moment. Alții sunt activi doar în anumite tipuri de celule, cum ar fi nervii sau pielea. Altele sunt activate în condiții specifice, cum ar fi oxigen scăzut sau temperaturi ridicate.
De -a lungul anilor, am făcut multe studii care examinează activitatea fiecărei gene într -un anumit tip de celulă în condiții diferite. Aceste studii pot varia de la utilizarea cipurilor de gene pentru a determina care ARN -uri de mesagerie sunt prezente într -o populație de celule până la secvențarea ARN -urilor izolate din celule unice și folosind aceste date pentru a identifica care gene sunt active. Dar colectiv, acestea pot oferi o imagine largă, dacă este incompletă, care leagă activitatea genelor cu circumstanțe biologice diferite. Este o imagine pe care o puteți folosi pentru a antrena o AI care ar face predicții despre activitatea genelor în condiții care nu au fost testate.
Ahlmann-Eltze, Huber și Anders au testat un set de ceea ce se numesc modele de fundație cu o singură celulă care au fost instruite pe acest tip de date despre activitatea genelor. Porțiunea „celulă unică” indică faptul că aceste modele au fost instruite pentru activitatea genică obținută din celulele individuale, mai degrabă decât o medie a populației de tip de celule. Modelele de fundație înseamnă că au fost instruiți pe o gamă largă de date, dar vor necesita o pregătire suplimentară înainte de a fi implementate pentru o sarcină specifică.
Performanță subacorentă
Sarcina în acest caz este să prezice modul în care activitatea genei s -ar putea schimba atunci când genele sunt modificate. Când o genă individuală este pierdută sau activată, este posibil ca singurul ARN Mesager care este modificat să fie cel realizat de acea genă. Dar unele gene codifică proteine care reglează o colecție de alte gene, caz în care s -ar putea să vedeți schimbări în activitatea a zeci de gene. În alte cazuri, pierderea sau activarea unei gene ar putea afecta metabolismul unei celule, ceea ce duce la modificări pe scară largă ale activității genelor.
Lucrurile se complică și mai mult atunci când sunt implicate două gene. În multe cazuri, genele vor face lucruri fără legătură și veți obține un efect aditiv simplu: schimbările cauzate de pierderea unuia, plus schimbările cauzate de pierderea altora. Dar dacă există o anumită suprapunere între funcții, puteți obține o îmbunătățire a unor modificări, suprimarea altora și alte schimbări neașteptate.
Pentru a începe să exploreze aceste efecte, cercetătorii au modificat în mod intenționat activitatea uneia sau mai multor gene folosind tehnologia de editare a ADN -ului CRISPR, apoi au secvențiat fiecare ARN în celulă ulterior pentru a vedea ce fel de schimbări au avut loc. Această abordare (denumită perturb-seq) este utilă, deoarece ne poate oferi un sentiment al ceea ce face gena modificată într-o celulă. Dar pentru Ahlmann-Eltze, Huber și Anders, oferă datele de care au nevoie pentru a determina dacă aceste modele de fundație pot fi instruite pentru a prezice schimbările care au urmat activitatea altor gene.
Începând cu modelele de fundație, cercetătorii au efectuat o pregătire suplimentară folosind date dintr -un experiment în care una sau două gene au fost activate folosind CRISPR. Acest antrenament a utilizat datele de la 100 de activări ale genelor individuale și alte 62 unde au fost activate două gene. Apoi, pachetele AI au fost solicitate să prezică rezultatele pentru alte 62 de perechi de gene care au fost activate. Pentru comparație, cercetătorii au făcut, de asemenea, predicții folosind două modele extrem de simple: unul care a prezis întotdeauna că nimic nu se va schimba și o secundă care a prezis întotdeauna un efect aditiv (ceea ce înseamnă că activarea genelor A și B ar produce modificările cauzate de activarea A plus modificările cauzate de activarea B).
Nu au funcționat. „Toate modelele au avut o eroare de predicție substanțial mai mare decât valoarea de bază aditivă”, au concluzionat cercetătorii. Rezultatul a avut loc atunci când cercetătorii au folosit măsurători alternative ale exactității predicțiilor AI.
Problema problemei părea să fie că modelele de fundație instruite nu erau foarte bune să prezice atunci când modificările perechilor de gene ar produce modele complexe de modificări – atunci când modificarea unei gene sinergizate cu modificarea unei secunde. „Modelele de învățare profundă au prezis rareori interacțiuni sinergice și a fost și mai rar faptul că aceste predicții erau corecte”, au concluzionat cercetătorii. Într -un test separat care se uita în mod specific la aceste sinergii între gene, s -a dovedit că niciunul dintre modele nu a fost mai bun decât sistemul simplificat care nu a prezis întotdeauna modificări.
Încă nu acolo
Concluziile generale ale lucrării sunt destul de clare. „Întrucât liniile noastre de bază simple în mod deliberat sunt incapabile să reprezinte complexitatea biologică realistă, dar nu au fost depășite de modelele de fundație”, scriu cercetătorii, „concluzionăm că scopul acestuia din urmă de a oferi o reprezentare generalizabilă a statelor celulare și de a prezice rezultatul experimentelor care nu sunt încă, încă nu sunt încă evazive”.
Este important să subliniem că „încă evaziv” nu înseamnă că suntem incapabili să dezvoltăm vreodată o AI care să vă ajute cu această problemă. De asemenea, nu înseamnă că acest lucru se aplică tuturor stărilor celulare (rezultatele sunt specifice activității genice), cu atât mai puțin toată biologia. În același timp, lucrarea oferă o precauție valoroasă într -un moment în care există mult entuziasm pentru ideea că succesul AI în câteva domenii înseamnă că suntem pe cuspul unei lumi în care poate fi aplicat la orice.
Metode de natură, 2025. DOI: 10.1038/s41592-025-02772-6 (Despre Dois)
John este editorul științific al ARS Technica. Are un licențiat în arte în biochimie de la Universitatea Columbia și un doctorat. în biologie moleculară și celulară de la Universitatea din California, Berkeley. Când se desparte fizic de tastatura sa, el tinde să caute o bicicletă sau o locație pitorească pentru comunicarea cu cizmele sale de drumeție.