ΦΑΚΕΛΛΟΣ "ΙΟΛΟΓΙΑ": Η Κρίση της Αναπαραγωγιμότητας στη Γονιδιωματική
Μετάφραση: Απολλόδωρος
24 Οκτωβρίου 2021 | Mike Stone, ViroLIEgy | Διαβάστε το εδώ
Είναι γνωστό τουλάχιστον από το 2005 ότι ένα μεγάλο μέρος της επιστημονικής βιβλιογραφίας που δημοσιεύεται είναι θεμελιωδώς ελαττωματικό, μη αναπαραγώγιμο και/ή εντελώς απατηλό. Όσον αφορά την (ψευδο)επιστήμη της ιολογίας, η κρίση αυτή επεκτείνεται στις τεχνικές καλλιέργειας κυττάρων που χρησιμοποιούνται για την "απομόνωση" του "ιού", καθώς και στα θεωρητικά αντισώματα που χρησιμοποιούνται ως έμμεση μέθοδος ταυτοποίησής τους. Ένας άλλος τομέας που συνδέεται στενά με την ιολογία είναι η γονιδιωματική, εξ ου και όλη η συζήτηση για τα γονιδιώματα και τις παραλλαγές τελευταία με το "SARS-COV-2". Όπως και κάθε άλλος τομέας γύρω από τη ιολογία, έτσι και η γονιδιωματική είναι μπλεγμένη σε μια κρίση αναπαραγωγιμότητας. Έχω παραθέσει στιγμιότυπα από μερικές μελέτες/άρθρα που βοηθούν να αποτυπωθεί το εύρος αυτού του προβλήματος.
Αυτό το πρώτο σημείο είναι από μια έκθεση για τη συνάντηση Bio-IT World Asia, Marina Bay Sands, Σιγκαπούρη, 6-8 Ιουνίου 2012. Πρόκειται για ένα σύντομο απόσπασμα που αναφέρει ότι η πρόσβαση σε δεδομένα, εργαλεία και προσβασιμότητα σε υπολογιστικές προσεγγίσεις που βασίζονται σε δεδομένα δεν έχει συμβαδίσει με την αυξημένη ανάγκη για αυτούς τους πόρους στη γονιδιωματική. Αυτό έχει επισημανθεί ως παράγοντας της κρίσης αναπαραγωγιμότητας. Παρέθεσα αυτή την πηγή για να δείξω ότι το πρόβλημα της αναπαραγωγιμότητας στη γονιδιωματική ειδικά ήταν γνωστό ήδη από το 2012, αν και θα μπορούσε να υποστηριχθεί ότι ήταν γνωστό από το 2005, όταν ο Γιάννης Ιωαννίδης έθεσε για πρώτη φορά αυτό το ζήτημα στο δοκίμιό του "Why Most Published Research Findings Are False" (Γιατί τα περισσότερα δημοσιευμένα ερευνητικά ευρήματα είναι ψευδή) το 2005. (https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124):
H Ανατολική (Ασία) γονιδιωματική υπόσχεται
"Από τα πολλά κρίσιμα ζητήματα που προκύπτουν από το πλούσιο σε δεδομένα σύμπαν στο οποίο βρισκόμαστε σήμερα, ο James Taylor (Πανεπιστήμιο Emory) εστίασε την ομιλία του σε αυτό που αισθάνεται ότι είναι η κύρια κρίση στην αναπαραγωγιμότητα της γονιδιωματικής έρευνας. Με τις επιστήμες της ζωής να εξαρτώνται όλο και περισσότερο από υπολογιστικές προσεγγίσεις και προσεγγίσεις που βασίζονται σε δεδομένα, η πρόσβαση στα υποστηρικτικά δεδομένα και εργαλεία και η προσβασιμότητα στη χρήση υπολογιστικών πόρων δεν έχει συμβαδίσει με αυτές."
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3491378/
Τον Ιούνιο του 2015 κυκλοφόρησε ένα άρθρο του Roger D. Peng, αναπληρωτή καθηγητή βιοστατιστικής στη Σχολή Δημόσιας Υγείας Bloomberg του Johns Hopkins, το οποίο αναλύει την κρίση αναπαραγωγιμότητας στην επιστήμη. Δίνει μια εξαιρετική επισκόπηση της κρίσης της αναπαραγωγιμότητας σε όλη την επιστήμη, ωστόσο υπογραμμίζει μερικές προβληματικές περιοχές στη γονιδιωματική ειδικά. Η πρώτη είναι η έλλειψη λογισμικού για την αναπαραγωγική εκτέλεση και κοινοποίηση της ανάλυσης δεδομένων. Ο δεύτερος είναι ότι τα δεδομένα που απαιτούνται για την επιτυχή αναπαραγωγή των αποτελεσμάτων της γονιδιωματικής δεν είναι πάντα διαθέσιμα. Ο Peng υποστηρίζει ότι, ειδικά σε τομείς όπου τα υπολογιστικά δεδομένα είναι απαραίτητη προϋπόθεση (π.χ. γονιδιωματική), η αναπαραγωγιμότητα είναι ο μόνος τρόπος με τον οποίο ένας ερευνητής μπορεί να εγγυηθεί ότι η εργασία του είναι ακριβής:
Η κρίση της αναπαραγωγιμότητας στην επιστήμη
Καθιστώντας την έρευνα αναπαραγώγιμη
"Υπάρχουν δύο σημαντικά στοιχεία για μια αναπαραγώγιμη μελέτη: τα ακατέργαστα δεδομένα από το πείραμα είναι διαθέσιμα και ο στατιστικός κώδικας και η τεκμηρίωση για την αναπαραγωγή της ανάλυσης είναι επίσης διαθέσιμα. Αυτές οι απαιτήσεις υποδεικνύουν ορισμένα από τα προβλήματα που βρίσκονται στην καρδιά της κρίσης της αναπαραγωγιμότητας.
Πρώτον, υπήρξε έλλειψη λογισμικού για την αναπαραγώγιμη εκτέλεση και κοινοποίηση αναλύσεων δεδομένων. Πρόσφατα, έχουν γίνει σημαντικές προσπάθειες για την αντιμετώπιση αυτού του προβλήματος και εργαλεία όπως το knitr, τα σημειωματάρια iPython, το LONI και το Galaxy έχουν σημειώσει σοβαρή πρόοδο.
Δεύτερον, τα δεδομένα από τις δημοσιεύσεις δεν ήταν πάντα διαθέσιμα για επιθεώρηση και επανέλεγχο. Καταβάλλονται σημαντικές προσπάθειες για την ενθάρρυνση της αποκάλυψης των δεδομένων στις δημοσιεύσεις και τη δημιουργία υποδομών για την υποστήριξη αυτής της αποκάλυψης. Πρόσφατες πολιτισμικές αλλαγές στη γονιδιωματική και σε άλλους τομείς οδήγησαν στο να απαιτούν τα περιοδικά τη διαθεσιμότητα των δεδομένων ως προϋπόθεση για τη δημοσίευση και να δημιουργούνται κεντρικές βάσεις δεδομένων, όπως το Gene Expression Omnibus (GEO) του Εθνικού Κέντρου Βιοτεχνολογικών Πληροφοριών των ΗΠΑ, για την κατάθεση δεδομένων που παράγονται από επιστημονικά πειράματα που χρηματοδοτούνται από το δημόσιο.
Θα μπορούσε κανείς να αναρωτηθεί αν η αναπαραγωγιμότητα είναι ένα χρήσιμο πρότυπο. Πράγματι, μπορεί κανείς να προγραμματίσει ασυναρτησίες και να είναι απόλυτα αναπαραγώγιμες. Ωστόσο, σε έρευνες όπου ο υπολογισμός παίζει μεγάλο ρόλο στην εξαγωγή των συμπερασμάτων, η αναπαραγωγιμότητα είναι σημαντική διότι είναι ουσιαστικά το μόνο πράγμα που μπορεί να εγγυηθεί ένας ερευνητής για μια μελέτη. Η αναπαραγωγιμότητα δεν μπορεί να διασφαλιστεί - αυτό το ζήτημα θα διευθετηθεί τελικά από άλλους ανεξάρτητους ερευνητές που θα διεξάγουν τις δικές τους μελέτες και θα καταλήξουν σε παρόμοια ευρήματα. Επιπλέον, πολλές υπολογιστικές έρευνες είναι δύσκολο να περιγραφούν σε παραδοσιακές δημοσιεύσεις σε περιοδικά και ο μόνος τρόπος για να αποκαλυφθεί τι έκανε ένας ερευνητής είναι να εξεταστεί ο κώδικας του υπολογιστή και να εφαρμοστεί στα δεδομένα. Σε μια εποχή όπου τα σύνολα δεδομένων και οι υπολογιστικές αναλύσεις αυξάνονται σε πολυπλοκότητα, η ανάγκη για αναπαραγωγιμότητα αυξάνεται ομοίως".
Δημόσιες παραλείψεις
"Ωστόσο, υπάρχει αυξανόμενη ανησυχία στην επιστημονική κοινότητα σχετικά με τον ρυθμό με τον οποίο οι δημοσιευμένες μελέτες είναι είτε αναπαραγώγιμες είτε αναπαραγώγιμες.
Η ανησυχία αυτή απέκτησε σημαντική απήχηση με ένα στατιστικό επιχείρημα που υποδηλώνει ότι τα περισσότερα δημοσιευμένα επιστημονικά αποτελέσματα μπορεί να είναι ψευδώς θετικά (bit.ly/1PWAhBx). Ταυτόχρονα, υπήρξαν ορισμένες πολύ δημόσιες αποτυχίες αναπαραγωγιμότητας σε μια σειρά επιστημονικών κλάδων, από τη γονιδιωματική του καρκίνου (bit.ly/1PWAC7a), την κλινική ιατρική (bit.ly/1KNc4u6) και τα οικονομικά (bit.ly/1PWBngz), ενώ τα δεδομένα για πολλές δημοσιεύσεις δεν έχουν δημοσιοποιηθεί, εγείροντας αμφιβολίες για την ποιότητα των αναλύσεων των δεδομένων. Τα προβλήματα αυτά επιδεινώνονται από την έλλειψη ευρέως διαθέσιμων και φιλικών προς τον χρήστη εργαλείων για τη διεξαγωγή αναπαραγώγιμων ερευνών.
Ίσως το πιο διαβόητο πρόσφατο παράδειγμα έλλειψης αναπαραγωγιμότητας προέρχεται από το Πανεπιστήμιο Duke, όπου το 2006 μια ομάδα ερευνητών με επικεφαλής τον Anil Potti δημοσίευσε μια εργασία που ισχυριζόταν ότι είχε κατασκευάσει έναν αλγόριθμο χρησιμοποιώντας δεδομένα γονιδιωματικών μικροσυστοιχιών που προέβλεπε ποιοι καρκινοπαθείς θα ανταποκρίνονταν στη χημειοθεραπεία. 1 Η εργασία αυτή τράβηξε άμεση προσοχή, με πολλούς ανεξάρτητους ερευνητές να προσπαθούν να αναπαράγουν τα αποτελέσματά της. Επειδή τα δεδομένα ήταν διαθέσιμα στο κοινό, δύο στατιστικολόγοι του Κέντρου Καρκίνου MD Anderson, ο Keith Baggerly και ο Kevin Coombes, απέκτησαν τα δεδομένα και προσπάθησαν να εφαρμόσουν τους αλγορίθμους των Potti και συνεργατών.2 Αυτό που βρήκαν αντ' αυτού ήταν ένα τέλμα κακώς διεκπεραιωμένων αναλύσεων δεδομένων, με λάθη που κυμαίνονταν από ασήμαντα και περίεργα έως καταστροφικά. Τελικά, οι Baggerly και Coombes κατάφεραν να αναπαράγουν την (λανθασμένη) ανάλυση που διεξήγαγαν οι Potti et al., αλλά μέχρι τότε η ζημιά είχε γίνει. Μόλις το 2011 η αρχική μελέτη αποσύρθηκε από το Nature Medicine".
https://rss.onlinelibrary.wiley.com/doi/pdf/10.1111/j.1740-9713.2015.00827.x
Το 2017 δημοσιεύθηκε μια μελέτη που διερευνούσε την αναπαραγωγιμότητα και την παρακολούθηση της προέλευσης στη γονιδιωματική. Υποστήριξε την υπόθεση ότι η ικανότητα δημιουργίας αλληλουχιών DNA έχει ξεπεράσει την ικανότητα αποθήκευσης και ερμηνείας αυτών των δεδομένων με επιτυχία.
Υπογραμμίζει ότι μια βασική πρόκληση είναι ο τρόπος βελτίωσης της αναπαραγωγιμότητας των γονιδιωματικών πειραμάτων που περιλαμβάνουν πολύπλοκα περιβάλλοντα λογισμικού και μεγάλα σύνολα δεδομένων. Παρέχονται πολλά παραδείγματα που παρουσιάζουν τις δυσκολίες που αντιμετώπισαν διάφοροι ερευνητές με την αναπαραγωγιμότητα λόγω της έλλειψης επαρκών δεδομένων:
Διερεύνηση της αναπαραγωγιμότητας και παρακολούθηση της προέλευσης - Μια μελέτη περίπτωσης γονιδιωματικής ροής εργασίας
"Οι ροές εργασίας της υπολογιστικής βιοπληροφορικής χρησιμοποιούνται εκτενώς για την ανάλυση γονιδιωματικών δεδομένων, με διαφορετικές προσεγγίσεις διαθέσιμες για την υποστήριξη της υλοποίησης και της εκτέλεσης αυτών των ροών εργασίας. Η αναπαραγωγιμότητα είναι μια από τις βασικές αρχές για κάθε επιστημονική ροή εργασίας και παραμένει μια πρόκληση, η οποία δεν αντιμετωπίζεται πλήρως. Αυτό οφείλεται στην ελλιπή κατανόηση των απαιτήσεων αναπαραγωγιμότητας και στις παραδοχές των προσεγγίσεων ορισμού ροών εργασίας".
"Η πρόσφατη ραγδαία εξέλιξη στον τομέα της γονιδιωματικής, η οποία καθοδηγείται από την πρόοδο των τεχνολογιών μαζικής παράλληλης αλληλούχισης του DNA και την υιοθέτηση της γονιδιωματικής ως μηχανισμού για κλινικές γενετικές εξετάσεις, έχουν οδηγήσει σε υψηλές προσδοκίες από τους κλινικούς ιατρούς και τη βιοϊατρική κοινότητα στο σύνολό της όσον αφορά την αξιόπιστη, αναπαραγώγιμη, αποτελεσματική και έγκαιρη χρήση των γονιδιωματικών δεδομένων για την υλοποίηση του οράματος της εξατομικευμένης ιατρικής και της καλύτερης κατανόησης των διαφόρων ασθενειών. Ταυτόχρονα, πρόσφατα αυξήθηκε ο αριθμός των τεχνικών και των πλατφορμών που αναπτύχθηκαν για την υποστήριξη της ανάλυσης των γονιδιωματικών δεδομένων [1]. Οι ροές εργασίας υπολογιστικής βιοπληροφορικής χρησιμοποιούνται εκτενώς σε αυτές τις πλατφόρμες (Σχήμα 1). Συνήθως, μια βιοπληροφορική ανάλυση γονιδιωματικών δεδομένων περιλαμβάνει την επεξεργασία αρχείων μέσω μιας σειράς βημάτων και μετασχηματισμών, που ονομάζεται ροή εργασίας ή αγωγός. Συνήθως, τα βήματα αυτά εκτελούνται με την ανάπτυξη λογισμικού τρίτου μέρους που βασίζεται σε γραφικό περιβάλλον εργασίας ή στη γραμμή εντολών και είναι ικανό να υλοποιεί ισχυρές σωληνώσεις".
"Η αναπαραγωγιμότητα της επιστημονικής έρευνας αποκτά ολοένα και μεγαλύτερη σημασία για την επιστημονική κοινότητα, καθώς η επικύρωση των επιστημονικών ισχυρισμών αποτελεί το πρώτο βήμα για κάθε μεταφραστική προσπάθεια. Τα πρότυπα της υπολογιστικής αναπαραγωγιμότητας είναι ιδιαίτερα σημαντικά σε κλινικά περιβάλλοντα μετά την καθιέρωση προσεγγίσεων αλληλούχισης επόμενης γενιάς (NGS). Έχει καταστεί ζωτικής σημασίας η βελτιστοποίηση της επεξεργασίας και της ανάλυσης των δεδομένων NGS για να συμβαδίζει με τα εκθετικά αυξανόμενα δεδομένα γονιδιωματικής παραγωγής. Η ικανότητα προσδιορισμού αλληλουχιών DNA έχει ξεπεράσει την ικανότητα αποθήκευσης, μετάδοσης και ερμηνείας αυτών των δεδομένων. Ως εκ τούτου, το σημαντικότερο εμπόδιο για την υποστήριξη των πολύπλοκων πειραμάτων που περιλαμβάνουν δεδομένα NGS είναι η επεξεργασία δεδομένων αντί για την παραγωγή δεδομένων. Οι ροές εργασίας υπολογιστικής βιοπληροφορικής που αποτελούνται από διάφορα εργαλεία που δημιουργούνται από την κοινότητα [6] και βιβλιοθήκες [7, 8] αναπτύσσονται συχνά για να αντιμετωπίσουν τη δυσχέρεια της επεξεργασίας δεδομένων.
Παρά τον μεγάλο αριθμό δημοσιευμένης βιβλιογραφίας σχετικά με τη χρήση και τη σημασία των δεδομένων -omics, μόνο λίγα από αυτά έχουν μεταφραστεί σε κλινικές ρυθμίσεις [9]. Η επιτροπή για την ανασκόπηση των δοκιμών που βασίζονται στα -omics για την πρόβλεψη των αποτελεσμάτων των ασθενών σε κλινικές δοκιμές [10] απέδωσε δύο κύριες αιτίες: τον ανεπαρκή σχεδιασμό των προκλινικών μελετών και την ανεπαρκή αυστηρότητα της βιοπληροφορικής, για αυτή την περιορισμένη μετάφραση. Η επιστημονική κοινότητα έχει δώσει ιδιαίτερη προσοχή σε σχέση με τη συγκριτική αξιολόγηση των αναλύσεων -omics για να καθιερωθεί η διαφάνεια και η αναπαραγωγιμότητα των μελετών βιοπληροφορικής [11]. Οι Nekrutenko και Taylor [12] συζήτησαν σημαντικά ζητήματα προσβασιμότητας, ερμηνείας και αναπαραγωγιμότητας για την ανάλυση δεδομένων NGS. Μόνο δέκα από τα 299 άρθρα που ανέφεραν το έργο 1000 Genomes ως πειραματική προσέγγιση χρησιμοποίησαν τα συνιστώμενα εργαλεία και μόνο τέσσερις μελέτες χρησιμοποίησαν την πλήρη ροή εργασίας. Από τα 50 τυχαία επιλεγμένα άρθρα που αναφέρθηκαν στο BWA [13] για το βήμα της ευθυγράμμισης, μόνο επτά μελέτες παρείχαν πλήρεις πληροφορίες σχετικά με τη ρύθμιση των παραμέτρων και την έκδοση του εργαλείου. Η μη διαθεσιμότητα πρωτογενών δεδομένων από δύο μελέτες για τον καρκίνο [14] αποτέλεσε εμπόδιο για την επίτευξη της βιολογικής αναπαραγωγιμότητας των αποτελεσμάτων που ισχυρίστηκαν.
Οι Ioannidis et al. [15] απέδωσαν τη μη διαθεσιμότητα των δεδομένων, του λογισμικού και των λεπτομερειών σχολιασμού ως λόγους μη αναπαραγωγιμότητας των μελετών γονιδιακής έκφρασης με μικροσυστοιχίες. Οι Hothorn et al. [16] διαπίστωσαν ότι μόνο το 11% των άρθρων που διεξάγουν πειράματα προσομοίωσης παρείχαν πρόσβαση τόσο στα δεδομένα όσο και στον κώδικα. Οι συγγραφείς που εξέτασαν 100 δημοσιεύσεις σε περιοδικά βιοπληροφορικής [17] ισχυρίστηκαν ότι μαζί με τις περιγραφές κειμένου, η διαθεσιμότητα έγκυρων δεδομένων και κώδικα για ανάλυση είναι ζωτικής σημασίας για την αναπαραγωγιμότητα των αποτελεσμάτων. Επιπλέον, η πλειονότητα των άρθρων που εξηγούσαν το περιβάλλον του λογισμικού, δεν ανέφεραν λεπτομέρειες για την έκδοση, γεγονός που καθιστούσε δύσκολη την αναπαραγωγή αυτών των μελετών".
Οι Ludäscher κ.ά. [20] εξέτασαν τις κοινές απαιτήσεις κάθε επιστημονικής ροής εργασίας, οι περισσότερες από τις οποίες (όπως η προέλευση δεδομένων, η αξιοπιστία και η ανοχή σε σφάλματα, οι έξυπνες επαναλήψεις και οι έξυπνες σημασιολογικές συνδέσεις) συνδέονται άμεσα με την καταγραφή της προέλευσης. Εκτός από την εξέλιξη της ροής εργασίας [21], η προοπτική (που ορίζεται ως η προδιαγραφή της ροής εργασίας που χρησιμοποιείται σε μια ανάλυση) καθώς και η αναδρομική (που ορίζεται ως το περιβάλλον εκτέλεσης της ροής εργασίας σε μια ανάλυση) προέλευση [22] προσδιορίστηκε ως βασική απαίτηση για κάθε υπολογιστική διαδικασία σε μια ροή εργασίας, προκειμένου να επιτευχθεί η αναπαραγωγιμότητα μιας δημοσιευμένης ανάλυσης και τελικά η λογοδοσία σε περίπτωση ασυνεπειών στα αποτελέσματα. Έχουν προταθεί και υλοποιηθεί διάφορα μοντέλα προέλευσης για την υποστήριξη της αναδρομικής και της προοπτικής προέλευσης [23-25], αλλά αυτά χρησιμοποιούνται σπάνια από WMS που χρησιμοποιούνται σε γονιδιωματικές μελέτες. Παρά τις υψηλές προσδοκίες, διάφορα υπάρχοντα WMS [26-30] δεν διατηρούν πραγματικά όλες τις απαραίτητες πληροφορίες προέλευσης για την υποστήριξη της αναπαραγωγιμότητας - ιδίως στα πρότυπα που θα μπορούσαν να αναμένονται για την κλινική γονιδιωματική.
Η αδυναμία αναπαραγωγής και χρήσης ακριβώς των ίδιων διαδικασιών/ροών εργασίας σημαίνει ότι απαιτείται σημαντική προσπάθεια και χρόνος για την αναπαραγωγή των αποτελεσμάτων που παράγονται από άλλους [12, 16, 17, 31]. Επί του παρόντος, η ενοποίηση των εμπειρογνωμοσύνης και των βέλτιστων πρακτικών που υποστηρίζουν την αναπαραγωγιμότητα δεν είναι ώριμες. Τις περισσότερες φορές, αυτό οφείλεται στην έλλειψη κατανόησης των απαιτήσεων αναπαραγωγιμότητας και στην ελλιπή καταγραφή της προέλευσης που μπορεί να δυσχεράνει την επαναχρησιμοποίηση υφιστάμενης εργασίας από άλλους ερευνητές. Η βιωσιμότητα της κλινικής γονιδιωματικής έρευνας απαιτεί η αναπαραγωγιμότητα των αποτελεσμάτων να συμβαδίζει με την παραγωγή δεδομένων. Εμείς, ως επιστημονική κοινότητα, πρέπει να αντιμετωπίσουμε αυτό το κενό προτείνοντας και εφαρμόζοντας πρακτικές που μπορούν να διασφαλίσουν την αναπαραγωγιμότητα, την επιβεβαίωση και τελικά την επέκταση της υπάρχουσας εργασίας".
Αποτελέσματα και συζήτηση
"Η προσδοκία ότι η επιστήμη πρέπει να είναι αναπαραγώγιμη θεωρείται θεμελιώδης, αλλά συχνά δεν ελέγχεται. Κάθε νέα ανακάλυψη στην επιστήμη βασίζεται στην ήδη γνωστή γνώση, δηλαδή η δημοσιευμένη βιβλιογραφία λειτουργεί ως δομικό στοιχείο για νέα ευρήματα ή ανακαλύψεις. Χρησιμοποιώντας αυτή τη δημοσιευμένη βιβλιογραφία ως βάση, αναπτύσσεται το επόμενο επίπεδο κατανόησης και ως εκ τούτου ο κύκλος συνεχίζεται. Επομένως, αν δεν μπορούμε να αναπαράγουμε την ήδη υπάρχουσα γνώση από τη βιβλιογραφία, σπαταλάμε πολλή προσπάθεια, πόρους και χρόνο κάνοντας ενδεχομένως λανθασμένη επιστήμη [53] με αποτέλεσμα την "κρίση αναπαραγωγιμότητας" [54]. Εάν ένας ερευνητής ισχυρίζεται ότι έχει ένα νέο εύρημα, κάποιος άλλος, που ενδιαφέρεται για τη μελέτη, θα πρέπει να είναι σε θέση να το αναπαράγει. Συσσωρεύονται αναφορές ότι οι περισσότεροι επιστημονικοί ισχυρισμοί δεν είναι αναπαραγώγιμοι, με αποτέλεσμα να αμφισβητείται η αξιοπιστία της επιστήμης και να καθίσταται αμφισβητήσιμη η βιβλιογραφία [55, 56]. Η πραγματική αναπαραγωγιμότητα των πειραμάτων σε διάφορα συστήματα δεν έχει διερευνηθεί αυστηρά και συστηματικά. Για υπολογιστικές εργασίες όπως αυτή που περιγράφεται στο παρόν έγγραφο, η αναπαραγωγιμότητα δεν απαιτεί μόνο βαθιά κατανόηση της επιστήμης αλλά και δεδομένα, μεθόδους, εργαλεία και υπολογιστική υποδομή, καθιστώντας την ένα μη τετριμμένο έργο. Οι προκλήσεις που επιβάλλουν τα δεδομένα γονιδιωματικής μεγάλης κλίμακας απαιτούν σύνθετα περιβάλλοντα υπολογιστικής ροής εργασίας. Μια βασική πρόκληση είναι πώς μπορούμε να βελτιώσουμε την αναπαραγωγιμότητα των πειραμάτων που περιλαμβάνουν πολύπλοκα περιβάλλοντα λογισμικού και μεγάλα σύνολα δεδομένων. Αν και το ερώτημα αυτό αφορά την επιστημονική κοινότητα στο σύνολό της [57], εδώ επικεντρωθήκαμε στις ροές εργασίας γονιδιωματικής.
Η αναπαραγωγιμότητα ενός πειράματος απαιτεί συχνά την αναπαραγωγή του ακριβούς περιβάλλοντος λογισμικού, συμπεριλαμβανομένου του λειτουργικού συστήματος, των βασικών εξαρτήσεων λογισμικού και των ρυθμίσεων διαμόρφωσης υπό τις οποίες διεξήχθη η αρχική ανάλυση. Επιπλέον, οι λεπτομερείς πληροφορίες προέλευσης των απαιτούμενων εκδόσεων λογισμικού και των ρυθμίσεων παραμέτρων που χρησιμοποιούνται για τη ροή εργασίας βοηθούν στην επαναχρησιμοποίηση οποιασδήποτε ροής εργασίας. Η παρακολούθηση της προέλευσης και η αναπαραγωγιμότητα συμβαδίζουν, καθώς τα ίχνη προέλευσης συμβάλλουν στο να καταστεί οποιαδήποτε ερευνητική διαδικασία ελέγξιμη και τα αποτελέσματα επαληθεύσιμα [58]. Οι ροές εργασίας κλήσης παραλλαγών (όπως η μελέτη περίπτωσής μας) οδηγούν σε δεδομένα γενετικών παραλλαγών που χρησιμεύουν για την καλύτερη κατανόηση των ασθενειών όταν μεταφράζονται σε κλινικό περιβάλλον με αποτέλεσμα τη βελτίωση της υγειονομικής περίθαλψης. Λαμβάνοντας υπόψη την κρίσιμη εφαρμογή των παραγόμενων δεδομένων, είναι ασφαλές να δηλωθεί ότι ολόκληρη η διαδικασία που οδηγεί σε τέτοιες βιολογικές κατανοήσεις πρέπει να τεκμηριώνεται συστηματικά για να διασφαλίζεται η αναπαραγωγιμότητα της έρευνας. Ωστόσο, ένα γενικευμένο σύνολο κανόνων και συστάσεων για την επίτευξη αυτού του στόχου εξακολουθεί να αποτελεί μια πρόκληση που πρέπει να αντιμετωπιστεί, καθώς η εφαρμογή της ροής εργασίας, η αποθήκευση, η κοινή χρήση και η επαναχρησιμοποίηση ποικίλλουν σημαντικά ανάλογα με την επιλογή της προσέγγισης και της πλατφόρμας που χρησιμοποιεί ο ερευνητής."
Συμπέρασμα
"Η αναπαραγωγιμότητα των υπολογιστικών γονιδιωματικών μελετών θεωρείται μείζον ζήτημα τον τελευταίο καιρό. Στο πλαίσιο αυτό, χαρακτηρίσαμε τις ροές εργασίας με βάση την προσέγγιση που χρησιμοποιείται για τον ορισμό και την υλοποίησή τους. Για να αξιολογήσουμε τις απαιτήσεις αναπαραγωγιμότητας και προέλευσης, υλοποιήσαμε μια σύνθετη ροή εργασίας για την ανακάλυψη παραλλαγών χρησιμοποιώντας τρεις παραδειγματικές προσεγγίσεις ορισμού ροής εργασίας. Εντοπίσαμε πολυάριθμες σιωπηρές παραδοχές που ερμηνεύτηκαν μέσω της πρακτικής εκτέλεσης της ροής εργασίας, οδηγώντας σε συστάσεις για την αναπαραγωγιμότητα και την προέλευση, όπως φαίνεται στον Πίνακα 1."
doi: 10.1186/s12859-017-1747-0.
Από ένα άρθρο του Μαΐου 2019 του Genetic Literacy Project, συνοψίζεται συνοπτικά μια πρόσφατα δημοσιευμένη έκθεση των Εθνικών Ακαδημιών Επιστημών, Μηχανικής και Ιατρικής, η οποία διαπίστωσε ότι οι επιστήμες εξακολουθούν να είναι γεμάτες από δόλιες, κακοσχεδιασμένες μελέτες με μικρά μεγέθη δείγματος και ωραιοποιημένα ευρήματα:
Κρίση αναπαραγωγιμότητας: Είναι η επιστημονική έρευνα "θεμελιωδώς ελαττωματική";
"Μια νέα έκθεση που κυκλοφόρησε [Μάιος 2019] από τις Εθνικές Ακαδημίες Επιστημών, Μηχανικής και Ιατρικής (National Academies of Sciences, Engineering, and Medicine) δίνει βάρος σε μια αμφιλεγόμενη συζήτηση εντός του επιστημονικού κόσμου: την ιδέα ότι η επιστημονική έρευνα είναι θεμελιωδώς ελαττωματική, γεμάτη με δημοσιευμένα ευρήματα που συχνά δεν μπορούν να αναπαραχθούν ή να αναπαραχθούν από άλλους επιστήμονες, γνωστή και ως κρίση αναπαραγωγιμότητας και αναπαραγωγιμότητας.
Τα κοινά ζητήματα που επισημαίνουν οι εν λόγω επιστήμονες περιλαμβάνουν δόλιες, κακοφτιαγμένες ή υπερτιμημένες μελέτες, με ωραιοποιημένα ευρήματα που βασίζονται σε μικρά μεγέθη δείγματος".
https://geneticliteracyproject.org/2019/05/16/reproducibility-crisis-is-scientific-research-fundamentally-flawed/
Η ίδια η έκθεση είναι πολύ μεγάλη και φαίνεται να προσπαθεί να δικαιολογήσει κάπως την έλλειψη αναπαραγωγιμότητας, ακόμη και ενώ περιγράφει τους διάφορους λόγους για την έλλειψη συνεπών αποτελεσμάτων. Σε κάθε περίπτωση, έχω συμπεριλάβει ορισμένα αποσπάσματα που αφορούν τη γονιδιωματική καθώς και τον σύνδεσμο για όποιον ενδιαφέρεται να διαβάσει ολόκληρη την έκθεση των 7 κεφαλαίων:
Αναπαραγωγιμότητα και Επαναληψιμότητα στην επιστήμη
"Ο ορισμός μας για την αναπαραγωγιμότητα επικεντρώνεται στους υπολογισμούς λόγω του μεγάλου και αυξανόμενου ρόλου τους στην επιστημονική έρευνα. Η επιστήμη διεξάγεται πλέον με τη χρήση υπολογιστών και κοινών βάσεων δεδομένων με τρόπους που ήταν αδιανόητοι ακόμη και στις αρχές του 21ου αιώνα. Επιστημονικά πεδία που επικεντρώνονται αποκλειστικά στον υπολογισμό έχουν αναδυθεί ή επεκταθεί. Ωστόσο, η εκπαίδευση των επιστημόνων στις βέλτιστες πρακτικές υπολογιστικής έρευνας δεν έχει συμβαδίσει, γεγονός που πιθανώς συμβάλλει σε ένα εκπληκτικά χαμηλό ποσοστό υπολογιστικής αναπαραγωγιμότητας μεταξύ των μελετών. Η αναπαραγωγιμότητα συνδέεται στενά με τη διαφάνεια- τα δεδομένα και ο κώδικας μιας μελέτης πρέπει να είναι διαθέσιμα προκειμένου άλλοι να αναπαράγουν και να επιβεβαιώσουν τα αποτελέσματα. Τα ιδιόκτητα και μη δημόσια δεδομένα και ο κώδικας προσθέτουν προκλήσεις στην επίτευξη των στόχων διαφάνειας. Επιπλέον, πολλές αποφάσεις σχετικά με την επιλογή δεδομένων ή τη ρύθμιση παραμέτρων για τον κώδικα λαμβάνονται καθ' όλη τη διάρκεια μιας μελέτης και μπορούν να επηρεάσουν τα αποτελέσματα. Παρόλο που τα πρόσφατα αναπτυγμένα εργαλεία μπορούν να χρησιμοποιηθούν για την καταγραφή αυτών των αποφάσεων και τη συμπερίληψή τους ως μέρος του ψηφιακού αρχείου, τα εργαλεία αυτά δεν χρησιμοποιούνται από την πλειονότητα των επιστημόνων. Τα αρχεία για την αποθήκευση ψηφιακών αντικειμένων που συνδέονται με δημοσιευμένα αποτελέσματα διατηρούνται με ασυνέπεια σε διάφορα περιοδικά, ακαδημαϊκά και ομοσπονδιακά ιδρύματα και επιστημονικούς κλάδους, γεγονός που καθιστά δύσκολο για τους επιστήμονες να εντοπίσουν αρχεία που μπορούν να επιμεληθούν, να αποθηκεύσουν και να διαθέσουν τα ψηφιακά τους αντικείμενα σε άλλους ερευνητές."
Η Έκταση της Μη Αναπαραγωγιμότητας στην έρευνα
"Οι μελέτες αναπαραγωγιμότητας μπορούν να ομαδοποιηθούν σε ένα από τα δύο είδη: (1) άμεσες, οι οποίες αναγεννούν υπολογιστικά συνεπή αποτελέσματα- και (2) έμμεσες, οι οποίες αξιολογούν τη διαφάνεια των διαθέσιμων πληροφοριών ώστε να επιτρέπουν την αναπαραγωγιμότητα.
Οι άμεσες αξιολογήσεις της αναπαραγωγιμότητας, που αναπαράγουν τους υπολογισμούς για να λάβουν συνεπή αποτελέσματα, είναι σπάνιες σε σύγκριση με τις έμμεσες αξιολογήσεις της διαφάνειας, δηλαδή τον έλεγχο της διαθεσιμότητας των δεδομένων και του κώδικα.Οι άμεσες αξιολογήσεις της υπολογιστικής αναπαραγωγιμότητας είναι πιο περιορισμένες σε εύρος και συχνά απαιτούν πολύ περισσότερο χρόνο και πόρους από τις έμμεσες αξιολογήσεις της διαφάνειας.
Τα πρότυπα επιτυχίας των άμεσων και έμμεσων αξιολογήσεων της υπολογιστικής αναπαραγωγιμότητας δεν είναι ούτε καθολικά ούτε σαφή.Επιπροσθέτως, η βάση των στοιχείων για τη μη αναπαραγωγιμότητα3 των υπολογιστών σε ολόκληρη την επιστήμη είναι ελλιπής. Συνεπώς, ο προσδιορισμός της έκτασης των ζητημάτων που σχετίζονται με την υπολογιστική αναπαραγωγιμότητα σε όλα τα πεδία ή εντός των επιστημονικών πεδίων θα ήταν ένα τεράστιο εγχείρημα με χαμηλή πιθανότητα επιτυχίας.Είναι αξιοσημείωτο, ωστόσο, ότι μια σειρά συστηματικών προσπαθειών για την αναπαραγωγή υπολογιστικών αποτελεσμάτων σε διάφορα πεδία απέτυχαν σε περισσότερες από τις μισές από τις προσπάθειες που έγιναν, κυρίως λόγω ανεπαρκούς λεπτομέρειας σχετικά με τα ψηφιακά αντικείμενα, όπως τα δεδομένα, ο κώδικας και η υπολογιστική ροή εργασίας".
https://www.nap.edu/read/25303/chapter/1
Τέλος, τον Σεπτέμβριο του 2021 δημοσιεύτηκε μια μελέτη που προσφέρει μια "λύση" στην ανεκπλήρωτη ακόμη ανάγκη βελτίωσης της αναπαραγωγιμότητας και της ακρίβειας στη γονιδιωματική. Παραδέχεται ότι οι ερευνητές σπάνια είναι σε θέση να αναπαράγουν τις γονιδιωματικές μελέτες άλλων. Ο τεράστιος όγκος δεδομένων που παράγεται και χρήζει αποθήκευσης έχει καταστήσει την αναπαραγωγιμότητα ένα φαινομενικά αδύνατο έργο. Η μελέτη παρέχει επίσης μερικούς παράγοντες που συμβάλλουν σε αυτό το αυξανόμενο πρόβλημα:
NPARS-A Novel Approach to Address Accuracy and Reproducibility in Genomic Data Science (NPARS-Μια νέα προσέγγιση για την αντιμετώπιση της ακρίβειας και της αναπαραγωγιμότητας στην επιστήμη των γονιδιωματικών δεδομένων)
"Ιστορικό: Η ακρίβεια και η αναπαραγωγιμότητα είναι ζωτικής σημασίας στην επιστήμη και αποτελεί σημαντική πρόκληση στον αναδυόμενο κλάδο της επιστήμης των δεδομένων, ιδίως όταν τα δεδομένα είναι επιστημονικά πολύπλοκα και μαζικά σε μέγεθος. Περιπλέκοντας ακόμη περισσότερο τα πράγματα, στον τομέα της επιστήμης που βασίζεται στη γονιδιωματική, οι τεχνολογίες αλληλούχισης υψηλής απόδοσης παράγουν σημαντικές ποσότητες δεδομένων που πρέπει να αποθηκεύονται, να επεξεργάζονται και να αναλύονται με τη χρήση πληθώρας εργαλείων λογισμικού. Οι ερευνητές σπάνια είναι σε θέση να αναπαράγουν τις δημοσιευμένες γονιδιωματικές μελέτες".
"Συμπέρασμα: Η ακρίβεια και η αναπαραγωγιμότητα στην επιστήμη είναι υψίστης σημασίας. Για τις βιοϊατρικές επιστήμες, οι εξελίξεις στις τεχνολογίες υψηλής απόδοσης, τη μοριακή βιολογία και τις ποσοτικές μεθόδους παρέχουν πρωτοφανείς γνώσεις για τους μηχανισμούς των ασθενειών. Με αυτές τις γνώσεις έρχεται η σχετική πρόκληση των επιστημονικών δεδομένων που είναι πολύπλοκα και μαζικά σε μέγεθος. Αυτό καθιστά δύσκολη τη συνεργασία, την επαλήθευση, την επικύρωση και την αναπαραγωγιμότητα των ευρημάτων".
"Ο όρος "Επιστήμη Δεδομένων" συνδέεται όλο και περισσότερο με σύνολα δεδομένων τεράστιου μεγέθους, αλλά υπάρχουν πρόσθετες προκλήσεις σε αυτόν τον ταχέως εξελισσόμενο τομέα. Ορισμένοι παράγοντες που θεωρείται ότι συμβάλλουν στις προκλήσεις περιλαμβάνουν:
1) η πολυπλοκότητα των δεδομένων, η οποία αναφέρεται σε περίπλοκες συνθήκες και χαρακτηριστικά των δεδομένων, συμπεριλαμβανομένης της ποιότητας των δεδομένων, της μεγάλης κλίμακας, της υψηλής διαστατικότητας και της ακραίας ανισορροπίας- 2) η ανάπτυξη αποτελεσματικών αλγορίθμων και, κοινών υποδομών εργασιών και παραδειγμάτων μάθησης που απαιτούνται για τον χειρισμό διαφόρων πτυχών των δεδομένων- 3) ο κατάλληλος σχεδιασμός των πειραμάτων- 4) οι κατάλληλοι μηχανισμοί μετάφρασης προκειμένου να παρουσιάζονται και να οπτικοποιούνται τα αναλυτικά αποτελέσματα- 5) η πολυπλοκότητα του τομέα, η οποία αναφέρεται στη γνώση των εμπειρογνωμόνων, τις υποθέσεις, τη μεταγνώση κ.λπ. στο συγκεκριμένο θεματικό πεδίο (Cao, 2017b)".
"Στον τομέα της επιστήμης των γονιδιωματικών δεδομένων, η ακρίβεια και η αναπαραγωγιμότητα παραμένει μια σημαντική πρόκληση λόγω του μεγέθους, της πολυπλοκότητας και της δυναμικής φύσης καθώς και της σχετικής εφευρετικότητας των προσεγγίσεων της ποσοτικής βιολογίας. Η πρόκληση της ακρίβειας και της αναπαραγωγιμότητας δεν μπλοκάρει απλώς τον δρόμο για νέες επιστημονικές ανακαλύψεις, αλλά, το σημαντικότερο, μπορεί να οδηγήσει σε ένα σενάριο όπου κρίσιμα ευρήματα που χρησιμοποιούνται για τη λήψη ιατρικών αποφάσεων αποδεικνύονται εσφαλμένα (Huang and Gottardo, 2013). Το NPARS αναπτύχθηκε για να καλύψει την ανεκπλήρωτη ανάγκη βελτίωσης της ακρίβειας και της αναπαραγωγιμότητας στην επιστήμη των γονιδιωματικών δεδομένων. Επί του παρόντος, ένας περιορισμός του συστήματός μας είναι η απαίτηση του χρήστη να θέσει τα δεδομένα του σε τυποποιημένη μορφή για εισαγωγή στο NPARS. Τα βήματα αυτά δεν είναι αυτοματοποιημένα".
https://www.frontiersin.org/articles/10.3389/fdata.2021.725095/full
Συνοπτικά:
Στο συνέδριο Eatern Genomics Conference το 2012, ο James Taylor (Πανεπιστήμιο Emory) εστίασε την ομιλία του σε αυτό που θεωρεί ότι είναι η κύρια κρίση στην αναπαραγωγιμότητα της γονιδιωματικής έρευνας: η πρόσβαση στα υποστηρικτικά δεδομένα και εργαλεία και η προσβασιμότητα στη χρήση των υπολογιστικών πόρων δεν έχει συμβαδίσει
Μια μελέτη του 2015 σχετικά με την κρίση της αναπαραγωγιμότητας αναφέρει ότι υπάρχουν δύο βασικά συστατικά στοιχεία για μια αναπαραγώγιμη μελέτη:
Ότι τα ακατέργαστα δεδομένα από το πείραμα είναι διαθέσιμα
Ότι ο στατιστικός κώδικας και η τεκμηρίωση για την αναπαραγωγή της ανάλυσης είναι επίσης διαθέσιμα
Υπήρξε έλλειψη λογισμικού για την αναπαραγώγιμη εκτέλεση και κοινοποίηση αναλύσεων δεδομένων
Τα δεδομένα από τις δημοσιεύσεις δεν ήταν πάντοτε διαθέσιμα για επιθεώρηση και επανέλεγχο
Πρόσφατες πολιτισμικές αλλαγές στη γονιδιωματική και σε άλλους τομείς οδήγησαν στο να απαιτούν τα περιοδικά τη διαθεσιμότητα των δεδομένων ως προϋπόθεση για τη δημοσίευση και να δημιουργούνται κεντρικές βάσεις δεδομένων, όπως το Gene Expression Omnibus (GEO) του Εθνικού Κέντρου Βιοτεχνολογικών Πληροφοριών των ΗΠΑ, για την κατάθεση δεδομένων που παράγονται από επιστημονικά πειράματα που χρηματοδοτούνται από το δημόσιο.
Σε έρευνες όπου ο υπολογισμός παίζει μεγάλο ρόλο στην εξαγωγή των ευρημάτων, η αναπαραγωγιμότητα είναι σημαντική, διότι είναι ουσιαστικά το μόνο πράγμα που μπορεί να εγγυηθεί ένας ερευνητής για μια μελέτη.
Πολλές υπολογιστικές έρευνες είναι δύσκολο να περιγραφούν σε παραδοσιακές δημοσιεύσεις σε περιοδικά και ο μόνος τρόπος για να αποκαλυφθεί τι έκανε ένας ερευνητής είναι να εξεταστεί ο κώδικας του υπολογιστή και να εφαρμοστεί στα δεδομένα
Ένα στατιστικό επιχείρημα έδειξε ότι τα περισσότερα δημοσιευμένα επιστημονικά αποτελέσματα μπορεί να είναι ψευδώς θετικά (bit.ly/1PWAhBx)
Υπήρξαν ορισμένες πολύ δημόσιες αποτυχίες της αναπαραγωγιμότητας σε μια σειρά επιστημονικών κλάδων, από τη γονιδιωματική του καρκίνου, την κλινική ιατρική και τα οικονομικά και τα δεδομένα για πολλές δημοσιεύσεις δεν έχουν δημοσιοποιηθεί, εγείροντας αμφιβολίες για την ποιότητα των αναλύσεων δεδομένων
Τα προβλήματα αυτά επιδεινώνονται από την έλλειψη ευρέως διαθέσιμων και φιλικών προς τον χρήστη εργαλείων για τη διεξαγωγή αναπαραγώγιμης έρευνας.
Το 2006 μια ομάδα ερευνητών με επικεφαλής τον Anil Potti δημοσίευσε μια εργασία στην οποία ισχυριζόταν ότι είχε κατασκευάσει έναν αλγόριθμο χρησιμοποιώντας δεδομένα γονιδιωματικών μικροσυστοιχιών που προέβλεπε ποιοι ασθενείς με καρκίνο θα ανταποκρίνονταν στη χημειοθεραπεία
Οι Baggerly και Coombes επιχείρησαν να αναπαράγουν τα αποτελέσματα και βρήκαν ένα τέλμα από ανεπαρκώς διεξαχθείσες αναλύσεις δεδομένων, με λάθη που κυμαίνονταν από ασήμαντα και περίεργα έως καταστροφικά
Ενώ τελικά αναπαρήγαγαν τα λανθασμένα αποτελέσματα, μόλις το 2011 η αρχική μελέτη αποσύρθηκε από το Nature Medicine
Σύμφωνα με ένα άρθρο του 2017 στο BMC Bioinformatics, η αναπαραγωγιμότητα είναι μια από τις βασικές αρχές για κάθε επιστημονική ροή εργασίας και παραμένει μια πρόκληση, η οποία δεν αντιμετωπίζεται πλήρως.
Αυτό οφείλεται στην ελλιπή κατανόηση των απαιτήσεων αναπαραγωγιμότητας και στις παραδοχές των προσεγγίσεων ορισμού ροής εργασίας
Οι ροές εργασίας της υπολογιστικής βιοπληροφορικής χρησιμοποιούνται εκτενώς στο πλαίσιο γονιδιωματικών πλατφορμών
Τα πρότυπα της υπολογιστικής αναπαραγωγιμότητας είναι ιδιαίτερα σημαντικά σε κλινικά περιβάλλοντα μετά την καθιέρωση προσεγγίσεων αλληλούχισης επόμενης γενιάς (NGS)
Η ικανότητα προσδιορισμού αλληλουχιών DNA έχει ξεπεράσει την ικανότητα αποθήκευσης, μετάδοσης και ερμηνείας των δεδομένων αυτών
Η κύρια δυσχέρεια για την υποστήριξη των πολύπλοκων πειραμάτων που περιλαμβάνουν δεδομένα NGS είναι η επεξεργασία δεδομένων αντί για την παραγωγή δεδομένων
Η επιτροπή για την ανασκόπηση των δοκιμών που βασίζονται στην -omics για την πρόβλεψη της έκβασης των ασθενών σε κλινικές δοκιμές απέδωσε δύο κύριες αιτίες για αυτή την περιορισμένη μετάφραση των μελετών- τον ανεπαρκή σχεδιασμό των προκλινικών μελετών και την ανεπαρκή αυστηρότητα της βιοπληροφορικής
Μόνο δέκα από τα 299 άρθρα που ανέφεραν το έργο 1000 Genomes ως πειραματική προσέγγιση χρησιμοποίησαν τα συνιστώμενα εργαλεία και μόνο τέσσερις μελέτες χρησιμοποίησαν την πλήρη ροή εργασίας
Από τα 50 τυχαία επιλεγμένα άρθρα που ανέφεραν το BWA για το βήμα ευθυγράμμισης, μόνο επτά μελέτες παρείχαν πλήρεις πληροφορίες σχετικά με τη ρύθμιση των παραμέτρων και την έκδοση του εργαλείου
Η μη διαθεσιμότητα πρωτογενών δεδομένων από δύο μελέτες για τον καρκίνο αποτέλεσε εμπόδιο για την επίτευξη βιολογικής αναπαραγωγιμότητας των ισχυριζόμενων αποτελεσμάτων.
Οι Ioannidis et al. απέδωσαν τη μη διαθεσιμότητα των δεδομένων, του λογισμικού και των λεπτομερειών σχολιασμού ως λόγους μη αναπαραγωγιμότητας των μελετών γονιδιακής έκφρασης με μικροσυστοιχίες.
Οι Hothorn et al. διαπίστωσαν ότι μόνο το 11% των εργασιών που διενεργούσαν πειράματα προσομοίωσης παρείχαν πρόσβαση τόσο στα δεδομένα όσο και στον κώδικα
Οι συγγραφείς που εξέτασαν 100 άρθρα σε περιοδικά βιοπληροφορικής υποστήριξαν ότι μαζί με τις περιγραφές κειμένου, η διαθεσιμότητα έγκυρων δεδομένων και κώδικα για ανάλυση είναι ζωτικής σημασίας για την αναπαραγωγιμότητα των αποτελεσμάτων
Η πλειονότητα των άρθρων που εξηγούσαν το περιβάλλον του λογισμικού, δεν ανέφεραν λεπτομέρειες για την έκδοση, γεγονός που καθιστούσε δύσκολη την αναπαραγωγή αυτών των μελετών
Η προέλευση προσδιορίστηκε ως βασική απαίτηση για κάθε υπολογιστική διαδικασία σε μια ροή εργασίας, ώστε να επιτευχθεί η αναπαραγωγιμότητα μιας δημοσιευμένης ανάλυσης και τελικά η λογοδοσία σε περίπτωση ασυνεπών αποτελεσμάτων
Υπάρχουν μοντέλα προέλευσης, αλλά αυτά χρησιμοποιούνται σπάνια από WMS που χρησιμοποιούνται σε γονιδιωματικές μελέτες
Παρά τις υψηλές προσδοκίες, τα διάφορα υπάρχοντα WMS δεν διατηρούν πραγματικά όλες τις απαραίτητες πληροφορίες προέλευσης για την υποστήριξη της αναπαραγωγιμότητας - ιδίως σύμφωνα με τα πρότυπα που μπορεί να αναμένονται για την κλινική γονιδιωματική.
Προς το παρόν δεν είναι ώριμη η παγίωση της εμπειρογνωμοσύνης και οι βέλτιστες πρακτικές ροές εργασίας που υποστηρίζουν την αναπαραγωγιμότητα.
Τις περισσότερες φορές, αυτό οφείλεται στην έλλειψη κατανόησης των απαιτήσεων αναπαραγωγιμότητας και στην ελλιπή καταγραφή της προέλευσης που μπορεί να δυσχεράνει την επαναχρησιμοποίηση της υπάρχουσας εργασίας από άλλους ερευνητές.
Η επιστημονική κοινότητα πρέπει να αντιμετωπίσει το χάσμα μεταξύ της αναπαραγωγιμότητας και της δημιουργίας δεδομένων, προτείνοντας και εφαρμόζοντας πρακτικές που μπορούν να διασφαλίσουν την αναπαραγωγιμότητα, την επιβεβαίωση και τελικά την επέκταση της υπάρχουσας εργασίας (μ̲ε̲ ̲ά̲λ̲λ̲α̲ ̲λ̲ό̲γ̲ι̲α̲,̲ ̲ο̲ι̲ ̲π̲ρ̲α̲κ̲τ̲ι̲κ̲έ̲ς̲ ̲α̲υ̲τ̲έ̲ς̲ ̲δ̲ε̲ν̲ ̲υ̲π̲ά̲ρ̲χ̲ο̲υ̲ν̲ ̲κ̲α̲ι̲ ̲δ̲ε̲ν̲ ̲χ̲ρ̲η̲σ̲ι̲μ̲ο̲π̲ο̲ι̲ο̲ύ̲ν̲τ̲α̲ι̲)
Η πραγματική αναπαραγωγιμότητα των πειραμάτων σε διαφορετικά συστήματα δεν έχει διερευνηθεί αυστηρά και συστηματικά
Οι προκλήσεις που επιβάλλουν τα δεδομένα γονιδιωματικής μεγάλης κλίμακας απαιτούν πολύπλοκα περιβάλλοντα υπολογιστικής ροής εργασίας
Μια βασική πρόκληση είναι ο τρόπος βελτίωσης της αναπαραγωγιμότητας των πειραμάτων που περιλαμβάνουν πολύπλοκα περιβάλλοντα λογισμικού και μεγάλα σύνολα δεδομένων
Η αναπαραγωγιμότητα ενός πειράματος απαιτεί συχνά την αναπαραγωγή του ακριβούς περιβάλλοντος λογισμικού, συμπεριλαμβανομένου του λειτουργικού συστήματος, των βασικών εξαρτήσεων λογισμικού και των ρυθμίσεων διαμόρφωσης υπό τις οποίες διεξήχθη η αρχική ανάλυση
Ολόκληρη η διαδικασία που οδηγεί σε τέτοιες βιολογικές κατανοήσεις πρέπει να τεκμηριώνεται συστηματικά για να διασφαλίζεται η αναπαραγωγιμότητα της έρευνας
Ωστόσο, ένα γενικευμένο σύνολο κανόνων και συστάσεων για την επίτευξη αυτού του στόχου εξακολουθεί να αποτελεί μια πρόκληση που πρέπει να αντιμετωπιστεί (δ̲η̲λ̲α̲δ̲ή̲,̲ ̲δ̲ε̲ν̲ ̲έ̲χ̲ε̲ι̲ ̲α̲κ̲ό̲μ̲η̲ ̲ε̲π̲ι̲λ̲υ̲θ̲ε̲ί̲ ̲ή̲ ̲υ̲λ̲ο̲π̲ο̲ι̲η̲θ̲ε̲ί̲)̲, καθώς η εφαρμογή, η αποθήκευση, ο διαμοιρασμός και η επαναχρησιμοποίηση της ροής εργασίας ποικίλλει σημαντικά ανάλογα με την επιλογή της προσέγγισης και της πλατφόρμας που χρησιμοποιεί ο ερευνητής.
Η αναπαραγωγιμότητα των υπολογιστικών γονιδιωματικών μελετών θεωρείται μείζον ζήτημα τον τελευταίο καιρό.
Εντοπίστηκαν πολυάριθμες σιωπηρές παραδοχές που ερμηνεύονται μέσω της πρακτικής εκτέλεσης της ροής εργασίας, οι οποίες οδήγησαν σε συστάσεις για την αναπαραγωγιμότητα και την προέλευση
Από ένα άρθρο του Μαΐου 2019 από το Genetic Literacy Project, η ιδέα ότι η επιστημονική έρευνα είναι θεμελιωδώς ελαττωματική, γεμάτη με δημοσιευμένα ευρήματα που συχνά δεν μπορούν να αναπαραχθούν ή να αναπαραχθούν από άλλους επιστήμονες, είναι αλλιώς γνωστή ως κρίση αναπαραγωγής και αναπαραγωγιμότητας
Τα κοινά ζητήματα που έχουν επισημανθεί από τους εν λόγω επιστήμονες περιλαμβάνουν δόλιες, κακοφτιαγμένες ή υπερτιμημένες μελέτες, με ωραιοποιημένα ευρήματα που βασίζονται σε μικρά μεγέθη δείγματος
Μερικά σχετικά σημεία από την ίδια την έκθεση:
Ο ορισμός τους για την αναπαραγωγιμότητα επικεντρώνεται στους υπολογισμούς λόγω του μεγάλου και αυξανόμενου ρόλου τους στην επιστημονική έρευνα
Η εκπαίδευση των επιστημόνων στις βέλτιστες πρακτικές υπολογιστικής έρευνας δεν έχει συμβαδίσει, γεγονός που πιθανώς συμβάλλει σε ένα εκπληκτικά χαμηλό ποσοστό υπολογιστικής αναπαραγωγιμότητας μεταξύ των μελετών
Η αναπαραγωγιμότητα συνδέεται στενά με τη διαφάνεια: τα δεδομένα και ο κώδικας μιας μελέτης πρέπει να είναι διαθέσιμα, ώστε άλλοι να μπορούν να αναπαράγουν και να επιβεβαιώσουν τα αποτελέσματα.
Τα ιδιόκτητα και μη δημόσια δεδομένα και κώδικας προσθέτουν προκλήσεις στην επίτευξη των στόχων διαφάνειας
Πολλές αποφάσεις σχετικά με την επιλογή δεδομένων ή τη ρύθμιση παραμέτρων για τον κώδικα λαμβάνονται καθ' όλη τη διάρκεια μιας μελέτης και μπορούν να επηρεάσουν τα αποτελέσματα
Τα εργαλεία που έχουν αναπτυχθεί για την καταγραφή αυτών των ψηφιακών αποφάσεων δεν χρησιμοποιούνται από την πλειονότητα των επιστημόνων
Τα αρχεία για την αποθήκευση ψηφιακών αντικειμένων που συνδέονται με δημοσιευμένα αποτελέσματα διατηρούνται με ασυνέπεια σε διάφορα περιοδικά, ακαδημαϊκά και ομοσπονδιακά ιδρύματα και επιστημονικούς κλάδους
Ομαδοποιούν την αναπαραγωγιμότητα σε δύο κατηγορίες:
⃝ Άμεσες, οι οποίες αναγεννούν υπολογιστικά συνεπή αποτελέσματα
⃝ Έμμεσες, οι οποίες αξιολογούν τη διαφάνεια των διαθέσιμων πληροφοριών που επιτρέπουν την αναπαραγωγιμότητα
9. Οι άμεσες εκτιμήσεις της αναπαραγωγιμότητας, δηλαδή η επανάληψη των υπολογισμών για την επίτευξη συνεπών αποτελεσμάτων, είναι σπάνιες σε σύγκριση με τις έμμεσες εκτιμήσεις.
Τα πρότυπα για την επιτυχία των άμεσων και έμμεσων αξιολογήσεων της υπολογιστικής αναπαραγωγιμότητας δεν είναι ούτε καθολικά ούτε ξεκάθαρα
Η βάση αποδείξεων για τη μη αναπαραγωγιμότητα των υπολογισμών σε όλη την επιστήμη είναι ελλιπής
Ορισμένες συστηματικές προσπάθειες αναπαραγωγής υπολογιστικών αποτελεσμάτων σε διάφορους τομείς απέτυχαν σε περισσότερες από τις μισές από τις προσπάθειες που έγιναν, κυρίως λόγω ανεπαρκούς λεπτομέρειας σχετικά με τα ψηφιακά αντικείμενα, όπως τα δεδομένα, ο κώδικας και η υπολογιστική ροή εργασίας.
Τέλος, από μια μελέτη του Frontiers του Σεπτεμβρίου 2021, αναφέρεται ότι στον τομέα της επιστήμης που βασίζεται στη γονιδιωματική, οι τεχνολογίες αλληλούχισης υψηλής απόδοσης παράγουν σημαντικές ποσότητες δεδομένων που πρέπει να αποθηκευτούν, να χειριστούν και να αναλυθούν χρησιμοποιώντας μια πληθώρα εργαλείων λογισμικού
Οι ερευνητές σπάνια είναι σε θέση να αναπαράγουν τις δημοσιευμένες γονιδιωματικές μελέτες
Η πρόκληση των πολύπλοκων και μαζικών σε μέγεθος επιστημονικών δεδομένων καθιστά δύσκολη τη συνεργασία, την επαλήθευση, την επικύρωση και την αναπαραγωγιμότητα των ευρημάτων
Ορισμένοι παράγοντες που θεωρείται ότι συμβάλλουν στις προκλήσεις περιλαμβάνουν
Η πολυπλοκότητα των δεδομένων, η οποία αναφέρεται σε περίπλοκες συνθήκες και χαρακτηριστικά των δεδομένων, συμπεριλαμβανομένης της ποιότητας των δεδομένων, της μεγάλης κλίμακας, της υψηλής διαστατικότητας και της ακραίας ανισορροπίας
Η ανάπτυξη αποτελεσματικών αλγορίθμων και, κοινών υποδομών εργασιών και παραδειγμάτων μάθησης που απαιτούνται για τον χειρισμό διαφόρων πτυχών των δεδομένων
Ο κατάλληλος σχεδιασμός πειραμάτων
Οι κατάλληλοι μηχανισμοί μετάφρασης για την παρουσίαση και οπτικοποίηση των αναλυτικών αποτελεσμάτων
Η πολυπλοκότητα του τομέα, η οποία αναφέρεται στη γνώση των εμπειρογνωμόνων, τις υποθέσεις, τη μεταγνώση κ.λπ. στο συγκεκριμένο θεματικό πεδίο
Στον τομέα της επιστήμης των γονιδιωματικών δεδομένων, η ακρίβεια και η αναπαραγωγιμότητα παραμένουν μια σημαντική πρόκληση λόγω του μεγέθους, της πολυπλοκότητας και της δυναμικής φύσης καθώς και της σχετικής εφευρετικότητας των προσεγγίσεων της ποσοτικής βιολογίας.
Αυτό μπορεί να οδηγήσει σε ένα σενάριο όπου κρίσιμα ευρήματα που χρησιμοποιούνται για τη λήψη ιατρικών αποφάσεων αποδεικνύονται εσφαλμένα
Οι ερευνητές ανέπτυξαν το NPARS για να καλύψουν την ανεκπλήρωτη ανάγκη βελτίωσης της ακρίβειας και της αναπαραγωγιμότητας στην επιστήμη των γονιδιωματικών δεδομένων
Η γονιδιωματική είναι πρωτίστως μια "επιστήμη" που βασίζεται σε υπολογιστικά δεδομένα. Απαιτεί η τεχνολογία, το λογισμικό και τα δεδομένα που παράγονται να είναι ακριβή και εύκολα προσβάσιμα σε άλλους ερευνητές προκειμένου να αναπαράγουν και να επιβεβαιώσουν τα ευρήματα. Όπως φαίνεται από τις διάφορες πηγές που παρουσιάζονται παραπάνω, η ικανότητα παραγωγής δεδομένων έχει ξεπεράσει την τεχνολογία καθώς και την ικανότητα αποθήκευσης και ερμηνείας των τεράστιων όγκων δεδομένων που παράγονται. Αυτά τα αποτελέσματα από γονιδιωματικές μελέτες σπάνια, αν ποτέ, αναπαράγονται. Αυτό αποτελεί τεράστιο πρόβλημα, καθώς η αναπαραγωγιμότητα είναι ο μόνος τρόπος για να μπορέσει να επιβεβαιωθεί η υποτιθέμενη ακρίβεια οποιασδήποτε γονιδιωματικής μελέτης. Χωρίς αυτό, η γονιδιωματική δεν είναι παρά άχρηστα τυχαία γράμματα σε μια βάση δεδομένων.
Αυτό το απόσπασμα από τη μελέτη του 2017 που αναφέρθηκε παραπάνω συνοψίζει τη σημασία της αναπαραγωγιμότητας τόσο έξοχα που ήθελα να το μοιραστώ άλλη μια φορά για έμφαση:
“Η προσδοκία της αναπαραγωγιμότητας της επιστήμης θεωρείται θεμελιώδης, αλλά συχνά δεν ελέγχεται. Κάθε νέα ανακάλυψη στην επιστήμη βασίζεται στην ήδη γνωστή γνώση, δηλαδή η δημοσιευμένη βιβλιογραφία λειτουργεί ως δομικό στοιχείο για νέα ευρήματα ή ανακαλύψεις. Χρησιμοποιώντας αυτή τη δημοσιευμένη βιβλιογραφία ως βάση, αναπτύσσεται το επόμενο επίπεδο κατανόησης και, ως εκ τούτου, ο κύκλος συνεχίζεται. Επομένως, αν δεν μπορούμε να αναπαράγουμε την ήδη υπάρχουσα γνώση από τη βιβλιογραφία, σπαταλάμε πολλή προσπάθεια, πόρους και χρόνο κάνοντας ενδεχομένως λανθασμένη επιστήμη με αποτέλεσμα την "κρίση αναπαραγωγιμότητας". Εάν ένας ερευνητής ισχυρίζεται ένα νέο εύρημα, κάποιος άλλος, που ενδιαφέρεται για τη μελέτη, θα πρέπει να είναι σε θέση να το αναπαράγει.
Οι καλλιέργειες κυττάρων, τα αντισώματα και η γονιδιωματική αποτελούν τον πυρήνα της ιολογίας. Χωρίς αυτά, η ιολογία όπως είναι σήμερα δεν θα υπήρχε. Με καθεμία από αυτές τις "επιστήμες" να έχει εμπλακεί σε μια κρίση αναπαραγωγιμότητας, πόσο σίγουρος μπορεί να αισθάνεται κανείς για την ιολογία στο σύνολό της, όταν είναι στενά συνδεδεμένη και με τις τρεις;
—Δικτυογραφία:
The Reproducibility Crisis in Genomics – ViroLIEgy
https://viroliegy.com/2021/10/24/the-reproducibility-crisis-in-genomics/