ΦΑΚΕΛΛΟΣ "ΙΟΛΟΓΙΑ": Μόλυνση Γονιδιώματος - Ένα Ευρέως Διαδεδομένο Πρόβλημα
Μετάφραση: Απολλόδωρος
24 Ιανουαρίου 2022 | Mike Stone, ViroLIEgy | Διαβάστε το εδώ
Τα περισσότερα κλινικά δείγματα και δείγματα καλλιέργειας ιστών που πρόκειται να χρησιμοποιηθούν για την αλληλούχιση του ιϊκού γονιδιώματος είναι συνήθως μολυσμένα με ανθρώπινα κύτταρα, άλλους μικροοργανισμούς και γυμνό DNA και RNA από διαταραγμένα κύτταρα.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2638583/
Όταν μιλάμε για την απόδειξη της ύπαρξης "ιών", είναι λογικό να απαιτείται τα σωματίδια που πιστεύεται ότι είναι "ιός" να είναι καθαρισμένα (δηλαδή απαλλαγμένα από μολύνσεις, ρύπους, ξένα υλικά) και απομονωμένα (διαχωρισμένα από οτιδήποτε άλλο). Μόνο μέσω της διαδικασίας καθαρισμού/απομόνωσης των σωματιδίων που πιστεύεται ότι είναι "ιοί" μπορεί κανείς να αποδείξει πραγματικά ότι τα συγκεκριμένα σωματίδια υπάρχουν στην πραγματικότητα και είναι η μόνη πιθανή ουσία που θα μπορούσε δυνητικά να είναι η αιτία της ασθένειας. Μόνο όταν αποδειχθεί ότι αυτά τα καθαρισμένα/απομονωμένα σωματίδια υπάρχουν ανεξάρτητα, θα ήταν τότε θεωρητικά δυνατό να ληφθεί ένα ακριβές γονιδίωμα από το γενετικό υλικό που λαμβάνεται από μία μόνο πηγή.
Δυστυχώς για την ιολογία, αυτές οι δύο λογικές απαιτήσεις δεν πληρούνται ποτέ. Οι "ιοί" δεν λαμβάνονται ποτέ απευθείας από τον άνθρωπο και δεν καθαρίζονται χωρίς επιμόλυνση ούτε απομονώνονται ποτέ από οτιδήποτε άλλο. Αντίθετα, τα δείγματα που λαμβάνονται από ανθρώπους υποβάλλονται στη διαδικασία της κυτταροκαλλιέργειας, η οποία είναι το ακριβώς αντίθετο του καθαρισμού/απομόνωσης, όπως φαίνεται στο παραπάνω απόσπασμα. Ανθρώπινα κύτταρα, ζωικά κύτταρα, διάφοροι γνωστοί και άγνωστοι μικροοργανισμοί, γυμνό DNA/RNA και άλλες πηγές "μη-ιϊκού" υλικού είναι βέβαιο ότι υπάρχουν σε δείγματα ιστών και κυτταρικών καλλιεργειών.
Χωρίς καθαρισμό/απομόνωση του δείγματος απευθείας από τον άνθρωπο, δεν υπάρχει καμία απόδειξη ότι τα σωματίδια υπάρχουν πράγματι στον άνθρωπο. Τα σωματίδια που ισχυρίζονται ότι είναι "ιοί" δεν είναι παρά ένα δημιούργημα της διαδικασίας καλλιέργειας που προκύπτει από τη διάσπαση και την αποσύνθεση των κυττάρων. Υπάρχουν μόνο ως υποπροϊόν σε τρυβλία Petri από εργαστηριακά πειράματα. Τα σωματίδια που προβάλλονται σε πολύχρωμες εικόνες ηλεκτρονικού μικροσκοπίου και ισχυρίζονται ότι είναι ο "ιός" θα μπορούσαν να είναι από πολυάριθμες πανομοιότυπες ουσίες, όπως τα εξωσώματα ή τα πολυκυψελιδικά σώματα. Δεν μπορεί να υπάρξει καμία απόδειξη παθογένειας, καθώς οποιοδήποτε από τα τοξικά πρόσθετα (αντιβιοτικά/αντιμυκητιασικά, εμβρυϊκό αίμα αγελάδας, χημικά) που αναμειγνύονται στην καλλιέργεια μπορεί να προκαλέσει από μόνο του ασθένεια.
Αυτή η έλλειψη καθαρισμένων/απομονωμένων σωματιδίων οδηγεί σε πολλά ζητήματα, συμπεριλαμβανομένης της μόλυνσης του υποτιθέμενου γονιδιώματος. Δεδομένου ότι το καλλιεργημένο υλικό που χρησιμοποιείται για την αλληλούχιση περιέχει δυνητικά δισεκατομμύρια "μη ιικού" γενετικού υλικού, τόσο γνωστού όσο και άγνωστου, δεν μπορεί να υποστηριχθεί ότι το RNA που χρησιμοποιήθηκε για τη δημιουργία ενός συγκεκριμένου γονιδιώματος "ιού" προήλθε από μία μόνο πηγή. Τα γονιδιώματα των "ιών" είναι συνονθυλεύματα γενετικού υλικού από πολυάριθμες πηγές που συναρμολογήθηκαν με τη βοήθεια υπολογιστών-αλγορίθμων. Έχω συμπεριλάβει τα κυριότερα σημεία από μερικές μελέτες που αναδεικνύουν το ευρέως διαδεδομένο πρόβλημα όσον αφορά τη μόλυνση των γονιδιωμάτων και τον τρόπο με τον οποίο αυτό επηρεάζει τα αποτελέσματα της ανάλυσης αλληλουχιών από αυτές τις μη καθαρισμένες πηγές.
Τον Ιούνιο του 2019, κυκλοφόρησε μια μελέτη η οποία εντόπισε το πρόβλημα της ανθρώπινης μόλυνσης στη γονιδιωματική, η οποία έχει οδηγήσει στη δημιουργία χιλιάδων ψεύτικων οικογενειών πρωτεϊνών που είναι διασκορπισμένες σε πολλά γονιδιώματα. Οι συγγραφείς αναφέρουν ότι ενώ ο στόχος είναι να υπάρχουν πλήρεις και ακριβείς βάσεις δεδομένων αναφοράς, τα περισσότερα γονιδιώματα αναφοράς δεν είναι πλήρη και στην πραγματικότητα είναι ακόμη "προσχέδια". Αυτά τα γονιδιώματα ποικίλλουν σε ποιότητα μεταξύ των ειδών. Ένας σημαντικός παράγοντας που συμβάλλει σε αυτή τη διαφορετική ποιότητα είναι η μόλυνση, η οποία είναι ένα κοινό πρόβλημα που έχει ως αποτέλεσμα τη διάδοση ψευδών αλληλουχιών σε μελλοντικές προσπάθειες αλληλούχισης. Οι συγγραφείς πιστεύουν ότι αυτή η μόλυνση είναι ένα ευρέως διαδεδομένο πρόβλημα που θα οδηγήσει σε πολλά ψευδώς θετικά αποτελέσματα, καθώς οι ανθρώπινες αναγνώσεις θα λέγονται λανθασμένα ότι είναι βακτηριακές:
Η ανθρώπινη μόλυνση στα βακτηριακά γονιδιώματα έχει δημιουργήσει χιλιάδες ψεύτικες πρωτεΐνες
"Οι μολυσματικές αλληλουχίες που εμφανίζονται σε δημοσιευμένα γονιδιώματα μπορούν να προκαλέσουν πολλά προβλήματα για τις αναλύσεις που ακολουθούν, ιδίως για εξελικτικές μελέτες και έργα μεταγονιδιωματικής. Η μεγάλης κλίμακας σάρωση πλήρων και προσχεδίων βακτηριακών και αρχαιολογικών γονιδιωμάτων στη βάση δεδομένων NCBI RefSeq αποκαλύπτει ότι 2250 γονιδιώματα έχουν μολυνθεί από ανθρώπινη αλληλουχία. Οι μολυσματικές αλληλουχίες προέρχονται κυρίως από ανθρώπινες επαναλαμβανόμενες περιοχές με υψηλό αριθμό αντιγράφων, οι οποίες δεν αντιπροσωπεύονται επαρκώς στο σημερινό ανθρώπινο γονιδίωμα αναφοράς, GRCh38. Η απουσία των αλληλουχιών αυτών από την ανθρώπινη συναρμολόγηση προσφέρει μια πιθανή εξήγηση για την παρουσία τους σε βακτηριακές συναρμολογήσεις. Σε ορισμένες περιπτώσεις, τα μολυσματικά contigs έχουν σχολιαστεί λανθασμένα ως περιέχουσες αλληλουχίες που κωδικοποιούν πρωτεΐνες, οι οποίες με την πάροδο του χρόνου διαδόθηκαν για να δημιουργήσουν ψευδείς πρωτεϊνικές "οικογένειες" σε πολλά προκαρυωτικά και ευκαρυωτικά γονιδιώματα. Ως αποτέλεσμα, 3437 ψευδείς πρωτεϊνικές καταχωρίσεις υπάρχουν σήμερα στις ευρέως χρησιμοποιούμενες πρωτεϊνικές βάσεις δεδομένων nr και TrEMBL. Αναφέρουμε εδώ έναν εκτεταμένο κατάλογο των μολυσματικών αλληλουχιών σε συνελεύσεις βακτηριακών γονιδιωμάτων και των πρωτεϊνών που σχετίζονται με αυτές".
"Ιδανικά, όλα τα γονιδιώματα στις βάσεις δεδομένων αναφοράς θα ήταν πλήρη και ακριβή (Fraser et al. 2002), αλλά για πρακτικούς λόγους, η συντριπτική πλειονότητα των γονιδιωμάτων που είναι διαθέσιμα σήμερα εξακολουθούν να είναι "προσχέδια". Ένα προσχέδιο γονιδιώματος αποτελείται από πολλαπλά contigs ή ικριώματα που είναι συνήθως αταξινόμητα και δεν αντιστοιχίζονται σε χρωμοσώματα (Ghurye et al. 2016). Ένα γονιδίωμα δεν είναι πραγματικά πλήρες ή "ολοκληρωμένο" έως ότου προσδιοριστεί κάθε ζεύγος βάσεων για κάθε χρωμόσωμα και οργανίδιο, από άκρη σε άκρη, χωρίς κενά. Ακόμα και το ανθρώπινο γονιδίωμα, αν και πολύ πιο πλήρες από τα περισσότερα άλλα ζωικά γονιδιώματα, παραμένει ημιτελές: Η τρέχουσα ανθρώπινη συναρμολόγηση, GRCh38.p13 (κυκλοφόρησε στις 28 Φεβρουαρίου 2019), έχει 473 ικριώματα που περιέχουν 875 εσωτερικά κενά. Ενώ το μεγαλύτερο μέρος της ανθρώπινης αλληλουχίας έχει τοποθετηθεί σε χρωμοσώματα, ορισμένες εξαιρετικά επαναλαμβανόμενες περιοχές υποεκπροσωπούνται (Altemose et al. 2014), οδηγώντας σε προβλήματα που συζητάμε παρακάτω. Τα προσχέδια γονιδιωμάτων άλλων ειδών ποικίλλουν σε μεγάλο βαθμό τόσο ως προς την ποιότητα όσο και ως προς τη συνεκτικότητα, με ορισμένα να έχουν χιλιάδες contigs και άλλα να έχουν πολύ μικρότερο αριθμό".
"Η επιμόλυνση των συνόλων γονιδιωμάτων με αλληλουχίες από άλλα είδη δεν είναι ασυνήθιστη, ιδίως σε προσχέδια γονιδιωμάτων (Longo et al. 2011; Merchant et al. 2014; Delmont and Eren 2016; Kryukov and Imanishi 2016; Lu and Salzberg 2018). Το 2011, οι ερευνητές ανέφεραν ότι πάνω από το 10% των επιλεγμένων συναρμολογήσεων μη πρωτευόντων στις βάσεις δεδομένων NCBI και UCSC Genome Browser ήταν μολυσμένες με τις ειδικές για τα πρωτεύοντα επαναλήψεις AluY (Longo et al. 2011). Παρόλο που οι σωληνώσεις επικύρωσης έχουν βελτιωθεί σημαντικά από τότε (Tatusova et al. 2016; Haft et al. 2018), ορισμένοι μολυσματικοί παράγοντες εξακολουθούν να παραμένουν, όπως περιγράφουμε παρακάτω. Επιπλέον, όταν τα ανοιχτά πλαίσια ανάγνωσης (ORF) στα μολυσμένα contigs σχολιάζονται ως γονίδια που κωδικοποιούν πρωτεΐνες, η πρωτεϊνική τους αλληλουχία μπορεί να προστεθεί σε άλλες βάσεις δεδομένων. Μόλις μπουν σε αυτές τις βάσεις δεδομένων, αυτές οι ψευδείς πρωτεΐνες μπορεί με τη σειρά τους να χρησιμοποιηθούν σε μελλοντικό σχολιασμό, οδηγώντας στο λεγόμενο πρόβλημα της "μεταβατικής καταστροφής", όπου τα σφάλματα διαδίδονται ευρέως (Karp 1998; Salzberg 2007; Danchin et al. 2018). Πράγματι, μια μελέτη διαπίστωσε ότι το ποσοστό των λανθασμένων καταχωρίσεων στη συλλογή πρωτεϊνών NCBI nonredundant (nr), η οποία χρησιμοποιείται για χιλιάδες αναζητήσεις BLAST κάθε μέρα, αυξάνεται με την πάροδο του χρόνου (Schnoes et al. 2009).
Η επιμόλυνση των γονιδιωματικών αλληλουχιών μπορεί να είναι ιδιαίτερα προβληματική για τις μεταγονιδιωματικές μελέτες. Για παράδειγμα, εάν ένα γονιδίωμα που χαρακτηρίζεται ως είδος Χ περιέχει θραύσματα του ανθρώπινου γονιδιώματος, τότε οποιοδήποτε δείγμα που περιέχει ανθρώπινο DNA μπορεί λανθασμένα να αναγνωριστεί ότι περιέχει επίσης το είδος Χ. Δεδομένου ότι το ανθρώπινο DNA είναι σχεδόν πάντα παρόν στο περιβάλλον των εργαστηρίων αλληλούχισης, η ανθρώπινη επιμόλυνση είναι πολύ συχνή σε πειράματα αλληλούχισης όλων των τύπων. Η επιμόλυνση των εργαστηριακών αντιδραστηρίων με DNA από άλλους οργανισμούς μπορεί επίσης να οδηγήσει σε σοβαρές παρερμηνείες, όπως η υποτιθέμενη ανίχνευση του νέου ιού NIH-CQV σε ασθενείς με ηπατίτιδα, ο οποίος τελικά διαπιστώθηκε ότι ήταν επιμόλυνση των κιτ εκχύλισης νουκλεϊκών οξέων (Smuts et al. 2014).".
"Αποδείξαμε ότι η ανθρώπινη επιμόλυνση έχει εισχωρήσει σε 2250 δημόσια διαθέσιμα μικροβιακά γονιδιώματα, κυρίως βακτηρίων, αλλά και αρχαίων και ορισμένων ευκαρυωτών. Με τη σειρά τους, οι λανθασμένες μεταφράσεις αυτών των επιμολύνσεων έχουν δημιουργήσει περισσότερες από 3000 σχολιασμένες πρωτεΐνες, οι οποίες σχηματίζουν πλέον εξαιρετικά συντηρημένες αλλά λανθασμένες οικογένειες πρωτεϊνών που καλύπτουν ένα ευρύ φάσμα βακτηριακών φυλών και ορισμένων ευκαρυωτικών ειδών. Όλα αυτά τα γονιδιώματα και οι πρωτεΐνες εμφανίζονται σε τουλάχιστον μία, αν όχι σε πολλές ευρέως χρησιμοποιούμενες βάσεις δεδομένων αλληλουχιών. Είναι πιθανόν να υπάρχουν πρόσθετες επιμολύνσεις, διότι δεν ελέγξαμε όλες τις πιθανές πηγές επιμόλυνσης, όπως άλλες ανθρώπινες γονιδιωματικές περιοχές, τμήματα DNA από μη ανθρώπινους οργανισμούς ξενιστές, περιβαλλοντικές πηγές και εργαστηριακούς φορείς.
Αυτή η εκτεταμένη μόλυνση δημιουργεί σοβαρά προβλήματα για πολλούς τύπους επιστημονικών αναλύσεων που εξαρτώνται από βάσεις δεδομένων γονιδιώματος και πρωτεϊνών. Ένα παράδειγμα όπου το πρόβλημα αυτό είναι πιο έντονο είναι η χρήση της μεταγονιδιωματικής αλληλούχισης για τη διάγνωση λοιμώξεων, μια ταχέως αναπτυσσόμενη κλινική εφαρμογή στην οποία οι ανθρώπινοι ιστοί αλληλουχίζονται για τον εντοπισμό ενός πιθανού παθογόνου (Wilson et al. 2014; Naccache et al. 2015; Berger and Wilson 2016; Salzberg et al. 2016). Σε αυτά τα δείγματα, όπου το κυρίαρχο είδος είναι ο άνθρωπος, η μόλυνση ακόμη και ενός μικρού κλάσματος των βακτηριακών γονιδιωμάτων στη βάση δεδομένων θα προκαλέσει πολυάριθμα ψευδώς θετικά αποτελέσματα, καθώς οι ανθρώπινες αναγνώσεις μπορεί να εμφανίζονται, εσφαλμένα, να αντιπροσωπεύουν βακτηριακούς οργανισμούς".
https://pubmed.ncbi.nlm.nih.gov/31064768/
Τον Ιούλιο του 2020, κυκλοφόρησε ένα άρθρο του Nature που παρέχει περαιτέρω αποδείξεις για τη μόλυνση των γονιδιωμάτων. Γίνεται παραδεκτό ότι υπάρχουν κενά, σφάλματα και επιμόλυνση στη βάση δεδομένων, παρά τη στήριξη σε ακριβή δεδομένα. Όπως και στο προηγούμενο άρθρο, η μελέτη επαναλαμβάνει ότι τα προβλήματα αυτά οδηγούν σε ψευδώς θετικά αποτελέσματα. Οι ερευνητές αποφάσισαν να διερευνήσουν αυτό το πρόβλημα δημιουργώντας έναν αλγόριθμο για την αναζήτηση μόλυνσης σε πολλά διαφορετικά βασίλεια. Ενώ περίμεναν να βρουν μόνο μερικές χιλιάδες μολυσμένες αλληλουχίες, στην πραγματικότητα ανακάλυψαν εκατομμύρια, μεταξύ των οποίων και στην τελευταία έκδοση του ανθρώπινου γονιδιώματος:
Μόλυνση σε βάσεις δεδομένων ακολουθιών
"Οι βιολογικές αλληλουχίες σε δημόσιες βάσεις δεδομένων είναι απαραίτητοι πόροι για την έρευνα στις επιστήμες της ζωής. Παρά την καθημερινή μας εξάρτηση από αυτές τις βάσεις δεδομένων, υπάρχουν κενά, σφάλματα και επιμολύνσεις στα δεδομένα. "Μία από τις ερευνητικές μας προσπάθειες τα τελευταία χρόνια ήταν η ανίχνευση παθογόνων μικροοργανισμών στον άνθρωπο με τη χρήση μεταγονιδιωματικής αλληλουχίας shotgun", λέει ο Martin Steinegger, ο οποίος ήταν μέλος του εργαστηρίου του Steven L. Salzberg στο Πανεπιστήμιο Johns Hopkins και τώρα εργάζεται στο Εθνικό Πανεπιστήμιο της Σεούλ. "Δυστυχώς, σε πολλές περιπτώσεις διαπιστώσαμε ότι η μόλυνση εντός των αλληλουχιών του γονιδιώματος παράγει ψευδώς θετικά αποτελέσματα".
Αυτό παρακίνησε τους Steinegger και Salzberg να ξεκινήσουν ένα πρόγραμμα για την αξιολόγηση της μόλυνσης στις βάσεις δεδομένων GenBank, RefSeq και NR. Χρησιμοποιώντας πρόσφατους γρήγορους αλγορίθμους, ανέπτυξαν ένα εργαλείο με την ονομασία Conterminator που επιτρέπει την αναζήτηση μόλυνσης σε όλα τα βασίλεια και κλιμακώνεται γραμμικά. "Η έκδοση της GenBank που αξιολογήσαμε είχε μέγεθος 3,3 terabytes και περιείχε 400 εκατομμύρια αλληλουχίες. Η ευθυγράμμισή τους όλες εναντίον όλων θα απαιτούσε εκατοντάδες χρόνια με τη χρήση κλασικών μεθόδων", λέει ο Steinegger. "Ο αλγόριθμός μας χρειάστηκε μόνο 12 ημέρες για να επεξεργαστεί το σύνολο της GenBank σε έναν μόνο διακομιστή 32 πυρήνων".
Περίμεναν να δουν μερικές χιλιάδες μολυσμένες αλληλουχίες αλλά κατέληξαν σε εκατομμύρια. Εντοπίστηκαν 2.161.746, 114.035 και 14.148 μολυσμένες αλληλουχίες στη GenBank, RefSeq και NR, αντίστοιχα. "Το πιο εκπληκτικό εύρημα ήταν η παρουσία ενός κομματιού ενός βακτηρίου, του Acidithiobacillus thiooxidans, σε ένα εναλλακτικό ικρίωμα της τρέχουσας έκδοσης του ανθρώπινου γονιδιώματος αναφοράς (GRCh38)", λέει ο Steinegger. "Το ανθρώπινο γονιδίωμα υπάρχει για τόσο μεγάλο χρονικό διάστημα και τόσοι πολλοί ερευνητές το χρησιμοποιούν καθημερινά, ώστε δεν περιμέναμε να δούμε εκεί προσμίξεις".
Ο Steinegger ελπίζει ότι το Conterminator μπορεί να βοηθήσει τους ερευνητές που αλληλουχούν γονιδιώματα και τους διαχειριστές βάσεων δεδομένων να εντοπίσουν επιμολύνσεις. Ως προειδοποίηση προς τους χρήστες των ακολουθιών γονιδιωμάτων: "Πολλά από τα γονιδιώματα περιέχουν επιμόλυνση. Ένα ιδιαίτερο πρόβλημα που προκύπτει, ξανά και ξανά, είναι ότι η μόλυνση οδηγεί σε εσφαλμένους ισχυρισμούς σχετικά με την οριζόντια μεταφορά γονιδίων", λέει ο Steinegger"."
https://www.nature.com/articles/s41592-020-0895-8
Σε μια μελέτη του Φεβρουαρίου του 2020, οι συγγραφείς παραδέχθηκαν επίσης ένα ευρέως διαδεδομένο πρόβλημα μόλυνσης στη γονιδιωματική, το οποίο διαδίδεται στη βάση δεδομένων και επηρεάζει τα αποτελέσματα των μελετών και των αναλύσεων. Παρόλο που αυτό είναι ένα γνωστό ζήτημα, δεν υπάρχει ακριβής εκτίμηση όσον αφορά την έκταση του προβλήματος. Οι ερευνητές χρησιμοποιούν τακτικά το έργο άλλων και εξαρτώνται από την ακρίβεια και την αξιοπιστία αυτού του έργου. Καθώς σπάνια ελέγχουν την αξιοπιστία των δεδομένων που παράγονται από άλλους, οι μολυσμένες αλληλουχίες εξαπλώνονται και συσσωρεύονται στη βάση δεδομένων σε έναν αέναο κύκλο. Ένας τρόπος ελέγχου της εργασίας περιλαμβάνει τη χρήση γονιδιωμάτων αναφοράς, ωστόσο αυτό εξαρτάται από την πληρότητα και την ακρίβεια της βάσης δεδομένων αναφοράς. Αυτή η διαδικασία μπορεί μόνο να διαδώσει τη μόλυνση, όχι να τη διορθώσει. Κατέληξαν στο συμπέρασμα ότι η εκτίμησή τους για το πρόβλημα είναι πιθανότατα υποεκτίμηση και ότι το πρόβλημα είναι πολύ χειρότερο από την εικόνα που παρουσιάζεται:
Επικράτηση και επιπτώσεις της μόλυνσης στους δημόσιους γονιδιωματικούς πόρους: Μια μελέτη περίπτωσης 43 συνόλων αναφοράς αρθροπόδων
"Χάρη στις τεράστιες προόδους στις τεχνολογίες αλληλούχισης, οι γονιδιωματικοί πόροι παράγονται και διαμοιράζονται ολοένα και περισσότερο από την επιστημονική κοινότητα. Η ποιότητα αυτών των δημόσιων πόρων είναι επομένως κρίσιμης σημασίας. Τα σφάλματα που οφείλονται σε επιμόλυνση είναι ιδιαίτερα ανησυχητικά- είναι ευρέως διαδεδομένα, διαδίδονται σε όλες τις βάσεις δεδομένων και μπορούν να θέσουν σε κίνδυνο τις αναλύσεις που ακολουθούν, ιδίως την ανίχνευση οριζόντια μεταφερόμενων αλληλουχιών. Ωστόσο, εξακολουθούμε να στερούμαστε συνεπών και ολοκληρωμένων αξιολογήσεων του επιπολασμού της μόλυνσης στα δημόσια γονιδιωματικά δεδομένα".
"Οι επιστήμονες συνήθως επαναχρησιμοποιούν δεδομένα αλληλουχιών που έχουν παραχθεί από άλλους και, ως εκ τούτου, εξαρτώνται από την αξιοπιστία των διαθέσιμων γονιδιωματικών πόρων. Για το λόγο αυτό, το πρόβλημα της ποιότητας των δημόσιων δεδομένων στη μοριακή βιολογία έχει από καιρό αναγνωριστεί ως κρίσιμο ζήτημα (Lamperti et al. 1992; Mistry et al. 1993; Binns 1993). Το πρόβλημα είναι ακόμη πιο έντονο στις μέρες μας με την έλευση των τεχνολογιών αλληλούχισης υψηλής απόδοσης, όταν τα περισσότερα σύνολα δεδομένων που παράγονται στη γονιδιωματική έρευνα απλώς δεν επιδέχονται χειροκίνητη επιμέλεια από ανθρώπους. Αυτό φέρνει μια νέα πρόκληση για τις τρέχουσες μεθοδολογίες στις γονιδιωματικές επιστήμες, δηλαδή την ανάπτυξη αυτοματοποιημένων προσεγγίσεων για τον εντοπισμό και την επεξεργασία των σφαλμάτων (π.χ. Andorf et al. 2007; Schmieder and Edwards 2011; Parks et al. 2015; Delmont and Eren 2016; Drăgan et al. 2016; Tennessen et al. 2016; Laetsch and Blaxter 2017; Lee et al. 2017).
Τα ζητήματα ποιότητας δεδομένων στις ακολουθίες γονιδιωμάτων περιλαμβάνουν, μεταξύ άλλων, σφάλματα αλληλούχισης, σφάλματα συναρμολόγησης και μόλυνση. Τα σφάλματα που οφείλονται σε μόλυνση είναι ιδιαίτερα ανησυχητικά για διάφορους λόγους. Πρώτον, μπορούν να οδηγήσουν σε σοβαρές παρερμηνείες των δεδομένων, όπως καταδεικνύεται από πρόσφατα, θεαματικά παραδείγματα. Τα πιθανά προβλήματα περιλαμβάνουν λανθασμένο χαρακτηρισμό του περιεχομένου των γονιδίων και των σχετικών μεταβολικών λειτουργιών (π.χ. Koutsovoulos et al. 2016; Breitwieser et al. 2019), ακατάλληλη εξαγωγή συμπερασμάτων για εξελικτικά γεγονότα (π.χ. Laurin-Lemay et al. 2012; Simion et al. 2018), και μεροληψίες στην κλήση γονότυπων και στις αναλύσεις πληθυσμιακής γονιδιωματικής (π.χ. Ballenghien et al. 2017; Wilson et al. 2018). Δεύτερον, η μόλυνση πιθανολογείται ότι είναι ευρέως διαδεδομένη. Εμφανίζεται φυσικά στα περισσότερα έργα αλληλούχισης λόγω ξένου DNA που υπάρχει αρχικά στο ακατέργαστο βιολογικό υλικό (π.χ. συμβιωτές, παράσιτα, προσλαμβανόμενη τροφή- Salzberg et al. 2005; Starcevic et al. 2008; Artamonova and Mushegian 2013; Driscoll et al. 2013; Martinson et al. 2014; Cornet et al. 2018), ή εισέρχεται στη διαδικασία σε wet labs και κέντρα αλληλούχισης (Longo et al. 2011; Salter et al. 2014; Wilson et al. 2018). Τρίτον, τα σφάλματα μόλυνσης διαδίδονται εύκολα σε όλες τις βάσεις δεδομένων σε έναν αυτοτροφοδοτούμενο φαύλο κύκλο. Εάν μια αλληλουχία DNA από το είδος Α αποδίδεται αρχικά στο λανθασμένο είδος Β λόγω επιμόλυνσης του Β από το Α, είναι πιθανό να διατηρήσει τη λανθασμένη κατάστασή της για κάποιο χρονικό διάστημα και μπορεί ακόμη και να αναγνωριστεί ως επιμόλυνση του Α από το Β όταν τελικά αλληλουχηθεί το γονιδίωμα του Α (Merchant et al. (2014). Παρά όλα τα πιθανά προβλήματα που απορρέουν από τη μόλυνση των γονιδιωματικών πόρων, οι περισσότερες μελέτες που ασχολούνται με το ζήτημα αυτό μέχρι σήμερα έχουν επικεντρωθεί σε ένα συγκεκριμένο γονιδίωμα (π.χ. tardigrades) και/ή σε μια συγκεκριμένη πηγή μόλυνσης (π.χ. άνθρωποι). Μόνο δύο μελέτες που γνωρίζουμε έχουν ελέγξει με συνέπεια περισσότερες από μία συναρμογές γονιδιωμάτων. Οι Merchant et al. (2014) επικεντρώθηκαν στο γονιδίωμα των βοοειδών, αλλά εφάρμοσαν επίσης τον αγωγό τους σε οκτώ τυχαία επιλεγμένα προσχέδια γονιδιωμάτων (πέντε ζώα, δύο φυτά, ένας μύκητας), με αντίθετα αποτελέσματα. Οι Cornet et al. (2018) ανέλυσαν 440 γονιδιώματα κυανοβακτηρίων και αποκάλυψαν σημαντικό επίπεδο μόλυνσης σε ποσοστό >5% αυτών. Υπάρχει προφανώς ανάγκη για περαιτέρω αξιολόγηση του προβλήματος της επιμόλυνσης στα δημόσια διαθέσιμα γονιδιωματικά δεδομένα".
"Ένας απλός τρόπος για τον εντοπισμό της μόλυνσης σε ένα πρόσφατα αλληλουχισμένο γονιδίωμα είναι η σύγκριση των συναρμολογημένων αλληλουχιών με υπάρχουσες βάσεις δεδομένων με αλγόριθμους που μοιάζουν με τον BLAST. Εάν η καλύτερη αντιστοιχία μιας αλληλουχίας αποδίδεται σε ένα είδος που απέχει φυλογενετικά από τον οργανισμό-στόχο, τότε η αλληλουχία σχολιάζεται ως επιμόλυνση. Υπάρχουν διάφορα προβλήματα με αυτή την απλή στρατηγική. Πρώτον, δεν επιτρέπει τη διάκριση των μολυσματικών από την HGT. Δεύτερον, η προσέγγιση αυτή εξαρτάται εξ ολοκλήρου από την ορθότητα της βάσης δεδομένων αναφοράς. Μια έρευνα με τα καλύτερα αποτελέσματα BLAST μπορεί μόνο να διαδώσει, όχι να διορθώσει, προϋπάρχουσες ταξινομικές λανθασμένες κατατάξεις, όπως συζητήθηκε παραπάνω. Τρίτον, μια τέτοια προσέγγιση εξαρτάται επίσης από την πληρότητα της βάσης δεδομένων αναφοράς και από τη φυλογενετική θέση του οργανισμού-στόχου. Εάν η βάση δεδομένων αναφοράς είναι ανισόρροπη και κυριαρχείται από μία ή λίγες συγκεκριμένες ταξινομικές ομάδες (συνήθως οργανισμοί-μοντέλα), τότε η ισχύς της για τη σωστή διάκριση των γνήσιων αλληλουχιών από τις μολυσματικές θα είναι μέγιστη για τους πρόσφατα αλληλουχημένους οργανισμούς που σχετίζονται στενά με τις κυρίαρχες ταξινομικές ομάδες, και πολύ μικρότερη για τους οργανισμούς που σχετίζονται απομακρυσμένα με τις κυρίαρχες ταξινομικές ομάδες".
"Συνοπτικά, από τις 43 δημοσιευμένες συναρμολογήσεις γονιδιωμάτων, 15 (δηλ. το 35%) παρουσίασαν τουλάχιστον κάποια ίχνη μόλυνσης από μη μεταζωοειδή, συμπεριλαμβανομένων τεσσάρων που ήταν σημαντικά μολυσμένα. Αυτά τα ποσοστά είναι πιθανόν να υποεκτιμούν την πραγματική επικράτηση της μόλυνσης λόγω του περιορισμού που οφείλεται στην ελλιπή ύπαρξη γονιδιωματικών βάσεων δεδομένων αναφοράς, όπως συζητήθηκε παραπάνω. Επιπλέον, ο συνολικός επιπολασμός της μόλυνσης αναμένεται να είναι ακόμη υψηλότερος, καθώς δεν εξετάσαμε τις μεταζωικές μολύνσεις. Ωστόσο, η επιμόλυνση από τεχνικούς υγρών εργαστηρίων καθώς και από πρότυπους οργανισμούς που χρησιμοποιούνται ευρέως σε ερευνητικές εγκαταστάσεις (π.χ. ποντίκια, ψάρια ζέβρα, ...) είναι πιθανό να συμβεί σε οποιοδήποτε έργο αλληλούχισης. Τα αποτελέσματά μας συνάδουν με πρόσφατες αναλύσεις που αποκάλυψαν παρόμοιο επίπεδο επιμόλυνσης σε δημοσιευμένες συνελεύσεις γονιδιωμάτων (π.χ. Borner and Burmester 2017). Συγκεκριμένα, οι Bemm κ.ά. (BioRxiv: https://doi.org/10.1101/122309) ανέφεραν από 0 έως περίπου 5% βακτηριακή μόλυνση στο γονιδίωμα Ensembl Metazoa και προσδιόρισαν τη μέλισσα Bombus impatiens ως ένα από τα πιο υψηλά μολυσμένα σύνολα. Επιπλέον, οι αναλύσεις μας επικεντρώθηκαν στις CDS, οι οποίες είναι από τις πιο συντηρημένες και εύκολα σχολιάσιμες αλληλουχίες ενός γονιδιώματος, δηλαδή πιθανώς φιλτράρονται πιο εύκολα για επιμόλυνση από τις σωληνώσεις συναρμολόγησης. Ως εκ τούτου, η κατάσταση όσον αφορά τη μόλυνση είναι πιθανώς ακόμη χειρότερη όσον αφορά τις μη κωδικοποιητικές αλληλουχίες".
https://academic.oup.com/g3journal/article/10/2/721/6026299
Τέλος, σε μια μελέτη του Μαρτίου 2020, οι συγγραφείς αναφέρουν ότι η μόλυνση είναι ένα γνωστό πρόβλημα που οδηγεί σε ανακριβείς εκτιμήσεις στη βασική και κλινική έρευνα. Αναφέρεται ότι η επιμόλυνση είναι διάχυτη και οδηγεί σε ψευδώς θετικά και αρνητικά αποτελέσματα. Ο ρόλος της επιμόλυνσης σπάνια εξετάζεται καθώς και τα επακόλουθα λανθασμένα συμπεράσματα που σχετίζονται με το βιολογικό φαινόμενο. Διαπίστωσαν ότι τα περιστατικά επιμόλυνσης είναι συχνά όχι μόνο σε μη καθαρισμένα κλινικά δείγματα αλλά και σε δείγματα που θεωρούνται καθαρής καλλιέργειας. Ακόμη και η αλληλούχιση δειγμάτων με χαμηλή επιμόλυνση μπορεί να οδηγήσει σε δεκάδες σφάλματα. Η αλληλούχιση απευθείας από κλινικά δείγματα αποδίδει τα υψηλότερα σφάλματα, καθώς πρόκειται για τις πιο υψηλά μολυσμένες πηγές. Η αλληλούχιση χωρίς καλλιέργεια οδηγεί σε υψηλές ποσότητες μόλυνσης από τον ξενιστή και ανεξάρτητα από την πηγή μόλυνσης, το αποτέλεσμα είναι μη στοχευμένες αλληλουχίες αλληλούχισης που επηρεάζουν την ανάλυση. Ενώ αναμενόταν από τους ερευνητές ότι η επιμόλυνση αποτελεί μείζον ζήτημα κατά την αλληλούχιση DNA που δεν έχει εξαχθεί από καθαρές καλλιέργειες ή μεμονωμένες αποικίες, όπως γίνεται στα κλινικά δείγματα, αποδείχθηκε ότι η αλληλούχιση από καθαρές καλλιέργειες δεν είναι απαλλαγμένη από επιμόλυνση και ότι η χρήση τυπικών παραμέτρων ποιότητας χαρτογράφησης δεν είναι αρκετή για την αντιμετώπιση των αναγνωσμάτων επιμόλυνσης:
Το μολυσματικό DNA σε πειράματα αλληλούχισης βακτηρίων αποτελεί σημαντική πηγή ψευδούς γενετικής παραλλακτικότητας
Ιστορικό
"Το μολυσματικό DNA είναι ένας γνωστός παράγοντας σύγχυσης στη μοριακή βιολογία και στα γονιδιωματικά αποθετήρια. Είναι εντυπωσιακό ότι οι ροές εργασίας ανάλυσης για δεδομένα αλληλούχισης ολικού γονιδιώματος (WGS) συνήθως δεν λαμβάνουν υπόψη τα σφάλματα που ενδεχομένως εισάγονται από τη μόλυνση, γεγονός που θα μπορούσε να οδηγήσει σε λανθασμένη εκτίμηση της συχνότητας των αλληλομόρφων τόσο στη βασική όσο και στην κλινική έρευνα.
Αποτελέσματα
Χρησιμοποιήσαμε ένα ταξινομικό φίλτρο για να αφαιρέσουμε τις μολυσματικές αναγνώσεις από περισσότερα από 4000 βακτηριακά δείγματα από 20 διαφορετικές μελέτες και πραγματοποιήσαμε μια ολοκληρωμένη αξιολόγηση της έκτασης και του αντίκτυπου του μολυσματικού DNA στο WGS. Διαπιστώσαμε ότι η επιμόλυνση είναι διάχυτη και μπορεί να εισάγει μεγάλες μεροληψίες στην ανάλυση παραλλαγών. Δείξαμε ότι αυτές οι μεροληψίες μπορούν να οδηγήσουν σε εκατοντάδες ψευδώς θετικά και αρνητικά SNPs, ακόμη και για δείγματα με μικρή μόλυνση. Μελέτες που διερευνούν πολύπλοκα βιολογικά χαρακτηριστικά από δεδομένα αλληλούχισης μπορούν να είναι εντελώς μεροληπτικές εάν η μόλυνση παραμεληθεί κατά τη διάρκεια της βιοπληροφορικής ανάλυσης, και αποδεικνύουμε ότι η αφαίρεση των μολυσματικών αναγνώσεων με έναν ταξινομητή επιτρέπει την ακριβέστερη κλήση παραλλαγών".
"Ενώ πολλοί παράγοντες λαμβάνονται υπόψη κατά την ανάπτυξη σωληνώσεων κλήσης SNP, παραδόξως, ο πιθανός ρόλος της μόλυνσης σπάνια λαμβάνεται υπόψη [13]. Ωστόσο, η λανθασμένη ερμηνεία των μολυσμένων δεδομένων μπορεί να οδηγήσει στην εξαγωγή εσφαλμένων συμπερασμάτων σχετικά με βιολογικά φαινόμενα[14, 15].
Οι γονιδιωματικές βάσεις δεδομένων είναι γνωστό ότι περιλαμβάνουν μολυσμένες αλληλουχίες, με συναρμολογημένα γονιδιώματα που μπορεί να περιέχουν μεγάλες γονιδιωματικές περιοχές από μη στοχευόμενους οργανισμούς[16, 17]. Εντυπωσιακά, μια πρόσφατη μελέτη αποκάλυψε ότι οι κατατεθειμένες βακτηριακές και αρχαιολογικές συναρμολογήσεις είναι μολυσμένες από ανθρώπινες αλληλουχίες που δημιούργησαν χιλιάδες ψευδείς πρωτεΐνες [18]. Ενώ ο πιθανός αντίκτυπος των επιμολύνσεων έχει εξεταστεί σε τομείς όπως η μεταγονιδιωματική ή η μεταγραφιωματική, οι περισσότεροι αγωγοί ανάλυσης βακτηριακών WGS δεν διαθέτουν συγκεκριμένα βήματα που αποσκοπούν στην αντιμετώπιση των επιμολυσμένων δεδομένων. Η κατάσταση αυτή πιθανόν να προέρχεται από τις υποθέσεις ότι οι μικροβιολογικές καλλιέργειες είναι ως επί το πλείστον απαλλαγμένες από μη στοχευόμενους οργανισμούς και ότι ακόμη και αν υπάρχουν, οι μολυσματικές αλληλουχίες είναι απίθανο να χαρτογραφηθούν στα γονιδιώματα αναφοράς ή απομακρύνονται με τη χρήση τυπικών αποκοπών φίλτρων. Μέχρι σήμερα, η έκταση της επιμόλυνσης και ο αντίκτυπός της στις σωληνώσεις επανασυνταξινόμησης βακτηρίων δεν έχει εκτιμηθεί διεξοδικά".
"Διαπιστώσαμε ότι τα συμβάντα μόλυνσης είναι συχνά σε όλες τις βακτηριακές μελέτες WGS και μπορούν να εισάγουν μεγάλες μεροληψίες στην ανάλυση παραλλαγών παρά τη χρήση αυστηρών αποκοπών χαρτογράφησης και κλήσης παραλλαγών. Είναι σημαντικό ότι αυτό δεν ισχύει μόνο για στρατηγικές αλληλούχισης χωρίς καλλιέργειες, αλλά και για πειράματα αλληλούχισης από καθαρές καλλιέργειες. Δείχνουμε ότι το μέγεθος της επίδρασης δεν εξαρτάται από την ποσότητα της επιμόλυνσης και ότι δείγματα με ακόμη και χαμηλού επιπέδου επιμόλυνση μπορούν να συσσωρεύσουν δεκάδες σφάλματα, ιδίως για μη σταθεροποιημένα SNPs".
"Κατά την εξέταση του συνόλου δεδομένων ΜΤΒ, παρατηρήσαμε επίσης ότι η μόλυνση είναι κοινή σε όλες τις μελέτες (Σχήμα1b). Όπως αναμενόταν, η άμεση αλληλούχιση από κλινικά δείγματα και τα πρώιμα θετικά σωληνάρια δείκτη ανάπτυξης μυκοβακτηριδίων (MGIT), τα οποία εμβολιάζονται με πρωτογενή κλινικά δείγματα, παρουσιάζουν υψηλότερα επίπεδα μόλυνσης όσον αφορά τόσο τον αριθμό των μολυσμένων δειγμάτων όσο και το ποσοστό των μη στοχευμένων αναγνώσεων εντός αυτών. Οι συνήθεις επιμολύνσεις για τα δείγματα αυτά περιλαμβάνουν ανθρώπινο DNA και βακτήρια που απαντώνται συνήθως στις στοματικές και αναπνευστικές κοιλότητες, όπως Pseudomonas, Rothia, Streptococcus ή Actinomyces, και μπορεί να αποτελούν σχεδόν όλες τις αναγνώσεις σε ορισμένα δείγματα. Ωστόσο, όπως παρατηρήθηκε για το σύνολο δεδομένων για τα βακτήρια, η επιμόλυνση εντοπίστηκε επίσης σε μελέτες στις οποίες το αλληλουχημένο DNA προερχόταν από απομονώσεις καθαρών καλλιεργειών. Για παράδειγμα, οι Bacillus, Negativicoccus και Enterococcus αντιπροσώπευαν έως και 68%, 58% και 32%, αντίστοιχα, των διαφόρων δειγμάτων από τη μελέτη KwaZulu. Είναι εντυπωσιακό ότι 17 από τα 73 δείγματα ΜΤΒ από τη μελέτη της Νιγηρίας ταυτοποιήθηκαν ως Staphylococcus aureus (92 έως 99% των αναγνώσεων). Το σύνολο δεδομένων υψηλού βάθους ήταν ως επί το πλείστον απαλλαγμένο από επιμολύνσεις, με εξαίρεση δύο δείγματα για τα οποία ταυτοποιήθηκαν 3,32% A. baumannii και 2,83% μη φυματιώδη μυκοβακτηρίδια (ΜΜΜ) (που αντιστοιχούν σε 795.887 και 920.379 αναγνώσεις, αντίστοιχα)".
"Είναι αξιοσημείωτο ότι ακόμη και ένα 5% μολυσματικών αναγνώσεων μπορεί να εισαγάγει μεγάλο αριθμό ψευδώς θετικών vSNPs. Όπως αναμενόταν, οι λανθασμένες κλήσεις που παράγονται από μια τόσο μικρή μόλυνση εμπίπτουν κυρίως σε συντηρημένες περιοχές. Ωστόσο, σε συμφωνία με τα αποτελέσματα που παρουσιάζονται στην Εικ. 4a, ψευδή SNPs μπορούν να κληθούν σε όλο το γονιδίωμα (Πρόσθετο αρχείο 8: Εικόνα S2)."
"Η αλληλούχιση απευθείας από κλινικά δείγματα υπόκειται σε μεγαλύτερες αλλοιώσεις στην ανάλυση παραλλαγών (Εικ. 5), δεδομένου ότι αυτή η στρατηγική αποδίδει συνήθως δείγματα με υψηλή μόλυνση και περιορισμένο βάθος αλληλούχισης. Σε αυτές τις περιπτώσεις, οι συχνότητες SNP είναι πιο ευαίσθητες στις μολυσματικές αναγνώσεις, δεδομένου ότι μόνο λίγες αναγνώσεις μπορούν να είναι υπεύθυνες για μια μετατόπιση στις συχνότητες που κάνουν μια θέση να πέσει κάτω ή πάνω από τα απαιτούμενα όρια για την κλήση μιας παραλλαγής (πρόσθετο αρχείο 7: Εικόνα S1). Ωστόσο, ούτε το υψηλό βάθος αλληλούχισης εγγυάται μια ανάλυση ασφαλής από σφάλματα".
Συζήτηση
"Στην παρούσα εργασία αναλύουμε περισσότερα από 4000 δείγματα WGS από 14 διαφορετικά παθογόνα βακτηριακά είδη για να αξιολογήσουμε την έκταση και τον αντίκτυπο της μόλυνσης στις μελέτες βακτηριακών WGS. Δείχνουμε ότι η παρουσία αναγνωσμάτων αλληλούχισης από μολυσματικούς οργανισμούς είναι συχνή, ακόμη και όταν η αλληλούχιση πραγματοποιείται από απομονώσεις καθαρών καλλιεργειών (Εικ. 1). Πέρα από τις ακατάλληλες εργαστηριακές πρακτικές, υπάρχουν διάφορες πιθανές πηγές μόλυνσης που εξαρτώνται από διάφορους παράγοντες, όπως ο τύπος του δείγματος που επεξεργάστηκε και η προέλευσή του ή τα πρωτόκολλα που ακολουθήθηκαν για την καλλιέργεια, την εξαγωγή DNA και την αλληλούχιση. Για παράδειγμα, οι Salter et al. έδειξαν ότι η μόλυνση του DNA στα εργαστηριακά αντιδραστήρια μπορεί να επηρεάσει κρίσιμα την ανάλυση του μικροβιώματος από δείγματα χαμηλής βιομάζας [19]. Οι προσεγγίσεις αλληλούχισης χωρίς καλλιέργεια για μη καλλιεργήσιμα ή αργά αναπτυσσόμενα παθογόνα, όπως το T. pallidum ή ο MTB, συνεπάγονται την παρουσία υψηλών ποσοτήτων μολυσματικού DNA από τον οργανισμό ξενιστή. Πιθανές είναι και άλλες πηγές που δεν σχετίζονται με το χειρισμό του δείγματος. Για παράδειγμα, τα δείγματα S. aureus που υποτίθεται ότι είναι ΜΤΒ από τη μελέτη της Νιγηρίας είναι πιθανότατα σφάλμα κατά την υποβολή δεδομένων στο αποθετήριο γονιδιωμάτων. Ανεξάρτητα από την πηγή της μόλυνσης, η κοινή συνέπεια είναι η παρουσία μη στοχευμένων αναγνώσεων στα αρχεία αλληλούχισης που ενδέχεται να επηρεάσουν τα αποτελέσματα της γονιδιωματικής ανάλυσης.
Αξιολογήσαμε μια τέτοια επίπτωση και καταδείξαμε ότι οι μολυσματικές αναγνώσεις υποθέτουν μια παγίδα στις σωληνώσεις επανααποσυντονισμού, δεδομένου ότι είναι απροσδόκητα συχνές και μπορεί να έχουν σημαντικές επιπτώσεις στην ανάλυση παραλλαγών, η οποία αποτελεί τη βάση πολλών γονιδιωματικών αναλύσεων. Όπως αναμενόταν, η επιμόλυνση αποτελεί μείζον ζήτημα κατά την αλληλούχιση DNA που δεν έχει εξαχθεί από καθαρές καλλιέργειες ή μεμονωμένες αποικίες, όπως συμβαίνει συχνά στα κλινικά δείγματα. Ωστόσο, δείχνουμε ότι τα πειράματα αλληλούχισης από καθαρές καλλιέργειες δεν είναι απαραίτητα απαλλαγμένα από επιμόλυνση και ότι η χρήση τυποποιημένων παραμέτρων ποιότητας χαρτογράφησης δεν είναι αρκετή για την αντιμετώπιση επιμολυσμένων αναγνώσεων. Ως εκ τούτου, οι βιοπληροφορικές σωληνώσεις που υποθέτουν ότι όλες οι αναγνώσεις που χαρτογραφούνται επιτυχώς προέρχονται από τον οργανισμό-στόχο ενδέχεται να οδηγήσουν σε μεροληπτική ανάλυση παραλλαγών. Δείχνουμε ότι τα σφάλματα που εισάγονται από τη μόλυνση είναι πολύ διαφορετικά μεταξύ των διαφόρων μελετών, (Πίνακας 2; Εικ. 3; Εικ. 5), τα οποία διαφέρουν όχι μόνο από τον οργανισμό που αλληλουχίζεται αλλά και από την πηγή δειγματοληψίας και τα εργαστηριακά πρωτόκολλα.
"Οι αναλύσεις για τον ΜΤΒ αποκαλύπτουν μεγάλο αριθμό παραλλαγών που εισάγονται από επιμολύνσεις με επακόλουθες συνέπειες κατά την κλήση των vSNPs και fSNPs καθώς και του άγριου τύπου. Είναι αξιοσημείωτο ότι δείχνουμε ότι η επιμόλυνση μπορεί να εισάγει σημαντικά σφάλματα σε δείγματα που θα μπορούσαν να θεωρηθούν "καθαρά" ή με μεγάλο βάθος αλληλούχισης, γεγονός που σημαίνει ότι θα χρειαστούν σωληνώσεις με επίγνωση της επιμόλυνσης σε κάθε περίσταση.
Η μόλυνση έχει αναγνωριστεί ως σημαντική πηγή σφαλμάτων στις συναρμολογήσεις γονιδιωμάτων και σε άλλα πεδία όπως η μεταγονιδιωματική [16, 19].Ωστόσο, ο ρόλος της μόλυνσης στις σωληνώσεις επανασυνταξινόμησης συνήθως παραμελείται. Ενώ ορισμένες ομάδες έχουν ήδη επίγνωση αυτού του ζητήματος, οι περισσότερες σωληνώσεις επανασυνταξινόμησης βακτηρίων εξακολουθούν να στερούνται στρατηγικών ελέγχου της μόλυνσης ή, αν υπάρχουν, αυτές σπάνια περιγράφονται λεπτομερώς σε δημοσιευμένες εργασίες".
https://bmcbiol.biomedcentral.com/articles/10.1186/s12915-020-0748-z
Σύνοψη:
Οι μολυσματικές αλληλουχίες που εμφανίζονται σε δημοσιευμένα γονιδιώματα μπορούν να προκαλέσουν πολλά προβλήματα για τις αναλύσεις που ακολουθούν, ιδίως για εξελικτικές μελέτες και έργα μεταγονιδιωματικής.
Μια μεγάλης κλίμακας σάρωση του 2019 πλήρων και σχεδίων βακτηριακών και αρχαιολογικών γονιδιωμάτων στη βάση δεδομένων NCBI RefSeq αποκάλυψε ότι 2250 γονιδιώματα είναι μολυσμένα από ανθρώπινη αλληλουχία
Οι μολυσματικές αλληλουχίες προέρχονταν κυρίως από ανθρώπινες επαναλαμβανόμενες περιοχές με υψηλό αριθμό αντιγράφων, οι οποίες οι ίδιες δεν αντιπροσωπεύονται επαρκώς στο τρέχον ανθρώπινο γονιδίωμα αναφοράς, GRCh38
Σε ορισμένες περιπτώσεις, τα μολυσματικά contigs σχολιάστηκαν λανθασμένα ως περιέχουσες αλληλουχίες που κωδικοποιούν πρωτεΐνες, οι οποίες με την πάροδο του χρόνου διαδόθηκαν για να δημιουργήσουν ψευδείς πρωτεϊνικές "οικογένειες" σε πολλαπλά προκαρυωτικά και ευκαρυωτικά γονιδιώματα
Ως αποτέλεσμα, 3437 ψευδείς πρωτεϊνικές καταχωρίσεις υπάρχουν σήμερα στις ευρέως χρησιμοποιούμενες πρωτεϊνικές βάσεις δεδομένων nr και TrEMBL.
Ιδανικά, όλα τα γονιδιώματα στις βάσεις δεδομένων αναφοράς θα ήταν πλήρη και ακριβή, αλλά για πρακτικούς λόγους, η συντριπτική πλειονότητα των γονιδιωμάτων που είναι διαθέσιμα σήμερα εξακολουθούν να είναι "προσχέδια"
Ένα γονιδίωµα δεν είναι πραγµατικά πλήρες ή "τελειωµένο" µέχρις ότου προσδιοριστεί κάθε ζεύγος βάσεων για κάθε χρωµόσωµα και οργανίδιο, από άκρη σε άκρη, χωρίς κενά.
Το ανθρώπινο γονιδίωμα, αν και πολύ πιο πλήρες από τα περισσότερα γονιδιώματα άλλων ζώων, δεν έχει ακόμη ολοκληρωθεί.
Τα προσχέδια γονιδιωμάτων άλλων ειδών ποικίλλουν σε μεγάλο βαθμό ως προς την ποιότητα, καθώς και ως προς τη συνεκτικότητα, με ορισμένα να έχουν χιλιάδες contigs και άλλα να έχουν πολύ μικρότερο αριθμό
Η επιμόλυνση των συνόλων γονιδιωμάτων με αλληλουχίες από άλλα είδη δεν είναι ασυνήθιστη, ιδίως στα προσχέδια γονιδιωμάτων.
Το 2011, ερευνητές ανέφεραν ότι πάνω από το 10% των επιλεγμένων συνόλων μη πρωτευόντων στις βάσεις δεδομένων NCBI και UCSC Genome Browser ήταν μολυσμένα με τις ειδικές για τα πρωτεύοντα AluY επαναλήψεις
Επιπλέον, όταν τα ανοικτά πλαίσια ανάγνωσης (ORFs) στα μολυσμένα contigs σχολιάζονται ως γονίδια που κωδικοποιούν πρωτεΐνες, η πρωτεϊνική τους αλληλουχία μπορεί να προστεθεί σε άλλες βάσεις δεδομένων
Μόλις μπουν σε αυτές τις βάσεις δεδομένων, αυτές οι ψευδείς πρωτεΐνες μπορούν με τη σειρά τους να χρησιμοποιηθούν σε μελλοντικό σχολιασμό, οδηγώντας στο λεγόμενο πρόβλημα της "μεταβατικής καταστροφής", όπου τα σφάλματα διαδίδονται ευρέως
Το 2009, οι Schnoes et al. διαπίστωσαν ότι το ποσοστό των λανθασμένων καταχωρίσεων στη συλλογή μη πλεοναστικών πρωτεϊνών (nr) του NCBI, η οποία χρησιμοποιείται για χιλιάδες αναζητήσεις BLAST κάθε μέρα, αυξάνεται με την πάροδο του χρόνου
Η μόλυνση των γονιδιωματικών αλληλουχιών μπορεί να είναι ιδιαίτερα προβληματική για τις μεταγονιδιωματικές μελέτες
Για παράδειγμα, εάν ένα γονιδίωμα που χαρακτηρίζεται ως είδος Χ περιέχει θραύσματα του ανθρώπινου γονιδιώματος, τότε οποιοδήποτε δείγμα που περιέχει ανθρώπινο DNA μπορεί λανθασμένα να αναγνωριστεί ότι περιέχει επίσης το είδος Χ
Δεδομένου ότι το ανθρώπινο DNA είναι σχεδόν πάντα παρόν στο περιβάλλον των εργαστηρίων αλληλούχισης, η ανθρώπινη μόλυνση είναι πολύ συχνή σε πειράματα αλληλούχισης όλων των τύπων
Η επιμόλυνση των εργαστηριακών αντιδραστηρίων με DNA από άλλους οργανισμούς μπορεί επίσης να οδηγήσει σε σοβαρές παρερμηνείες, όπως η υποτιθέμενη ανίχνευση του νέου "ιού" NIH-CQV σε ασθενείς με ηπατίτιδα, ο οποίος τελικά διαπιστώθηκε ότι ήταν επιμόλυνση των κιτ εκχύλισης νουκλεϊκών οξέων.
Αποδείχθηκε ότι η ανθρώπινη επιμόλυνση έχει εισχωρήσει σε 2250 δημόσια διαθέσιμα μικροβιακά γονιδιώματα, κυρίως βακτηρίων, αλλά και αρχαίων και ορισμένων ευκαρυωτών
Οι λανθασμένες μεταφράσεις αυτών των επιμολύνσεων δημιούργησαν περισσότερες από 3000 σχολιασμένες πρωτεΐνες
Όλα αυτά τα γονιδιώματα και οι πρωτεΐνες εμφανίζονται σε τουλάχιστον μία, αν όχι σε πολλές ευρέως χρησιμοποιούμενες βάσεις δεδομένων αλληλουχιών
Είναι πιθανόν να υπάρχουν πρόσθετες προσμίξεις, όπως:
Άλλες ανθρώπινες γονιδιωματικές περιοχές
Θραύσματα DNA από μη ανθρώπινους οργανισμούς ξενιστές
Περιβαλλοντικές πηγές
Εργαστηριακοί φορείς
Αυτή η εκτεταμένη μόλυνση δημιουργεί σοβαρά προβλήματα για πολλούς τύπους επιστημονικών αναλύσεων που εξαρτώνται από βάσεις δεδομένων γονιδιώματος και πρωτεϊνών
Ένας τομέας που επηρεάζεται σε μεγάλο βαθμό είναι η χρήση της μεταγονιδιωματικής αλληλουχίας για τη διάγνωση λοιμώξεων, μια ταχέως αναπτυσσόμενη κλινική εφαρμογή στην οποία οι ανθρώπινοι ιστοί αλληλουχίζονται για τον εντοπισμό ενός πιθανού παθογόνου παράγοντα
Σε αυτά τα δείγματα, όπου το κυρίαρχο είδος είναι ο άνθρωπος, η μόλυνση ακόμη και ενός μικρού κλάσματος των βακτηριακών γονιδιωμάτων στη βάση δεδομένων θα προκαλέσει πολυάριθμα ψευδώς θετικά αποτελέσματα, καθώς οι ανθρώπινες αναγνώσεις μπορεί να εμφανίζονται, εσφαλμένα, να αντιπροσωπεύουν βακτηριακούς οργανισμούς
Παρά την καθημερινή εξάρτηση από τις γονιδιωματικές βάσεις δεδομένων, υπάρχουν κενά, σφάλματα και επιμολύνσεις στα δεδομένα.
"Δυστυχώς, σε πολλές περιπτώσεις διαπιστώσαμε ότι η μόλυνση εντός των ακολουθιών γονιδιώματος παράγει ψευδώς θετικά αποτελέσματα". - Martin Steinegger
Χρησιμοποιώντας πρόσφατους γρήγορους αλγορίθμους, οι Steinegger και Salzberg ανέπτυξαν ένα εργαλείο που ονομάζεται Conterminator το οποίο επέτρεψε την αναζήτηση για μόλυνση σε όλα τα βασίλεια και κλιμακώνεται γραμμικά
Περίμεναν να δουν μερικές χιλιάδες μολυσμένες αλληλουχίες αλλά κατέληξαν σε εκατομμύρια
Το πιο εκπληκτικό εύρημα ήταν η παρουσία ενός κομματιού ενός βακτηρίου, του Acidithiobacillus thiooxidans, σε ένα εναλλακτικό ικρίωμα της τρέχουσας έκδοσης του ανθρώπινου γονιδιώματος αναφοράς (GRCh38)
"Πολλά από τα γονιδιώματα περιέχουν μόλυνση. Ένα ιδιαίτερο πρόβλημα που προκύπτει, ξανά και ξανά, είναι ότι η μόλυνση οδηγεί σε εσφαλμένους ισχυρισμούς σχετικά με την οριζόντια μεταφορά γονιδίων", λέει ο Steinegger
Τα σφάλματα που οφείλονται στη μόλυνση είναι ιδιαίτερα ανησυχητικά- είναι ευρέως διαδεδομένα, διαδίδονται σε όλες τις βάσεις δεδομένων και μπορούν να θέσουν σε κίνδυνο τις αναλύσεις που ακολουθούν, ιδίως την ανίχνευση αλληλουχιών που έχουν μεταφερθεί οριζόντια
Εξακολουθούμε να στερούμαστε συνεπών και ολοκληρωμένων αξιολογήσεων του επιπολασμού της μόλυνσης στα δημόσια γονιδιωματικά δεδομένα
Οι επιστήμονες συνήθως επαναχρησιμοποιούν δεδομένα αλληλουχιών που έχουν παραχθεί από άλλους και, ως εκ τούτου, εξαρτώνται από την αξιοπιστία των διαθέσιμων γονιδιωματικών πόρων
Το πρόβλημα είναι ακόμη πιο έντονο στις μέρες μας με την έλευση των τεχνολογιών αλληλούχισης υψηλής απόδοσης, όταν τα περισσότερα σύνολα δεδομένων που παράγονται στη γονιδιωματική έρευνα απλά δεν επιδέχονται χειροκίνητη επιμέλεια από ανθρώπους.
Τα προβλήματα ποιότητας των δεδομένων στις ακολουθίες γονιδιώματος περιλαμβάνουν, μεταξύ άλλων, σφάλματα αλληλούχισης, σφάλματα συναρμολόγησης και μόλυνση
Τα σφάλματα που οφείλονται σε μόλυνση είναι ιδιαίτερα ανησυχητικά για διάφορους λόγους:
Μπορούν να οδηγήσουν σε σοβαρές παρερμηνείες των δεδομένων
Η επιμόλυνση πιθανολογείται ότι είναι ευρέως διαδεδομένη, καθώς συμβαίνει φυσιολογικά στα περισσότερα έργα αλληλούχισης λόγω ξένου DNA που υπάρχει αρχικά στο ακατέργαστο βιολογικό υλικό (π.χ. συμβιωτών, παρασίτων, προσλαμβανόμενων τροφών) ή εισέρχεται στη διαδικασία στα υγρά εργαστήρια και στα κέντρα αλληλούχισης
Τα σφάλματα μόλυνσης διαδίδονται εύκολα σε όλες τις βάσεις δεδομένων σε έναν αυτοτροφοδοτούμενο φαύλο κύκλο
Υπάρχει προφανώς ανάγκη για περαιτέρω αξιολόγηση του προβλήματος της μόλυνσης στα δημόσια διαθέσιμα γονιδιωματικά δεδομένα.
Υπάρχουν διάφορα προβλήματα με αυτή την απλή στρατηγική:
Αυτή δεν επιτρέπει τη διάκριση των επιμολύνσεων από την HGT
Αυτή η προσέγγιση εξαρτάται εξ ολοκλήρου από την ορθότητα της βάσης δεδομένων αναφοράς και μια έρευνα με τα καλύτερα αποτελέσματα του BLAST μπορεί μόνο να πολλαπλασιάσει, όχι να διορθώσει, προϋπάρχουσες ταξινομικές λανθασμένες κατατάξεις.
Εξαρτάται επίσης από την πληρότητα της βάσης δεδομένων αναφοράς και από τη φυλογενετική θέση του οργανισμού-στόχου.
Ο συνολικός επιπολασμός της μόλυνσης που αποκαλύφθηκε από αυτή τη μελέτη αναμένεται να είναι ακόμη υψηλότερος, καθώς δεν εξετάστηκαν οι μεταζωοειδείς μολυντές
Η κατάσταση όσον αφορά τη μόλυνση είναι πιθανώς ακόμη χειρότερη όσον αφορά τις μη κωδικοποιητικές αλληλουχίες.
Οι ροές εργασίας ανάλυσης για δεδομένα αλληλούχισης ολόκληρου γονιδιώματος (WGS) συνήθως δεν λαμβάνουν υπόψη τα σφάλματα που ενδεχομένως εισάγονται από τη μόλυνση, γεγονός που θα μπορούσε να οδηγήσει σε λανθασμένη εκτίμηση της συχνότητας αλληλομόρφων τόσο στη βασική όσο και στην κλινική έρευνα.
Η μελέτη διαπίστωσε ότι η μόλυνση είναι διάχυτη και μπορεί να εισάγει μεγάλες μεροληψίες στην ανάλυση παραλλαγών
Η μελέτη έδειξε ότι αυτές οι μεροληψίες μπορούν να οδηγήσουν σε εκατοντάδες ψευδώς θετικά και αρνητικά SNPs, ακόμη και για δείγματα με ελαφρά μόλυνση
Οι μελέτες που διερευνούν πολύπλοκα βιολογικά χαρακτηριστικά από δεδομένα αλληλούχισης μπορούν να είναι εντελώς μεροληπτικές εάν η μόλυνση παραμεληθεί κατά τη διάρκεια της βιοπληροφορικής ανάλυσης, και η μελέτη αυτή έδειξε ότι η αφαίρεση των μολυσματικών αναγνώσεων με έναν ταξινομητή επιτρέπει την ακριβέστερη κλήση παραλλαγών (ποιος θα το φανταζόταν...;)
Ο πιθανός ρόλος της μόλυνσης σπάνια λαμβάνεται υπόψη
Η λανθασμένη ερμηνεία των μολυσμένων δεδομένων μπορεί να οδηγήσει στην εξαγωγή λανθασμένων συμπερασμάτων για βιολογικά φαινόμενα
Οι γονιδιωματικές βάσεις δεδομένων είναι γνωστό ότι περιλαμβάνουν μολυσμένες αλληλουχίες, με συναρμολογημένα γονιδιώματα που μπορεί να περιέχουν μεγάλες γονιδιωματικές περιοχές από μη στοχευόμενους οργανισμούς
Ενώ ο πιθανός αντίκτυπος των επιμολύνσεων έχει εξεταστεί σε πεδία όπως η μεταγονιδιωματική ή η μεταγραφιωματική, οι περισσότεροι αγωγοί ανάλυσης βακτηριακών WGS δεν διαθέτουν ειδικά βήματα που αποσκοπούν στην αντιμετώπιση των επιμολυσμένων δεδομένων
Η κατάσταση αυτή πιθανόν προέρχεται από τις παραδοχές ότι οι μικροβιολογικές καλλιέργειες είναι ως επί το πλείστον απαλλαγμένες από μη στοχευόμενους οργανισμούς και ότι, ακόμη και αν υπάρχουν, οι αλληλουχίες μόλυνσης είναι απίθανο να χαρτογραφηθούν στα γονιδιώματα αναφοράς ή απομακρύνονται με τη χρήση τυπικών φίλτρων αποκοπής.
Μέχρι σήµερα, η έκταση της µόλυνσης και ο αντίκτυπός της σε αγωγούς επαναληπτικής αλληλούχισης βακτηρίων δεν έχει εκτιµηθεί διεξοδικά.
Διαπίστωσαν ότι τα συμβάντα μόλυνσης είναι συχνά σε όλες τις βακτηριακές μελέτες WGS και μπορούν να εισάγουν μεγάλες μεροληψίες στην ανάλυση παραλλαγών παρά τη χρήση αυστηρών αποκοπών χαρτογράφησης και κλήσης παραλλαγών
Αυτό δεν ίσχυε μόνο για στρατηγικές αλληλούχισης χωρίς καλλιέργειες, αλλά και για πειράματα αλληλούχισης από καθαρές καλλιέργειες
Η μελέτη έδειξε ότι το μέγεθος της επίδρασης δεν εξαρτάται από την ποσότητα της μόλυνσης και ότι τα δείγματα με ακόμη και χαμηλού επιπέδου μόλυνση μπορούν να συσσωρεύσουν δεκάδες σφάλματα, ιδίως για μη σταθερά SNPs
Όταν εξέτασαν το σύνολο δεδομένων ΜΤΒ, παρατήρησαν επίσης ότι η μόλυνση είναι κοινή σε όλες τις μελέτες
Η άμεση αλληλούχιση από κλινικά δείγματα και τα πρώιμα θετικά σωληνάρια δείκτη ανάπτυξης μυκοβακτηριδίων (MGIT), τα οποία εμβολιάζονται με πρωτογενή κλινικά δείγματα, παρουσίασαν υψηλότερα επίπεδα μόλυνσης όσον αφορά τόσο τον αριθμό των δειγμάτων που μολύνθηκαν όσο και το ποσοστό των μη στοχευμένων αναγνώσεων σε αυτά
Οι συνήθεις επιμολύνσεις για τα δείγματα αυτά περιλαμβάνουν ανθρώπινο DNA και βακτήρια που βρίσκονται συνήθως στις στοματικές και αναπνευστικές κοιλότητες και μπορούν να αποτελέσουν σχεδόν όλες τις αναγνώσεις σε ορισμένα δείγματα.
Ωστόσο, όπως παρατηρήθηκε για το σύνολο δεδομένων για τα βακτήρια, η επιμόλυνση εντοπίστηκε επίσης σε μελέτες στις οποίες το αλληλουχημένο DNA προερχόταν από απομονώσεις καθαρών καλλιεργειών.
Ακόμα και ένα 5% μολυσματικών αναγνώσεων μπορεί να εισαγάγει μεγάλο αριθμό ψευδώς θετικών vSNPs
Οι λανθασμένες κλήσεις που παράγονται από μια τόσο μικρή μόλυνση εμπίπτουν κυρίως σε συντηρημένες περιοχές, ωστόσο, μπορούν να κληθούν λανθασμένα SNPs σε όλο το γονιδίωμα
Η αλληλούχιση απευθείας από κλινικά δείγματα υπόκειται σε μεγαλύτερες αλλοιώσεις στην ανάλυση παραλλαγών, δεδομένου ότι αυτή η στρατηγική αποδίδει συνήθως δείγματα με υψηλή μόλυνση και περιορισμένο βάθος αλληλούχισης
Αυτή η μελέτη έδειξε ότι η παρουσία αναγνωσμάτων αλληλούχισης από μολυσματικούς οργανισμούς είναι συχνή, ακόμη και όταν η αλληλούχιση πραγματοποιείται από απομονωμένα δείγματα καθαρής καλλιέργειας
Πέρα από τις ακατάλληλες εργαστηριακές πρακτικές, υπάρχουν διάφορες πιθανές πηγές μόλυνσης που εξαρτώνται από διαφορετικούς παράγοντες, όπως:
Ο τύπος του δείγματος που επεξεργάζεται και η προέλευσή του
Τα πρωτόκολλα που ακολουθούνται για την καλλιέργεια
Την εξαγωγή DNA
Αλληλούχιση
Οι προσεγγίσεις αλληλούχισης χωρίς καλλιέργεια για μη καλλιεργήσιμα ή αργά αναπτυσσόμενα παθογόνα, όπως το T. pallidum ή ο ΜΤΒ, συνεπάγονται την παρουσία υψηλών ποσοτήτων μολυσματικού DNA από τον οργανισμό ξενιστή
Ανεξάρτητα από την πηγή της επιμόλυνσης, η κοινή συνέπεια είναι η παρουσία μη στοχευμένων αναγνώσεων στα αρχεία αλληλούχισης που ενδέχεται να επηρεάσουν τα αποτελέσματα της γονιδιωματικής ανάλυσης.
Κατέδειξαν ότι οι μολυσματικές αναγνώσεις αποτελούν παγίδα στις σωληνώσεις επαναληπτικής αλληλούχισης, δεδομένου ότι είναι απροσδόκητα συχνές και μπορούν να έχουν σημαντικές επιπτώσεις στην ανάλυση παραλλαγών, η οποία αποτελεί τη βάση πολλών γονιδιωματικών αναλύσεων.
Όπως αναμενόταν, η επιμόλυνση αποτελεί μείζον ζήτημα κατά την αλληλούχιση DNA που δεν έχει εξαχθεί από καθαρές καλλιέργειες ή μεμονωμένες αποικίες, όπως συμβαίνει συχνά στα κλινικά δείγματα.
Τα πειράματα αλληλούχισης από καθαρές καλλιέργειες δεν είναι απαραίτητα απαλλαγμένα από επιμόλυνση και ότι η χρήση τυποποιημένων παραμέτρων ποιότητας χαρτογράφησης δεν είναι αρκετή για την αντιμετώπιση των αναγνώσεων με επιμόλυνση
Ως εκ τούτου, οι βιοπληροφορικές σωληνώσεις που υποθέτουν ότι όλες οι αναγνώσεις που χαρτογραφούνται επιτυχώς προέρχονται από τον οργανισμό-στόχο ενδέχεται να οδηγήσουν σε μεροληπτική ανάλυση παραλλαγών
Έδειξαν επίσης ότι τα σφάλματα που εισάγονται από τη μόλυνση είναι πολύ διαφορετικά μεταξύ διαφορετικών μελετών, οι οποίες διαφέρουν όχι μόνο ως προς τον οργανισμό που αλληλουχίζεται αλλά και ως προς την πηγή δειγματοληψίας και τα εργαστηριακά πρωτόκολλα
Η μόλυνση μπορεί να εισάγει σημαντικά σφάλματα σε δείγματα που θα μπορούσαν να θεωρηθούν "καθαρά" ή με μεγάλο βάθος αλληλούχισης, γεγονός που σημαίνει ότι θα χρειαστούν σε κάθε περίπτωση σωληνώσεις με επίγνωση της μόλυνσης
Η μόλυνση έχει αναγνωριστεί ως σημαντική πηγή σφαλμάτων στις συναρμολογήσεις γονιδιωμάτων και σε άλλα πεδία όπως η μεταγονιδιωματική.
Ωστόσο, ο ρόλος της μόλυνσης στις σωληνώσεις επαναληπτικής αλληλούχισης συνήθως παραμελείται
Ενώ ορισμένες ομάδες έχουν ήδη επίγνωση αυτού του ζητήματος, οι περισσότερες σωληνώσεις βακτηριακής αλληλούχισης εξακολουθούν να στερούνται στρατηγικών ελέγχου της μόλυνσης ή, αν υπάρχουν, αυτές σπάνια περιγράφονται λεπτομερώς σε δημοσιευμένες εργασίες.
Οποιοσδήποτε ισχυρίζεται ότι η ύπαρξη ενός γονιδιώματος αποτελεί απόδειξη ενός καθαρισμένου/απομονωμένου "ιού" είναι εντελώς λανθασμένος. Η μόλυνση των γονιδιωμάτων είναι ομολογουμένως ένα ευρέως διαδεδομένο πρόβλημα, το οποίο επιδεινώνεται συνεχώς. Αν και πρόκειται για ένα γνωστό ζήτημα, η μόλυνση της βάσης δεδομένων δεν έχει αξιολογηθεί σωστά ούτε έχει διορθωθεί. Η χρήση ανακριβών και ελλιπών αλληλουχιών αναφοράς έχει απλώς προάγει περαιτέρω το πρόβλημα σε έναν φαύλο αέναο κύκλο λανθασμένων γονιδιωμάτων που χτίζονται πάνω σε λανθασμένα γονιδιώματα.
Λόγω των προβλημάτων που σχετίζονται με τη μόλυνση, είναι παραδεκτό ότι το ανθρώπινο DNA μεταγράφεται εσφαλμένα ως βακτηριακό DNA. Είναι παραδεκτό ότι τα αποτελέσματα από μολυσμένες αλληλουχίες οδηγούν σε ψευδώς θετικά αποτελέσματα τόσο στην έρευνα όσο και στην κλινική. Είναι εύκολο να καταλάβει κανείς πώς αυτή η διαπίστωση μπορεί να εφαρμοστεί στους "ιούς", όπου φυσιολογικό ανθρώπινο DNA/RNA χρησιμοποιείται για τη δημιουργία του πλαισίου του "ιού". Στη συνέχεια σχεδιάζονται εσφαλμένες δοκιμές PCR που αναζητούν θραύσματα ενός "ιού" που στην πραγματικότητα είναι φυσιολογικά θραύσματα ανθρώπινου γενετικού υλικού. Οι υγιείς άνθρωποι στη συνέχεια χαρακτηρίζονται εσφαλμένα ως ασυμπτωματικά άρρωστοι για έναν "ιό" που δεν έχει αποδειχθεί ποτέ ότι υπάρχει παρά μόνο με τη μορφή μιας ψευδούς σειράς αλληλουχιών που δημιουργήθηκε από τη μόλυνση. Νομίζετε ότι αυτό είναι απίθανο; Θυμηθείτε ότι η μεταγονιδιωματική αλληλουχία, όπως έγινε με το μη καθαρισμένο βρογχοδιαυλικό υγρό (BALF) από έναν ασθενή, χρησιμοποιήθηκε για τη δημιουργία του γονιδιώματος "SARS-COV-2". Τα κλινικά δείγματα όπως το BALF έχουν τα υψηλότερα επίπεδα μόλυνσης. Ο ΠΟΥ παραδέχεται ότι αυτό θα οδηγήσει σε υψηλά επίπεδα μόλυνσης του ξενιστή και σε αλληλουχίες που δεν αποτελούν στόχο. Τώρα, ξαναδιαβάστε αυτό το απόσπασμα από τη μελέτη του 2019 για άλλη μια φορά:
“Αυτή η εκτεταμένη μόλυνση δημιουργεί σοβαρά προβλήματα για πολλούς τύπους επιστημονικών αναλύσεων που εξαρτώνται από βάσεις δεδομένων γονιδιώματος και πρωτεϊνών. Ένα παράδειγμα όπου το πρόβλημα αυτό είναι πιο έντονο είναι η χρήση της μεταγονιδιωματικής αλληλούχισης για τη διάγνωση λοιμώξεων, μια ταχέως αναπτυσσόμενη κλινική εφαρμογή στην οποία αλληλουχίζονται ανθρώπινοι ιστοί για τον εντοπισμό ενός πιθανού παθογόνου (Wilson et al. 2014; Naccache et al. 2015; Berger and Wilson 2016; Salzberg et al. 2016). Σε αυτά τα δείγματα, όπου το κυρίαρχο είδος είναι ο άνθρωπος, η μόλυνση ακόμη και ενός μικρού κλάσματος των βακτηριακών γονιδιωμάτων στη βάση δεδομένων θα προκαλέσει πολυάριθμα ψευδώς θετικά αποτελέσματα, καθώς οι ανθρώπινες αναγνώσεις μπορεί να εμφανίζονται, εσφαλμένα, ότι αντιπροσωπεύουν βακτηριακούς οργανισμούς.
Το "SARS-COV-2" που δεν είναι τίποτα άλλο παρά θραύσματα ανθρώπινου RNA/DNA δεν φαίνεται πλέον τόσο τραβηγμένο, έτσι δεν είναι;
—Δικτυογραφία:
Genome Contamination: A Widespread Problem – ViroLIEgy
https://viroliegy.com/2022/01/24/genome-contamination-a-widespread-problem/