ΦΑΚΕΛΛΟΣ "ΙΟΛΟΓΙΑ": Αλήθεια, Πόσο Ακριβή και Αξιόπιστα Είναι τα Γονιδιώματα;
Μετάφραση: Απολλόδωρος
22 Ιανουαρίου 2022 | MIKE STONE | Διαβάστε το εδώ
Ένα επιχείρημα που προσπαθούν να προβάλουν οι άνθρωποι ως απόδειξη των "ιών" είναι η ύπαρξη ""ιϊκών" γονιδιωμάτων. Πιστεύουν ότι αν ένα γονιδίωμα μπορεί να αλληλουχηθεί από μια μη καθαρισμένη σούπα κυτταροκαλλιέργειας όπου υποτίθεται ότι υπάρχει ένας "ιός", αυτό είναι αρκετή απόδειξη ότι ένας "ιός" υπάρχει πραγματικά φυσικά. Πέρα από την ειρωνεία του ισχυρισμού ότι τα τυχαία A,C,G,T σε μια βάση δεδομένων υπολογιστή μπορούν με κάποιο τρόπο να χρησιμοποιηθούν ως απόδειξη για τη φυσική ύπαρξη μιας αόρατης οντότητας, υπάρχουν πολλοί λόγοι για να αμφισβητηθεί η αξιοπιστία και η ακρίβεια των γονιδιωμάτων. Αυτοί περιλαμβάνουν, μεταξύ άλλων, τα εξής:
Την εξάρτηση από ανακριβή γονιδιώματα αναφοράς
Τα πολυάριθμα τεχνολογικά εμπόδια με βάση την τεχνολογία που χρησιμοποιείται κατά τη στιγμή της αλληλούχισης του γονιδιώματος
Την εισαγωγή προκαταλήψεων, σφαλμάτων και τεχνουργημάτων κατά τη διάρκεια της διαδικασίας αλληλούχισης
Τις μη επιμελημένες βάσεις δεδομένων
Τις διάφορες παραδοχές που γίνονται από τους ερευνητές.
Είναι εντελώς γελοίο να πιστεύει κανείς ότι αυτές οι μη αναπαραγώγιμες και επιρρεπείς σε σφάλματα αλληλουχίες από μη καθαρισμένη σούπα κυτταροκαλλιέργειας μπορούν να χρησιμοποιηθούν ως έμμεση απόδειξη ενός "ιού", όταν η άμεση απόδειξη, δηλαδή τα καθαρισμένα/απομονωμένα σωματίδια που λαμβάνονται απευθείας από άρρωστους ανθρώπους, τα οποία αποδεικνύονται παθογόνα με φυσικό τρόπο, δεν έχουν ακόμη αποδειχθεί επιστημονικά πρώτα.
Προκειμένου να παρουσιάσω τα διάφορα προβλήματα που σχετίζονται με τη διαδικασία αλληλούχισης και την αναξιοπιστία όσον αφορά την ακρίβεια των γονιδιωμάτων, παρέχω πληροφορίες από τέσσερις διαφορετικές πηγές. Θα πρέπει να είναι σαφές εκ των υστέρων γιατί αυτά τα τυχαία A,C,T,G σε μια βάση δεδομένων υπολογιστή δεν μπορούν να χρησιμοποιηθούν ως απόδειξη "ιών".
Καταρριφθείσες Υποθέσεις
Αυτή η πρώτη πηγή είναι ένα άρθρο του 2008 από τον μοριακό βιολόγο Ulrich Bahnsen. Αυτά τα κυριότερα σημεία αναδεικνύουν πολλές από τις υποθέσεις που έγιναν στις αρχές της γονιδιωματικής και οι οποίες αποδείχθηκαν λανθασμένες καθώς εμφανίστηκε η νεότερη τεχνολογία. Έδειξε ότι το γονιδίωμα, που κάποτε θεωρούνταν ένα στατικό κατασκεύασμα, βρίσκεται στην πραγματικότητα σε μια συνεχώς εξελισσόμενη κατάσταση. Το γονιδίωμα είναι μόνο ένα στιγμιότυπο μιας χρονικής στιγμής και δεν βρίσκεται σε μια σταθερή κατάσταση αλλά μάλλον σε μια περιστρεφόμενη πόρτα γενετικών πληροφοριών. Έχετε υπόψη σας διαβάζοντας αυτό πόσο γρήγορα άλλαξαν οι προηγούμενες υποθέσεις των γενετιστών από το 2000 έως το 2008. Σε πόσες λανθασμένες υποθέσεις βασίστηκαν; Ποιες υποθέσεις κάνουν τώρα που θα είναι παρωχημένες σε λίγα χρόνια;
Γενετική: Γονιδίωμα σε Αποσύνθεση
"Το γονιδίωμα θεωρούνταν το αμετάβλητο σχέδιο του ανθρώπινου όντος, το οποίο καθορίζεται στην αρχή της ζωής μας. Η επιστήμη πρέπει να αποχαιρετήσει αυτή την ιδέα. Στην πραγματικότητα, το γενετικό μας υλικό βρίσκεται σε κατάσταση συνεχούς αλλαγής.
"Οι γενετιστές πρέπει να εγκαταλείψουν την εικόνα ενός σταθερού γονιδιώματος, στο οποίο οι αλλαγές αποτελούν παθολογικές εξαιρέσεις. Το γονιδίωμα κάθε ατόμου βρίσκεται σε κατάσταση συνεχούς μετασχηματισμού. Ως αποτέλεσμα, κάθε οργανισμός, κάθε άνθρωπος, ακόμη και κάθε κύτταρο του σώματος είναι ένα γενετικό σύμπαν από μόνο του.
Η πρώτη ανάλυση του ανθρώπινου γονιδιώματος ήταν ακόμη μια μακρόχρονη και δαπανηρή υπόθεση, το αποτέλεσμα -που το 2000 εξυμνήθηκε από τον πρόεδρο των ΗΠΑ Μπιλ Κλίντον ως το "Βιβλίο της Ζωής" (“Book of Life”)- μια αλληλουχία τριών δισεκατομμυρίων γραμμάτων. Έκτοτε, οι νέες εργαστηριακές τεχνικές, με τη βοήθεια των οποίων μπορούν να παραχθούν και να αναλυθούν τεράστιες ποσότητες δεδομένων, έχουν δημιουργήσει μια πλημμυρίδα νέων ευρημάτων για την εσωτερική ζωή του ανθρώπινου γονιδιώματος ειδικότερα. Στην πορεία, το βιβλίο διαλύεται μπροστά στα μάτια των αναγνωστών. Το γονιδίωμα δεν είναι ένα σταθερό κείμενο. Η κατάσταση της γνώσης εγείρει επίσης βασικά φιλοσοφικά ερωτήματα, όπως η γενετική και συνεπώς η βιοφυσική ταυτότητα του ανθρώπου - και ενδεχομένως απαιτεί ριζικά διαφορετικές απαντήσεις. Οι γενετιστές έχουν βάλει στο στόχαστρο ένα νέο "ανθρώπινο έργο" - σύνθημα: Όλα για το εγώ.
Τα τελευταία αποτελέσματα δείχνουν περισσότερο από ποτέ ότι ο άνθρωπος είναι προϊόν γενετικών διαδικασιών. Αλλά και ότι οι διαδικασίες αυτές είναι εξοπλισμένες με πολλούς βαθμούς ελευθερίας. Αποτελούν ένα ανοιχτό σύστημα στο οποίο σε καμία περίπτωση δεν είναι όλα προκαθορισμένα.
Μετά την πρώτη κωδικοποίηση του γονιδιώματος, μόνο λίγοι άνθρωποι το υποψιάζονταν αυτό. Οι ειδικοί πίστευαν ότι είχαν κατανοήσει πώς ένα γονίδιο μοιάζει και πώς λειτουργεί, ποιες λειτουργικές αρχές ακολουθεί το ανθρώπινο ή το μικροβιακό γονιδίωμα. "Εκ των υστέρων, οι υποθέσεις μας για το πώς λειτουργεί το γονιδίωμα τότε ήταν τόσο αφελείς που είναι σχεδόν ντροπιαστικές", λέει ο Craig Venter, ο οποίος συμμετείχε στο έργο με την εταιρεία του Celera. Αυτό που αναμενόταν ήταν μια συλλογή περίπλοκων αλλά κατανοητών συνταγών για τις διαδικασίες της ζωής. Τώρα γίνεται σαφές: Το βιβλίο της ζωής είναι γεμάτο αινιγματική πρόζα.
Ήταν μόνο η πρώτη κορύφωση της αναταραχής, όταν πριν από λίγους μήνες κατέρρευσε η πεποίθηση για τη γενετική ομοιομορφία και άρα την ταυτότητα της ανθρωπότητας. Μέχρι τότε, η υπόθεση ήταν ότι το γενετικό υλικό δύο οποιωνδήποτε ανθρώπων διέφερε μόνο κατά περίπου ένα χιλιοστό του ενός χιλιοστού όλων των δομικών στοιχείων του DNA. Όμως οι διαφορές στη γενετική σύσταση των ανθρώπων είναι στην πραγματικότητα τόσο μεγάλες που η επιστήμη επιβεβαιώνει πλέον αυτό που η λαϊκή γλώσσα γνωρίζει από καιρό: "Κάθε άνθρωπος είναι διαφορετικός. Εντελώς διαφορετικός!"
Η προηγούμενη πεποίθηση ότι κάθε γονίδιο υπάρχει συνήθως μόνο δύο φορές στο γονιδίωμα (μία φορά στο πατρικό και μία στο μητρικό σύνολο χρωμοσωμάτων που κληρονομείται) είναι επίσης λανθασμένη. Στην πραγματικότητα, ένα μεγάλο μέρος της γενετικής πληροφορίας υπόκειται σε μια διαδικασία διπλασιασμού και υπάρχει σε έως και 16 αντίγραφα στον πυρήνα του κυττάρου. Διάφορες ερευνητικές ομάδες έχουν πλέον ανακαλύψει τέτοιες παραλλαγές αριθμού αντιγράφων (CNV) σε τουλάχιστον 1500 ανθρώπινα γονίδια- πιθανώς υπάρχουν πολύ περισσότερα από αυτά τα γονίδια Xerox, με κάθε άτομο να έχει διαφορετικό προφίλ CNV. Η εκρηκτικότητα των ευρημάτων επιτείνεται από την ανακάλυψη ότι τα πρότυπα CNV στο γονιδίωμα δεν είναι καθόλου σταθερά, ο αριθμός αντιγράφων των γονιδίων μπορεί να μειωθεί ή να αυξηθεί, και ακόμη και τα σωματικά κύτταρα ενός μεμονωμένου ανθρώπου διαφέρουν μεταξύ τους.
Η ιδέα ότι το γονιδίωμα αντιπροσωπεύει μια φυσική σταθερά, έναν σταθερό πηγαίο κώδικα του ανθρώπου, καταρρέει πλέον υπό το βάρος των ευρημάτων. Ο αμερικανός γενετιστής Matthew Hahn συνέκρινε ήδη το γονιδίωμα με μια περιστρεφόμενη πόρτα: "Γονίδια έρχονται συνεχώς, άλλα φεύγουν".
https://telegra.ph/Genetics-Genome-in-Dissolution-11-01
Αποδεκτά Σφάλματα;
Η επόμενη πηγή είναι από το Stanford.edu και πραγματεύεται την "ακρίβεια" του ανθρώπινου γονιδιώματος. Περιγράφει λεπτομερώς τις προσπάθειες επίτευξης μεγαλύτερης ακρίβειας καθώς αναπτύσσεται η νεότερη τεχνολογία. Κατά τη διάρκεια του έργου, υπήρχαν διαφορετικά επίπεδα αποδεκτής ακρίβειας με διαφορετικά ποσοστά αποδεκτών σφαλμάτων. Ενώ το αποδεκτό ποσοστό σφάλματος ήταν 1 σφάλμα ανά 1.000 ζεύγη βάσεων, τώρα έχει οριστεί σε 1 σφάλμα ανά 10.000 ζεύγη βάσεων. Το άρθρο θέτει το ερώτημα αν τα ανθρώπινα γονιδιώματα μπορούν ποτέ να είναι αρκετά ακριβή ώστε να εξυπηρετήσουν τον σκοπό τους για την παροχή εξατομικευμένων ιατρικών πληροφοριών. Με τα αποδεκτά ποσοστά σφάλματος που επιτρέπονται, αυτό είναι ένα πολύ καλό ερώτημα.
Ακρίβεια της αλληλούχισης του ανθρώπινου DNA
"Το Πρόγραμμα Ανθρώπινου Γονιδιώματος ήταν το αποκορύφωμα συνδυασμένων προσπαθειών από διάφορες ερευνητικές ομάδες, όπως το Εθνικό Ινστιτούτο Έρευνας Ανθρώπινου Γονιδιώματος, το Υπουργείο Ενέργειας και η Διεθνής Κοινοπραξία Αλληλούχισης Ανθρώπινου Γονιδιώματος [1]. Ο τελικός στόχος αυτού του έργου ήταν να παραχθεί μια επαρκώς ακριβής έκδοση του ανθρώπινου γενετικού κώδικα. Το DNA μας αποτελείται από 23 ζεύγη χρωμοσωμάτων τα οποία περιέχουν περίπου 30.000 γονίδια τα οποία κωδικοποιούνται από σύνολα ζευγών βάσεων (είτε αδενίνη [A], θυμίνη[T], κυτοσίνη[C], είτε γουανίνη [G]). Συνολικά, το ανθρώπινο γονιδίωμα περιέχει περίπου 3 δισεκατομμύρια ζεύγη βάσεων. Οι πρόσφατες βελτιώσεις όσον αφορά την υπολογιστική ανάλυση έχουν προχωρήσει δραστικά την πρόοδο της αλληλούχισης του DNA. Από υπολογιστική άποψη, κάθε ζεύγος βάσεων μπορεί να αναπαρασταθεί με τουλάχιστον 2 bits, γεγονός που θα απαιτούσε συνεπώς πάνω από 750 megabytes (MB) για την αποθήκευση ολόκληρου του ανθρώπινου γονιδιώματος [2]. Πόσο ακριβής όμως είναι η αλληλούχιση του DNA και οι τεχνικές αποθήκευσης δεδομένων; Τι επιπτώσεις έχουν αυτές οι ανακρίβειες στη γονιδιωματική και στη χρήση τους στη φαρμακογενετική;
Καθ' όλη τη διάρκεια του προγράμματος για το ανθρώπινο γονιδίωμα, υπήρξαν διαφορετικά επίπεδα ακρίβειας-στόχου στα οποία στόχευαν τα ερευνητικά ινστιτούτα. Το 2000, το πρώτο προσχέδιο κυκλοφόρησε με ποσοστό σφάλματος ένα σφάλμα ανά 1.000 ζεύγη βάσεων. Το 2003, τα επίσημα αποτελέσματα αναφέρθηκαν σε ποσοστό σφάλματος ενός ανά 10.000 ζεύγη βάσεων1. Επί του παρόντος, αυτό απαιτεί την εξέταση και αλληλούχιση του DNA συνολικά δέκα φορές για να επιτευχθεί αυτό το επίπεδο ακρίβειας [3]. Γνωστά ως πρότυπα των Βερμούδων, το διεθνές πρότυπο ακρίβειας διατηρείται σήμερα σε ένα σφάλμα ανά 10.000 ζεύγη βάσεων για ολόκληρη τη συνεχή αλληλουχία - το DNA αλληλουχίζεται σε τμήματα και συχνά υπάρχουν κενά μεταξύ αυτών των διαφορετικών τμημάτων4. Ανεξάρτητα από το πόσο ακριβής μπορεί να φαίνεται αυτή η διαδικασία αλληλούχισης, μέσω της αλληλούχισης ολόκληρου του ανθρώπινου γονιδιώματος, προκύπτουν συνολικά περίπου 300.000 σφάλματα ζεύγους βάσεων.
Πόσο σημαντικό όμως είναι ένα ποσοστό σφάλματος 00,0001%; Το Πρόγραμμα Ανθρώπινου Γονιδιώματος επέστησε την προσοχή στη σημασία των πολυμορφισμών ενός νουκλεοτιδίου (SNPs). Οι SNPs είναι φυσικές παραλλαγές της αλληλουχίας του DNA ενός μόνο νουκλεοτιδίου (A, T, C ή G) που εμφανίζονται κάθε 100 έως 300 ζεύγη βάσεων[5]. Οι παραλλαγές που προκαλούνται από SNP μπορούν να επηρεάσουν δραματικά τον τρόπο με τον οποίο οι άνθρωποι αντιδρούν διαφορετικά σε πράγματα όπως φάρμακα, εμβόλια ή ασθένειες. Ωστόσο, λόγω των εγγενών και επιτρεπόμενων σφαλμάτων για εταιρείες όπως η 23andMe που αλληλουχούν DNA, τα αποτελέσματά τους θα αλληλουχούν σίγουρα ορισμένα SNPs με ανακρίβεια. Το πρόβλημα είναι ότι εταιρείες όπως η 23andMe προσδοκούν να χρησιμοποιήσουν τα αποτελέσματα της αλληλούχησης του DNA τους για να παρέχουν ιατρικές συμβουλές στους συμμετέχοντες και στους γιατρούς τους, ώστε να μπορούν να συνταγογραφούν καλύτερα πιο ακριβείς δόσεις φαρμάκων. Ωστόσο, με πάνω από 300.000 λάθη σε ζεύγη βάσεων, πόσο ακριβής μπορεί να είναι αυτή η ιατρική συμβουλή; Εάν οι δυνατότητες και οι περιορισμοί του ανθρώπινου σώματος είναι ευαίσθητες μέχρι το μεμονωμένο νουκλεοτίδιο (όπως με τα SNP), μπορεί η αλληλουχία του ανθρώπινου γονιδιώματος να είναι αρκετά αξιόπιστη ώστε να εξυπηρετήσει τον σκοπό της ως πηγή εξατομικευμένων ιατρικών πληροφοριών που εξαρτώνται πλήρως από το ανθρώπινο DNA;"
https://cs.stanford.edu/people/eroberts/courses/cs181/projects/2010-11/Genomics/accuracy.html
Ορισμός της Ακρίβειας
Αυτή η τρίτη πηγή είναι από το 2021 και ενώ παραδέχεται ότι είναι δύσκολο έργο ο προσδιορισμός της ακρίβειας των αποτελεσμάτων της αλληλούχισης λόγω των διαφορών μεταξύ των τεχνολογιών και των γονιδιωματικών περιοχών, θέτει τις παραμέτρους για τον ορισμό της ακρίβειας στη γονιδιωματική. Αυτή αναλύεται σε ακρίβεια ανάγνωσης και ακρίβεια συναίνεσης, οι οποίες επηρεάζονται σε μεγάλο βαθμό από τη δυνατότητα αντιστοίχισης. Ακόμη και οι τέλειες αναγνώσεις μπορούν να συμβάλουν σε σφάλματα εάν δεν είναι σωστά διατεταγμένες και τοποθετημένες κατά τη συναρμολόγηση. Εάν υπάρχουν υψηλά ποσοστά σφαλμάτων, είναι ομολογουμένως αδύνατο να προσδιοριστεί εάν οι όποιες αποκλίσεις μεταξύ του γονιδιώματος αναφοράς και του συνόλου δεδομένων είναι παραλλαγές ή σφάλματα αλληλούχισης.
Αλληλούχιση 101 (Τα Βασικά της): Κατανόηση της ακρίβειας στην αλληλούχιση DNA
"Για τους επιστήμονες που χρησιμοποιούν την αλληλούχιση DNA στην έρευνά τους, αλλά δεν είναι ειδικοί στην υποκείμενη τεχνολογία, μπορεί να είναι δύσκολο να προσδιορίσουν την ακρίβεια των αποτελεσμάτων της αλληλούχισης - και ακόμη πιο δύσκολο να συγκρίνουν την ακρίβεια μεταξύ διαφορετικών πλατφορμών αλληλούχισης. Επιπλέον, η ακρίβεια διαφέρει όχι μόνο μεταξύ των τεχνολογιών αλλά και μεταξύ των γονιδιωματικών περιοχών, καθώς ορισμένα τμήματα του γονιδιώματος είναι εγγενώς πιο δύσκολο να διαβαστούν.
Είναι εξαιρετικά σημαντικό να κατανοήσουμε την ακρίβεια στην αλληλούχιση του DNA για να διακρίνουμε τις σημαντικές βιολογικές πληροφορίες από τα σφάλματα αλληλούχισης.
Υπάρχουν δύο βασικοί τύποι ακρίβειας στις τεχνολογίες αλληλούχησης DNA: ακρίβεια ανάγνωσης και ακρίβεια συναίνεσης. Η ακρίβεια ανάγνωσης είναι το εγγενές ποσοστό σφάλματος των μεμονωμένων μετρήσεων (reads) από μια τεχνολογία αλληλούχησης DNA. Η τυπική ακρίβεια ανάγνωσης κυμαίνεται από ~90% για τις παραδοσιακές μακρές αναγνώσεις έως >99% για τις σύντομες αναγνώσεις και τις αναγνώσεις HiFi.
Η ακρίβεια συναίνεσης, από την άλλη πλευρά, προσδιορίζεται από το συνδυασμό πληροφοριών από πολλαπλές αναγνώσεις σε ένα σύνολο δεδομένων, το οποίο εξαλείφει τυχόν τυχαία σφάλματα σε μεμονωμένες αναγνώσεις. Η βαθύτερη κάλυψη, δηλαδή περισσότερες αναγνώσεις από τις οποίες μπορεί να δημιουργηθεί συναίνεση, αυξάνει γενικά την ακρίβεια των αποτελεσμάτων. Ωστόσο, εξακολουθούν να υπάρχουν περιορισμοί στην κλήση συναίνεσης από πολλαπλές αναγνώσεις. Ο υπολογισμός της συναίνεσης είναι μια περίπλοκη και υπολογιστικά δαπανηρή διαδικασία και δεν μπορεί να ξεπεράσει τα συστηματικά σφάλματα. Εάν μια πλατφόρμα αλληλούχισης κάνει συστηματικά το ίδιο λάθος, τότε αυτό δεν θα διαγραφεί με τη δημιουργία μεγαλύτερης κάλυψης αλληλούχισης.
Για να παρακαμφθεί αυτό το πρόβλημα, είναι σύνηθες να "γυαλίζονται" οι μεγάλες αναγνώσεις που έχουν συστηματικά σφάλματα με σύντομες αναγνώσεις υψηλής ακρίβειας. Ωστόσο, λόγω του μήκους των αναγνώσεών τους, οι σύντομες αναγνώσεις δεν μπορούν πάντα να αντιστοιχούν με σαφήνεια στις μακρές αναγνώσεις, περιορίζοντας τη δυνατότητά τους να βελτιώσουν την ακρίβεια. Σε γενικές γραμμές, η συναίνεση βελτιώνεται - και απλοποιείται σημαντικά - ξεκινώντας με εξαιρετικά ακριβείς αναγνώσεις χωρίς συστηματικές προκαταλήψεις".
Χαρτογραφησιμότητα
"Η ακρίβεια μιας συναρμολόγησης γονιδιώματος υπερβαίνει την ακρίβεια κάθε μεμονωμένης βάσης. Ακόμα και οι τέλειες αναγνώσεις μπορούν να συμβάλουν στην κακή ακρίβεια εάν δεν είναι σωστά διατεταγμένες και προσανατολισμένες στη συναρμολόγηση. Αυτό το ζήτημα της θέσης της ανάγνωσης ονομάζεται mappability.
Οι αναγνώσεις που περιέχουν μόνο ένα κομμάτι ενός μεγάλου δομικού στοιχείου, ή που αποτελούνται από εξαιρετικά επαναλαμβανόμενες αλληλουχίες, μπορεί να είναι πολύ δύσκολο να ευθυγραμμιστούν, αντιστοιχίζοντας διφορούμενα σε πολλές διαφορετικές θέσεις σε μια αναφορά. Σε αυτό το σημείο οι μικρές αναγνώσεις δυσκολεύονται πραγματικά- λόγω του μεγέθους τους, υπάρχει μεγαλύτερη πιθανότητα να μην περιέχουν αρκετά μοναδικά δεδομένα αλληλουχίας ώστε να αγκυρωθούν σωστά σε ένα γονιδίωμα".
Phasing
Κατά τη διερεύνηση διπλοειδών ή πολυπλοειδών γονιδιωμάτων, η διαμόρφωση φάσης σημαίνει το διαχωρισμό των διαφορετικών αντιγράφων κάθε χρωμοσώματος (π.χ. μητρικό και πατρικό για διπλοειδή), γνωστών ως απλοτύπων. Με επαρκή ακρίβεια, η ταυτότητα των νουκλεοτιδίων σε κάθε θέση στο γονιδίωμα μπορεί να συγκριθεί με μια αλληλουχία αναφοράς για τον εντοπισμό SNVs, με έναν ετερόζυγο τόπο να υποδεικνύει μια διαφορά στην αλληλουχία μεταξύ ενός ομόλογου ζεύγους χρωμοσωμάτων. Εδώ είναι που η εγγενής χαμηλή ακρίβεια των παραδοσιακών μακρών αναγνώσεων που είναι επιρρεπείς σε σφάλματα γίνεται περιορισμός - με υψηλό ποσοστό σφάλματος, είναι αδύνατο να αποφασιστεί αν μια διαφωνία μεταξύ ενός συνόλου αναφοράς και δεδομένων είναι παραλλαγή ή σφάλμα αλληλουχίας".
Αλληλούχιση 101: Κατανόηση της ακρίβειας στην αλληλούχιση DNA
Έργα σε Εξέλιξη;
Αυτή η τέταρτη και τελευταία πηγή προέρχεται από μια ανασκόπηση που δημοσιεύθηκε το 2019. Σε αυτήν, οι συγγραφείς συζητούν τα πολλά σφάλματα που συναντώνται κατά τη διάρκεια της γονιδιωματικής αλληλούχισης, ακόμη και εν όψει των νεότερων τεχνολογιών και αλγορίθμων. Διάφορες παγίδες, όπως προκαταλήψεις, τεχνουργήματα και σφάλματα, μπορούν να εμφανιστούν σε οποιοδήποτε στάδιο της διαδικασίας. Οι συγγραφείς παραδέχονται ότι όλα τα γονιδιώματα έχουν προβλήματα και είναι ουσιαστικά "έργα σε εξέλιξη". Το είδος της τεχνολογίας που χρησιμοποιείται και ο τρόπος με τον οποίο συναρμολογήθηκε το γονιδίωμα έχουν τελικά βαθιές επιπτώσεις στην ακρίβεια κάθε γονιδιώματος.
Η εξάρτηση από μια ανακριβή ακολουθία γονιδιώματος σαμποτάρει τα πειράματά σας;
Περίληψη
"Οι εξελίξεις στη γονιδιωματική έχουν καταστήσει τις μελέτες ολόκληρου του γονιδιώματος όλο και πιο εφικτές σε όλους τους τομείς των βιοεπιστημών. Ωστόσο, οι νέες τεχνολογίες και οι αλγοριθμικές εξελίξεις δεν εγγυώνται άψογες γονιδιωματικές αλληλουχίες ή σχολιασμό. Μεροληψία, σφάλματα και τεχνουργήματα μπορούν να εισέλθουν σε οποιοδήποτε στάδιο της διαδικασίας, από την προετοιμασία της βιβλιοθήκης έως τον σχολιασμό. Όταν σχεδιάζετε ένα πείραμα που χρησιμοποιεί μια γονιδιωματική αλληλουχία ως βάση για το σχεδιασμό, υπάρχουν μερικοί βασικοί έλεγχοι που, αν πραγματοποιηθούν, μπορούν να ενημερώσουν καλύτερα τον πειραματικό σχεδιασμό και ιδανικά να βοηθήσουν στην αποφυγή ενός αποτυχημένου πειράματος ή ενός ασαφούς αποτελέσματος.
Όλες οι Αλληλουχίες (ακολουθίες) γονιδιώματος έχουν "προβλήματα"
Υπάρχουν πολλοί παράγοντες που μπορούν να επηρεάσουν την τελική ακολουθία γονιδιώματος και τον σχολιασμό που παράγονται, και αμφότερα θα πρέπει να θεωρούνται "έργα σε εξέλιξη". Η επίγνωση αυτών των παραγόντων μπορεί να ενημερώσει τις πειραματικές αποφάσεις που μπορεί να εξαρτώνται από την ακρίβεια μιας συγκεκριμένης γονιδιωματικής αλληλουχίας, περιοχής, γονιδίου ή γονιδίων".
Ποια είναι η προέλευση του δείγματος που χρησιμοποιήθηκε για την παραγωγή της γονιδιωματικής αλληλουχίας;
"Η προέλευση έχει σημασία. Προέρχεται το δείγμα από κλώνο, από μικτό πληθυσμό (συνηθισμένο με τα μικρόβια) ή ενδεχομένως από υβρίδιο; Οι διαφορές μεταξύ των ατόμων μπορεί να είναι πολυμορφισμοί ενός νουκλεοτιδίου (SNPs), αλλά συχνά περιλαμβάνουν παρεμβολές ή διαγραφές (indels) διαφόρων μεγεθών, παραλλαγές του αριθμού αντιγράφων (CNV), ακόμη και μικρές αναδιατάξεις. Τα υβρίδια μπορεί να έχουν δραματικές διαφορές μεταξύ των ορθόλογων χρωμοσωμάτων [1]. Οι αλληλουχίες γονιδιώματος που προέρχονται από έναν ετερογενή πληθυσμό, ιδίως όταν υπάρχουν CNVs, περιπλέκουν τη συναρμολόγηση του γονιδιώματος και συχνά η αλληλουχία που παράγεται είναι μια σύνθεση των κυριότερων αλληλόμορφων που υπάρχουν στο δείγμα που έχει αλληλουχηθεί. Οι αλληλουχίες γονιδιώματος που προέρχονται από κλωνικά εργαστηριακά στελέχη είναι συχνά ευκολότερο να συναρμολογηθούν, αλλά μπορεί να μην είναι πραγματικά αντιπροσωπευτικές των κυκλοφορούντων στελεχών άγριου τύπου, επειδή είναι προσαρμοσμένα στην καλλιέργεια και, εάν πολλαπλασιάζονται για μεγάλο χρονικό διάστημα, μπορεί να έχουν χάσει γονίδια ή να έχουν συσσωρεύσει μεταλλάξεις [2]".
Έχει το γονιδίωμα ενοχλητικά χαρακτηριστικά;
"Ορισμένες αλληλουχίες γονιδιώματος είναι φυσικά δύσκολο να αλληλουχηθούν λόγω ακραίας προκατάληψης νουκλεοτιδίων. Η αλληλουχία του γονιδιώματος του Plasmodium falciparum ήταν τόσο πλούσια σε ΑΤ που αναπτύχθηκε εξειδικευμένη χημεία αλληλούχισης [3]. Οι μεγάλες ομοιοπολικές διαδρομές οποιασδήποτε βάσης είναι ιδιαίτερα ενοχλητικές για ορισμένες τεχνολογίες αλληλούχισης [4] και μπορεί να οδηγήσουν σε εσφαλμένο αριθμό νουκλεοτιδίων, με αποτέλεσμα να δημιουργούνται μετατοπίσεις πλαισίων αν η αλληλουχία είναι κωδικοποιημένη. Εάν μια υποτιθέμενη μετατόπιση πλαισίου διακόπτει το γονίδιο που σας ενδιαφέρει, επιβεβαιώστε την παρουσία της στα αποθέματά σας με PCR και αλληλούχιση Sanger, ιδανικά, ή δείτε τη συναρμολόγηση (βλ. Εικ. 1) πριν την αποδεχθείτε. Εάν η γονιδιωματική αλληλουχία περιέχει πολυάριθμες επαναλαμβανόμενες αλληλουχίες, ρετροτρανσποζόνια ή κινητά στοιχεία ή μεγάλες, πολύ παρόμοιες οικογένειες γονιδίων, η συναρμολόγηση του γονιδιώματος θα επηρεαστεί (Εικ. 1), ιδίως εάν χρησιμοποιήθηκαν μόνο αλληλουχίες σύντομης ανάγνωσης.
Οι επαναλαμβανόμενες αλληλουχίες αποτελούν τεράστια πρόκληση για τους περισσότερους αλγορίθμους συναρμολόγησης. Είναι καλά τεκμηριωμένο ότι τα πολλαπλά παραλλαγμένα αντίγραφα γονιδίων μπορούν να αυξήσουν την καινοτομία και να βοηθήσουν ένα παθογόνο να επιβιώσει απέναντι στις πιέσεις του ανοσοποιητικού συστήματος [5] και συχνά σχετίζονται με την παθογένεια και τη γονιμότητα [6-8]. Οι τεχνολογίες μακράς ανάγνωσης και οι τεχνολογίες ενός μορίου, όπως η PacBio και η Nanopore [9], μπορούν να παρέχουν επαλήθευση των αντιγράφων tandem και, σε ορισμένες περιπτώσεις, του αριθμού των αντιγράφων γονιδίων. Οι χαμηλής κάλυψης, λιγότερο ακριβείς, μακρομοριακές αναγνώσεις μπορούν να χρησιμοποιηθούν ως πλαίσιο πάνω στο οποίο μπορούν να χαρτογραφηθούν αλληλουχίες με μικρότερες αναγνώσεις, ή οι μακροσκοπικές αναγνώσεις, όταν είναι αρκετά βαθιές, μπορούν να χρησιμοποιηθούν για την πλήρη συναρμολόγηση και να παρέχουν αυτοδιόρθωση σφαλμάτων [10-12].
"Υπάρχει ένας εύκολος τρόπος για να αξιολογήσετε την ποιότητα της συναρμολόγησης του γονιδιώματος του οργανισμού σας. Χαρτογραφήστε τις αναγνώσεις από το έργο αλληλούχισης πίσω στην συναρμολογημένη ακολουθία γονιδιώματος και ρίξτε μια ματιά (Εικ. 1Α) (δείτε τις ακόλουθες ενότητες για δείκτες σχετικά με το πώς να το κάνετε αυτό: "Πώς συναρμολογήθηκε το γονιδίωμα;", "Πόσο καλή είναι η συναρμολόγηση;", "Διορθώθηκε η συναρμολόγηση;" και "Συνήθεις προκλήσεις και στρατηγικές βοήθειας"). Αυτή η γρήγορη οθόνη ελέγχει για "pile-ups", τον αποκαλυπτικό δείκτη για την παρουσία περιοχών επαναλαμβανόμενης αλληλουχίας που έχουν καταρρεύσει στην αξιολογημένη γονιδιωματική αλληλουχία (Εικ. 1Β). Εναλλακτικά, ένα γονιδιωματικό Southern blot που χρησιμοποιεί ένα ένζυμο περιορισμού που κόβει μία φορά εντός της αλληλουχίας που σας ενδιαφέρει θα αποκαλύψει επίσης πρόσθετα αντίγραφα, εάν υπάρχουν. Η συναρμολόγηση του γονιδιώματος αναφοράς για το παράσιτο Toxoplasma gondii ME49 του απικοσυμπλέγματος περιέχει αρκετές περιοχές που έχουν καταρρεύσει και διαφέρουν ανάλογα με το στέλεχος (Εικ. 1Γ) [8]. Παρά την υψηλή ποιότητα αυτής της αλληλουχίας γονιδιώματος και την αντιστοιχία της με γενετικούς χάρτες, εξακολουθούν να υπάρχουν ζητήματα που σχετίζονται με τον αριθμό των χρωμοσωμάτων [13, 14].
Πώς προετοιμάστηκαν οι βιβλιοθήκες;
Πριν από την ύπαρξη τεχνολογιών μακράς ανάγνωσης, μεγάλες αποστάσεις καλύπτονταν από βιολογικές βιβλιοθήκες διαφορετικού μεγέθους ενθέτων σε πλασμίδια, βακτηριακά τεχνητά χρωμοσώματα (BAC), κοσμίδια και φοσμίδια. Η παραγωγή μεμονωμένων αναγνώσεων από κάθε άκρο μιας γνωστού μήκους (π.χ. 10 kb) ακολουθίας ένθετου βιβλιοθήκης θα υποδείκνυε ότι οι αναγνώσεις θα έπρεπε να καταλήξουν στο συναρμολογημένο γονιδίωμα αντικριστά και σε απόσταση περίπου 10 kb μεταξύ τους. Εάν δεν είναι έτσι, αυτό υποδηλώνει σφάλμα συναρμολόγησης. Οι ακολουθίες γονιδιώματος που στηρίχθηκαν στην κλωνοποίηση και τη βιολογική αντιγραφή έχουν πρόσθετα ζητήματα που πρέπει να ληφθούν υπόψη. Ορισμένες αλληλουχίες απλώς δεν μπορούν να κλωνοποιηθούν- είναι τοξικές για τον οργανισμό που χρησιμοποιείται για την κλωνοποίηση και την αντιγραφή και, συνεπώς, θα λείπουν από την παραγόμενη αλληλουχία γονιδιώματος. Οι μη κλωνοποιήσιμες αλληλουχίες συχνά περιέχουν μερικά επιλεγμένα γονίδια και ετεροχρωματίνη. Ισχύει και το αντίστροφο- μια αλληλουχία DNA από τον φορέα κλωνοποίησης ή τον οργανισμό που χρησιμοποιείται για την κατασκευή της βιβλιοθήκης μπορεί να καταλήξει στην ακολουθία του γονιδιώματος-στόχου που συναρμολογείται".
"Η προετοιμασία της βιβλιοθήκης NGS υψηλής απόδοσης διαδραματίζει κρίσιμο ρόλο όσον αφορά την ποιότητα της παραγόμενης γονιδιωματικής αλληλουχίας. Πολλά πρωτόκολλα περιέχουν βήματα ενίσχυσης, τα οποία μπορεί να εισάγουν μεροληψία. Για παράδειγμα, μεμονωμένα κύτταρα μπορούν να χρησιμοποιηθούν για την αλληλούχιση γονιδιώματος, αλλά μέσω της εφαρμογής ενίσχυσης ολόκληρου του γονιδιώματος (WGA). Η προσέγγιση είναι ισχυρή όταν το υλικό είναι περιορισμένο, αλλά η διαδικασία ενίσχυσης είναι προκατειλημμένη και απαιτούνται πολλές διαφορετικές αντιδράσεις WGA (σε διαφορετικά κύτταρα ή πληθυσμούς ομοειδών κυττάρων) για τον πλήρη εντοπισμό και την εξάλειψη της προκατειλημμένης ενίσχυσης [15, 16]. Θα πρέπει να σημειωθεί ότι η μεροληψία σπάνια αφαιρείται από τις αναγνώσεις που υποβάλλονται στα αρχεία, οπότε είναι επιτακτική ανάγκη να γνωρίζουμε αν χρησιμοποιήθηκε η WGA.
Ποια πλατφόρμα αλληλούχισης χρησιμοποιήθηκε;
Οι διάφορες πλατφόρμες αλληλούχισης έχουν διαφορετικά πλεονεκτήματα και αδυναμίες [9], και συνεχίζουν να εξελίσσονται με ταχείς ρυθμούς και συχνά αλληλοσυμπληρώνονται εάν εφαρμόζονται πολλές διαφορετικές προσεγγίσεις. Οι αλληλουχίες γονιδιώματος που συναρμολογούνται με τη χημεία Sanger θα έχουν καλή ποιότητα αλληλουχίας, αλλά η συναρμολογημένη αλληλουχία γονιδιώματος θα επηρεάζεται από τα ζητήματα της βιβλιοθήκης που αναφέρθηκαν προηγουμένως. Οι αλληλουχίες γονιδιώματος που παράγονται με παλαιότερα συστήματα, π.χ. 454 και Ion Torrent, θα έχουν προβλήματα εσφαλμένης καταμέτρησης ομοπολυμερών. Οι νεότερες αλληλουχίες γονιδιώματος θα αποτελούνται από υψηλής ακρίβειας τεχνολογία βραχείας ανάγνωσης της Illumina, αλλά η συναρμολογημένη αλληλουχία, ιδίως εάν υπάρχουν επαναλήψεις, θα είναι ελλιπής και θα περιέχει κενά και λανθασμένες συναρμολογήσεις, εκτός εάν χρησιμοποιηθεί υβριδική συναρμολόγηση με χρήση τεχνολογιών μακράς ανάγνωσης όπως η PacBio ή η Oxford Nanopore.
Πώς συναρμολογήθηκε το γονιδίωμα;
Οι συναρμολογήσεις αλληλουχιών είναι δύο τύπων: de novo, συναρμολόγηση από το μηδέν, και συναρμολόγηση βάσει αναφοράς. Το τελευταίο χρησιμοποιείται συνήθως όταν υπάρχει ήδη ένα καθιερωμένο γονιδίωμα αναφοράς οργανισμού και ο πειραματικός στόχος είναι να προσδιοριστεί η παραλλαγή σε σχέση με αυτό. Δεν είναι καλή προσέγγιση για την ανίχνευση αναδιατάξεων ή συνθετικών σπασιμάτων, αλλά είναι ιδανική για την ανίχνευση SNPs, ορισμένων indels και CNV. Οι προσεγγίσεις που βασίζονται στην αναφορά δεν θα αποκαλύψουν χαρακτηριστικά του γονιδιώματος που δεν υπάρχουν στην αναφορά, ένα σημαντικό μειονέκτημα. Λόγω του μεγάλου όγκου πληθυσμιακών μελετών που επικεντρώνονται σε SNPs, τα περισσότερα δεδομένα ακολουθίας γονιδιώματος, δυστυχώς, παραμένουν ως μη συναρμολογημένα αρχεία αναγνώσεων.
Οι de novo συναρμολογήσεις είναι η μόνη επιλογή για την πρώτη ακολουθία γονιδιώματος ενός οργανισμού και, όταν είναι δυνατόν, θα πρέπει να εκτελούνται κατά κανόνα, ώστε να επιτρέπουν την ανακάλυψη νέων χαρακτηριστικών. Στην περίπτωση αλληλουχιών ευκαρυωτικών γονιδιωμάτων, ιδίως όταν ο καρυότυπος είναι άγνωστος και δεν υπάρχουν φυσικοί χάρτες, οι αναγνώσεις μπορούν να συναρμολογηθούν μόνο εν μέρει σε συνεχόμενες αναγνώσεις, "contigs", ή ικριώματα από contigs, που περιέχουν κενά. Τα contigs συχνά περιέχουν αλληλουχίες που είναι αρκετά μοναδικές, επειδή οι επαναλαμβανόμενες αλληλουχίες συχνά "αποκρύπτονται" σε μια de novo συναρμολόγηση λόγω των προβλημάτων που προκαλούν. Ως αποτέλεσμα, τα contigs συχνά τελειώνουν ή διαχωρίζονται από ελλείπουσες επαναλαμβανόμενες περιοχές που δεν χρησιμοποιήθηκαν (π.χ. καλύφθηκαν) ή δεν μπόρεσαν να επιλυθούν κατά τη διάρκεια της συναρμολόγησης. Η παραλλαγή που εντοπίζεται στα άκρα των contigs θα πρέπει να αντιμετωπίζεται με προσοχή.
Τα κενά μεταξύ contigs που έχουν ταξινομηθεί και προσανατολιστεί σε ικριώματα συχνά υποδεικνύονται με ακριβώς 100 "Ν" για να υποδηλώσουν ένα κενό άγνωστου μεγέθους. Σε ορισμένες περιπτώσεις, συναρμολογούνται ικριώματα αντιπροσωπευτικά ολόκληρων χρωμοσωμάτων, αλλά και αυτά συχνά περιέχουν πολυάριθμα κενά ή αμφίσημες βάσεις (Πίνακας 1). Ορισμένοι συναρμολογητές δημιουργούν επίσης ένα ικρίωμα που συνδέει όλα τα "εναπομείναντα" contigs. Προσέξτε αυτό το ικρίωμα, που συχνά ονομάζεται "ικρίωμα 0", καθώς η σειρά και ο προσανατολισμός αυτών των contigs δεν έχει καμία σχέση με τη βιολογική τους θέση- είναι απλώς ένας βολικός μηχανισμός για να διασφαλιστεί ότι όλα τα contigs είναι διαθέσιμα σε όσους χρησιμοποιούν ή αναζητούν την ακολουθία του γονιδιώματος".
Κάθε τύπος συναρμολόγησης αλληλουχίας συνοδεύεται από ένα σύνολο εγγενών προβλημάτων, και τα περισσότερα έργα αλληλουχίας γονιδιώματος παράγουν μια ποικιλία από παραμένοντα reads και contigs που δεν συναρμολογούνται. Σε ορισμένες περιπτώσεις, αυτές οι αναγνώσεις μπορούν να αναγνωριστούν ως επιμόλυνση, απροσδόκητος συμβιωτής ή αλληλουχία γονιδιώματος οργανιδίων. Σε άλλες περιπτώσεις, τα εναπομείναντα κομμάτια αποτελούν προφητικό σημάδι συγκεκριμένων τύπων σφαλμάτων συναρμολόγησης ή απροσδόκητης παραλλαγής της γονιδιωματικής αλληλουχίας, π.χ. CNV (Εικ. 1) ή υψηλά επίπεδα ετεροζυγωτίας μεταξύ αλληλόμορφων (ιδίως εάν αλληλουχήθηκε ένας πληθυσμός και όχι ένα άτομο). Αναδύονται νέα προγράμματα συναρμολόγησης με επίγνωση της πλειονότητας, τα οποία θα βοηθήσουν σημαντικά σε αρκετά από τα ζητήματα που παρουσιάζονται εδώ. Για το λόγο αυτό, είναι σημαντικό να γνωρίζουμε πότε και πώς συναρμολογήθηκε μια γονιδιωματική αλληλουχία (Πίνακας 1). Να θυμάστε ότι μια γονιδιωματική αλληλουχία μπορεί πάντα να συναρμολογηθεί εκ νέου από τις αρχειοθετημένες αναγνώσεις καθώς διατίθενται νέοι αλγόριθμοι και νέες ή μεγαλύτερες αλληλουχίες. Πολλές κοινότητες ανασυνθέτουν ενεργά σημαντικές αλληλουχίες αναφοράς.
"Διορθώθηκε" η γονιδιωματική αλληλουχία και αν ναι, πώς;
"Οι επιρρεπείς σε σφάλματα αναγνώσεις μακράς ακολουθίας μπορούν να διορθωθούν πριν από τη συναρμολόγηση με τη χρήση του proovread [21]. Η διόρθωση πριν από τη συναρμολόγηση μπορεί να διευκολύνει τη συναρμολόγηση όταν το ποσοστό σφάλματος είναι υψηλό, π.χ. σε αναγνώσματα PacBio χαμηλής κάλυψης. Οι συναρμολογημένες ακολουθίες γονιδιώματος μπορούν επίσης να "στιλβωθούν". Η στίλβωση περιλαμβάνει τη διόρθωση των κλήσεων βάσης και το ICORN2 [22] είναι ένα δημοφιλές εργαλείο. Η στίλβωση πραγματοποιείται με τη χρήση εξαιρετικά ακριβών αναγνώσεων Illumina που αντιστοιχίζονται με την τελική συναρμολόγηση του γονιδιώματος. Η διόρθωση αναγνώσεων και η στίλβωση είναι χρήσιμα και συνιστώμενα βήματα, αλλά εξαρτώνται σε μεγάλο βαθμό από την απόδοση του ευθυγραμμιστή και ο τελικός χρήστης πρέπει να γνωρίζει ότι οι διορθωμένες και στίλβωση αλληλουχίες θα αντιπροσωπεύουν τα πιο άφθονα αλληλόμορφα που υπάρχουν στις αναγνώσεις. Με άλλα λόγια, οι ισομορφές και οι σπάνιες παραλλαγές επαναλαμβανόμενων αλληλουχιών θα "διορθωθούν", δηλαδή θα αντικατασταθούν, στην τελική συναρμολόγηση από πιο άφθονες παραλλαγές αλληλουχιών".
Οι γονιδιακές προβλέψεις εξαρτώνται από τη συναρμολόγηση του γονιδιώματος, πράγμα που σημαίνει ότι αν μια περιοχή λείπει, δεν μπορεί να σχολιαστεί. Ομοίως, εάν η περιοχή είναι κακώς συναρμολογημένη ή λείπει από μια ακολουθία γονιδιώματος αναφοράς που χρησιμοποιείται για την ορθολογία, μπορεί να καταλήξει να λείπει από την ακολουθία γονιδιώματος που σχολιάζεται. Ένα καλό παράδειγμα είναι το Cryptosporidium. Η γονιδιωματική αλληλουχία για το C. parvum κυκλοφόρησε το 2004, με μια κορυφαία για την εποχή συναρμολόγηση και σχολιασμό [27]. Αυτή η αλληλουχία γονιδιώματος χρησιμοποιήθηκε ως αλληλουχία αναφοράς για πολλά πρόσθετα στελέχη και είδη Cryptosporidium [28, 29]. Αυτή η πρακτική μπορεί να είναι επικίνδυνη, καθώς ένα από τα χαρακτηριστικά του γονιδιώματος που διευκολύνει την εξειδίκευση είναι η αναδιάταξη του γονιδιώματος, η οποία επηρεάζει τη σύζευξη των χρωμοσωμάτων κατά την αναπαραγωγή. Καθώς δεν υπάρχουν γενετικά συστήματα για πολλά παθογόνα που να μπορούν να χρησιμοποιηθούν για τη δημιουργία ενός φυσικού χάρτη, η χαρτογράφηση αναφοράς είναι χρήσιμη, αλλά είναι εύκολο να ξεχνάμε την προέλευση των συνόλων γονιδιωματικών αλληλουχιών και του σχολιασμού που δημιουργούνται ή διαδίδονται με αυτόν τον τρόπο, οπότε πρέπει να είμαστε προσεκτικοί όταν χρησιμοποιούμε σύνολα γονιδιωμάτων που έχουν χαρτογραφηθεί με βάση τη χαρτογράφηση αναφοράς ως βάση για πειράματα".
Το γονίδιο χαρακτηρίζεται ως μονό αντίγραφο, έτσι δεν είναι;
"Πρόσθετα αντίγραφα γονιδίων μπορούν να ματαιώσουν πειράματα που αποσκοπούν στη στόχευση, τον κλωνοποίηση, τη διαγραφή ή την τροποποίηση ενός συγκεκριμένου γονιδίου. Ο σχολιασμός μπορεί να υποδεικνύει γονίδιο ενός αντιγράφου, αλλά ανάλογα με την τεχνολογία που χρησιμοποιήθηκε για τη δημιουργία της γονιδιωματικής σας αλληλουχίας, σχεδόν πανομοιότυπα αντίγραφα γονιδίων μπορεί να συναρμολογηθούν ως ένα γονίδιο (οι συναρμολογήσεις μόνο με βραχείες αναγνώσεις είναι πιο επιρρεπείς σε αυτό το ζήτημα), και ελαφρώς αποκλίνοντα μέλη της οικογένειας γονιδίων, ιδίως αν βρίσκονται σε επαναλήψεις tandem, συχνά δεν συναρμολογούνται και μπορούν να βρεθούν στις εναπομείνασες αναγνώσεις ή στα μικρά μη συναρμολογημένα contigs (Εικ. 1)".
Ο χαρακτηρισμός δεν περιγράφει το γονίδιό σας. Λείπει πράγματι από το γονιδίωμα;
"Είναι εύκολο να παραπλανηθεί κανείς με βάση τον υπάρχοντα σχολιασμό ότι ένα γονίδιο λείπει. Τα γονίδια μπορεί να χαθούν, και όντως αποσυντίθενται ή εξελίσσονται πέρα από την αναγνώριση, αλλά μπορεί επίσης να λείπουν λόγω ενός κενού συναρμολόγησης της αλληλουχίας. Τα γονίδια που λείπουν, ιδίως αν αποτελούν μέρος μιας οικογένειας γονιδίων, μπορούν συχνά να εντοπιστούν στις μη συναρμολογημένες αναγνώσεις ή στα contigs (Εικ. 1Β). Σημειώστε ότι τα μη συναρμολογημένα contigs συχνά δεν είναι σχολιασμένα, οπότε θα πρέπει να αναζητηθούν με τη χρήση BLASTX (πρωτεΐνη έναντι μεταφρασμένων νουκλεοτιδίων). Η καλύτερη πρακτική για τον προσδιορισμό της απώλειας γονιδίων είναι να εξετάσετε έναν χάρτη συνθέσεως των γονιδιωματικών contigs και να δείτε αν η περιοχή του γονιδιώματος που αναμένεται να περιέχει το γονίδιο ενδιαφέροντος (με βάση τη θέση του σε ένα κοντινό είδος) είναι παρούσα, συντηρημένη και όχι αναδιαταγμένη (Εικ. 1C). Εναλλακτικά, η περιοχή μπορεί να λείπει από τη συναρμολόγηση του γονιδιώματος, δηλαδή να υπάρχει κενό σε σχέση με την αλληλουχία σύγκρισης. Οι λανθασμένες συναρμολογήσεις και τα κενά μπορεί να παρέχουν την ψευδαίσθηση ότι λείπουν γονίδια, ενώ στην πραγματικότητα λείπουν από τη συναρμολόγηση, έχουν εξελιχθεί σε ψευδογονίδια ή, σε ορισμένες περιπτώσεις, έχουν αντικατασταθεί από μια οριζόντια γονιδιακή μεταφορά που βρίσκεται σε άλλο σημείο του γονιδιώματος.
Τα κενά στην αλληλουχία του γονιδιώματος έχουν πολλές επακόλουθες συνέπειες. Ο αριθμός των γονιδίων μπορεί να μειωθεί σε σχέση με τον πραγματικό αριθμό, και ειρωνικά, ο αριθμός των γονιδίων μπορεί επίσης να διογκωθεί επειδή ένα τμήμα του ίδιου γονιδίου μπορεί να βρεθεί σε κάθε πλευρά του κενού, με αποτέλεσμα δύο μερικές προβλέψεις. Τα μικρά κενά συναρμολόγησης οδηγούν συχνά σε μετατοπίσεις πλαισίων στις κωδικοποιητικές αλληλουχίες, οι οποίες, με τη σειρά τους, οδηγούν σε τεχνητή αύξηση του αριθμού των ψευδογονιδίων, ενώ, στην πραγματικότητα, ο ένοχος είναι ένα κενό συναρμολόγησης. Τα κενά μπορεί επίσης να υποδηλώνουν τη θέση μιας ελλείπουσας συστοιχίας tandem γονιδίων ή επαναλαμβανόμενων αλληλουχιών που δεν μπόρεσαν να συναρμολογηθούν σωστά (Εικ. 1Γ).
Μπορώ να εμπιστευτώ τον χαρακτηρισμό;
Ορισμένες αλληλουχίες γονιδιωμάτων οργανισμών επιμελούνται συνεχώς από την κοινότητα ή από ειδικούς και έχουν καλό, πρόσφατο σχολιασμό γονιδιώματος (Πίνακας 1). Ωστόσο, οι σχολιαστές δεν μπορούν να σχολιάσουν ό,τι δεν υπάρχει (π.χ. κενά). Οι αλληλουχίες ευκαρυωτικών γονιδιωμάτων, ιδίως από ζώα, φορείς ή φυτικούς ξενιστές, είναι πολύπλοκες και, ακόμη και με συνεχή επιμέλεια, υπάρχουν πολλά ακόμη που πρέπει να διορθωθούν και να ανακαλυφθούν καθώς εμφανίζονται νέες τεχνολογίες αλληλουχιών, αλγόριθμοι συναρμολόγησης και πειραματικά στοιχεία. Για παράδειγμα, οι αμετάφραστες περιοχές και τα μη κωδικοποιημένα RNA δεν σχολιάζονται συνήθως. Όλες οι ακολουθίες/αλληλουχίες γονιδιωμάτων και ο σχολιασμός τους είναι "έργα σε εξέλιξη" και αποτελούν στατικούς εκπροσώπους μιας χρονικής στιγμής για ένα συνεχώς εξελισσόμενο μόριο μέσα σε έναν γενετικά ποικιλόμορφο πληθυσμό.
Ο χαρακτηρισμός επηρεάζει τις αναλύσεις μονοπατιών;
Ναι. Οι μελέτες που αποσκοπούν στην ανακάλυψη στόχων φαρμάκων συχνά αναζητούν ένα γονίδιο που φαίνεται να είναι απαραίτητο σε μια οδό. Μόλις ανακαλυφθεί, το γονίδιο εξαλείφεται, και προς απογοήτευση όλων, δεν ήταν απαραίτητο, και ο οργανισμός επιβιώνει παρουσία φαρμάκου. Υπάρχουν πολλοί λόγοι για τους οποίους μπορεί να έχει συμβεί αυτό, οι οποίοι κυμαίνονται από την ικανότητα του φαρμάκου να φτάσει στον στόχο έως την πιθανότητα η αξιολόγηση της αναγκαιότητας να είναι λανθασμένη. Σφάλματα στον σχολιασμό ή τη συναρμολόγηση μπορούν επίσης να οδηγήσουν σε αυτό το αποτέλεσμα. Για παράδειγμα, το γονίδιο μπορεί να μην είναι μονό αντίγραφο ή η κατασκευή νοκ-άουτ συμπεριφέρθηκε περίεργα και στόχευσε ένα συγγενικό ή πρόσθετο γονιδιακό αντίγραφο του στόχου, παράγοντας ασυνήθιστα ή δύσκολα ερμηνεύσιμα αποτελέσματα. Εναλλακτικά, το μεγάλο ποσοστό γονιδίων άγνωστης λειτουργίας (που φτάνει το 40% σε ορισμένους οργανισμούς) κωδικοποιεί λειτουργίες που επιτρέπουν στον οργανισμό να παρακάμψει το knockout. Απαιτείται ακόμη πολλή δουλειά σε αυτή τη σημαντική κατηγορία γονιδίων".
"Ορισμένες αλληλουχίες γονιδιωμάτων θα απαιτήσουν πρόσθετες προσεγγίσεις πέραν των μακρών αναγνώσεων, όπως η Hi-C (σύλληψη της διαμόρφωσης της χρωματίνης) [35], οι μεθοδολογίες βιβλιοθηκών Chicago [36] ή η οπτική χαρτογράφηση [37]. Οι πραγματικά δύσκολες αλληλουχίες γονιδιωμάτων μπορεί να είναι εξαπλοειδείς (όπως το σιτάρι), να έχουν τεράστιο αριθμό ικριωμάτων (όπως ο Ixodes scapularis, που έχει >350.000), να είναι γεμάτες με εξαιρετικά παρόμοια επαναλαμβανόμενα στοιχεία (όπως το T. vaginalis) ή να πάσχουν από ακραία ετερογένεια και διαφορές μήκους μεταξύ αδελφών χρωμοσωμάτων (όπως στο υβρίδιο T. cruzi). Ορισμένες αλληλουχίες γονιδιωμάτων έχουν ήδη "διορθωθεί" με αυτές τις νέες τεχνολογίες, αλλά απαιτείται ακόμη σημαντική εργασία για να γίνουν όσο το δυνατόν καλύτερες. Απαιτούνται πάντα νέες συναρμολογήσεις και σχολιασμοί. Είναι απογοητευτικό όταν αλλάζουν όλες οι ονομασίες και η αρίθμηση, αλλά αυτές οι αλλαγές προκύπτουν από την πρόοδο που θα διευκολύνει και θα ενημερώσει τη βάση για τον πολύ αναγκαίο περαιτέρω πειραματισμό".
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6742220/
Συνοψίζοντας:
Το γονιδίωμα θεωρήθηκε ως το αμετάβλητο σχέδιο του ανθρώπινου όντος, το οποίο καθορίζεται στην αρχή της ζωής μας.
Ωστόσο, η επιστήμη πρέπει να αποχαιρετήσει αυτή την ιδέα, καθώς στην πραγματικότητα η γενετική μας σύνθεση βρίσκεται σε κατάσταση συνεχούς αλλαγής
Οι γενετιστές πρέπει να εγκαταλείψουν την εικόνα ενός σταθερού γονιδιώματος, στο οποίο οι αλλαγές αποτελούν παθολογικές εξαιρέσεις
Το γονιδίωμα κάθε ατόμου βρίσκεται σε κατάσταση συνεχούς μετασχηματισμού
Το 2000, ο πρόεδρος των ΗΠΑ Μπιλ Κλίντον αναφέρθηκε στο πρώτο προσχέδιο του ανθρώπινου γονιδιώματος ως "Βιβλίο της ζωής" - μια αλληλουχία τριών δισεκατομμυρίων γραμμάτων
Ωστόσο, η νεότερη τεχνολογία έχει δείξει ότι το βιβλίο διαλύεται μπροστά στα μάτια των αναγνωστών και ότι το γονιδίωμα δεν είναι ένα σταθερό κείμενο
Οι γενετικές διεργασίες αποτελούν ένα ανοιχτό σύστημα στο οποίο σε καμία περίπτωση δεν είναι όλα προκαθορισμένα
Οι ειδικοί πίστευαν ότι είχαν κατανοήσει πώς μοιάζει και λειτουργεί ένα γονίδιο, ποιες λειτουργικές αρχές ακολουθεί το ανθρώπινο ή το μικροβιακό γονιδίωμα
"Εκ των υστέρων, οι υποθέσεις μας για το πώς λειτουργεί το γονιδίωμα τότε ήταν τόσο αφελείς που είναι σχεδόν ντροπιαστικές", λέει ο Craig Venter, ο οποίος συμμετείχε στο έργο με την εταιρεία του Celera
Η παραδοχή ήταν ότι το γενετικό υλικό δύο ανθρώπων διέφερε μόνο κατά περίπου ένα χιλιοστό του ενός χιλιοστού όλων των δομικών στοιχείων του DNA, ωστόσο οι διαφορές στη γενετική σύνθεση των ανθρώπων είναι στην πραγματικότητα τόσο μεγάλες που η επιστήμη επιβεβαιώνει πλέον αυτό που η λαϊκή γλώσσα γνωρίζει εδώ και καιρό: "Κάθε άνδρας είναι διαφορετικός. Εντελώς διαφορετικός!"
Η προηγούμενη πεποίθηση (δηλαδή η υπόθεση) ότι κάθε γονίδιο υπάρχει συνήθως μόνο δύο φορές στο γονιδίωμα (μία φορά στο πατρικό και μία στο μητρικό σύνολο χρωμοσωμάτων) είναι επίσης λανθασμένη
Στην πραγματικότητα, ένα μεγάλο μέρος της γενετικής πληροφορίας υπόκειται σε μια διαδικασία διπλασιασμού και υπάρχει σε έως και 16 αντίγραφα στον πυρήνα του κυττάρου
Η εκρηκτικότητα των ευρημάτων επιτείνεται από την ανακάλυψη ότι τα πρότυπα CNV στο γονιδίωμα δεν είναι καθόλου σταθερά, ο αριθμός αντιγράφων των γονιδίων μπορεί να μειωθεί ή να αυξηθεί, και ακόμη και τα σωματικά κύτταρα ενός μεμονωμένου ανθρώπου διαφέρουν μεταξύ τους
Η ιδέα ότι το γονιδίωμα αντιπροσωπεύει μια φυσική σταθερά, έναν σταθερό πηγαίο κώδικα του ανθρώπου, καταρρέει πλέον υπό το βάρος των ευρημάτων
Ο Αμερικανός γενετιστής Matthew Hahn έχει ήδη συγκρίνει το γονιδίωμα με μια περιστρεφόμενη πόρτα: "Γονίδια έρχονται συνεχώς, άλλα φεύγουν".
Καθ' όλη τη διάρκεια του Προγράμματος Ανθρώπινου Γονιδιώματος, υπήρξαν διαφορετικά επίπεδα ακρίβειας των στόχων που επεδίωκαν τα ερευνητικά ινστιτούτα
Γνωστά ως πρότυπα των Βερμούδων, το διεθνές πρότυπο ακρίβειας διατηρείται σήμερα σε ένα σφάλμα ανά 10.000 ζεύγη βάσεων για ολόκληρη τη συνεχή αλληλουχία - το DNA αλληλουχίζεται σε τμήματα και συχνά υπάρχουν κενά μεταξύ αυτών των διαφορετικών τμημάτων
Ανεξάρτητα από το πόσο ακριβής μπορεί να φαίνεται αυτή η διαδικασία αλληλούχισης, μέσω της αλληλούχισης ολόκληρου του ανθρώπινου γονιδιώματος, προκύπτουν συνολικά περίπου 300.000 σφάλματα ζεύγους βάσεων.
Τα SNPs είναι φυσικές παραλλαγές της αλληλουχίας του DNA ενός μόνο νουκλεοτιδίου (A, T, C ή G) που εμφανίζονται κάθε 100 έως 300 ζεύγη βάσεων.
Οι παραλλαγές που προκαλούνται από τα SNP μπορούν να επηρεάσουν δραματικά τον τρόπο με τον οποίο οι άνθρωποι αντιδρούν διαφορετικά σε πράγματα όπως τα φάρμακα, τα εμβόλια ή οι ασθένειες
Λόγω των εγγενών και επιτρεπόμενων σφαλμάτων για εταιρείες όπως η 23andMe που αλληλουχούν DNA, τα αποτελέσματά τους σίγουρα θα αλληλουχήσουν ορισμένα SNPs με ανακρίβεια
Με πάνω από 300.000 σφάλματα ζεύγους βάσεων, είναι αμφίβολο πόσο ακριβή μπορούν να είναι τα γονιδιώματα
Οι δυνατότητες και οι περιορισμοί του ανθρώπινου σώματος είναι ευαίσθητες μέχρι και το μεμονωμένο νουκλεοτίδιο (όπως με τα SNP), επομένως η αλληλούχιση του ανθρώπινου γονιδιώματος δεν μπορεί να είναι αρκετά αξιόπιστη ώστε να εξυπηρετεί τον σκοπό της ως πηγή εξατομικευμένων ιατρικών πληροφοριών που εξαρτώνται πλήρως από το ανθρώπινο DNA
Μπορεί να είναι δύσκολο να προσδιοριστεί η ακρίβεια των αποτελεσμάτων της αλληλούχισης - και ακόμη πιο δύσκολο να συγκριθεί η ακρίβεια μεταξύ διαφορετικών πλατφορμών αλληλούχισης
Η ακρίβεια διαφέρει όχι μόνο μεταξύ των τεχνολογιών αλλά και μεταξύ των γονιδιωματικών περιοχών, καθώς ορισμένα τμήματα του γονιδιώματος είναι εγγενώς πιο δύσκολο να διαβαστούν
Υπάρχουν δύο τύποι ακρίβειας στη γονιδιωματική:
Ακρίβεια ανάγνωσης
○ Το εγγενές ποσοστό σφάλματος των μεμονωμένων μετρήσεων (αναγνώσεων) από μια τεχνολογία αλληλούχισης DNA
○ Η τυπική ακρίβεια ανάγνωσης κυμαίνεται από ~90% για τις παραδοσιακές μακρές αναγνώσεις έως >99% για τις σύντομες αναγνώσεις και τις αναγνώσεις HiFi
Ακρίβεια συναίνεσης
○ Προσδιορίζεται με το συνδυασμό πληροφοριών από πολλαπλές αναγνώσεις σε ένα σύνολο δεδομένων, το οποίο εξαλείφει τυχόν τυχαία σφάλματα σε μεμονωμένες αναγνώσεις.
○ Ο υπολογισμός της συναίνεσης είναι μια πολύπλοκη και υπολογιστικά δαπανηρή διαδικασία και δεν μπορεί να ξεπεράσει τα συστηματικά σφάλματα
○ Εάν μια πλατφόρμα αλληλούχισης κάνει σταθερά το ίδιο λάθος, τότε αυτό δεν θα διαγραφεί με τη δημιουργία μεγαλύτερης κάλυψης αλληλούχισης
Για να παρακαμφθεί αυτό το πρόβλημα, είναι σύνηθες να "γυαλίζονται" οι μεγάλες αναγνώσεις που έχουν συστηματικά σφάλματα με μικρές αναγνώσεις υψηλής ακρίβειας
Ωστόσο, λόγω του μήκους ανάγνωσής τους, οι βραχείες αναγνώσεις δεν μπορούν πάντα να αντιστοιχούν στις μακρές αναγνώσεις με σαφήνεια, περιορίζοντας τη δυνατότητά τους να βελτιώσουν την ακρίβεια
Ακόμα και οι τέλειες αναγνώσεις μπορούν να συμβάλουν στην κακή ακρίβεια εάν δεν είναι σωστά διατεταγμένες και προσανατολισμένες στη συναρμολόγηση
Αυτό το ερώτημα σχετικά με το πού να τοποθετηθεί το ανάγνωσμα ονομάζεται αντιστοιχιστικότητα (mappability)
Οι αναγνώσεις που περιέχουν μόνο ένα κομμάτι ενός μεγάλου δομικού στοιχείου, ή που αποτελούνται από εξαιρετικά επαναλαμβανόμενες αλληλουχίες, μπορεί να είναι πολύ δύσκολο να ευθυγραμμιστούν, αντιστοιχίζοντας διφορούμενα σε πολλές διαφορετικές θέσεις σε μια αναφορά
Λόγω του μεγέθους τους, υπάρχει μεγαλύτερη πιθανότητα να μην περιέχουν αρκετά μοναδικά δεδομένα αλληλουχίας ώστε να αγκυρωθούν σωστά σε ένα γονιδίωμα.
Για μεγαλύτερες αναγνώσεις με υψηλό ποσοστό σφαλμάτων, είναι αδύνατο να αποφασιστεί αν μια διαφωνία μεταξύ ενός συνόλου αναφοράς και δεδομένων είναι παραλλαγή ή σφάλμα αλληλουχίας.
Οι νέες τεχνολογίες και οι αλγοριθμικές εξελίξεις δεν εγγυώνται άψογες γονιδιωματικές ακολουθίες ή σχολιασμό.
Μεροληψία, σφάλματα και τεχνουργήματα μπορούν να εμφανιστούν σε οποιοδήποτε στάδιο της διαδικασίας, από την προετοιμασία της βιβλιοθήκης έως τον σχολιασμό.
Υπάρχουν πολλοί παράγοντες που μπορούν να επηρεάσουν την τελική γονιδιωματική ακολουθία και τον σχολιασμό που παράγονται, και αμφότερα θα πρέπει να θεωρούνται "έργα σε εξέλιξη".
Η προέλευση του γονιδιώματος έχει σημασία:
Τα υβρίδια μπορεί να έχουν δραματικές διαφορές μεταξύ των ορθόλογων χρωμοσωμάτων
Οι αλληλουχίες γονιδιώματος που προέρχονται από ετερογενή πληθυσμό, ιδίως όταν υπάρχουν CNVs, περιπλέκουν τη συναρμολόγηση του γονιδιώματος και συχνά η αλληλουχία που παράγεται είναι σύνθετη (δηλαδή αποτελείται από διάφορα μέρη ή στοιχεία) των κυριότερων αλληλόμορφων που υπάρχουν στο δείγμα που αλληλουχήθηκε
Οι αλληλουχίες γονιδιώματος που προέρχονται από κλωνικά εργαστηριακά στελέχη είναι συχνά ευκολότερο να συναρμολογηθούν, αλλά μπορεί να μην είναι πραγματικά αντιπροσωπευτικές των κυκλοφορούντων στελεχών άγριου τύπου, επειδή είναι προσαρμοσμένα στην καλλιέργεια και, εάν πολλαπλασιάζονται για μεγάλο χρονικό διάστημα, μπορεί να έχουν χάσει γονίδια ή να έχουν συσσωρεύσει μεταλλάξεις.
Ορισμένες αλληλουχίες γονιδιωμάτων είναι φυσικά δύσκολο να αλληλουχηθούν λόγω ακραίας προκατάληψης νουκλεοτιδίων
Οι μεγάλες ομοιοπολικές διαδρομές οποιασδήποτε βάσης είναι ιδιαίτερα ενοχλητικές για ορισμένες τεχνολογίες αλληλούχισης και μπορεί να οδηγήσουν σε εσφαλμένο αριθμό νουκλεοτιδίων, με αποτέλεσμα μετατοπίσεις πλαισίου εάν η αλληλουχία είναι κωδικοποιητική
Εάν η γονιδιωματική αλληλουχία περιέχει πολλές επαναλαμβανόμενες αλληλουχίες, ρετροτρανσποζόνια ή κινητά στοιχεία ή μεγάλες, πολύ παρόμοιες οικογένειες γονιδίων, η συναρμολόγηση του γονιδιώματος θα επηρεαστεί, ιδίως εάν χρησιμοποιήθηκαν μόνο αλληλουχίες μικρής ανάγνωσης.
Οι επαναλαμβανόμενες αλληλουχίες αποτελούν τεράστια πρόκληση για τους περισσότερους αλγορίθμους συναρμολόγησης
Οι χαμηλής κάλυψης, λιγότερο ακριβείς, μακρόχρονες αναγνώσεις μπορούν να χρησιμοποιηθούν ως πλαίσιο πάνω στο οποίο μπορούν να χαρτογραφηθούν ακολουθίες με μικρότερες αναγνώσεις
Ο εύκολος τρόπος για να αξιολογήσετε την ποιότητα της συναρμολόγησης του γονιδιώματος του οργανισμού σας είναι να αντιστοιχίσετε τις αναγνώσεις από το έργο αλληλούχισης πίσω στην συναρμολογημένη ακολουθία γονιδιώματος και να ρίξετε μια ματιά
Εάν ένας έλεγχος για να διαπιστωθεί πόσο ακριβές είναι το γονιδίωμα βασίζεται σε ένα γονιδίωμα αναφοράς, πώς καθορίστηκε το γονιδίωμα αναφοράς ως ακριβές χωρίς να υπάρχει η δική του αναφορά για την επικύρωση της ακρίβειας;
Η συναρμολόγηση του γονιδιώματος αναφοράς για το απικομπλεξικό παράσιτο Toxoplasma gondii ME49 περιέχει αρκετές συμπιεσμένες περιοχές που διαφέρουν ανάλογα με το στέλεχος και παρά την υψηλή ποιότητα αυτής της αλληλουχίας γονιδιώματος και την αντιστοιχία της με γενετικούς χάρτες, εξακολουθούν να υπάρχουν ζητήματα που σχετίζονται με τον αριθμό των χρωμοσωμάτων
Η παραγωγή μεμονωμένων αναγνώσεων από κάθε άκρο μιας γνωστού μήκους (π.χ. 10 kb) αλληλουχίας εισαγωγής βιβλιοθήκης θα υποδείκνυε ότι οι αναγνώσεις θα έπρεπε να καταλήγουν στο συναρμολογημένο γονιδίωμα αντικριστά και σε απόσταση περίπου 10 kb μεταξύ τους.
Εάν δεν είναι έτσι, αυτό υποδηλώνει σφάλμα συναρμολόγησης.
Οι ακολουθίες γονιδιώματος που βασίζονται στην κλωνοποίηση και τη βιολογική αντιγραφή έχουν πρόσθετα ζητήματα που πρέπει να ληφθούν υπόψη:
Ορισμένες αλληλουχίες απλώς δεν μπορούν να κλωνοποιηθούν- είναι τοξικές για τον οργανισμό που χρησιμοποιείται για την κλωνοποίηση και την αντιγραφή και, ως εκ τούτου, θα λείπουν από την παραγόμενη γονιδιωματική αλληλουχία.
Μια αλληλουχία DNA από τον φορέα κλωνοποίησης ή τον οργανισμό που χρησιμοποιήθηκε για την κατασκευή της βιβλιοθήκης μπορεί να καταλήξει στην ακολουθία του γονιδιώματος-στόχου που συναρμολογήθηκε.
Πολλά πρωτόκολλα περιέχουν στάδια ενίσχυσης, τα οποία μπορούν να εισάγουν μεροληψία (δηλαδή οποιονδήποτε παράγοντα που προκαλεί παραμόρφωση των γενετικών προβλέψεων)
Η διαδικασία ενίσχυσης είναι μεροληπτική και απαιτούνται πολλές διαφορετικές αντιδράσεις WGA (σε διαφορετικά κύτταρα ή πληθυσμούς ομοειδών κυττάρων) για τον πλήρη εντοπισμό και την εξάλειψη της μεροληψίας ενίσχυσης
Θα πρέπει να σημειωθεί ότι η μεροληψία σπάνια αφαιρείται από τις αναγνώσεις που υποβάλλονται στα αρχεία, οπότε είναι επιτακτική ανάγκη να γνωρίζουμε αν χρησιμοποιήθηκε η WGA
Διαφορετικές πλατφόρμες αλληλούχισης έχουν διαφορετικά πλεονεκτήματα και αδυναμίες:
Οι αλληλουχίες γονιδιώματος που συναρμολογούνται με τη χημεία Sanger θα έχουν καλή ποιότητα αλληλουχίας, αλλά η συναρμολογημένη αλληλουχία γονιδιώματος θα επηρεάζεται από ζητήματα της βιβλιοθήκης
Οι αλληλουχίες γονιδιώματος που παράγονται με παλαιότερα συστήματα, π.χ. 454 και Ion Torrent, θα έχουν προβλήματα εσφαλμένης καταμέτρησης ομοπολυμερών.
Οι νεότερες αλληλουχίες γονιδιώματος θα αποτελούνται από υψηλής ακρίβειας τεχνολογία βραχείας ανάγνωσης της Illumina, αλλά η συναρμολογημένη αλληλουχία, ιδίως εάν υπάρχουν επαναλήψεις, θα είναι ελλιπής και θα περιέχει κενά και λανθασμένες συναρμολογήσεις, εκτός εάν χρησιμοποιηθεί υβριδική συναρμολόγηση με χρήση τεχνολογιών μακράς ανάγνωσης όπως η PacBio ή η Oxford Nanopore.
Οι συναρμολογήσεις αλληλουχίας είναι δύο τύπων: de novo, συναρμολόγηση από το μηδέν, και συναρμολόγηση βάσει αναφοράς:
Βάσει αναφοράς
○ Συνήθως χρησιμοποιείται όταν υπάρχει ήδη ένα καθιερωμένο γονιδίωμα αναφοράς οργανισμού και ο πειραματικός στόχος είναι να προσδιοριστεί η παραλλαγή σε σχέση με αυτό.
○ Δεν είναι καλή προσέγγιση για την ανίχνευση αναδιατάξεων ή συνθετικών κενών, αλλά είναι ιδανική για την ανίχνευση SNPs, ορισμένων indels και CNV
○ Δεν θα αποκαλύψει χαρακτηριστικά του γονιδιώματος που δεν υπάρχουν στην αναφορά, ένα σημαντικό μειονέκτημα
○ Λόγω του μεγάλου όγκου πληθυσμιακών μελετών που επικεντρώνονται σε SNPs, τα περισσότερα δεδομένα ακολουθίας γονιδιώματος, δυστυχώς, παραμένουν ως μη συναρμολογημένα αρχεία αναγνώσεων
De Novo
○ Η μόνη επιλογή για την πρώτη ακολουθία γονιδιώματος ενός οργανισμού, και όταν είναι δυνατόν, θα πρέπει να εκτελούνται κατά κανόνα για να επιτρέπουν την ανακάλυψη νέων χαρακτηριστικών
○ Στην περίπτωση αλληλουχιών ευκαρυωτικών γονιδιωμάτων, ιδίως όταν ο καρυότυπος είναι άγνωστος και δεν υπάρχουν φυσικοί χάρτες, οι αναγνώσεις μπορούν να συναρμολογηθούν μόνο εν μέρει σε συνεχόμενες αναγνώσεις, "contigs", ή ικριώματα από contigs, που περιέχουν κενά
○ Τα contigs συχνά περιέχουν αλληλουχίες που είναι αρκετά μοναδικές, επειδή οι επαναλαμβανόμενες αλληλουχίες συχνά "αποκρύπτονται" σε μια de novo συναρμολόγηση λόγω των προβλημάτων που προκαλούν
○ Ως αποτέλεσμα, τα contigs συχνά τελειώνουν ή διαχωρίζονται από ελλείπουσες επαναλαμβανόμενες περιοχές που δεν χρησιμοποιήθηκαν (π.χ. καλύφθηκαν) ή δεν μπόρεσαν να επιλυθούν κατά τη διάρκεια της συναρμολόγησης
○ Η παραλλαγή που εντοπίζεται στα άκρα των contigs πρέπει να αντιμετωπίζεται με προσοχή
Σε ορισμένες περιπτώσεις, συναρμολογούνται ικριώματα αντιπροσωπευτικά ολόκληρων χρωμοσωμάτων, αλλά και αυτά, επίσης, συχνά περιέχουν πολυάριθμα κενά ή αμφίσημες βάσεις
Ορισμένοι συναρμολογητές δημιουργούν επίσης ένα ικρίωμα που συνδέει όλα τα "εναπομείναντα" contigs, αλλά προσέξτε αυτό το ικρίωμα, που συχνά ονομάζεται "ικρίωμα 0", καθώς η σειρά και ο προσανατολισμός αυτών των contigs δεν έχει καμία σχέση με τη βιολογική τους θέση.
Κάθε τύπος συναρμολόγησης ακολουθιών συνοδεύεται από ένα σύνολο εγγενών προβλημάτων, και τα περισσότερα έργα ακολουθίας γονιδιώματος παράγουν μια ποικιλία από παραμένοντα reads και contigs που δεν συναρμολογούνται.
Σε ορισμένες περιπτώσεις, αυτές οι αναγνώσεις μπορούν να αναγνωριστούν ως μόλυνση, απροσδόκητος συμβιωτής ή οργανική γονιδιωματική αλληλουχία
Σε άλλες περιπτώσεις, τα εναπομείναντα κομμάτια είναι ένα προφητικό σημάδι συγκεκριμένων τύπων σφαλμάτων συναρμολόγησης ή απροσδόκητης παραλλαγής της γονιδιωματικής αλληλουχίας, π.χ. CNV ή υψηλά επίπεδα ετεροζυγωτίας μεταξύ αλληλόμορφων (ειδικά αν αλληλουχήθηκε ένας πληθυσμός και όχι ένα άτομο).
Μια γονιδιωματική αλληλουχία μπορεί πάντα να συναρμολογηθεί εκ νέου από τις αρχειοθετημένες αναγνώσεις καθώς διατίθενται νέοι αλγόριθμοι και νέες ή μεγαλύτερες αλληλουχίες.
Πολλές κοινότητες ανασυνθέτουν ενεργά σημαντικές αλληλουχίες αναφοράς
Με άλλα λόγια, τα γονιδιώματα αναφοράς είναι ένα διαρκώς εξελισσόμενο σύνολο ανακριβών δεδομένων που χρειάζονται ενημέρωση καθώς γίνεται διαθέσιμη καλύτερη τεχνολογία
Οι επιρρεπείς σε σφάλματα αναγνώσεις μακράς ακολουθίας μπορούν να διορθωθούν πριν από τη συναρμολόγηση με τη χρήση του proovread
Η διόρθωση πριν από τη συναρμολόγηση μπορεί να διευκολύνει τη συναρμολόγηση όταν το ποσοστό σφαλμάτων είναι υψηλό, π.χ. σε αναγνώσεις PacBio χαμηλής κάλυψης.
Οι συναρμολογημένες ακολουθίες γονιδιώματος μπορούν επίσης να "στιλβωθούν".
Η διόρθωση και η στίλβωση αναγνώσεων είναι χρήσιμα και συνιστώμενα βήματα, αλλά εξαρτώνται σε μεγάλο βαθμό από την απόδοση του ευθυγραμμιστή και ο τελικός χρήστης πρέπει να γνωρίζει ότι οι διορθωμένες και στίλβωση αλληλουχίες θα αντιπροσωπεύουν τα πιο άφθονα αλληλόμορφα αλληλόμορφα που υπάρχουν στις αναγνώσεις.
Οι ισομορφές και οι σπάνιες παραλλαγές επαναλαμβανόμενων αλληλουχιών θα "διορθωθούν", δηλαδή θα αντικατασταθούν, στην τελική συναρμολόγηση από τις πιο άφθονες παραλλαγές αλληλουχιών
Οι γονιδιακές προβλέψεις εξαρτώνται από τη συναρμολόγηση του γονιδιώματος, πράγμα που σημαίνει ότι εάν μια περιοχή λείπει, δεν μπορεί να σχολιαστεί
Ομοίως, εάν η περιοχή είναι ανεπαρκώς συναρμολογημένη ή λείπει από μια αλληλουχία γονιδιώματος αναφοράς που χρησιμοποιείται για την ορθολογία, μπορεί να καταλήξει να λείπει από την αλληλουχία γονιδιώματος που σχολιάζεται
Καθώς δεν υπάρχουν γενετικά συστήματα για πολλά παθογόνα που να μπορούν να χρησιμοποιηθούν για τη δημιουργία ενός φυσικού χάρτη, η χαρτογράφηση αναφοράς είναι χρήσιμη, αλλά είναι εύκολο να ξεχάσει κανείς την προέλευση των συνόλων γονιδιωματικών αλληλουχιών και του σχολιασμού που δημιουργούνται ή διαδίδονται με αυτόν τον τρόπο, οπότε πρέπει να δίνεται προσοχή όταν χρησιμοποιούνται σύνολα γονιδιωμάτων με χαρτογράφηση αναφοράς ως βάση για πειράματα.
Με άλλα λόγια, τα γονιδιώματα είναι τόσο ακριβή όσο και οι αναφορές τους, οι οποίες, αφού έγιναν με παλαιότερη τεχνολογία, δεν είναι ακριβείς και, επομένως, κάθε γονιδίωμα που βασίζεται σε ένα από αυτά θα μεταφέρει και θα βασίζεται σε αυτές τις ανακρίβειες.
Πρόσθετα αντίγραφα γονιδίων μπορούν να ματαιώσουν πειράματα που έχουν σχεδιαστεί για να στοχεύσουν, να κλωνοποιήσουν, να διαγράψουν ή να τροποποιήσουν ένα συγκεκριμένο γονίδιο
Ο σχολιασμός μπορεί να υποδεικνύει ένα γονίδιο με ένα μόνο αντίγραφο, αλλά ανάλογα με την τεχνολογία που χρησιμοποιήθηκε για τη δημιουργία της γονιδιωματικής σας αλληλουχίας, σχεδόν πανομοιότυπα αντίγραφα γονιδίων μπορεί να συγκεντρωθούν ως ένα γονίδιο.
Ελαφρώς αποκλίνοντα μέλη της οικογένειας γονιδίων, ιδίως αν πρόκειται για επαναλήψεις τάντεμ, συχνά δεν συναρμολογούνται και μπορούν να βρεθούν στις υπόλοιπες αναγνώσεις ή στα μικρά μη συναρμολογημένα contigs
Είναι εύκολο να παραπλανηθεί κανείς με βάση τον υπάρχοντα σχολιασμό ότι ένα γονίδιο λείπει
Η καλύτερη πρακτική για τον προσδιορισμό της απώλειας γονιδίου είναι να εξετάσετε έναν χάρτη συνθετικότητας των γονιδιωματικών contigs και να δείτε αν η περιοχή του γονιδιώματος που αναμένεται να περιέχει το γονίδιο ενδιαφέροντος (με βάση τη θέση του σε ένα κοντινό είδος) είναι παρούσα, συντηρημένη και όχι αναδιαταγμένη
Εναλλακτικά, η περιοχή μπορεί να λείπει από τη συναρμολόγηση του γονιδιώματος, δηλαδή να υπάρχει κενό σε σχέση με την αλληλουχία σύγκρισης.
Οι λανθασμένες συναρμολογήσεις και τα κενά μπορούν να δώσουν την ψευδαίσθηση ότι λείπουν γονίδια, ενώ στην πραγματικότητα λείπουν από τη συναρμολόγηση, έχουν εξελιχθεί σε ψευδογονίδια ή, σε ορισμένες περιπτώσεις, έχουν αντικατασταθεί από οριζόντια γονιδιακή μεταφορά που βρίσκεται σε άλλο σημείο του γονιδιώματος
Ο αριθμός των γονιδίων μπορεί να είναι μειωμένος σε σχέση με τον πραγματικό αριθμό, και ειρωνικά, ο αριθμός των γονιδίων μπορεί επίσης να διογκωθεί επειδή ένα τμήμα του ίδιου γονιδίου μπορεί να βρεθεί σε κάθε πλευρά του κενού, με αποτέλεσμα δύο μερικές προβλέψεις
Τα κενά μπορεί να οδηγήσουν σε τεχνητή αύξηση του αριθμού των ψευδογονιδίων
Τα κενά μπορεί επίσης να υποδεικνύουν τη θέση μιας ελλιπούς σειράς γονιδίων ή αλληλουχιών επανάληψης που δεν μπόρεσαν να συναρμολογηθούν σωστά.
Οι σχολιαστές δεν μπορούν να σχολιάσουν αυτό που δεν υπάρχει (π.χ. κενά).
Οι αλληλουχίες ευκαρυωτικών γονιδιωμάτων, ιδίως από ζώα, φορείς ή φυτικούς ξενιστές, είναι πολύπλοκες, και ακόμη και με συνεχή επιμέλεια, υπάρχουν πολλά ακόμη που πρέπει να διορθωθούν και να ανακαλυφθούν καθώς εμφανίζονται νέες τεχνολογίες αλληλουχιών, αλγόριθμοι συναρμολόγησης και πειραματικά στοιχεία
Όλες οι ακολουθίες γονιδιωμάτων και ο σχολιασμός τους είναι "έργα σε εξέλιξη" και αποτελούν στατικούς εκπροσώπους μιας χρονικής στιγμής για ένα συνεχώς εξελισσόμενο μόριο μέσα σε έναν γενετικά ποικιλόμορφο πληθυσμό
Με άλλα λόγια, κανένα γονιδίωμα δεν είναι ακριβές καθώς δεν είναι παρά ένα στιγμιότυπο στο χρόνο
Σφάλματα στον σχολιασμό ή τη συναρμολόγηση μπορούν να προκαλέσουν ψευδή αποτελέσματα σε φαρμακολογικές μελέτες
Για παράδειγμα, το γονίδιο μπορεί να μην είναι μονό αντίγραφο ή η κατασκευή νοκ-άουτ συμπεριφέρθηκε περίεργα και στόχευσε ένα συγγενικό ή πρόσθετο γονιδιακό αντίγραφο του στόχου, παράγοντας ασυνήθιστα ή δύσκολα ερμηνεύσιμα αποτελέσματα
Εναλλακτικά, το μεγάλο ποσοστό γονιδίων άγνωστης λειτουργίας (που φτάνει το 40% σε ορισμένους οργανισμούς) κωδικοποιεί λειτουργίες που επιτρέπουν στον οργανισμό να παρακάμψει το knockout
Ορισμένες αλληλουχίες γονιδιωμάτων έχουν ήδη "διορθωθεί" με αυτές τις νέες τεχνολογίες, αλλά απαιτείται ακόμη σημαντική εργασία για να γίνουν όσο το δυνατόν καλύτερες
Απαιτούνται πάντα νέες συναρμολογήσεις και σχολιασμοί.
Τα γονιδιώματα είναι ένα διαρκώς εξελισσόμενο στιγμιότυπο δεδομένων που παράγονται από υπολογιστή και επηρεάζονται σε μεγάλο βαθμό από τον τύπο της τεχνολογίας που χρησιμοποιείται και τους περιορισμούς που υπάρχουν τη δεδομένη στιγμή. Υπάρχουν πολλά βήματα που εμπλέκονται στη διαδικασία αλληλούχισης όπου μπορεί να εμφανιστούν προκαταλήψεις, τεχνουργήματα και σφάλματα. Υποστηρίζεται ότι ακόμη και με τις νεότερες τεχνολογίες, εξακολουθούν να υπάρχουν σφάλματα και η ακρίβεια μπορεί να είναι δύσκολο να προσδιοριστεί. Τούτου δοθέντος, πώς μπορεί ποτέ να θεωρηθεί πραγματικά ακριβές και αξιόπιστο οποιοδήποτε γονιδίωμα; Εάν πρέπει να χρησιμοποιούνται νεότερες τεχνολογίες για την τακτική ενημέρωση της ακρίβειας των γονιδιωμάτων, πώς μπορούν να χρησιμοποιούνται παλαιότερα γονιδιώματα ως σημείο αναφοράς; Τα γονιδιώματα αναφοράς που έχουν κατασκευαστεί με παλαιότερη τεχνολογία χρησιμοποιούνται ως πλαίσιο για τη δημιουργία των νεότερων γονιδιωμάτων. Οι ανακρίβειες και τα σφάλματα από το γονιδίωμα αναφοράς μεταφέρονται στο νέο γονιδίωμα που δημιουργείται από αυτό, το οποίο θα μεταφερθεί σε όλα τα μελλοντικά γονιδιώματα. Είναι σαφές ότι αυτές οι μη στατικές κατασκευές είναι τόσο "ακριβείς" όσο και η τεχνολογία που χρησιμοποιείται τη δεδομένη στιγμή. Καθώς έρχεται νεότερη τεχνολογία, οι παλιές θεωρίες και υποθέσεις καταρρίπτονται και αντικαθίστανται από νεότερες που προσπαθούν να εξηγήσουν το μεταβαλλόμενο τοπίο.
Πέρα από το πρόβλημα της τεχνολογίας είναι ότι για να είναι "ακριβές" ένα γονιδίωμα, πρέπει πρώτα να αποδειχθεί ότι αυτό που αλληλουχείται υπάρχει στην πραγματικότητα. Για τα ανθρώπινα γονιδιώματα, πρέπει να υπάρχει ένα άτομο από το οποίο να λαμβάνεται το γενετικό υλικό προκειμένου να προκύψει μια έγκυρη αλληλουχία. Οι "ιοί" δεν υπάρχουν φυσικά σε καθαρή/απομονωμένη κατάσταση. Τα γονιδιώματα των "ιών" λαμβάνονται είτε από μη καθαρισμένα δείγματα, όπως το βρογχοδιαλυτικό υγρό, είτε από υπερκείμενο κυτταροκαλλιέργειας που δημιουργείται σε εργαστήριο. Πρόκειται για μείγματα πολλών διαφορετικών γνωστών και άγνωστων μικροβίων/οργανισμών καθώς και διαφόρων πηγών άσχετου DNA/RNA. Όπως φάνηκε στο πρόγραμμα του ανθρώπινου γονιδιώματος, το γονιδίωμα δεν αποτελεί ακριβή αναπαράσταση ακόμη και με γνωστό υλικό προέλευσης από φυσικές οντότητες που υπάρχουν στην πραγματικότητα. Έχει υποστεί τουλάχιστον 38 αναθεωρήσεις από τότε που κυκλοφόρησε το 2003. Όπως περιγράφεται από τον Ulrich Bahnsen, το γονιδίωμα δεν είναι ένα στατικό βιβλίο αλλά μια διαρκώς μεταβαλλόμενη αφήγηση. Αν είναι αδύνατο να έχουμε μια ακριβή αναπαράσταση του ανθρώπινου γονιδιώματος μετά από τις τελευταίες 3 δεκαετίες χρησιμοποιώντας γνωστές πηγές γενετικού υλικού, τι λέει αυτό για τα γονιδιώματα των "ιών";
Τη στιγμή που γράφονται αυτές οι γραμμές, κυκλοφορούν 7,3 εκατομμύρια παραλλαγές του "SARS-COV-2". Καμμία αλληλουχία δεν είναι πανομοιότυπη. Έτσι, έχουμε δύο επιλογές να πιστέψουμε:
Τα γονιδιώματα είναι ένα διαρκώς μεταβαλλόμενο έργο σε εξέλιξη που φαινομενικά δεν μπορεί να αποτυπωθεί σε μια στατική κατάσταση.
Τα γονιδιώματα είναι ανακριβείς δημιουργίες που δημιουργούνται από υπολογιστή και είναι επιρρεπείς σε σφάλματα.
Αφού διαβάσατε τον κατάλογο των προβλημάτων που σχετίζονται με τη δημιουργία των γονιδιωμάτων και την κατάρρευση των παραδοχών ενός στατικού γονιδιώματος, πόσο αξιόπιστα και ακριβή πιστεύετε ότι είναι πραγματικά αυτά τα "ΕΡΓΑ ΣΕ ΕΞΕΛΙΞΗ";
Αν σας άρεσε αυτό το άρθρο και θα θέλατε να βοηθήσετε να στηρίξετε το συνεχές έργο μου, ο παρακάτω σύνδεσμος είναι μια επιλογή.
Παρακαλώ βοηθήστε να στηρίξετε το έργο μου.
🙏
Δικτυογραφία:
How Accurate and Reliable are Genomes? – ViroLIEgy
https://viroliegy.com/2022/01/22/how-accurate-and-reliable-are-genomes/