ΦΑΚΕΛΛΟΣ "ΙΟΛΟΓΙΑ": Περιορισμοί στην Tεχνολογία Aλληλούχισης Γονιδιώματος και στην Aνάλυση Δεδομένων
Μετάφραση: Απολλόδωρος
3 Μαρτίου 2022 | ViroLIEgy | Διαβάστε το εδώ
Όταν καταλαβαίνετε ότι η διαδικασία που χρησιμοποιείται για την απόκτηση ενός " ιϊκού" γονιδιώματος περιλαμβάνει πολυάριθμα πολύπλοκα βήματα, καθένα από τα οποία έχει τη δική του δυνατότητα να εισάγει μεροληψίες (biases), σφάλματα, τεχνουργήματα κ.λπ. τα οποία μπορούν εύκολα να μεταδοθούν στο τελικό αποτέλεσμα, γίνεται κατανοητό πώς μπορεί να αμφισβητηθεί η ακρίβεια και η αξιοπιστία ενός " ιϊκού" γονιδιώματος. Υπάρχουν πάρα πολλές μεταβλητές που πρέπει να ληφθούν υπόψη και τα σφάλματα που εισάγονται μπορούν μόνο να μετριαστούν στην καλύτερη περίπτωση, αλλά ποτέ να εξαλειφθούν. Ενώ οι νάρκες που δημιουργούνται κατά τη διάρκεια της προετοιμασίας της βιβλιοθήκης είναι κρίσιμες, ένας άλλος τομέας που προκαλεί ανησυχία είναι η εξάρτηση και ο περιορισμός της τεχνολογίας που χρησιμοποιείται. Είναι γεγονός ότι η δημιουργία ενός "ιογενούς" γονιδιώματος εξαρτάται σε μεγάλο βαθμό από μια συνεχώς ξεπερασμένη τεχνολογία που χρειάζεται συνεχώς βελτίωση για να εξασφαλιστεί ένα "ακριβές" τελικό προϊόν. Ωστόσο, εάν η τεχνολογία που χρησιμοποιείται βρίσκεται σε συνεχή εξέλιξη προκειμένου να επιτευχθούν τα ακριβέστερα αποτελέσματα, πώς μπορεί ποτέ να θεωρηθεί ένα γονιδίωμα ως μια πραγματικά ακριβής αναπαράσταση της οντότητας που υποτίθεται ότι αντιπροσωπεύει;
Πρόκειται για ένα ευρύ πεδίο με πάρα πολλές διαφορετικές πλατφόρμες αλληλούχισης με πάρα πολλές εναλλακτικές μεθόδους, η καθεμία με τα δικά της πλεονεκτήματα/μειονεκτήματα. Θα χρειαζόταν ένα βιβλίο παρά μια ανάρτηση για να αναλύσει τις διάφορες τεχνολογίες και διαδικασίες που χρησιμοποιούνται. Η πρόθεση εδώ είναι να παράσχουμε μια επισκόπηση των περιορισμών που έχουν ορισμένοι από αυτούς τους μηχανισμούς αλληλούχισης, εστιάζοντας κυρίως στην Illumina, καθώς είναι η πιο χρησιμοποιούμενη πλατφόρμα και έπαιξε καθοριστικό ρόλο στη δημιουργία του γονιδιώματος "SARS-COV-2", όπως φαίνεται εδώ:
"Το ολικό RNA εξήχθη από 200 μl BALF και κατασκευάστηκε μια μετα-τρανσκριπτομική βιβλιοθήκη για αλληλούχιση κατά ζεύγη (150-bp reads) με τη χρήση Illumina MiniSeq, όπως περιγράφηκε προηγουμένως. Συνολικά, δημιουργήσαμε 56.565.928 αναγνώσεις αλληλουχίας που συναρμολογήθηκαν de novo και ελέγχθηκαν για πιθανούς αιτιολογικούς παράγοντες. Από τα 384.096 contigs που συναρμολογήθηκαν με το Megahit, το μεγαλύτερο (30.474 νουκλεοτίδια (nt)) είχε υψηλή αφθονία και σχετιζόταν στενά με μια απομόνωση του κοροναϊού (CoV) που μοιάζει με τον SARS της νυχτερίδας - τον SL-CoVZC45 (αριθμός καταχώρησης GenBank MG772933) - που είχε προηγουμένως δειγματοληπτηθεί στην Κίνα, με νουκλεοτιδική ταυτότητα 89,1% (Συμπληρωματικοί πίνακες 1, 2). Η αλληλουχία του γονιδιώματος αυτού του ιού, καθώς και οι άκρες του, προσδιορίστηκαν και επιβεβαιώθηκαν με αντίστροφη μεταγραφή PCR (RT-PCR)10 και ταχεία ενίσχυση των άκρων cDNA 5′/3′ (RACE), αντίστοιχα. Το εν λόγω στέλεχος του ιού ονομάστηκε WH-Human 1 coronavirus (WHCV) (και έχει επίσης αναφερθεί ως "2019-nCoV") και η αλληλουχία ολόκληρου του γονιδιώματός του (29.903 nt) έλαβε τον αριθμό πρόσβασης GenBank MN908947".
https://www.nature.com/articles/s41586-020-2008-3
Προκειμένου να επικεντρωθώ στους περιορισμούς της τεχνολογίας αλληλούχισης καθώς και στα προβλήματα με την επακόλουθη ανάλυση των δεδομένων και την έλλειψη τυποποίησης των μεθόδων, συμπεριέλαβα πληροφορίες από μερικές πηγές με περίληψη στο τέλος. Αυτή η πρώτη μελέτη παρείχε μια ματιά στη ροή των διαδικασιών που εμπλέκονται στην πλατφόρμα Illumina και ανέλυσε ορισμένα από τα προβλήματα που αντιμετωπίζονται συνήθως κατά την αλληλούχιση, όπως τα σφάλματα αντικατάστασης λόγω του θορύβου υποβάθρου που αυξάνεται σε κάθε κύκλο αλληλούχισης, τα σημάδια στις δομές νουκλεοτιδίων που αλληλεπιδρούν με τις πρωτεΐνες και μειώνουν την αποτελεσματικότητα των αντιδράσεων, GC bias που εισάγεται κατά το στάδιο της ενίσχυσης με γέφυρα (ένας τύπος PCR όπου το DNA αντιγράφεται επανειλημμένα σε γυάλινη κυψελίδα ροής που περιέχει συμπληρωματικά ολιγονουκλεοτίδια), και ο περιορισμός του μήκους ανάγνωσης που δεν επιτρέπει την αλληλούχιση de novo (χωρίς γονιδίωμα αναφοράς):
Αλληλούχιση Νέας Γενιάς: Ανανέωση της γενετικής αλληλουχίας: Πλεονεκτήματα, μειονεκτήματα και μέλλον
Αλληλούχιση Δεύτερης Γενιάς
"Στη δεκαετία του 2000, η έννοια της αλληλούχισης του DNA υπέστη δραστικές αλλαγές. Ειδικότερα, πρέπει να αναφερθεί ότι η προσέγγιση της αλληλούχισης με κυνηγετικό όπλο που εισήχθη κατά τη διάρκεια του HGP, η οποία περιλαμβάνει τυχαίο κατακερματισμό και αλληλούχιση του DNA και στη συνέχεια τη χρήση προγραμμάτων υπολογιστή για τη συναρμολόγηση διαφορετικών αλληλουχιών που επικαλύπτονται, προκάλεσε επέκταση στις αντιλήψεις διαμορφώνοντας την ιδέα της μαζικά παράλληλης αλληλούχισης".
"Ο γενικός μηχανισμός της τεχνολογίας αλληλούχισης με βάση τη χημεία αναστρέψιμου τερματισμού αποτελείται από τρία βασικά βήματα: προετοιμασία βιβλιοθήκης, κλωνική ενίσχυση και αλληλούχιση με σύνθεση. Οι διαδικασίες ξεκινούν με την κατασκευή βιβλιοθήκης που περιλαμβάνει θραύσματα DNA κατάλληλου μεγέθους και την επισήμανση κάθε θραύσματος με αλληλουχίες προσαρμογέα και δείκτη. Η κλωνική ενίσχυση πραγματοποιείται σε στερεή επιφάνεια όπου ακινητοποιούνται αλληλουχίες εκκινητών που είναι συμπληρωματικές προς τις αλληλουχίες προσαρμογέα για τη δημιουργία συστάδων που αντιπροσωπεύουν κάθε μοναδικό θραύσμα DNA και παρέχουν επαρκές σήμα για τη διάρκεια της διαδικασίας απεικόνισης. Το στάδιο της αλληλούχισης περιλαμβάνει την προσθήκη νουκλεοτιδίων από την πολυμεράση DNA, την απομάκρυνση των μη ενσωματωμένων νουκλεοτιδίων, την ανίχνευση σήματος, την απομάκρυνση των φθοριζουσών και τερματικών ομάδων και την απομάκρυνση όλων των υπολειμμάτων. Η DNA πολυμεράση προσθέτει ένα από τα τέσσερα νουκλεοτίδια που επισημαίνονται με διαφορετικές φθορίζουσες χρωστικές και περιέχουν μια ομάδα αποκλεισμού 3′ στην αναπτυσσόμενη αλυσίδα DNA. Στη συνέχεια, τα μη ενσωματωμένα νουκλεοτίδια ξεπλένονται. Μετά την ανίχνευση σήματος με φθορίζουσα απεικόνιση, η ομάδα αποκλεισμού 3′ και η φθορίζουσα χρωστική διασπώνται από τη δομή του νουκλεοτιδίου, έτσι ώστε η DNA πολυμεράση να μπορεί να προσθέσει νέα νουκλεοτίδια στον επόμενο κύκλο. Πραγματοποιείται ένα άλλο βήμα πλύσης για την απομάκρυνση όλων των χημικών υπολειμμάτων που ενδέχεται να παρεμποδίσουν την αντίδραση αλληλούχισης σε μεταγενέστερους κύκλους (Bentley et al. 2008).
Η αλληλούχιση με χημεία αναστρέψιμου τερματισμού είναι σήμερα η πιο συχνά χρησιμοποιούμενη τεχνολογία NGS παγκοσμίως. Οι πλατφόρμες NGS της Illumina Inc. βασίζονται στην τεχνολογία αλληλούχησης που αποτελείται από την ενίσχυση γέφυρας σε στερεές επιφάνειες (Adessi et al. 2000) που αναπτύχθηκε από την Manteia Predictive Medicine και τη χημεία αντίστροφου τερματισμού και τις μηχανικές πολυμεράσες (Bennett 2004) που αναπτύχθηκε από την Solexa".
"Η ροή των διαδικασιών για τις πλατφόρμες Illumina ξεκινά με τη μετατροπή του δείγματος DNA σε θραύσματα με αποδεκτά μεγέθη. Το βήμα προετοιμασίας της βιβλιοθήκης συνεχίζεται με την προσθήκη ειδικών αλληλουχιών προσαρμογέα και δείκτη των συστημάτων Illumina σε κάθε θραύσμα DNA. Στη συνέχεια, τα θραύσματα DNA φορτώνονται σε μια κυψελίδα ροής που περιέχει (ακινητοποιημένες στην επιφάνεια) δύο τύπους αλληλουχιών εκκινητών που είναι συμπληρωματικοί προς τους προσαρμογείς που συνδέονται με τα θραύσματα κατά την προετοιμασία της βιβλιοθήκης, προκειμένου να ενισχυθεί κάθε θραύσμα με μια αντίδραση που ονομάζεται "ενίσχυση γέφυρας". Μετά τη σύνδεση με τους εκκινητές στην επιφάνεια, παράγεται η συμπληρωματική αλληλουχία και απομακρύνεται η πρότυπη αλυσίδα. Μετά από αυτό, η αλυσίδα DNA που συνδέεται στην επιφάνεια κάμπτεται και συνδέεται με τον πλησιέστερο συμπληρωματικό εκκινητή, συντίθεται μια νέα αλυσίδα και η αντιγραφή επαναλαμβάνεται. Κατά συνέπεια, εκατομμύρια συστάδες που αποτελούνται από κλωνικά ενισχυμένα θραύσματα σχηματίζονται στην κυψελίδα ροής. Μετά την απομάκρυνση ενός τύπου θραυσμάτων, προστίθενται DNA πολυμεράση, νουκλεοτίδια που περιέχουν ομάδα φραγής 3′ και φλουροφόρο και πρώτοι εκκινητές αλληλούχισης για τη διεξαγωγή αντίδρασης αλληλούχισης. Η DNA πολυμεράση προσθέτει το κατάλληλο νουκλεοτίδιο στην αναπτυσσόμενη αλυσίδα, τα μη ενσωματωμένα νουκλεοτίδια ξεπλένονται και με τη χρήση ενός φθορίζοντος λέιζερ που συνδέεται με το ενσωματωμένο νουκλεοτίδιο ενεργοποιείται, το σήμα ανιχνεύεται από μια κάμερα CCD. Μετά τη διάσπαση της ομάδας αποκλεισμού και την απομάκρυνση του φθορισμού επαναλαμβάνεται το βήμα πλύσης και συνεχίζεται ο επόμενος κύκλος. Οι αλληλουχίες δείκτη διαβάζονται μεταξύ δύο περιόδων αλληλούχισης. Στην αντίδραση απελευθερώνεται εκκινητής ειδικός για τον γραμμωτό κώδικα και προσδιορίζεται η αλληλουχία δείκτη κάθε θραύσματος. Για την έναρξη της δεύτερης ανάγνωσης, οι συντιθέμενες συμπληρωματικές αλυσίδες απομακρύνονται με μετουσίωση και πραγματοποιείται ενίσχυση γέφυρας. Μετά την ενίσχυση, οι αντίθετες αλυσίδες των θραυσμάτων απομακρύνονται με χημική διάσπαση και η αντίδραση αλληλούχισης ξεκινά εκ νέου δεσμεύοντας αντίστροφο εκκινητή (δεύτερο εκκινητή αλληλούχισης) και ακολουθούνται τα εξηγηθέντα βήματα".
"Αντίθετα, τα σφάλματα αντικατάστασης παρατηρούνται συχνότερα στα συστήματα Illumina λόγω του υποβάθρου θορύβου που αυξάνεται σε κάθε κύκλο αλληλούχισης (Hutchison 2007). Επίσης, μετά τη διάσπαση της ομάδας αποκλεισμού, παρέμειναν ουλές στη δομή των νουκλεοτιδίων, οι οποίες τελικά προκάλεσαν αλληλεπίδραση με πρωτεΐνες και μείωσαν την αποτελεσματικότητα των αντιδράσεων αλληλούχισης (Chen et al. 2013). Ένα άλλο πρόβλημα σχετικά με τα συστήματα Illumina ήταν η GC μεροληψία που εισήχθη στο στάδιο της ενίσχυσης γέφυρας (Mardis 2013). Αυτοί οι περιορισμοί που προέρχονταν από τη φύση της μεθόδου έχουν μειωθεί με βελτιώσεις στη χημεία της. Παρόλο που η μηχανική της DNA πολυμεράσης και η αναδιάταξη των καναλιών των κυψελών ροής έχει προσφέρει καλύτερη ακρίβεια και πυκνότητα συστάδων, ο περιορισμός του μήκους ανάγνωσης εξακολουθεί να παραμένει ως το κύριο ζήτημα για την αλληλούχιση με βάση τη χημεία του αναστρέψιμου τερματιστή, η οποία παρουσιάζει αξιοσημείωτα εμπόδια ειδικά στην de novo αλληλούχιση (Chen et al. 2013)".
https://doi.org/10.1007/978-3-319-31703-8_5
Η επιλογή της πλατφόρμας αλληλούχισης είναι ζωτικής σημασίας για τη δημιουργία οποιουδήποτε γονιδιώματος και υπάρχουν πολλοί διαφορετικοί αλληλουχιστές για να επιλέξει κανείς μαζί με διαφορετικές διαδικασίες για τον καθένα. Η αλληλούχιση επόμενης γενιάς (NGS) είναι οι πιο ευρέως χρησιμοποιούμενες πλατφόρμες και οι μελέτες δείχνουν ότι όλες αυτές οι τεχνολογίες έχουν συστημικές ατέλειες και εισάγουν τις δικές τους μεροληψίες. Στην ακόλουθη πηγή, επαναλαμβάνεται ότι η Illumina, η πιο ευρέως χρησιμοποιούμενη πλατφόρμα, είναι επιρρεπής σε GC bias και χαμηλή ποικιλομορφία και αναφέρεται ότι η MiSeq έχει προβλήματα όσον αφορά την αναπαραγωγιμότητα. Κάθε μελέτη που βασίζεται στη γονιδιωματική περιορίζεται από την ακρίβεια των πειραμάτων αλληλούχισης, καθώς η τεχνολογία RNA-seq μπορεί να εισάγει διάφορα σφάλματα, μεροληψίες και τεχνουργήματα σε όλα τα διάφορα στάδια της διαδικασίας:
Μεροληψία στην προετοιμασία της βιβλιοθήκης RNA-seq: Τρέχουσες προκλήσεις και λύσεις
4. Αλληλούχιση και απεικόνιση
"Είναι πολύ σημαντικό για την επιλογή της πλατφόρμας αλληλούχισης στο πείραμα RNA-seq. Επί του παρόντος, οι εμπορικά διαθέσιμες πλατφόρμες NGS περιλαμβάνουν το Illumina/Solexa Genome Analyser, το Life Technologies/ABI SOLiD System και το Roche/454 Genome Sequencer FLX [61]. Αυτές οι πλατφόρμες χρησιμοποιούν μια προσέγγιση αλληλούχισης κατά σύνθεση για την παράλληλη ταξινόμηση δεκάδων εκατομμυρίων συστάδων αλληλουχιών. Γενικά, η πλατφόρμα NGS μπορεί να ταξινομηθεί είτε ως ensemble-based (αλληλούχιση πολλαπλών πανομοιότυπων αντιγράφων ενός μορίου DNA) είτε ως μονομοριακή (αλληλούχιση ενός μόνο μορίου DNA). Παρ' όλα αυτά, μελέτες έχουν διαπιστώσει ότι οι τεχνολογίες αλληλούχισης έχουν συχνά συστηματικά ελαττώματα. Για παράδειγμα, όταν εισάγονται λανθασμένες βάσεις κατά τη διαδικασία κλωνοποίησης και ενίσχυσης του προτύπου, μπορεί να εμφανιστεί μεροληψία αντικατάστασης σε πλατφόρμες όπως η Illumina και η SOLiD®, η οποία περιορίζει τη χρησιμότητα των δεδομένων. Επιπλέον, μελέτες επεσήμαναν ότι η μεροληψία λόγω συγκεκριμένης αλληλουχίας μπορεί να προκληθεί από την αναδίπλωση της μονής έλικας του DNA ή από αλλαγές στην προτίμηση των ενζύμων λόγω συγκεκριμένης αλληλουχίας [62]. Η πλατφόρμα SMRT της Pacific Biosciences παράγει μεγάλες μονές μοριακές αλληλουχίες που είναι ευάλωτες σε λανθασμένη παρεμβολή από μη φθορίζοντα νουκλεοτίδια [63, 64]. Εκτός αυτού, η πλατφόρμα αλληλούχισης μπορεί να παράγει αντιπροσωπευτικές μεροληψίες, δηλαδή ορισμένες περιοχές σύνθεσης βάσεων (ιδίως εκείνες με πολύ υψηλή ή πολύ χαμηλή σύνθεση GC) δεν αντιπροσωπεύονται πλήρως, οδηγώντας έτσι σε μεροληψία στα αποτελέσματα [65]. Κατά συνέπεια, θα συζητήσουμε εν συντομία την μεροληψία των πλατφορμών αλληλούχισης, συμπεριλαμβανομένων κυρίως των πλατφορμών Illumina και των πλατφορμών που βασίζονται σε ένα μόριο. Μια σύνοψη των προτάσεων βελτίωσης παρουσιάζεται στον πίνακα 4.
Επί του παρόντος, η πλατφόρμα Illumina HiSeq είναι η πιο ευρέως χρησιμοποιούμενη τεχνολογία αλληλούχισης RNA επόμενης γενιάς και έχει γίνει το πρότυπο της αλληλούχισης NGS. Η πλατφόρμα διαθέτει δύο κύτταρα ροής, καθένα από τα οποία παρέχει οκτώ ξεχωριστά κανάλια για την αντίδραση αλληλούχησης. Η αντίδραση αλληλούχησης διαρκεί 1,5 έως 12 ημέρες για να ολοκληρωθεί, ανάλογα με το συνολικό μήκος ανάγνωσης της βιβλιοθήκης. Η μελέτη των Minoche κ.ά. [66] ανακάλυψε ότι στην πλατφόρμα HiSeq υπάρχουν τύποι σφάλματος μεροληψίας του περιεχομένου GC. Επιπλέον, η Illumina κυκλοφόρησε το MiSeq, το οποίο ενσωματώνει όργανα NGS και παρέχει λύσεις αλληλούχισης από άκρο σε άκρο χρησιμοποιώντας τεχνολογία αλληλούχισης μέσω σύνθεσης με αναστρέψιμο τερματικό. Το όργανο MiSeq είναι ένας επιτραπέζιος ταξινομητής με χαμηλή απόδοση αλλά ταχύτερη ταχύτητα (παράγει περίπου 30 εκατομμύρια ανάγνωσης ζευγών σε 24 ώρες). Ταυτόχρονα, μπορεί να εκτελέσει τη δημιουργία συστάδων επί του σκάφους, την ενίσχυση και την ανάλυση δεδομένων σε μία μόνο εκτέλεση, συμπεριλαμβανομένων των κλήσεων βάσεων, της ευθυγράμμισης και της κλήσης παραλλαγών. Επί του παρόντος, το MiSeq έχει καταστεί κυρίαρχη πλατφόρμα για την ενίσχυση και την αλληλούχιση γονιδίων στη μικροβιακή οικολογία. Παρ' όλα αυτά, εξακολουθούν να υπάρχουν διάφορα τεχνικά προβλήματα, όπως η αναπαραγωγιμότητα, γεγονός που εμποδίζει την αξιοποίηση των πραγματικών δυνατοτήτων του για την αλληλούχιση. Επιπλέον, η μελέτη των Fadrosh κ.ά. [67] διαπίστωσε ότι η αλληλούχιση αμπλικονικού γονιδίου MiSeq 16S rRNA μπορεί να δημιουργήσει προβλήματα "χαμηλής ποικιλομορφίας αλληλουχίας" κατά τους πρώτους κύκλους.
Επιπλέον, η εμφάνιση πλατφορμών αλληλούχισης ενός μορίου, όπως η PacBio, καθιστά δυνατή την αλληλούχιση ενός μορίου σε πραγματικό χρόνο (SMRT) [68]. Σε αυτή τη μέθοδο, χρησιμοποιήθηκαν DNA πολυμεράση και νουκλεοζίτης επισημασμένος με φθορισμό για αδιάλειπτη σύνθεση με καθοδηγούμενο πρότυπο. Ένα πλεονέκτημα της SMRT είναι ότι δεν περιλαμβάνει το βήμα ενίσχυσης της PCR, με συνέπεια να αποφεύγεται η μεροληψία ενίσχυσης. Ταυτόχρονα, αυτή η προσέγγιση αλληλούχισης μπορεί να παράγει εξαιρετικά μεγάλες αναγνώσεις με μέσο μήκος 4200 έως 8500 bp, γεγονός που βελτιώνει σημαντικά την ανίχνευση νέων μεταγραφικών δομών [69, 70], επιπλέον, λόγω του σχετικά χαμηλού κόστους ανά διαδρομή των PacBio's, το οποίο μπορεί να μειώσει το κόστος του RNA-seq. Ωστόσο, η PacBio μπορεί συνήθως να εισάγει υψηλά ποσοστά σφάλματος (∼5%) σε σύγκριση με την πλατφόρμα αλληλούχισης Illumina και 454 [71]. Λόγω του γεγονότος ότι είναι δύσκολη η αντιστοίχιση των λανθασμένων αναγνώσεων με το γονιδίωμα αναφοράς, επομένως το υψηλό ποσοστό σφάλματος μπορεί να οδηγήσει σε εσφαλμένη ευθυγράμμιση και απώλεια αναγνώσεων αλληλούχισης. Επιπλέον, η μελέτη των Fichot και Norman [72] έδειξε ότι η πλατφόρμα αλληλούχισης της PacBio μπορεί να αποφύγει το σφάλμα εμπλουτισμού εξαιρετικά GC/AT.
5. Συζήτηση και συμπεράσματα
Επί του παρόντος, το RNA-seq χρησιμοποιείται ευρέως στη βιολογική, ιατρική, κλινική και φαρμακευτική έρευνα. Ωστόσο, όλες αυτές οι μελέτες αλληλούχισης περιορίζονται από την ακρίβεια των υποκείμενων πειραμάτων αλληλούχισης, επειδή η τεχνολογία RNA-seq μπορεί να εισάγει διάφορα σφάλματα και μεροληψίες κατά την προετοιμασία του δείγματος, την κατασκευή βιβλιοθήκης, την αλληλούχιση και την απεικόνιση κ.λπ.".
https://www.hindawi.com/journals/bmri/2021/6647597/
Αυτή η επόμενη πηγή εξετάζει πώς η τρέχουσα εισαγωγή οργάνων αλληλούχισης υψηλής ταχύτητας έχουν όλα σημαντικές τροποποιήσεις που μπορούν να εισάγουν τις δικές τους μεροληψίες στη διαδικασία δημιουργίας του γονιδιώματος. Καθώς είναι νέες, οι τεχνολογίες αυτές δεν έχουν εξεταστεί κατάλληλα προκειμένου να προσδιοριστεί ο αντίκτυπος που έχουν στα σφάλματα αλληλούχισης. Μια κρίσιμη πτυχή κάθε τεχνολογίας είναι το ποσοστό σφάλματος, το οποίο συνήθως αξιολογείται με τη σύγκριση των διαφόρων τεχνολογιών μεταξύ τους. Ωστόσο, παρόλο που αυτό θεωρείται το χρυσό πρότυπο αξιολόγησης, διαφορετικές ομάδες βλέπουν διαφορετικά αποτελέσματα με την ίδια τεχνολογία και ακόμη και εντός της ίδιας ομάδας, υπάρχει διακύμανση από πείραμα σε πείραμα. Μπορεί επίσης να υπάρχει διαφορά μεταξύ των ποσοστών σφάλματος που παρατηρούνται στις ιδανικές συνθήκες στο εργαστήριο σε σχέση με εκείνα που συμβαίνουν "στη φύση". Υπάρχουν πολλοί λόγοι για τους οποίους αυτή η σύγκριση είναι δύσκολη. Για παράδειγμα, εάν οποιαδήποτε απόκλιση με τα γονιδιώματα αναφοράς χαρακτηρίζεται ως σφάλμα, αυτό ενέχει τον κίνδυνο να χαρακτηριστούν λανθασμένα οι πραγματικές παραλλαγές ως σφάλματα. Ένα άλλο ζήτημα είναι αυτό της παραδοχής ότι το πλειοψηφικό αλληλόμορφο σε οποιαδήποτε θέση είναι σωστό και ότι όλα τα δευτερεύοντα αλληλόμορφα είναι σφάλματα. Αυτό μπορεί να οδηγήσει στο να χαρακτηριστούν τα πραγματικά δευτερεύοντα αλληλόμορφα ως σφάλματα. Οι προσεγγίσεις που προσπαθούν να εντοπίσουν αυτά τα σφάλματα συνδυάζουν επίσης τα σφάλματα προετοιμασίας της βιβλιοθήκης με τα σφάλματα αλληλούχισης, καθιστώντας έτσι τη διαδικασία δύσκολη και περίπλοκη:
Προφίλ σφαλμάτων αλληλούχισης των οργάνων αλληλούχισης της Illumina
"Τα τελευταία χρόνια έχουν εισαχθεί πολλά νέα όργανα αλληλούχισης. Για παράδειγμα, η Illumina παρουσίασε το HiSeq X Ten, με κυψέλες ροής με μοτίβο, το NextSeq 500, με χημεία 2 χρωστικών και το NovaSeq 6000, που συνδυάζει και τα δύο σε μια πλατφόρμα βιομηχανικής κλίμακας (3). Ενώ η βασική αρχή του αναστρέψιμου αλυσιδωτού τερματισμού παραμένει αμετάβλητη, πρόκειται για σημαντικές τροποποιήσεις που αναμένεται να εισάγουν τις δικές τους μεροληψίες. Για παράδειγμα, η επισήμανση νουκλεοτιδίων με δύο μόνο φθοριοφόρους σημαίνει ότι η γουανίνη ανιχνεύεται από την απουσία σήματος (3). Ορισµένοι έχουν αναφέρει ότι αυτό έχει ως αποτέλεσµα την υπερκάλυψη των G όταν τα τεχνουργήµατα προκαλούν πτώση του σήµατος (4). Από την άλλη πλευρά, μια ελεγχόμενη μελέτη συνέκρινε το HiSeq 2500 και το NovaSeq 6000 και έδειξε χαμηλότερο ποσοστό σφάλματος στο NovaSeq (5). Προφανώς, αυτές οι νέες τεχνολογίες ζητούν εξέταση για να προσδιοριστούν οι επιπτώσεις τους στα σφάλματα αλληλούχισης.
Η σύγκριση των ποσοστών σφαλμάτων των πλατφορμών αλληλούχισης αποτελεί αντικείμενο έρευνας από την αρχή της αλληλούχισης. Κάθε νέα πλατφόρμα έχει τα πλεονεκτήματα και τα μειονεκτήματά της, με το ποσοστό σφάλματος να αποτελεί έναν από τους σημαντικότερους παράγοντες. Συνήθως το ποσοστό σφάλματος αξιολογείται με σύγκριση των αποτελεσμάτων σε διαφορετικές πλατφόρμες με πολλαπλές επαναλήψεις (6). Αυτό είναι το χρυσό πρότυπο για να δείξει κανείς πώς λειτουργούν οι διαφορετικές τεχνολογίες στα ίδια χέρια. Οι μελέτες αυτές είναι χρήσιμες όταν κάποιος αποφασίζει για ένα όργανο που θα χρησιμοποιήσει. Αλλά διαφορετικές ομάδες βλέπουν διαφορετικά αποτελέσματα με την ίδια τεχνολογία. Ακόμη και εντός της ίδιας ομάδας, υπάρχει συχνά διακύμανση από πείραμα σε πείραμα (7). Και μπορεί να υπάρχει διαφορά μεταξύ των ποσοστών σφαλμάτων που παρατηρούνται σε ένα ιδανικό σενάριο σε σχέση με την τυπική χρήση "στη φύση". Επομένως, η γνώση της έκτασης αυτής της διακύμανσης είναι σημαντική για τους καταναλωτές των δεδομένων αλληλούχισης που παράγονται από άλλους. Ακόμη και οι ερευνητές που επιλέγουν τεχνολογίες για τα δικά τους δεδομένα μπορεί να θεωρήσουν χρήσιμο να γνωρίζουν πόσο μπορεί να διαφέρουν τα χιλιόμετρα τους.
Αλλά η μέτρηση του σφάλματος είναι θεωρητικά δύσκολο έργο. Ορισμένοι έχουν υιοθετήσει μια απλή προσέγγιση, ευθυγραμμίζοντας τις αναγνώσεις με μια αναφορά και καλώντας τις παραλλαγές ως σφάλματα (6). Όμως οι πραγματικές παραλλαγές θα ταξινομηθούν στη συνέχεια εσφαλμένα και ως σφάλματα. Αντ' αυτού, θα μπορούσε κανείς να εκτελέσει πρώτα κλήση παραλλαγών, υποθέτοντας ότι το πλειοψηφικό αλληλόμορφο σε κάθε θέση είναι σωστό και ότι όλα τα δευτερεύοντα αλληλόμορφα είναι σφάλματα. Αυτό θα λειτουργήσει καλά για δείγματα που είναι γνωστό ότι είναι ιδιαίτερα ομοιογενή, αλλά διαφορετικά μπορεί να υπάρχουν αληθινά δευτερεύοντα αλληλόμορφα τα οποία θα θεωρούνταν λανθασμένα σφάλματα (8). Αυτό μπορεί να συμβαίνει σε δείγματα μικροοργανισμών, ιών, καρκίνων ή οργανιδίων. Είναι δύσκολο να διαπιστωθεί αυτόματα πόσο ομοιογενές είναι ένα δείγμα, γεγονός που αποτελεί εμπόδιο για μια αυτοματοποιημένη έρευνα. Επίσης, σε τοποθεσίες με χαμηλό αριθμό αναγνώσεων, είναι πιθανό η βάση σφάλματος να εμφανίζεται τυχαία συχνότερα από την πραγματική βάση του δείγματος, προκαλώντας τεχνουργήματα στην ανίχνευση σφαλμάτων. Ένα άλλο ζήτημα και με τις δύο αυτές προσεγγίσεις είναι ότι ανιχνεύουν σφάλματα από περισσότερα από την αλληλούχιση. Τα βήματα προετοιμασίας της βιβλιοθήκης, όπως η αλυσιδωτή αντίδραση πολυμεράσης (PCR), μπορούν επίσης να εισάγουν σφάλματα. Και διαφορετικές τεχνικές προετοιμασίας μπορούν να εισάγουν διαφορετικό αριθμό και τύπο σφαλμάτων. Και οι δύο παραπάνω μέθοδοι ανίχνευσης σφαλμάτων θα εντοπίσουν τόσο τα σφάλματα προετοιμασίας της βιβλιοθήκης όσο και τα σφάλματα αλληλούχισης σε συνδυασμό".
https://academic.oup.com/nargab/article/3/1/lqab019/6193612
Ενώ τα διάφορα σφάλματα που αναφέρθηκαν προηγουμένως για την τεχνολογία 2G θα πρέπει να είναι αρκετά για να αμφισβητηθεί η εγκυρότητα των αποτελεσμάτων, η επόμενη πηγή εξετάζει πώς αυτή η τεχνολογία προσφέρει επίσης κακή ερμηνεία των ομοπολυμερών (μια ακολουθία διαδοχικών πανομοιότυπων βάσεων). Αυτές οι συσκευές αλληλούχισης μπορούν επίσης να ενσωματώσουν λανθασμένο dNTP (τριφωσφορικό νουκλεοτίδιο δεοξυριβόζης που χρησιμοποιείται στην PCR για να επεκτείνει την αναπτυσσόμενη αλυσίδα DNA) από τις πολυμεράσες (ένα ένζυμο που συνθέτει μεγάλες αλυσίδες πολυμερών ή νουκλεϊκών οξέων), το οποίο καταλήγει σε σφάλματα αλληλούχισης που ενσωματώνονται στο τελικό προϊόν. Αυτό το άρθρο επεκτείνεται στο μείζον ζήτημα με όλα τα NGS, το οποίο είναι το στάδιο της ενίσχυσης στην PCR, το οποίο οδηγεί στην εισαγωγή μεροληψιών και άλλων σφαλμάτων. Επίσης, περιγράφει λεπτομερώς τη συγκεντρωτική ροή εργασίας στη δημιουργία ενός γονιδιώματος και πώς ακόμη και σε κάτι τόσο απλό όπως η χαρτογράφηση σε ένα γονιδίωμα αναφοράς απαιτεί την επιλογή μεταξύ τουλάχιστον 60 εργαλείων χαρτογράφησης για να βρεθεί το κατάλληλο. Ένα σημαντικό πρόβλημα είναι ότι οι πληροφορίες είναι διάσπαρτες σε διάφορες δημοσιεύσεις και άλλα μέρη. Ακόμη και με την πληθώρα των διαθέσιμων εργαλείων αλληλούχισης, αναφέρεται ότι υπάρχει συνεχής ανάγκη για νέες και βελτιωμένες εκδόσεις, ώστε να διασφαλιστεί ότι η ακρίβεια και η αξιοπιστία των παραγόμενων αποτελεσμάτων μπορούν να συμβαδίζουν με τον επιταχυνόμενο ρυθμό των εξελισσόμενων τεχνικών NGS. Ο τεράστιος όγκος δεδομένων που παράγεται έχει δημιουργήσει πρόβλημα στην ικανότητα κατάλληλης αποθήκευσης και ανάλυσης των αποτελεσμάτων. Εξαιτίας αυτού, λέγεται ότι υπάρχει μια συνεχής παραγωγή προτεινόμενων στρατηγικών που αποσκοπούν στην αύξηση της αποτελεσματικότητας, στη μείωση των σφαλμάτων αλληλούχισης, στη μεγιστοποίηση της αναπαραγωγιμότητας και στη διασφάλιση της σωστής διαχείρισης των δεδομένων:
Επισκόπηση της Αλληλούχισης Επόμενης Γενιάς
"Οι τεχνολογίες NGS 2G προσφέρουν γενικά αρκετά πλεονεκτήματα σε σχέση με τις εναλλακτικές τεχνικές αλληλούχισης, συμπεριλαμβανομένης της δυνατότητας παραγωγής αναγνώσεων αλληλούχισης με γρήγορο, ευαίσθητο και οικονομικά αποδοτικό τρόπο. Ωστόσο, υπάρχουν και μειονεκτήματα, όπως η κακή ερμηνεία των ομοπολυμερών και η ενσωμάτωση εσφαλμένων dNTPs από τις πολυμεράσες, με αποτέλεσμα σφάλματα αλληλούχισης. Τα μικρά μήκη ανάγνωσης δημιουργούν επίσης την ανάγκη για βαθύτερη κάλυψη της αλληλούχισης, ώστε να είναι δυνατή η ακριβής συναρμολόγηση του contig και του τελικού γονιδιώματος. Το σημαντικότερο μειονέκτημα όλων των τεχνικών 2G NGS είναι η ανάγκη ενίσχυσης με PCR πριν από την αλληλούχιση. Αυτό σχετίζεται με μεροληψία της PCR κατά την προετοιμασία της βιβλιοθήκης (περιεκτικότητα αλληλουχίας σε GC, μήκος θραυσμάτων και ψευδής ποικιλομορφία) και την ανάλυση (σφάλματα βάσεων/προτίμηση ορισμένων αλληλουχιών έναντι άλλων)".
Ανάλυση δεδομένων αλληλούχισης επόμενης γενιάς
"Κάθε είδους τεχνολογία NGS παράγει σημαντικό όγκο δεδομένων εξόδου. Τα βασικά στοιχεία της ανάλυσης αλληλουχιών ακολουθούν μια κεντρική ροή εργασίας που περιλαμβάνει ένα βήμα QC των ακατέργαστων αναγνώσεων, προεπεξεργασία και χαρτογράφηση, ακολουθούμενη από επεξεργασία μετά την ευθυγράμμιση, σχολιασμό παραλλαγών, κλήση παραλλαγών και οπτικοποίηση.
Η αξιολόγηση των ακατέργαστων δεδομένων αλληλούχισης είναι επιβεβλημένη για τον προσδιορισμό της ποιότητάς τους και για να ανοίξει ο δρόμος για όλες τις αναλύσεις που ακολουθούν. Μπορεί να παράσχει μια γενική άποψη σχετικά με τον αριθμό και το μήκος των αναγνώσεων, τυχόν μολυσματικές αλληλουχίες ή τυχόν αναγνώσεις με χαμηλή κάλυψη. Μια από τις πιο καθιερωμένες εφαρμογές για τον υπολογισμό στατιστικών στοιχείων ελέγχου ποιότητας των αναγνώσεων αλληλούχισης είναι το FastQC. Ωστόσο, για περαιτέρω προεπεξεργασία, όπως φιλτράρισμα και περικοπή αναγνώσεων, απαιτούνται πρόσθετα εργαλεία. Η περικοπή βάσεων προς τα άκρα των αναγνώσεων και η αφαίρεση των εναπομεινάντων αλληλουχιών προσαρμογέα βελτιώνουν γενικά την ποιότητα των δεδομένων. Πιο πρόσφατα, έχουν εισαχθεί εξαιρετικά γρήγορα εργαλεία, όπως το fastp, που μπορούν να εκτελέσουν έλεγχο ποιότητας, φιλτράρισμα αναγνώσεων και διόρθωση βάσεων σε δεδομένα αλληλούχισης, συνδυάζοντας τα περισσότερα χαρακτηριστικά από τις παραδοσιακές εφαρμογές, ενώ παράλληλα εκτελούνται δύο έως πέντε φορές ταχύτερα από οποιαδήποτε από αυτές από μόνη της..39
Αφού ελεγχθεί η ποιότητα των αναγνώσεων και πραγματοποιηθεί η προεπεξεργασία, το επόμενο βήμα εξαρτάται από την ύπαρξη ενός γονιδιώματος αναφοράς. Στην περίπτωση μιας de novo συναρμολόγησης γονιδιώματος, οι παραγόμενες αλληλουχίες ευθυγραμμίζονται σε contigs χρησιμοποιώντας τις επικαλυπτόμενες περιοχές τους. Αυτό γίνεται συχνά με τη βοήθεια αγωγών επεξεργασίας που μπορεί να περιλαμβάνουν βήματα σκαλωσιάς για να βοηθήσουν στη διάταξη των contig, στον προσανατολισμό και στην αφαίρεση επαναλαμβανόμενων περιοχών, αυξάνοντας έτσι τη συνέχεια της συναρμολόγησης 40,41 . Εάν οι παραγόμενες αλληλουχίες αντιστοιχιστούν (ευθυγραμμιστούν) με ένα γονιδίωμα αναφοράς ή ένα μεταγραφικό γονιδίωμα, μπορούν να εντοπιστούν οι παραλλαγές σε σύγκριση με την αλληλουχία αναφοράς. Σήμερα, υπάρχει πληθώρα εργαλείων χαρτογράφησης (περισσότερα από 60), τα οποία έχουν προσαρμοστεί για να διαχειριστούν τις αυξανόμενες ποσότητες δεδομένων που παράγονται από το NGS, να αξιοποιήσουν τις τεχνολογικές εξελίξεις και να αντιμετωπίσουν τις εξελίξεις των πρωτοκόλλων.42 Μια δυσκολία, λόγω του αυξανόμενου αριθμού χαρτογράφων, είναι να μπορέσει κανείς να βρει τον καταλληλότερο. Οι πληροφορίες είναι συνήθως διάσπαρτες μέσα από δημοσιεύσεις, πηγαίους κώδικες (όταν υπάρχουν), εγχειρίδια και άλλη τεκμηρίωση. Ορισμένα από τα εργαλεία προσφέρουν επίσης έναν έλεγχο ποιότητας χαρτογράφησης, ο οποίος είναι απαραίτητος, καθώς ορισμένες μεροληψίες θα φανούν μόνο μετά το στάδιο της χαρτογράφησης. Παρόμοια με τον έλεγχο ποιότητας πριν από τη χαρτογράφηση, η σωστή επεξεργασία των χαρτογραφημένων αναγνώσεων είναι ένα κρίσιμο βήμα, κατά τη διάρκεια του οποίου αφαιρούνται οι διπλές χαρτογραφημένες αναγνώσεις (συμπεριλαμβανομένων, μεταξύ άλλων, των τεχνουργημάτων PCR). Πρόκειται για μια τυποποιημένη μέθοδο και τα περισσότερα εργαλεία διαθέτουν κοινά χαρακτηριστικά. Αφού χαρτογραφηθούν και επεξεργαστούν οι αναγνώσεις, πρέπει να αναλυθούν με τρόπο που να εξαρτάται από το πείραμα, αυτό που είναι γνωστό ως ανάλυση παραλλαγών. Αυτό το βήμα μπορεί να εντοπίσει πολυμορφισμούς ενός νουκλεοτιδίου (SNPs), indels (εισαγωγή ή διαγραφή βάσεων), αναστροφές, απλοτύπους, διαφορική γονιδιακή μεταγραφή στην περίπτωση του RNA-seq και πολλά άλλα. Παρά το πλήθος των εργαλείων για τη συναρμολόγηση, την ευθυγράμμιση και την ανάλυση του γονιδιώματος, υπάρχει συνεχής ανάγκη για νέες και βελτιωμένες εκδόσεις ώστε να διασφαλίζεται ότι η ευαισθησία, η ακρίβεια και η ανάλυση μπορούν να συμβαδίζουν με τις ταχέως εξελισσόμενες τεχνικές NGS.
Το τελευταίο βήμα είναι η οπτικοποίηση, για την οποία η πολυπλοκότητα των δεδομένων μπορεί να αποτελέσει σημαντική πρόκληση. Ανάλογα με το πείραμα και τα ερευνητικά ερωτήματα που τίθενται, υπάρχει ένας αριθμός εργαλείων που μπορούν να χρησιμοποιηθούν. Εάν είναι διαθέσιμο ένα γονιδίωμα αναφοράς , το Integrated Genome Viewer (IGV) είναι μια δημοφιλής επιλογή43 , όπως και ο Genome Browser. Εάν τα πειράματα περιλαμβάνουν WGS ή WES, ο Variant Explorer είναι ένα ιδιαίτερα καλό εργαλείο, καθώς μπορεί να χρησιμοποιηθεί για να κοσκινίσει χιλιάδες παραλλαγές και να επιτρέψει στους χρήστες να επικεντρωθούν στα πιο σημαντικά ευρήματα. Εργαλεία οπτικοποίησης όπως το VISTA επιτρέπουν τη σύγκριση μεταξύ διαφορετικών γονιδιωματικών αλληλουχιών. Τα προγράμματα που είναι κατάλληλα για de novo συναρμολογήσεις γονιδιώματος 44 είναι πιο περιορισμένα. Ωστόσο, εργαλεία όπως το Bandage και το Icarus έχουν χρησιμοποιηθεί για την εξερεύνηση και την ανάλυση των συναρμολογημένων γονιδιωμάτων.
Εμπόδια στην αλληλούχιση επόμενης γενιάς
Η NGS μας έδωσε τη δυνατότητα να ανακαλύψουμε και να μελετήσουμε γονιδιώματα με τρόπους που δεν ήταν ποτέ πριν δυνατοί. Ωστόσο, η πολυπλοκότητα της επεξεργασίας των δειγμάτων για το NGS έχει εκθέσει σημεία συμφόρησης στη διαχείριση, ανάλυση και αποθήκευση των συνόλων δεδομένων. Μία από τις κύριες προκλήσεις είναι οι υπολογιστικοί πόροι που απαιτούνται για τη συναρμολόγηση, τον σχολιασμό και την ανάλυση των δεδομένων αλληλούχισης.45 Ο τεράστιος όγκος δεδομένων που παράγεται από την ανάλυση των NGS είναι μια άλλη κρίσιμη πρόκληση. Τα κέντρα δεδομένων φθάνουν σε υψηλά επίπεδα αποθηκευτικής ικανότητας και προσπαθούν συνεχώς να ανταπεξέλθουν στις αυξανόμενες απαιτήσεις, με κίνδυνο μόνιμης απώλειας δεδομένων.46 Προτείνονται συνεχώς περισσότερες στρατηγικές με στόχο την αύξηση της αποτελεσματικότητας, τη μείωση των σφαλμάτων αλληλούχισης, τη μεγιστοποίηση της αναπαραγωγιμότητας και τη διασφάλιση της ορθής διαχείρισης των δεδομένων".
https://www.technologynetworks.com/genomics/articles/an-overview-of-next-generation-sequencing-346532
Έλλειψη Τυποποίησης
Με τις πολυάριθμες εμπλεκόμενες τεχνολογίες, τα διάφορα βήματα που απαιτούνται από την καθεμία, τα διαφορετικά αποτελέσματα που παράγονται από τις ίδιες ομάδες που χρησιμοποιούν τον ίδιο εξοπλισμό και τις ίδιες διαδικασίες, δεν θα έπρεπε πραγματικά να αποτελεί έκπληξη το γεγονός ότι η γονιδιωματική αντιμετωπίζει κρίση αναπαραγωγιμότητας. Ένα μεγάλο μέρος του προβλήματος της αναπαραγωγιμότητας είναι η έλλειψη τυποποίησης των μεθόδων και των τεχνολογιών που εμπλέκονται στην παραγωγή ενός γονιδιώματος. Δεν υπάρχει ένα συμφωνημένο πλαίσιο στο οποίο να συμμορφώνεται η βιομηχανία της γονιδιωματικής στο σύνολό της, προκειμένου να διασφαλιστεί ότι όλες οι διαδικασίες που σχετίζονται με τη δημιουργία ενός γονιδιώματος αντικατοπτρίζουν ένα σύνολο κατευθυντήριων γραμμών που δημιουργούν συνοχή. Πρόκειται για ένα γνωστό ζήτημα που επηρεάζει το τελικό αποτέλεσμα κάθε πειράματος αλληλούχισης και το οποίο δεν έχει ακόμη επιλυθεί.
Είναι ενδιαφέρον ότι το 2014 κυκλοφόρησε μία εργασία που αναφέρεται συγκεκριμένα σε αυτή την έλλειψη τυποποίησης και στο πώς επηρεάζει τα παραγόμενα γονιδιώματα. Οι συγγραφείς επιχείρησαν να δημιουργήσουν το δικό τους σύνολο προτύπων που θα εφαρμόζονταν στην "ιογενή" γονιδιωματική. Προκειμένου να παρακάμψουν τυχόν διαφορές που μπορεί να επιτευχθούν μέσω της χρήσης αντίθετων τεχνολογιών, οι συγγραφείς έκαναν δύο υποθέσεις:
Πρότυπα για την Αλληλούχιση Ιϊκών Γονιδιωμάτων στην Εποχή της Αλληλούχισης Υψηλής Απόδοσης
"Χάρη στις τεχνολογίες αλληλούχισης υψηλής απόδοσης, η αλληλούχιση γονιδιωμάτων έχει γίνει κοινό συστατικό σε όλες σχεδόν τις πτυχές της έρευνας για τους ιούς- έτσι, βιώνουμε μια έκρηξη τόσο στον αριθμό των διαθέσιμων αλληλουχιών γονιδιωμάτων όσο και στον αριθμό των ιδρυμάτων που παράγουν τέτοια δεδομένα. Ωστόσο, επί του παρόντος δεν υπάρχουν κοινά πρότυπα που χρησιμοποιούνται για να μεταφέρουν την ποιότητα, και επομένως τη χρησιμότητα, αυτών των διαφόρων ακολουθιών γονιδιώματος".
"Για να αμβλύνουμε οποιαδήποτε εξάρτηση από συγκεκριμένες πτυχές των διαφόρων τεχνολογιών αλληλούχισης, κάναμε δύο υποθέσεις που θα πρέπει να ισχύουν στα περισσότερα έργα αλληλούχισης ιών. Η πρώτη παραδοχή είναι η βασική κατανόηση της γονιδιωματικής δομής του ιού που αλληλουχίζεται, συμπεριλαμβανομένου του αναμενόμενου μεγέθους του γονιδιώματος, του αριθμού των τμημάτων και του αριθμού και της κατανομής των κύριων ανοιχτών πλαισίων ανάγνωσης (ORF). Ευτυχώς, η δομή του γονιδιώματος είναι σε μεγάλο βαθμό συντηρημένη εντός των ιικών ομάδων (6), και παρόλο που αποκαλύπτονται συνεχώς νέοι ιοί, η ανακάλυψη μιας νέας οικογένειας ή ακόμη και ενός νέου γένους παραμένει σχετικά ασυνήθιστη (7). Ελλείψει τέτοιων πληροφοριών, τα καθορισμένα πρότυπα μπορούν ακόμη να εφαρμοστούν μετά από περαιτέρω ανάλυση για τον προσδιορισμό της δομής του γονιδιώματος. Η δεύτερη προϋπόθεση είναι ότι το γενετικό υλικό του ιού που περιγράφεται μπορεί να διαχωριστεί με ακρίβεια από τα γονιδιώματα του ξενιστή ή/και άλλων μικροβίων, είτε με φυσικό είτε με βιοπληροφορικό τρόπο. Ανάλογα με τη χρησιμοποιούμενη τεχνολογία, είναι κρίσιμο το ενδεχόμενο διασταυρούμενης επιμόλυνσης των δειγμάτων κατά τη διαδικασία ευρετηρίασης/κωδικοποίησης των δειγμάτων και τη διαδικασία αλληλουχίας να αντιμετωπίζεται με κατάλληλους εσωτερικούς ελέγχους και διαδικαστικές μεθόδους (8)".
https://journals.asm.org/doi/10.1128/mBio.01360-14
Σύμφωνα με τη μελέτη αυτή, προκειμένου να προσπαθήσουμε να τυποποιήσουμε την αλληλουχία των "ιικών" γονιδιωμάτων, πρέπει πρώτα να υποθέσουμε ότι όλοι οι "ιοί" έχουν το ίδιο μέγεθος και ότι τα "ιικά" σωματίδια μπορούν να διαχωριστούν πλήρως από τον ξενιστή και τα άλλα μικρόβια. Αν παρακολουθείτε, θα καταλάβετε αμέσως το πρόβλημα με αυτές τις δύο υποθέσεις. Κανένας "ιός" δεν έχει καθαριστεί ποτέ απευθείας από ανθρώπινα υγρά και δεν έχει απομονωθεί από οτιδήποτε άλλο. Οι ιολόγοι παραδέχονται ότι αυτό είναι αδύνατο. Έτσι, η δεύτερη υπόθεση είναι αυτομάτως ψευδής και χωρίς να ισχύει η δεύτερη υπόθεση, η πρώτη υπόθεση σχετικά με το μέγεθος οποιουδήποτε σωματιδίου "ιού" είναι επίσης ψευδής, καθώς δεν θα υπήρχαν καθαρισμένα/απομονωμένα σωματίδια για να προσδιοριστεί το ακριβές μέγεθος οποιουδήποτε αλληλουχημένου γονιδιώματος.
Προφανώς τα πρότυπα που έθεσαν οι συγγραφείς το 2014 δεν έπιασαν τόπο, καθώς μια άλλη δημοσίευση το 2017 παραδέχθηκε τη συνεχιζόμενη έλλειψη τυποποίησης στη γονιδιωματική, ειδικά όσον αφορά τις εργαστηριακές ροές εργασίας και τον τρόπο με τον οποίο αυτό επηρεάζει τα τελικά αποτελέσματα:
Τυποποίηση στην αλληλούχιση επόμενης γενιάς - Ζητήματα και προσεγγίσεις για την καθιέρωση προτύπων σε ένα ιδιαίτερα δυναμικό περιβάλλον
"Λόγω της ταχείας ανάπτυξης, το NGS χαρακτηρίζεται επί του παρόντος από έλλειψη τυποποιημένων διαδικασιών λειτουργίας, προδιαγραφών διαχείρισης/διασφάλισης ποιότητας, συστημάτων δοκιμών επάρκειας και ακόμη λιγότερο εγκεκριμένων προτύπων, μαζί με υψηλό κόστος και αβεβαιότητα της ποιότητας των δεδομένων. Από τη μία πλευρά, κατάλληλες προσεγγίσεις τυποποίησης πραγματοποιήθηκαν ήδη από διάφορες πρωτοβουλίες και έργα με τη μορφή καταλόγων ελέγχου διαπίστευσης, τεχνικών σημειώσεων και κατευθυντήριων γραμμών για την επικύρωση των ροών εργασίας NGS. Από την άλλη πλευρά, οι προσεγγίσεις αυτές βρίσκονται αποκλειστικά στις ΗΠΑ λόγω της προέλευσης των NGS από το εξωτερικό, επομένως υπάρχει προφανής έλλειψη πρωτοβουλιών τυποποίησης με έδρα την Ευρώπη. Ένα πρόσθετο πρόβλημα αντιπροσωπεύει την εγκυρότητα των υποσχόμενων προτύπων σε διαφορετικές εφαρμογές NGS. Λόγω των υψηλότερων απαιτήσεων και κανονισμών σε συγκεκριμένους τομείς, όπως η κλινική διάγνωση, τα ίδια πρότυπα, τα οποία θα καθιερωθούν εκεί, δεν θα είναι εφαρμόσιμα ή λογικά σε άλλες εφαρμογές. Τα σημεία αυτά υπογραμμίζουν τη σημασία της τυποποίησης στο NGS που αφορά κυρίως τις εργαστηριακές ροές εργασίας, οι οποίες αποτελούν την προϋπόθεση και το θεμέλιο για την επαρκή ποιότητα των μεταγενέστερων αποτελεσμάτων".
Συμπεράσματα
"Υπάρχει ήδη ένας διακριτός αριθμός προσπαθειών τυποποίησης NGS- ωστόσο, η πλειονότητα των προσεγγίσεων στοχεύει στην τυποποίηση του αγωγού βιοπληροφορικής επεξεργασίας στο πλαίσιο των "μεγάλων δεδομένων". Ως εκ τούτου, απαραίτητη προϋπόθεση είναι η απλοποίηση και η τυποποίηση των ροών εργασίας των υγρών εργαστηρίων, διότι τα αντίστοιχα βήματα επηρεάζουν άμεσα την τελική ποιότητα των δεδομένων και συνεπώς υπάρχει η απαίτηση για τη διαμόρφωση πειραματικών διαδικασιών που να διασφαλίζουν επαρκή ποιότητα της τελικής εξόδου των δεδομένων".
https://peerj.com/preprints/2771/
Τον Σεπτέμβριο του 2020, μετά τη δημιουργία του γονιδιώματος "SARS-COV-2" και την έκρηξη των γονιδιωμάτων που υποβλήθηκαν στη βάση δεδομένων GISAID, η Κίνα προσπάθησε να αντιμετωπίσει επιτέλους την έλλειψη τυποποίησης στη γονιδιωματική με την έκδοση των προτύπων για τα Sequencer (αλληλουχητές) υψηλής απόδοσης. Ακόμα και με αυτή την έκδοση, σημειώνεται ότι ο κλάδος κινείται μόλις τώρα προς μια υποτυπώδη τυποποίηση. Η πρώτη αλληλουχία γονιδιώματος λέγεται ότι έγινε το 1977. Αυτή η έλλειψη τυποποίησης έχει διαρρεύσει για σχεδόν 50 χρόνια. Πώς μπορεί ποτέ να θεωρηθεί ακριβές οποιοδήποτε γονιδίωμα που δημιουργήθηκε με διαφορετικές μεθόδους επί δεκαετίες με διαρκώς εξελισσόμενες τεχνολογίες και τεχνικές, ιδίως δεδομένου ότι πολλά γονιδιώματα σήμερα βασίζονται σε αναφορές σε παλαιότερα γονιδιώματα που έγιναν με ξεπερασμένη και λιγότερο "ακριβή" τεχνολογία;
Κυκλοφορεί το πρώτο πρότυπο αλληλουχίας γονιδίων υψηλής απόδοσης! Με πρωτοβουλία της Εισαγγελίας της Κίνας σε συνεργασία με την BGI Manufacturing
"Παρόλο που η έρευνα σχετικά με τις συσκευές αλληλούχισης γονιδίων υψηλής απόδοσης στο εσωτερικό και στο εξωτερικό γίνεται όλο και πιο εκτεταμένη και οι κλινικές ανάγκες γίνονται όλο και ισχυρότερες, δεν υπάρχουν επί του παρόντος ώριμα πρότυπα για την έρευνα, την ανάπτυξη και τη χρήση των πλατφορμών αλληλούχισης, γεγονός που καθιστά δύσκολο τον έλεγχο των κινδύνων κατά την κλινική χρήση. Ως εκ τούτου, είναι επείγον να εισαχθεί ένα σχετικά πλήρες σύνολο εθνικών προτύπων και ακόμη και βιομηχανικών προτύπων.
Η βιομηχανία αλληλούχισης γονιδίων κινείται προς την τυποποίηση, συμβάλλοντας πλήρως στην οικοδόμηση ενός οικολογικού πολιτισμού για τις εφαρμογές αλληλούχισης.
"Τα τελευταία χρόνια, οι τεχνολογίες και οι πλατφόρμες αλληλούχισης γονιδίων αναβαθμίζονται και επαναλαμβάνονται συνεχώς, και οι αλληλουχιστές γονιδίων υψηλής απόδοσης έχουν επίσης αναπτυχθεί προς την κατεύθυνση της φορητότητας, της ταχύτητας και της ευφυΐας. Η έκδοση των "προτύπων αλληλουχιών υψηλής απόδοσης" θα προωθήσει συνολικά την τυποποίηση και την τυποποίηση των προϊόντων γενετικών δοκιμών με πυρήνα την τεχνολογία αλληλούχισης υψηλής απόδοσης. Σε αυτή τη βάση, το κόστος αλληλούχισης θα μειωθεί σημαντικά, η ευκολία χρήσης του συστήματος θα συνεχίσει να αυξάνεται και το βάθος και το εύρος των εφαρμογών αλληλούχισης θα ανοίξει σταδιακά, εμβαθύνοντας έτσι την εφαρμογή των υπηρεσιών αλληλούχισης στη γενετική τεχνολογία και οικοδομώντας συνολικά έναν οικολογικό πολιτισμό για τις εφαρμογές αλληλούχισης."
Κυκλοφόρησε το πρώτο πρότυπο αλληλουχίας γονιδίων υψηλής απόδοσης! Με πρωτοβουλία της Εισαγγελίας της Κίνας σε συνεργασία με την BGI Manufacturing
Εν κατακλείδι:
Η προσέγγιση της αλληλούχισης shotgun που χρησιμοποιείται σήμερα εισήχθη κατά τη διάρκεια του Human Genome Project και περιελάμβανε τυχαίο κατακερματισμό και αλληλούχιση του DNA και στη συνέχεια χρησιμοποίηση προγραμμάτων υπολογιστή για τη συναρμολόγηση των διαφορετικών αλληλουχιών που επικαλύπτονται.
Ο γενικός μηχανισμός της τεχνολογίας αλληλούχισης με βάση τη χημεία αναστρέψιμου τερματισμού αποτελείται από τρία βασικά βήματα:
Προετοιμασία της βιβλιοθήκης
Κλωνική ενίσχυση
Αλληλούχιση με σύνθεση
Η αλληλούχιση με χημεία αναστρέψιμου τερματιστή είναι σήμερα η πιο συχνά χρησιμοποιούμενη τεχνολογία NGS παγκοσμίως
Οι πλατφόρμες NGS της Illumina Inc. βασίζονται στην τεχνολογία αλληλούχησης που αποτελείται από την ενίσχυση με γέφυρα σε στερεές επιφάνειες που αναπτύχθηκε από την Manteia Predictive Medicine και τη χημεία αντίστροφου τερματισμού και τις μηχανικές πολυμεράσες που αναπτύχθηκαν από την Solexa
Ροή εργασίας της Illumina:
Ξεκινήστε με τη μετατροπή του δείγματος DNA σε θραύσματα με αποδεκτά μεγέθη
Το στάδιο της προετοιμασίας της βιβλιοθήκης συνεχίζεται με την προσθήκη ειδικών αλληλουχιών προσαρμογέα και δείκτη των συστημάτων Illumina σε κάθε θραύσμα DNA
Τα θραύσματα DNA φορτώνονται σε κυψελίδα ροής που περιέχει (ακινητοποιημένες στην επιφάνεια) δύο τύπους αλληλουχιών εκκινητών που είναι συμπληρωματικοί προς τους προσαρμογείς που συνδέονται με τα θραύσματα κατά την προετοιμασία της βιβλιοθήκης, προκειμένου να ενισχυθεί κάθε θραύσμα με μια αντίδραση που ονομάζεται "ενίσχυση γέφυρας"
Αφού συνδεθεί με τους εκκινητές στην επιφάνεια, παράγεται η συμπληρωματική αλληλουχία και αφαιρείται η πρότυπη αλυσίδα
Μετά από αυτό, η αλυσίδα DNA που συνδέεται στην επιφάνεια κάμπτεται και συνδέεται με τον πλησιέστερο συμπληρωματικό εκκινητή, συντίθεται μια νέα αλυσίδα και η αντιγραφή επαναλαμβάνεται
Κατά συνέπεια, εκατομμύρια συστάδες που αποτελούνται από κλωνικά ενισχυμένα θραύσματα σχηματίζονται στο κύτταρο ροής
Μετά την απομάκρυνση ενός τύπου θραυσμάτων, προστίθενται DNA πολυμεράση, νουκλεοτίδια που περιέχουν ομάδα αποκλεισμού 3′ και φλουροφόρο και πρώτοι εκκινητές αλληλούχισης για την εκτέλεση αντίδρασης αλληλούχισης
Η DNA πολυμεράση προσθέτει το κατάλληλο νουκλεοτίδιο στην αναπτυσσόμενη αλυσίδα, τα μη ενσωματωμένα νουκλεοτίδια ξεπλένονται και με τη χρήση ενός φθορίζοντος λέιζερ που συνδέεται με το ενσωματωμένο νουκλεοτίδιο ενεργοποιείται, το σήμα ανιχνεύεται από μια κάμερα CCD
Μετά τη διάσπαση της ομάδας αποκλεισμού και την απομάκρυνση του φθορισμού επαναλαμβάνεται το βήμα πλύσης και συνεχίζεται ο επόμενος κύκλος
Οι αλληλουχίες δείκτη διαβάζονται μεταξύ δύο περιόδων αλληλούχισης
Στην αντίδραση απελευθερώνεται εκκινητής ειδικός για τον γραμμωτό κώδικα και προσδιορίζεται η αλληλουχία δείκτη κάθε θραύσματος.
Για την έναρξη της δεύτερης ανάγνωσης, οι συντιθέμενες συμπληρωματικές αλυσίδες απομακρύνονται με μετουσίωση και πραγματοποιείται ενίσχυση γέφυρας
Μετά την ενίσχυση, οι αντίθετες αλυσίδες των θραυσμάτων απομακρύνονται με χημική διάσπαση και η αντίδραση αλληλούχισης αρχίζει εκ νέου δεσμεύοντας τον αντίστροφο εκκινητή (δεύτερο εκκινητή αλληλούχισης) και ακολουθούνται τα εξηγηθέντα βήματα
Τα σφάλματα υποκατάστασης παρατηρούνται συχνότερα στα συστήματα Illumina λόγω του υποβάθρου θορύβου που αυξάνεται σε κάθε κύκλο αλληλούχισης.
Μετά τη διάσπαση της ομάδας αποκλεισμού, παρέμειναν ουλές στη δομή των νουκλεοτιδίων, οι οποίες τελικά προκάλεσαν αλληλεπίδραση με πρωτεΐνες και μείωσαν την αποτελεσματικότητα των αντιδράσεων αλληλούχισης
Ένα άλλο πρόβλημα σχετικά με τα συστήματα Illumina ήταν η μεροληψία GC που εισήχθη στο στάδιο της ενίσχυσης της γέφυρας
Ο περιορισμός του μήκους ανάγνωσης εξακολουθεί να παραμένει το κύριο ζήτημα για την αλληλούχιση με βάση τη χημεία αναστρέψιμου τερματισμού, η οποία παρουσιάζει αξιοσημείωτα εμπόδια ιδίως στην αλληλούχιση de novo
Είναι πολύ σημαντικό για την επιλογή της πλατφόρμας αλληλούχισης στο πείραμα RNA-seq
Οι εμπορικά διαθέσιμες πλατφόρμες NGS περιλαμβάνουν:
Illumina/Solexa Genome Analyser
Life Technologies/ABI SOLiD System
Roche/454 Genome Sequencer FLX
Αυτές οι πλατφόρμες χρησιμοποιούν μια προσέγγιση αλληλούχισης κατά σύνθεση για την παράλληλη ταξινόμηση δεκάδων εκατομμυρίων συστάδων αλληλουχιών
Μελέτες έχουν διαπιστώσει ότι οι τεχνολογίες αλληλούχισης έχουν συχνά συστηματικά ελαττώματα
Όταν εισάγονται λανθασμένες βάσεις κατά τη διαδικασία κλωνοποίησης και ενίσχυσης του προτύπου, μπορεί να εμφανιστεί μεροληψία αντικατάστασης σε πλατφόρμες όπως η Illumina και η SOLiD®, η οποία περιορίζει τη χρησιμότητα των δεδομένων
Μελέτες επεσήμαναν ότι η μεροληψία λόγω συγκεκριμένης αλληλουχίας μπορεί να προκαλείται από την αναδίπλωση της μονής αλυσίδας του DNA ή από αλλαγές στην προτίμηση των ενζύμων λόγω συγκεκριμένης αλληλουχίας
Η πλατφόρμα αλληλούχισης μπορεί να παράγει αντιπροσωπευτικές μεροληψίες, δηλαδή ορισμένες περιοχές με σύνθεση βάσεων (ιδίως εκείνες με πολύ υψηλή ή πολύ χαμηλή σύνθεση GC) δεν αντιπροσωπεύονται πλήρως, οδηγώντας έτσι σε μεροληψία στα αποτελέσματα.
Η πλατφόρμα Illumina HiSeq είναι η πιο ευρέως χρησιμοποιούμενη τεχνολογία αλληλούχισης RNA επόμενης γενιάς και έχει γίνει το πρότυπο της αλληλούχισης NGS
Η μελέτη των Minoche κ.ά. ανακάλυψε ότι στην πλατφόρμα HiSeq υπάρχουν τύποι σφάλματος μεροληψίας της περιεκτικότητας σε GC
Η MiSeq έχει γίνει κυρίαρχη πλατφόρμα για την ενίσχυση και την αλληλούχιση γονιδίων στη μικροβιακή οικολογία
Παρ' όλα αυτά, εξακολουθούν να υπάρχουν διάφορα τεχνικά προβλήματα, όπως η αναπαραγωγιμότητα, και ως εκ τούτου παρεμποδίζεται η αξιοποίηση των πραγματικών δυνατοτήτων της για την αλληλούχιση
Η μελέτη των Fadrosh κ.ά. διαπίστωσε ότι η αλληλούχιση των αμπλικονικών γονιδίων 16S rRNA του MiSeq μπορεί να δημιουργήσει προβλήματα "χαμηλής ποικιλομορφίας αλληλουχίας" κατά τους πρώτους κύκλους
Η εμφάνιση πλατφορμών αλληλούχισης ενός μορίου, όπως η PacBio, καθιστά δυνατή την αλληλούχιση ενός μορίου σε πραγματικό χρόνο (SMRT)
Ένα πλεονέκτημα της SMRT είναι ότι δεν περιλαμβάνει το βήμα ενίσχυσης με PCR, με αποτέλεσμα να αποφεύγεται η μεροληψία ενίσχυσης.
Ωστόσο, η PacBio μπορεί συνήθως να εισάγει υψηλά ποσοστά σφάλματος (∼5%) σε σύγκριση με την πλατφόρμα αλληλούχισης Illumina και 454
Λόγω του γεγονότος ότι είναι δύσκολη η αντιστοίχιση των λανθασμένων αναγνώσεων με το γονιδίωμα αναφοράς, το υψηλό ποσοστό σφάλματος μπορεί να οδηγήσει σε εσφαλμένη ευθυγράμμιση και απώλεια αναγνώσεων αλληλούχισης.
Η μελέτη των Fichot και Norman έδειξε ότι η πλατφόρμα αλληλούχισης της PacBio μπορεί να αποφύγει τη μεροληψία εμπλουτισμού των εξαιρετικά GC/AT
Όλες οι μελέτες RNA-seq περιορίζονται από την ακρίβεια των υποκείμενων πειραμάτων αλληλούχισης, επειδή η τεχνολογία RNA-seq μπορεί να εισάγει διάφορα σφάλματα και μεροληψίες κατά την προετοιμασία του δείγματος, την κατασκευή της βιβλιοθήκης, την αλληλούχιση και την απεικόνιση κ.λπ.
Η Illumina παρουσίασε το HiSeq X Ten, με κυψέλες ροής με μοτίβο, το NextSeq 500, με χημεία 2 χρωστικών και το NovaSeq 6000, που συνδυάζει και τα δύο σε μια πλατφόρμα βιομηχανικής κλίμακας
Ενώ η βασική αρχή του αναστρέψιμου αλυσιδωτού τερματισμού παραμένει αμετάβλητη, πρόκειται για σημαντικές τροποποιήσεις που αναμένεται να εισάγουν τις δικές τους μεροληψίες.
Αυτές οι νέες τεχνολογίες χρήζουν εξέτασης για να προσδιοριστούν οι επιπτώσεις τους στα σφάλματα αλληλούχισης
Κάθε νέα πλατφόρµα έχει τα πλεονεκτήµατα και τα µειονεκτήµατά της, µε το ποσοστό σφάλµατος να αποτελεί έναν από τους σηµαντικότερους παράγοντες.
Συνήθως το ποσοστό σφάλματος αξιολογείται με σύγκριση των αποτελεσμάτων σε διαφορετικές πλατφόρμες με πολλαπλές επαναλήψεις.
Αλλά διαφορετικές ομάδες βλέπουν διαφορετικά αποτελέσματα με την ίδια τεχνολογία
Ακόμα και εντός της ίδιας ομάδας, υπάρχει συχνά διακύμανση από πείραμα σε πείραμα
Ενδέχεται να υπάρχει διαφορά μεταξύ των ποσοστών σφάλματος που παρατηρούνται σε ένα ιδανικό σενάριο και της τυπικής χρήσης "στη φύση".
Η μέτρηση του σφάλματος είναι θεωρητικά δύσκολο έργο
Ορισμένοι έχουν ακολουθήσει μια απλή προσέγγιση, ευθυγραμμίζοντας τις αναγνώσεις με μια αναφορά και καλώντας τις παραλλαγές ως σφάλματα, αλλά οι πραγματικές παραλλαγές θα ταξινομηθούν επίσης εσφαλμένα ως σφάλματα.
Κάποιος θα μπορούσε πρώτα να εκτελέσει κλήση παραλλαγών, υποθέτοντας ότι το πλειοψηφικό αλληλόμορφο σε κάθε θέση είναι σωστό και όλα τα δευτερεύοντα αλληλόμορφα είναι σφάλματα.
Αυτό θα λειτουργήσει καλά για δείγματα που είναι γνωστό ότι είναι ιδιαίτερα ομοιογενή, αλλά διαφορετικά μπορεί να υπάρχουν πραγματικά δευτερεύοντα αλληλόμορφα που θα θεωρηθούν λανθασμένα ως σφάλματα.
Είναι δύσκολο να διαπιστωθεί αυτόματα πόσο ομοιογενές είναι ένα δείγμα, γεγονός που αποτελεί εμπόδιο για μια αυτοματοποιημένη έρευνα.
Σε τοποθεσίες με χαμηλό αριθμό αναγνώσεων, είναι πιθανό η βάση σφάλματος να εμφανίζεται τυχαία συχνότερα από την πραγματική βάση του δείγματος, προκαλώντας τεχνουργήματα στην ανίχνευση σφαλμάτων
Ένα άλλο ζήτημα είναι ότι και οι δύο παραπάνω μέθοδοι ανίχνευσης σφαλμάτων ανιχνεύουν περισσότερα από τα σφάλματα αλληλούχισης και θα εντοπίσουν τόσο τα σφάλματα προετοιμασίας της βιβλιοθήκης όσο και τα σφάλματα αλληλούχισης σε συνδυασμό
Υπάρχουν μειονεκτήματα στην αλληλούχιση 2G, συμπεριλαμβανομένης της κακής ερμηνείας των ομοπολυμερών και της ενσωμάτωσης λανθασμένων dNTPs από τις πολυμεράσες, με αποτέλεσμα σφάλματα αλληλούχισης
Τα μικρά μήκη ανάγνωσης δημιουργούν επίσης την ανάγκη για βαθύτερη κάλυψη της αλληλούχισης για να καταστεί δυνατή η ακριβής συναρμολόγηση του περιγράμματος και του τελικού γονιδιώματος.
Το σημαντικότερο μειονέκτημα όλων των τεχνικών 2G NGS είναι η ανάγκη ενίσχυσης με PCR πριν από την αλληλούχιση.
Αυτό σχετίζεται με μεροληψία της PCR κατά την προετοιμασία της βιβλιοθήκης (περιεκτικότητα αλληλουχίας σε GC, μήκος θραυσμάτων και ψευδής ποικιλομορφία) και την ανάλυση (σφάλματα βάσεων/προτίμηση ορισμένων αλληλουχιών έναντι άλλων).
Τα βασικά στοιχεία της ανάλυσης αλληλουχιών ακολουθούν μια κεντρική ροή εργασίας που περιλαμβάνει:
Ένα βήμα QC ακατέργαστης ανάγνωσης
Προεπεξεργασία και χαρτογράφηση
Επεξεργασία μετά την ευθυγράμμιση
Σχολιασμός παραλλαγών
Ονοματοδοσία παραλλαγών
Οπτικοποίηση
Η αξιολόγηση των ακατέργαστων δεδομένων αλληλούχισης είναι επιβεβλημένη για τον προσδιορισμό της ποιότητάς τους και για να ανοίξει ο δρόμος για όλες τις επόμενες αναλύσεις
Μπορεί να παράσχει μια γενική άποψη σχετικά με τον αριθμό και το μήκος των αναγνώσεων, τυχόν μολυσματικές αλληλουχίες ή τυχόν αναγνώσεις με χαμηλή κάλυψη
Αφού ελεγχθεί η ποιότητα των αναγνώσεων και πραγματοποιηθεί η προεπεξεργασία, το επόμενο βήμα εξαρτάται από την ύπαρξη ενός γονιδιώματος αναφοράς
Εάν οι παραγόμενες αλληλουχίες αντιστοιχιστούν (ευθυγραμμιστούν) με ένα γονιδίωμα αναφοράς ή ένα μεταγραφικό γονιδίωμα, μπορούν να εντοπιστούν οι παραλλαγές σε σύγκριση με την αλληλουχία αναφοράς
Υπάρχει πληθώρα εργαλείων χαρτογράφησης (περισσότερα από 60), τα οποία έχουν προσαρμοστεί για να χειριστούν τις αυξανόμενες ποσότητες δεδομένων που παράγονται από το NGS, να αξιοποιήσουν τις τεχνολογικές εξελίξεις και να αντιμετωπίσουν τις εξελίξεις των πρωτοκόλλων
Μια δυσκολία, λόγω του αυξανόμενου αριθμού χαρτογραφικών εργαλείων, είναι η εύρεση του καταλληλότερου.
Οι πληροφορίες είναι συνήθως διάσπαρτες μέσα από δημοσιεύσεις, πηγαίους κώδικες (όταν είναι διαθέσιμοι), εγχειρίδια και άλλη τεκμηρίωση
Παρόμοια με τον ποιοτικό έλεγχο πριν από τη χαρτογράφηση, η σωστή επεξεργασία των χαρτογραφημένων αναγνώσεων είναι ένα κρίσιμο βήμα, κατά τη διάρκεια του οποίου αφαιρούνται οι διπλές χαρτογραφημένες αναγνώσεις (συμπεριλαμβανομένων, μεταξύ άλλων, των artifacts της PCR).
Παρά το πλήθος των εργαλείων για τη συναρμολόγηση, ευθυγράμμιση και ανάλυση του γονιδιώματος, υπάρχει συνεχής ανάγκη για νέες και βελτιωμένες εκδόσεις ώστε να διασφαλίζεται ότι η ευαισθησία, η ακρίβεια και η ανάλυση μπορούν να ανταποκριθούν στις ταχέως εξελισσόμενες τεχνικές NGS.
Το τελικό βήμα είναι η οπτικοποίηση, για την οποία η πολυπλοκότητα των δεδομένων μπορεί να αποτελέσει σημαντική πρόκληση
Η πολυπλοκότητα της επεξεργασίας των δειγμάτων για το NGS έχει εκθέσει σημεία συμφόρησης στη διαχείριση, ανάλυση και αποθήκευση των συνόλων δεδομένων
Μία από τις κύριες προκλήσεις είναι οι υπολογιστικοί πόροι που απαιτούνται για τη συναρμολόγηση, τον σχολιασμό και την ανάλυση των δεδομένων αλληλούχισης
Ο τεράστιος όγκος δεδομένων που παράγεται από την ανάλυση NGS είναι μια άλλη κρίσιμη πρόκληση
Προτείνονται συνεχώς περισσότερες στρατηγικές με στόχο την αύξηση της αποτελεσματικότητας, τη μείωση των σφαλμάτων αλληλούχισης, τη μεγιστοποίηση της αναπαραγωγιμότητας και τη διασφάλιση της ορθής διαχείρισης των δεδομένων
Προς το παρόν δεν υπάρχουν κοινά πρότυπα που να χρησιμοποιούνται για να μεταφέρουν την ποιότητα, και συνεπώς τη χρησιμότητα, αυτών των διαφόρων ακολουθιών γονιδιώματος
Για να αμβλύνουν οποιαδήποτε εξάρτηση από συγκεκριμένες πτυχές των διαφόρων τεχνολογιών αλληλούχισης, οι συγγραφείς έκαναν δύο υποθέσεις που θεωρούν ότι θα πρέπει να ισχύουν στα περισσότερα έργα αλληλούχισης "ιών":
Η πρώτη προϋπόθεση είναι η βασική κατανόηση της γονιδιωματικής δομής του "ιού" που αλληλουχίζεται, συμπεριλαμβανομένου του αναμενόμενου μεγέθους του γονιδιώματος, του αριθμού των τμημάτων και του αριθμού και της κατανομής των κύριων ανοικτών πλαισίων ανάγνωσης (ORF).
Η δεύτερη προϋπόθεση είναι ότι το γενετικό υλικό του "ιού" που περιγράφεται μπορεί να διαχωριστεί με ακρίβεια από τα γονιδιώματα του ξενιστή ή/και άλλων μικροβίων, είτε με φυσικό είτε με βιοπληροφορικό τρόπο.
Προφανώς, και οι δύο αυτές υποθέσεις θα ήταν άκυρες, καθώς δεν υπάρχουν καθαρισμένα/απομονωμένα σωματίδια "ιού".
Λόγω της ταχείας ανάπτυξης, η NGS χαρακτηρίζεται επί του παρόντος από έλλειψη τυποποιημένων διαδικασιών λειτουργίας, προδιαγραφών διαχείρισης/διασφάλισης ποιότητας, συστημάτων δοκιμών επάρκειας και ακόμη λιγότερο εγκεκριμένων προτύπων, μαζί με υψηλό κόστος και αβεβαιότητα της ποιότητας των δεδομένων.
Ένα πρόσθετο πρόβλημα αντιπροσωπεύει την εγκυρότητα των υποσχόμενων προτύπων σε διάφορες εφαρμογές NGS
Τα σημεία αυτά υπογραμμίζουν τη σημασία της τυποποίησης στο NGS που αφορά κυρίως τις εργαστηριακές ροές εργασίας, οι οποίες αποτελούν την προϋπόθεση και το θεμέλιο για την επαρκή ποιότητα των μεταγενέστερων αποτελεσμάτων
Μια ουσιαστική προϋπόθεση είναι η απλούστευση και η τυποποίηση των ροών εργασίας του υγρού εργαστηρίου, διότι τα αντίστοιχα βήματα επηρεάζουν άμεσα την τελική ποιότητα των δεδομένων και συνεπώς υπάρχει η απαίτηση για τη διαμόρφωση πειραματικών διαδικασιών που να εξασφαλίζουν επαρκή ποιότητα των τελικών αποτελεσμάτων των δεδομένων
Προς το παρόν δεν υπάρχουν ώριμα πρότυπα για την έρευνα, την ανάπτυξη και τη χρήση των πλατφορμών αλληλούχισης, γεγονός που καθιστά δύσκολο τον έλεγχο των κινδύνων κατά την κλινική χρήση.
Είναι επείγον να εισαχθεί ένα σχετικά πλήρες σύνολο εθνικών προτύπων, ακόμη και βιομηχανικών προτύπων
Η βιομηχανία αλληλούχισης γονιδίων κινείται προς την τυποποίηση, (δηλαδή δεν έχει φτάσει ακόμη εκεί) συμβάλλοντας πλήρως στην οικοδόμηση ενός οικολογικού πολιτισμού για τις εφαρμογές αλληλούχισης
Η έκδοση των "Προτύπων αλληλούχισης υψηλής απόδοσης" θα προωθήσει συνολικά την τυποποίηση και την τυποποίηση των προϊόντων γενετικών δοκιμών με πυρήνα την τεχνολογία αλληλούχισης υψηλής απόδοσης
Το αλληλουχισμένο γονιδίωμα είναι τόσο καλό όσο και η τεχνολογία που χρησιμοποιείται γι' αυτό. Υπάρχουν πολλές για να διαλέξετε, καθεμία με πλεονεκτήματα και μειονεκτήματα και όλες έχουν κάποια συστηματικά ελαττώματα. Για την Illumina, αυτό αναφέρεται σε μεροληψία του περιεχομένου GC, σφάλματα αντικατάστασης, χαμηλή ποικιλομορφία ακολουθιών, περιορισμούς στο μήκος ανάγνωσης και τεχνικά προβλήματα που σχετίζονται με την αναπαραγωγιμότητα. Ακόμη και αν η Illumina και άλλες τεχνολογίες αλληλούχισης ήταν 100% ακριβείς, η μόλυνση, η μεροληψία, τα τεχνουργήματα, τα σφάλματα παρτίδας κ.λπ. που είναι εγγενή στις διαδικασίες που οδηγούν στην ανάλυση της αλληλούχισης θα ήταν αρκετά για να αμφισβητηθεί οτιδήποτε συναρμολογείται από τα δεδομένα. Προσθέτοντας την έλλειψη τυποποίησης των μεθόδων που χρησιμοποιούνται μαζί με τις τεχνολογικές προκλήσεις, γίνεται ακόμη πιο φανερό ότι υπάρχουν πάρα πολλές διαφορετικές τεχνολογίες, πάρα πολλές διαφορετικές διαδικασίες και πάρα πολλές διαφορετικές μεταβλητές για να μπορούμε να πούμε ότι το τελικό προϊόν είναι μια αξιόπιστη και ακριβής αναπαράσταση της ανύπαρκτης οντότητας που υποτίθεται ότι αναπαριστά.
Δικτυογραφία:
Limitations in Genome Sequencing Technology and Data Analysis – ViroLIEgy
https://viroliegy.com/2022/03/03/limitations-in-genome-sequencing-technology-and-data-analysis/