Συναρμολόγηση του Γονιδιώματος (Genome Assembly) του SARS-CoV-2 -- [Μέρος 1ο]
Προσπάθεια ανασύστασης της γενετικής αλληλουχίας του SARS-CoV-2.
Μετάφραση: Απολλόδωρος
3 Οκτωβρίου 2022 | USMORTALITY | Διάβαστε το εδώ.
Εδώ προσπαθώ να αναπαραστήσω πώς οι πρώτοι επιστήμονες αναγνώρισαν και αλληλούχησαν το γονιδίωμα του κορονοϊού SARS-CoV-2. Αυτό είναι το πρώτο άρθρο μιας σειράς τριών άρθρων, οπότε παρακαλούμε μείνετε συντονισμένοι, μοιραστείτε και εγγραφείτε!
Ιστορικό
Το πρώτο σημείωμα σχετικά με τον νέο ιό δημοσιεύθηκε από τον καθηγητή Zhang (Κίνα) μέσω του λογαριασμού στο φόρουμ του καθηγητή Holmes (Αυστραλία) στις 20 Ιανουαρίου 2020.
https://virological.org/t/novel-2019-coronavirus-genome/319
Ερώτηση: Γιατί ο καθηγητής Zhang χρησιμοποίησε τον λογαριασμό του καθηγητή Holmes - ή γιατί ο τελευταίος δημοσίευσε τη δήλωση του πρώτου;
Αξίζει να σημειωθεί ότι έχουν ανεβάσει τρεις εκδόσεις της ισχυριζόμενης αλληλουχίας μέχρι τώρα. Η πρώτη έκδοση, που ανέβηκε στις 14 Ιανουαρίου 2020, περιείχε 30.473 ζεύγη βάσεων (bp). Τρεις ημέρες αργότερα την ενημέρωσαν με μια μικρότερη έκδοση με 29.875 bp και στις 18/3/2020 επεκτάθηκε και πάλι σε 29.903 bp.
https://www.ncbi.nlm.nih.gov/nuccore/MN908947
Η καταχώρηση στο φόρουμ που αναρτήθηκε στις 17/1 παραπέμπει στη δεύτερη έκδοση:
https://web.archive.org/web/20200118014643/http://virological.org/t/novel-2019-coronavirus-genome/319
Μέχρι στιγμής, δεν έχω βρει καμία πληροφορία γιατί το γονιδίωμα έχει ενημερωθεί τουλάχιστον τρεις φορές.
Ερώτηση: Γιατί το γονιδίωμα ενημερώθηκε τόσες πολλές φορές;
Οι Zhang & Wu δημοσίευσαν τη συνοδευτική εργασία για την αλληλουχία εδώ:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7094943/
Εδώ περιγράφουν πώς πήραν δείγμα από έναν "41χρονο άνδρα", με τα ακόλουθα συμπτώματα: "πυρετός, σφίξιμο στο στήθος, μη παραγωγικός βήχας, πόνος και αδυναμία για 1 εβδομάδα". Του χορηγήθηκαν διάφορα φάρμακα, αλλά παρόλα αυτά χρειάστηκε να τεθεί σε αναπνευστήρα στη ΜΕΘ. Αναφέρουν ότι αργότερα μεταφέρθηκε σε άλλο νοσοκομείο - κάτι που είναι πολύ παράξενο, δεν είμαι σίγουρος γιατί άνθρωποι που βρίσκονται σε αναπνευστήρα και σε ΜΕΘ μετακινούνται μεταξύ νοσοκομείων. Η έκβαση του ασθενούς παραμένει άγνωστη από την εφημερίδα.
Ερώτηση: Γιατί ο ασθενής μετακινήθηκε μεταξύ νοσοκομείων ενώ βρισκόταν σε ΜΕΘ σε αναπνευστήρα και ποια ήταν η τελική έκβαση;
Αλληλούχηση
Στην εργασία, οι συγγραφείς περιγράφουν πώς δημιούργησαν την αλληλουχία.
Πήραν λοιπόν βρογχικό υγρό από τον ασθενή αυτόν, το μετέτρεψαν σε DNA και το επεξεργάστηκαν με έναν Sequencer, ο οποίος διαβάζει τον γενετικό κώδικα του μίγματος.
Αξίζει να σημειωθεί, ότι μόνο το DNA μπορεί να αλληλουχηθεί, επομένως έπρεπε πρώτα να μετατρέψουν όλο το RNA του δείγματος σε DNA. Αξίζει να σημειωθεί, ότι τα δικά μας κύτταρα, εσωτερικά, χρησιμοποιούν RNA και φυσικά αποτελούνται από DNA. Έτσι, μετά τη μετατροπή έχουν μόνο DNA το οποίο προέρχεται από ανθρώπινο DNA, ανθρώπινο RNA και ενδεχομένως RNA πολλών μικροβίων (συμπεριλαμβανομένων των ιών). Τώρα σε ένα τελευταίο βήμα γράφουν, ότι απέκλεισαν το ανθρώπινο DNA με την αντιστοίχισή του με το Ανθρώπινο Γονιδίωμα - αλλά:
Είναι βέβαιο ότι όλα όσα έχουν απομείνει στο σύνολο δεδομένων είναι μη ανθρώπινης προέλευσης;
Τώρα, το μηχάνημα διαβάζει μόνον αλληλουχίες μέχρι μήκους 150bp, πράγμα που σημαίνει ότι δεν θα μπορούσε ποτέ να διαβάσει την πλήρη αλληλουχία οποιουδήποτε ιού. Αντ' αυτού, λαμβάνουμε ένα μεγάλο σύνολο των λεγόμενων αναγνώσεων με μήκος εκάστου έως 150bps.
Έτσι, το μηχάνημα των αλληλουχήσεων παρήγαγε 28,3 εκατομμύρια σημεία (με 2 αναγνώσεις ανά σημείο). Μοιάζουν όπως φαίνονται στην παρακάτω εικόνα.
Μπορείτε να ρίξετε μια ματιά σε όλες τις αναγνώσεις εδώ: https://trace.ncbi.nlm.nih.gov/Traces/?view=run_browser&page_size=10&acc=SRR10971381&display=reads
Συναρμολόγηση
Τώρα που ξέρουμε από πού προήλθαν αυτές οι αναγνώσεις, ας προσπαθήσουμε να τις συναρμολογήσουμε με τα εργαλεία βιοπληροφορικής. Προηγουμένως έψαξα στο GitHub για ένα σενάριο που απλά θα εκτελούσε ολόκληρη τoν αγωγό συναρμολόγησης, αλλά δεν κατάφερα να βρω κάποιο.
Έτσι δημιούργησα το δικό μου, και αυτό είναι το αποτέλεσμα:
Το σενάριο είναι διαθέσιμο εδώ: https://github.com/usmortality/Megahit-SARS-CoV-2
Η συναρμολόγηση γίνεται με ένα εργαλείο που ονομάζεται Megahit. Εγκαθίστανται όλες οι απαραίτητες εξαρτήσεις και τα "reads" (“αναγνώσεις” κατεβαίνουν, μετατρέπονται σε μορφή fastq και στη συνέχεια εισάγονται στο Megahit. Τέλος, το αποτέλεσμα συμπιέζεται σε zip.
Έχω τρέξει αυτό το σενάριο σε μια βελτιστοποιημένη υπολογιστική περίπτωση 32 πυρήνων AWS ως εξής:
Αποτέλεσμα
Εδώ είναι το αποτέλεσμα της εκτέλεσης με το Megahit 1.1.3
https://github.com/USMortality/Megahit-SARS-CoV-2/blob/megahit-1.1.3/out/output.txt
Αξίζει να σημειωθεί ότι οι Wu et al. χρησιμοποίησαν μια παλαιότερη έκδοση, δηλαδή την 1.1.3 του Megahit από τον Μάρτιο του 2018, ενώ η τελευταία έκδοση 1.2.9 ήταν ήδη διαθέσιμη από τον Οκτώβριο του 2019.
Γιατί οι Wu et al. χρησιμοποίησαν την πολύ παλαιότερη έκδοση 1.1.3 του Megahit, αντί για την πιο πρόσφατη έκδοση 1.2.9;
Ως προς το γιατί χρησιμοποιήθηκε η συγκεκριμένη έκδοση παραμένει ασαφές.
https://github.com/voutcn/megahit/tree/v1.2.9
Επιστρέφοντας στα αποτελέσματα, βλέπουμε ότι η συναρμολόγηση διήρκεσε περίπου 16 λεπτά σε μια βελτιστοποιημένη για υπολογιστές 32 πυρήνων περίπτωση Amazon Linux.
Ακολουθούν τα τελικά στατιστικά στοιχεία:
Οι συγγραφείς έγραψαν στην εργασία τους ότι η συναρμολόγησή τους απέδωσε:
Το Megahit παρήγαγε συνολικά 384.096 συναρμολογημένα contigs (εύρος μεγέθους 200-30.474 nt) .
Έτσι, ενώ οι συγγραφείς συναρμολόγησαν 384k contigs (contig είναι ένα σύνολο τμημάτων ή αλληλουχιών DNA που επικαλύπτονται κατά τρόπο ώστε να παρέχουν μια συνεχή αναπαράσταση μιας γονιδιωματικής περιοχής
), εγώ μπόρεσα να συναρμολογήσω μόνο 30k contigs (Αυτό μπορεί να έχει να κάνει με το πρόσθετο φιλτράρισμα που έκαναν).
Καθώς τα μεγαλύτερα contigs που δημιουργήθηκαν από το Megahit (30.474 nt)
Επίσης, δεν είμαι σε θέση να ανασυστήσω το μεγαλύτερο contig, το οποίο είχε πάνω από 30k bp, ενώ η δική μου εκτέλεση συναρμολόγησε μόνο 29,870bp.
Ακολουθούν τα αποτελέσματα συνοπτικά, οι δικές μου εκτελέσεις είναι οι δύο μπάρες στα δεξιά:
Έτρεξα το Megahit 1.1.3 και 1.2.9, με το τελευταίο να παράγει ένα σημαντικά μικρότερο contig με μόνο 29.802 bp. Τουλάχιστον, και οι δύο εκτελέσεις σε κάθε έκδοση παρήγαγαν το ίδιο μεγαλύτερο contig, εξαιρουμένων της αρχής και του τέλους.
Τέλος, είναι αξιοσημείωτο ότι καμμία από τις αλληλουχίες που συναρμολογήθηκαν από το Megahit, δεν παρήγαγε το πλήρες υποτιθέμενο contig. Επίσης, το πλήρες γονιδίωμα δεν συναρμολογήθηκε ποτέ, καθώς το τέλος του πλήρους γονιδιώματος πάντα λείπει.
Περισσότερα για αυτό στο επόμενο άρθρο μου....
Παρακαλώ, ενημερώστε με για τις σκέψεις και τα σχόλιά σας στα σχόλια και μην ξεχάσετε να μοιραστείτε αυτό το άρθρο αν σας άρεσε!
Δείτε επίσης τον κώδικα: https://github.com/USMortality/Megahit-SARS-CoV-2
Δείτε επίσης το επόμενο άρθρο μου σχετικά με αυτό το θέμα:
Δικτυογραφία:
SARS-CoV-2 Genome Assembly - USMortality