Αποκαλύφθηκε: Η Aπάτη της Aλληλούχισης του SARS-CoV-2
Η Εργασία που ο Stefan Lanka Ήλπιζε ότι θα Άλλαζε τον Κόσμο
Μετάφραση: Απολλόδωρος
1 Ιουνίου 2024 | Michael Wallach | Διαβάστε το εδώ
Στα τέλη του 2020, με τον κόσμο πλέον σε πλήρη αποκλεισμό (lockdown) και την απειλή υποχρεωτικών ή σχεδόν υποχρεωτικών ενέσεων να αυξάνεται καθημερινά, ο εξαιρετικός Dr. Stefan Lanka, πρώην ιολόγος, έστειλε με email μια σύντομη μελέτη από έναν μαθηματικό στο Αμβούργο με εκπληκτικές συνέπειες.
Οι πολλές δεκαετίες δουλειάς του Dr. Lanka και των συναδέλφων του για την αποκάλυψη των θεμελιωδών προβλημάτων της ιολογίας τώρα αντηχούσαν και εξελίσσονταν από μια μικρή ομάδα γιατρών, επιστημόνων, δημοσιογράφων και στοχαστών με ταχέως αυξανόμενο ρυθμό το 2020, και οι αποκαλύψεις του άρχισαν να φτάνουν στο κοινό με σημαντικό τρόπο.
Ωστόσο, οι απολογητές της ιολογίας άρχισαν να διαφωνούν με πολλούς από τους ισχυρισμούς του Lanka. Η επωδός ήταν απλή - ότι ίσως είχε δίκιο για την ψευδοεπιστήμη της προηγούμενης περιόδου της ιολογίας - αλλά η σύγχρονη ιολογία ήταν πολύ πιο προχωρημένη και βασιζόταν στην μαθηματική πολυπλοκότητα της γονιδιωματικής - μια πολυπλοκότητα που οι επικριτές απλά δεν μπορούσαν να κατανοήσουν.
Θέλοντας απεγνωσμένα να δείξει αυτή την απάτη για αυτό που ήταν - ότι η λεγόμενη γενετική αλληλούχιση του "ιού" SARS-CoV-2 ήταν στην καλύτερη περίπτωση μια ψευδαίσθηση και στη χειρότερη απάτη - ο Dr. Lanka είχε προσεγγίσει έναν επιφανή μαθηματικό για να απομακρύνει τον καπνό από αυτή τη μαθηματική πολυπλοκότητα που έκρυβε την απάτη πίσω από τους ισχυρισμούς ότι είχε ποτέ βρεθεί ένας "ιός" SARS-CoV-2.
Η μελέτη στάλθηκε σε μια χούφτα φίλων του Lanka, συμπεριλαμβανομένου και εμού, αλλά με το Substack ακόμη στα σπάργανα και τους περισσότερους γιατρούς και επιστήμονες που επικρίνουν τον COVID να μην έχουν καν ιστοσελίδα, η μελέτη δεν δημοσιεύτηκε ποτέ στο διαδίκτυο.
Παρακάτω είναι μια επανέκδοση ολόκληρης της μελέτης, δημοσιευμένη εδώ στα Αγγλικά, πιστεύω, για πρώτη φορά. Ελπίζω να συγκεντρώσει κάποια προσοχή από καθηγητές μαθηματικών, γενετιστές και απλούς ανθρώπους.
Ο μαθηματικός στον οποίο απευθύνθηκε ο Lanka, αποκαλώντας τον εαυτό του μόνο "Ένας Μαθηματικός από το Αμβούργο" για να αποφύγει τα αντίποινα κατά της καριέρας του, εξέτασε την κεντρική ακαδημαϊκή εργασία που συγγράφηκε από τον πλέον διαβόητο Dr. Fan Wu και συν. στην Wuhan της Κίνας και δημοσιεύτηκε στο τεύχος Φεβρουαρίου 2020 του περιοδικού Nature: “A new coronavirus associated with human respiratory disease in China” (" Ένας νέος κορωνοϊός συνδεδεμένος με ανθρώπινη αναπνευστική νόσο στην Κίνα"), το οποίο ισχυριζόταν ότι είχε αλληλουχήσει γενετικά έναν "νέο ιό" που αργότερα ονομάστηκε SARS-CoV-2.
Ο μαθηματικός στο Αμβούργο κατέβασε ολόκληρο το σύνολο δεδομένων και το κατάλληλο λογισμικό που χρησιμοποίησε ο Fan Wu για να ισχυριστεί την ανακάλυψη του SARS-CoV-2 και στη συνέχεια επανέλαβε τις διαδικασίες του Wu. Επέστρεψε στον Dr. Lanka μια σαφή διάψευση της βασικής συλλογιστικής που χρησιμοποιήθηκε για να συναχθεί το συμπέρασμα ότι ένας νέος ιός είχε ποτέ ανακαλυφθεί.
Για να κατανοήσει κανείς αυτήν την εκπληκτική εργασία, πρέπει να κατανοήσει τις βασικές αρχές του πώς ο Fan Wu και οι συνεργάτες του ισχυρίστηκαν ότι είχαν αλληλουχήσει έναν ιό εξ αρχής. Αυτό που έκαναν δεν είναι ασυνήθιστο στον τομέα της ιολογίας, αλλά μόλις το κατανοήσει κανείς, φαίνεται αδιανόητο πώς μια τέτοια σειρά βημάτων θα μπορούσε ποτέ να γίνει αποδεκτή ως η κεντρική βάση για να ισχυριστεί κάτι, πόσο μάλλον ένα επιστημονικό πεδίο, πόσο μάλλον η τρομοκράτηση και το κλείδωμα του κόσμου ολόκληρου.
Λίγο ιστορικό: Μέχρι τη δεκαετία του 1980, η ιολογία δεν είχε ακόμα βρει και απομονώσει έναν μόνο ιό (ακόμα δεν έχει), και είχε αλλάξει ελάχιστα από τις θεμελιώδεις αξιώσεις της δεκαετίας του 1950 ότι η τοποθέτηση βλέννας αναμεμειγμένης με αντιβιοτικά σε κύτταρα νεφρού πιθήκου αποδείκνυε την ύπαρξη ενός ιού στη βλέννα εάν τα νεφρικά κύτταρα επιδεινώνονταν - αγνοώντας τους πολλούς άλλους λόγους για τους οποίους θα μπορούσε να συμβεί τέτοια επιδείνωση. Η δεύτερη, και ειλικρινά, μόνη άλλη σημαντική διαδικασία που έγινε στην ιολογία εκείνη την εποχή ήταν η λήψη φωτογραφιών της κατεστραμμένης βλέννας με ηλεκτρονικό μικροσκόπιο. Αν οι "ιολόγοι" έβλεπαν κύκλους (ή άλλο προκαθορισμένο σχήμα) στην εικόνα, ισχυρίζονταν ότι αυτό ήταν περαιτέρω απόδειξη ότι βρέθηκε ένας "ιός" - αγνοώντας ξανά το πρόβλημα ότι δεν είχαν λόγο να καταλήξουν στο συμπέρασμα ότι οι θεωρητικοί "ιοί" τους ήταν ο μόνος πιθανός λόγος που κάποιος μπορεί να δει έναν κύκλο ή άλλο προκαθορισμένο σχήμα.
Η προφανής αναποτελεσματικότητα και τα τεράστια λογικά ελαττώματα αυτών των «πειραμάτων» είχαν ίσως αρχίσει να φθείρονται και ο τομέας είχε κάνει λίγες προόδους στη φαντασία της δημόσιας σφαίρας.
Όταν η επανάσταση των ηλεκτρονικών υπολογιστών εμφανίστηκε ταυτόχρονα με τη μελέτη της γονιδιωματικής, η ιολογία αναζήτησε έναν τρόπο να μελετήσει τα θεωρητικά της σωματίδια (τα οποία όμως ποτέ δεν βρέθηκαν, δεν απομονώθηκαν και δεν αποδείχθηκε η ύπαρξή τους) χρησιμοποιώντας τη νέα τεχνολογία.
Αξίζει να σημειωθεί ότι αυτή ήταν μια εντελώς διαφορετική διαδικασία από αυτή που χρησιμοποιήθηκε γενικότερα στη γονιδιωματική. Σε άλλους τομείς της γονιδιωματικής, κάποιος ξεκινούσε με ένα πραγματικό απομονωμένο δείγμα του υλικού που μελετούσε (π.χ. ένα ΑΛΟΓΟ, μια ΜΥΓΑ ή ένα στέλεχος ΒΑΚΤΗΡΙΟΥ, κ.λπ.) και κατέγραφε το RNA που μπορούσε να βρεθεί συνεπώς στο απομονωμένο δείγμα του υλικού αυτού. Ωστόσο, στην ιολογία, καθώς ποτέ δεν είχαν ένα πραγματικό δείγμα του "ιού" που μελετούσαν, απομονωμένο από το υπόλοιπο ανθρώπινο υγρό, το μόνο που μπορούσαν να κάνουν ήταν να καταλογίζουν το σύνολο του γενετικού υλικού στα δείγματα βλέννας τους και στη συνέχεια να κάνουν εικασίες για το από τι θα μπορούσε να αποτελείται ο φανταστικός τους ιός.
Τα τελευταία σαράντα χρόνια, αυτή η λεγόμενη "γενετική αλληλούχιση" έχει γίνει η κεντρική διαδικασία με την οποία οι άνθρωποι με εργαστηριακές μπλούζες (δεν μπορώ να τους αποκαλέσω επιστήμονες) ισχυρίζονται ότι έχουν ανακαλύψει νέους "ιούς". Ουσιαστικά, τα βήματα είναι τα εξής:
Βρείτε έναν άρρωστο, ΥΠΟΘΕΣΤΕ ότι είναι άρρωστος λόγω ενός ιού, και στη συνέχεια πάρτε ένα δείγμα από τη βλέννα ή το "υγρό των πνευμόνων" του.
Συνδυάστε αυτό το υγρό με αλατόνερο και αντιβιοτικά (και συχνά πολλά άλλα συστατικά).
Τροφοδοτήστε αυτό το μείγμα υγρού σε μια μηχανή που διασπά το υλικό σε δεκάδες εκατομμύρια γενετικά θραύσματα.
Υποβάλετε αυτό το μείγμα σε μια διαδικασία PCR για να αυξήσετε τον αριθμό των θραυσμάτων RNA, συμπεριλαμβανομένης της "ενίσχυσης" οποιωνδήποτε συγκεκριμένων θραυσμάτων RNA που οι ιολόγοι αναμένουν να βρουν.
Βάλτε αυτή τη μηχανή-υπολογιστή να δημιουργεί μια λίστα με αυτά τα γενετικά θραύσματα.
Βάλτε τον υπολογιστή να αποκλείσει έναν (καθόλου πειστικό) μερικό κατάλογο γνωστών ανθρώπινων ενδογενών θραυσμάτων από το σύνολο δεδομένων του.
Βάλτε τον υπολογιστή να χρησιμοποιεί αλγόριθμους πιθανότητας για να βρει αλληλουχίες θραυσμάτων που επικαλύπτονται και να δημιουργεί πιθανά "contigs" - στη συνέχεια επιλέγετε τις μεγαλύτερες αλληλουχίες μεταξύ αυτών που μπορεί θεωρητικά να συρραφούν από τον υπολογιστή.
Βάλτε τον υπολογιστή να εκδίδει μια λίστα αυτών των συνδυασμών που μοιάζουν περισσότερο με αλληλουχίες που είχαν επίσης θεωρητικά δημιουργηθεί και αποδοθεί σε φανταστικούς "ιούς" στο παρελθόν.
Στη συνέχεια, οι ιολόγοι επιλέγουν μεταξύ αυτών των συνδυασμών, αποφασίζοντας με συναίνεση, τη μία θεωρητική αλληλουχία που θεωρούν ότι είναι ο ιός που προκαλεί την ασθένεια του ασθενούς. Εάν δεν μπορούν να προσεγγίσουν έστω και στο ελάχιστο το ταίριασμα μιας από τις αλληλουχίες που συγκέντρωσε ο υπολογιστής με μια προηγουμένως θεωρητική αλληλουχία, τότε οι ιολόγοι ισχυρίζονται ότι αυτό που βρήκαν πρέπει να είναι ένας «νέος ιός» και επιλέγουν με συναίνεση μεταξύ των καταγεγραμμένων συνδυασμών που εκδίδει ο υπολογιστής αυτόν που πιστεύουν καλύτερα ότι είναι ο ιός (και όχι απλώς μια ανούσια όξινη ορολογία).
Για όσους θέλουν μια βαθύτερη βουτιά σε αυτήν την ανοησία, το καλύπτω εκτενώς στο ντοκιμαντέρ The Viral Delusion στο www.theviraldelusion.com, ο Mike Stone το καλύπτει με μεγάλη λεπτομέρεια στο ιστολόγιό του viroliegy.com, ο Dr. Mark Bailey το αποδομεί στο άρθρο του "A Farewell To Virology" και ο Dr. Tom Cowan, ο Dr. Andy Kaufman και η Amandha Volmer (μεταξύ άλλων) έχουν αφιερώσει αμέτρητες ώρες περιγράφοντας λεπτομερώς τον παραλογισμό αυτού του γεγονότος στα βίντεό τους. Φυσικά, μπορείτε επίσης να διαβάσετε την αρχική εργασία του Fan Wu για να δείτε την περιγραφή αυτών των βημάτων. Αλλά όπως το παρακάτω άρθρο καθιστά σαφές, ακόμα και οι πολλοί γιατροί και επιστήμονες με τους οποίους μίλησα στο The Viral Delusion υποτίμησαν την μαθηματική ανοησία που χρησιμοποιήθηκε στο άρθρο του Fan Wu (αλλά ήταν κρυμμένη βαθιά στην ενότητα της μεθοδολογίας) - ανοησία που ο εκλεκτός μαθηματικός μας αποκαλύπτει παρακάτω.
Φυσικά, ήδη σας ακούω να φωνάζετε - σταμάτα, περίμενε! Δεν χρειάζεται να προχωρήσουμε περαιτέρω. Αυτό είναι ήδη μια σειρά βημάτων που είναι γελοία ελλιπής σε μεθοδολογική εγκυρότητα. Ναι, το ξέρω. Για να κάνουμε το σημείο πιο σαφές για νέους αναγνώστες, θα μπορούσε κανείς να χρησιμοποιήσει αυτή την ίδια σειρά βημάτων για να ισχυριστεί την ανακάλυψη οποιασδήποτε νέας γενετικής αλληλουχίας - είτε πρόκειται για έναν "ιό" είτε για το "σημάδι του διαβόλου", "ψείρες" ή απόδειξη της ανακάλυψης των εναπομείναντων γονιδίων ενός εξωγήινου. Είναι ένα κλασικό παράδειγμα ψευδοεπιστήμης χτισμένο πάνω στην λογική παραπλάνηση γνωστή ως "κυκλική λογική". Και αυτό είναι μόνο η κορυφή του παγόβουνου για τα λογικά προβλήματα με την εξαγωγή οποιουδήποτε είδους συμπεράσματος βασισμένου στα παραπάνω βήματα.
Αλλά ας συνεχίσουμε - γιατί η επωδός συνεχώς από τους απολογητές της ιολογίας ήταν ότι κανένα από αυτά τα λογικά προβλήματα δεν είχε σημασία, τα μαθηματικά ήταν τόσο περίπλοκα και τόσο βαθιά που αποδείκνυαν ότι η ιολογία είχε δίκιο όλη την ώρα, και όποιος την αμφισβητούσε απλά δεν μπορούσε να κατανοήσει.
Εδώ μπαίνει ο μαθηματικός από το Αμβούργο. Το άρθρο του είναι παρακάτω, και είστε ευπρόσδεκτοι να το διαβάσετε φυσικά. Αλλά είναι γραμμένο σε αρκετά περίπλοκη γλώσσα, οπότε θα πάρω μια στιγμή να το συνοψίσω εδώ.
Όπως θα δείτε, ο μαθηματικός ξεκίνησε την ανάλυσή του κατεβάζοντας το σύνολο δεδομένων του πλήρους κατακερματισμού του RNA από το αρχικό πείραμα και επιχείρησε απλώς να επαναλάβει τα βήματα που έγιναν στον υπολογιστή στην εργασία.
Διαπίστωσε ότι ακόμα και αυτά τα βήματα δεν ήταν αναπαραγώγιμα από έναν υπολογιστή. Οι αλληλουχίες που παρήγαγε το λογισμικό που ισχυριζόταν ότι βρήκε τον “SARS-CoV-2” δεν μπορούσαν να παραχθούν από άλλον υπολογιστή που εκτελούσε το ίδιο λογισμικό.
Αυτό δεν είναι καθόλου ασήμαντο! Όπως γνωρίζουν οι περισσότεροι, η βασική επιστημονική αυστηρότητα απαιτεί τα πειράματα να είναι αναπαραγώγιμα για να θεωρηθούν έγκυρα τα συμπεράσματά τους - αλλά ο μη αναπαραγώγιμος χαρακτήρας της αλληλουχίας SARS-CoV-2 υπερβαίνει κατά πολύ αυτό. Δεν μιλάμε για την ικανότητα αναπαραγωγής ενός πειράματος που συνέβη στη φύση. Μιλάμε για έναν υπολογιστή που εκτελεί το ίδιο λογισμικό πάνω στο ίδιο σύνολο δεδομένων και δεν μπορεί να αναπαραγάγει αυτό που ισχυρίστηκε ότι συνέβη σε έναν άλλον υπολογιστή που εκτελούσε το ίδιο λογισμικό πάνω στο ίδιο σύνολο δεδομένων!
Για να γίνει αυτό σαφές, είναι σαν να ισχυρίζεται ο Fan Wu et al. ότι ο υπολογιστής τους μπορούσε να σχηματίσει μια λέξη από ένα σετ Scrabble με περισσότερα "Π" από όσα περιλαμβάνονται στο σετ Scrabble.
Ωστόσο, αυτό είναι μόνο η αρχή. Ο μαθηματικός προχώρησε και υπέθεσε ότι το αρχικό σύνολο δεδομένων και το αρχικό αποτέλεσμα ήταν σωστά για να συνεχίσει την ανάλυσή του.
Αυτό που διαπίστωσε αποκαλύπτει ότι οποιοδήποτε συμπέρασμα βασισμένο σε αυτά τα δεδομένα ότι ο ασθενής που μελετήθηκε στη Wuhan είχε έναν νέο ιό ήταν εντελώς αβάσιμο.
Πρώτον, διευκρινίζει ξανά ότι οι αλληλουχίες που ισχυρίστηκαν ότι δημιούργησαν οι Fan Wu et al. δεν μπορούσαν να συναρμολογηθούν από τα θραύσματα RNA που καταχωρήθηκαν από τον υπολογιστή στο δείγμα του ασθενούς.
Δεύτερον, διαπίστωσε ότι δεν υπήρχε τρόπος να πει κανείς αν η συναρμολογημένη αλληλουχία (αργότερα ονομάστηκε SARS-CoV-2) προερχόταν από ανθρώπινο ή μη ανθρώπινο RNA. Με άλλα λόγια, δεν υπάρχει τίποτα στο πείραμα που να δείχνει αν η αλληλουχία συναρμολογήθηκε από έναν "ιό" στο δείγμα ή απλά από τυχαία θραύσματα RNA στο δείγμα.
Τρίτον, διαπίστωσε ότι δεν υπήρχε τρόπος να πει κανείς αν η συναρμολογημένη αλληλουχία προερχόταν από πραγματικά υπάρχοντα RNA στο δείγμα ή αν είχε συντεθεί από δείκτες RNA που υπήρχαν απλώς ως παραπροϊόν της διαδικασίας ενίσχυσης PCR στην οποία εκτέθηκε το δείγμα.
Τέταρτον, διαπίστωσε ότι έως και το 17% της τελικής αλληλουχίας βασιζόταν σε RNA contigs (θραύσματα) που στόχευαν ειδικά και στη συνέχεια «βρέθηκαν» από τη διαδικασία PCR σε κατώφλια κύκλων ct 35 έως 45, αριθμοί κύκλων καλά γνωστοί στη βιβλιογραφία ως “κατώφλι κύκλων για να «βρεις» οτιδήποτε θέλεις”.
Πέμπτον, διαπίστωσε ότι αυτά τα θραύσματα (contigs) ήταν σημαντικά πιο πιθανό να προέρχονταν από τη διαδικασία PCR παρά από το αρχικό δείγμα, και ότι ήταν εξαιρετικά απίθανο όλα τα θραύσματα αλληλουχίας SARS-CoV-2 (ή ακόμα και τα περισσότερα) να προέρχονταν από το αρχικό δείγμα.
Έκτον, διαπίστωσε ότι τα θραύσματα στο εναπομείναν δείγμα δεδομένων, ΜΕΤΑ την διήθηση/φιλτράρισμα που ισχυρίζονται ότι έκαναν οι Fan Wu et al. για γνωστά ανθρώπινα RNA, ταίριαζαν με γνωστά ανθρώπινα RNA.
Έβδομον, διαπίστωσε ότι η τελική αλληλουχία (SARS-CoV-2) που υποστήριζαν ότι ταίριαζε με "κορονοϊούς" δεν ταίριαζε καν με αυτές τις θεωρητικές αλληλουχίες εκτός αν περιλαμβανόταν ποσοστό σφάλματος πάνω από 10 τοις εκατό.
Όγδοον, προσπάθησε να ανακαλύψει αν μπορούσε κανείς να πάρει το δείγμα και να "βρει" άλλους ισχυριζόμενους ιούς σε αυτό. Έψαξε για "Ηπατίτιδα" και "HIV" και βρήκε ΚΑΙ τους δύο με χαμηλότερα ποσοστά σφάλματος από τον "SARS-CoV-2."
Ένατον, έψαξε για τις ισχυριζόμενες αλληλουχίες του "ιού Έμπολα" και του "ιού Marburg" και τους "βρήκε" και αυτούς στο δείγμα, με συγκρίσιμα ποσοστά σφάλματος με τον "SARS-CoV-2."
Δέκατον, διαπίστωσε ότι δεν πραγματοποιήθηκαν πειράματα ελέγχου (control experiments) για να αποκλειστούν οποιεσδήποτε από τις παραπάνω ή άλλες πιθανότητες.
Συμπερασματικά, ο μαθηματικός γράφει: «καταφέραμε να τεκμηριώσουμε την υπόθεσή μας ότι οι ισχυριζόμενες αλληλουχίες ιϊκού γονιδιώματος είναι παρερμηνείες, υπό την έννοια ότι έχουν κατασκευαστεί ή κατασκευάζονται απαρατήρητες από τμήματα μη ιϊκού νουκλεϊκού οξέος».
Με άλλα λόγια, δεν υπάρχει τίποτα στα μαθηματικά που να υποδεικνύει το συμπέρασμα ότι βρέθηκε ένας νέος ιός ή ότι ήταν με οποιονδήποτε τρόπο η αιτία της ασθένειας του αρχικού ανθρώπου - στην πραγματικότητα είναι το αντίθετο - είναι ΠΙΟ πιθανό με βάση τα δεδομένα ότι η αλληλουχία που συντάχθηκε από τον υπολογιστή και που οι Fan Wu ισχυρίστηκαν ότι είναι ο "SARS-CoV-2" δεν προερχόταν από έναν "ιό."
Μια προσεκτική ανάγνωση του άρθρου του μαθηματικού υποδεικνύει και εξηγεί ότι είναι ΠΟΛΥ ΠΙΟ πιθανό ότι η αλληλουχία "SARS-CoV-2" κατασκευάστηκε από τυχαία θραύσματα RNA που αιωρούνταν στο δείγμα σε συνδυασμό με ειδικά παραγόμενες "ανακαλύψεις" θραυσμάτων RNA που δημιουργήθηκαν από την PCR με σκοπό να τα "βρουν."
Όταν θυμόμαστε ότι αυτό το άρθρο του Fan Wu αποτέλεσε, ουσιαστικά, τη βάση του "επιστημονικού" θεμελίου της ισχυριζόμενης πανδημίας, είναι δύσκολο να πει κανείς αν πρέπει να γελάσει ή να κλάψει. Ήταν με βάση τα συμπεράσματα αυτού του άρθρου που σχεδιάστηκε η PCR δοκιμή, και ο κόσμος υποβλήθηκε σε τεστ για αυτόν τον "νέο ιό." Ήταν με βάση αυτό το άρθρο που συντέθηκαν συνθετικές "ιϊκές" αλληλουχίες από εργαστήρια για να τεστάρουν τον "ιό" για τις ιδιότητές του και να μελετήσουν τη "φύση" του.
Με αφορμή αυτή την υποστηριζόμενη ακολουθία από τους Fan Wu et al, οι ειδήμονες των μέσων ενημέρωσης και οι απολογητές των ψευδοεπιστημόνων ισχυρίστηκαν ότι η μαθηματική πολυπλοκότητα είναι πέρα από την ικανότητα οποιουδήποτε εκτός του τομέα τους να την κατανοήσει ή να την σχολιάσει, και έτσι προσπάθησαν να καταστείλουν κάθε κριτική.
Και με βάση τα συμπεράσματα αυτής της μελέτης, λέγεται ότι σχεδιάστηκε το «εμβόλιο» και ότι δισεκατομμύρια άνθρωποι πιέστηκαν να κάνουν ενέσεις. Ήταν το λογικό και μαθηματικό τέχνασμα στην καρδιά της πανδημίας.
Αλλά για να μην κλέψω περαιτέρω τη δόξα από την ανάλυσή του, παραθέτω την αναδημοσίευση της εργασίας του μαθηματικού παρακάτω.
Μοιραστείτε τις σκέψεις σας μετά την ανάγνωση.
Δομική ανάλυση των δεδομένων αλληλουχίας στην ιολογία
Μια στοιχειώδης προσέγγιση χρησιμοποιώντας τον SARS-CoV-2 ως παράδειγμα
Συγγραφέας
Ένας μαθηματικός από το Αμβούργο, που θα ήθελε να παραμείνει ανώνυμος
Περίληψη
Η de novo μετα-μεταγραφική αλληλούχιση ή η αλληλούχιση ολόκληρου του γονιδιώματος είναι αποδεκτές μέθοδοι στην ιολογία για την ανίχνευση των ισχυριζόμενων παθογόνων ιών. Σε αυτή τη διαδικασία, δεν ανιχνεύονται ιϊκά σωματίδια (ιοί) και με την έννοια της λέξης απομόνωση, δεν απομονώνονται και δεν χαρακτηρίζονται βιοχημικά. Στην περίπτωση του SARS-CoV-2, συχνά εξάγεται συνολικό RNA από δείγματα ασθενών (π.χ.: βρογχοκυψελιδικό εκπλύμα (BALF) ή επιχρίσματα από το λαιμό και τη μύτη) και αλληλουχίζεται. Σημαντικό είναι ότι δεν υπάρχει καμία απόδειξη ότι τα θραύσματα RNA που χρησιμοποιούνται για τον υπολογισμό των αλληλουχιών του ιϊκού γονιδιώματος είναι ιϊκής προέλευσης.
Ως εκ τούτου, εξετάσαμε τη δημοσίευση: "A new coronavirus associated with human respiratory disease in China" ("Ένας νέος κορονoϊός που σχετίζεται με ανθρώπινη αναπνευστική ασθένεια στην Κίνα") [1] και τα σχετιζόμενα δημοσιευμένα δεδομένα αλληλουχίας με βιοπρότζεκτ ID PRJNA603194 με ημερομηνία 27/01/2020 για την αρχική πρόταση αλληλουχίας γονιδίων για τον SARS-CoV-2 (GenBank: MN908947.3). Μια επανάληψη της de novo συναρμολόγησης με το Megahit (v.1.2.9) έδειξε ότι τα δημοσιευμένα αποτελέσματα δεν μπορούσαν να αναπαραχθούν. Ενδέχεται να ανιχνεύσαμε (ριβοσωμικά) ριβονουκλεϊκά οξέα ανθρώπινης προέλευσης, σε αντίθεση με όσα αναφέρθηκαν στο [1]. Περαιτέρω ανάλυση παρείχε ενδείξεις για πιθανή μη ειδική ενίσχυση αναγνώσεων κατά τη διάρκεια της επιβεβαίωσης PCR και του καθορισμού των γονιδιωματικών άκρων που δεν σχετίζονται με τον SARS-CoV-2 (MN908947.3).
Τέλος, πραγματοποιήσαμε ορισμένες συναρμολογήσεις με βάση αναφορές με πρόσθετες γενετικές αλληλουχίες όπως SARS-CoV, Ιός Ανθρώπινης Ανοσοανεπάρκειας (HIV), Ιός Ηπατίτιδας Δέλτα, Ιός Ιλαράς, Ιός Ζίκα, Ιός Έμπολα ή Ιός Marburg για να μελετήσουμε τη δομική ομοιότητα των παρόντων δεδομένων αλληλουχίας με τις αντίστοιχες αλληλουχίες. Έχουμε λάβει προκαταρκτικές ενδείξεις ότι ορισμένες από τις ιογενείς γενετικές αλληλουχίες που μελετήσαμε στο παρόν έργο μπορεί να προέρχονται από το RNA ανύποπτων ανθρώπινων δειγμάτων.
Λέξεις-κλειδιά
SARS-CoV-2, COVID-19, Ιός, De novo Συναρμολόγηση, Αλληλούχιση ολόκληρου του γονιδιώματος, WGS, Βιοπληροφορική, PCR, SARS-CoV, Νυχτερίδες SARS-CoV, Ιός Ανθρώπινης Ανοσοανεπάρκειας, HIV, Ιός Ηπατίτιδας, Ιός Ιλαράς, Ιός Ζίκα, Ιός Έμπολα, Ιός Marburg.
Εισαγωγή
Για την κατασκευή ιογενών γενετικών αλληλουχιών, απομονώνονται νουκλεϊκά οξέα (RNA ή DNA) από διάφορες πηγές νουκλεϊκών οξέων, όπως βρογχοκυψελιδικό εκπλύμα (BALF) [1, 2], ρινοφαρυγγικά επιχρίσματα [3, 4, 5, 6, 12, 13], συστατικά κυτταρικών καλλιεργειών ή υπερκείμενα κυτταρικών καλλιεργειών [2, 11, 12, 13, 14, 16], καθώς και από ανθρώπινα [8, 9, 10, 16] και ζωικά δείγματα [7, 15] και αλληλουχούνται. Σε αυτή τη διαδικασία, τα απομονωμένα νουκλεϊκά οξέα δεν προέρχονται αποκλειστικά από προηγουμένως απομονωμένα (ιϊκά) σωματίδια, δηλαδή απομονωμένα από οτιδήποτε άλλο, αλλά συχνά από ολόκληρο το δείγμα. Έτσι, η προέλευση των θραυσμάτων νουκλεϊκού οξέος που χρησιμοποιούνται για τον υπολογισμό των γενετικών αλληλουχιών είναι a priori ασαφής.
Στην περίπτωση των ριβονουκλεϊκών οξέων (RNA), αυτό πρώτα μεταγράφεται σε cDNA χρησιμοποιώντας RNA-εξαρτώμενη DNA πολυμεράση. Στη συνέχεια, το DNA ή το cDNA κατακερματίζεται με τη βοήθεια ενζύμων και ενισχύεται με αλυσιδωτή αντίδραση πολυμεράσης (PCR) πριν από την πραγματική αλληλούχιση, δηλαδή τον καθορισμό της αλληλουχίας των νουκλεοτιδίων των μικρών θραυσμάτων DNA ή cDNA. Κατά την ενίσχυση, εκτός από τυχαίες αλληλουχίες εκκινητών (τυχαίοι εξάμεροι), χρησιμοποιούνται επίσης και εξαιρετικά ειδικές αλληλουχίες εκκινητών ανάλογα με τα αναφορά ή τους στόχους των γονιδιωμάτων που εξετάζονται [π.χ.: 1, 3, 4, 5, 6, 7, 8, 17, 18]. Τέλος, τα δεδομένα αλληλούχισης που λαμβάνονται με αυτόν τον τρόπο επεξεργάζονται χρησιμοποιώντας βιοπληροφορικούς αλγόριθμους.
Δύο κοινές μέθοδοι για τον καθορισμό ιογενών γενετικών αλληλουχιών είναι η de novo μετα-μεταγραφική συναρμολόγηση [1, 12] και η αλληλούχιση ολόκληρου του γονιδιώματος [3, 4, 5, 6, 17, 18]. Ενώ η de novo μετα-μεταγραφική (de novo meta-transcriptomic) συναρμολόγηση συχνά δεν χρησιμοποιεί αλληλουχίες αναφοράς ή μόνο αλληλουχίες αναφοράς, η αλληλούχιση ολόκληρου του γονιδιώματος χρησιμοποιεί έναν μεγάλο αριθμό ειδικών αλληλουχιών εκκινητών, μερικές από τις οποίες καλύπτουν ήδη μαζί 4% έως 17% του γονιδιώματος στόχου [1, 17]. Για την ενίσχυση του cDNA, συχνά χρησιμοποιούνται 35 έως 45 κύκλοι [1, 6, 17].
Στην περίπτωση του SARS-CoV-2 (GenBank: MN908947.3) [1], η πρόταση για την αλληλουχία του ιϊκού γονιδιώματος υπολογίστηκε με τη de novo μετα-μεταγραφική συναρμολόγηση του συνολικού RNA από το BALF ενός ασθενούς στη Wuhan, Κίνα. Οι συναρμολογητές Megahit (v.1.1.3) και Trinity (v.2.5.1) χρησιμοποιήθηκαν για τη συναρμολόγηση των contigs. Το Megahit δημιούργησε συνολικά 384,096 (200 nt - 30,474 nt) και το Trinity υπολόγισε 1,329,960 (201 nt - 11,760 nt) contigs. Οι μεγάλες διαφορές μεταξύ των δύο συναρμολογήσεων είναι αξιοσημείωτες. Σύμφωνα με το [1], το μακρύτερο contig που συναρμολογήθηκε με το Megahit έδειξε υψηλή ομοιότητα νουκλεοτιδίων (89.1%) με το γονιδίωμα της νυχτερίδας SL-CoVZC45 (GenBank: MG772933) και χρησιμοποιήθηκε για τον σχεδιασμό εκκινητών για επιβεβαίωση PCR και των άκρων (τερματικών/termini) του γονιδιώματος.
Η οργάνωση του ιϊκού γονιδιώματος καθορίστηκε με ευθυγράμμιση αλληλουχιών με δύο αντιπροσωπευτικά είδη του γένους Betacoronavirus, έναν κορονοϊό που σχετίζεται με τον άνθρωπο (SARS-CoV Tor 2, GenBank: AY274119) και έναν κορονοϊό που σχετίζεται με νυχτερίδες (νυχτερίδα SL-CoVZC45, GenBank: MG772933).
Κανένα παθογόνο ιϊκό σωματίδιο που να σχετίζεται αποκλειστικά με την αλληλουχία MN908947.3 δεν ταυτοποιήθηκε και βιοχημικά χαρακτηρίστηκε από το δείγμα του ασθενούς. Αντίθετα, εξήχθη και επεξεργάστηκε συνολικό RNA από το BALF του ασθενούς. Δεν υπάρχουν στοιχεία που να αποδεικνύουν ότι χρησιμοποιήθηκαν μόνο ιϊκά νουκλεϊκά οξέα για την κατασκευή του ισχυριζόμενου ιϊκού γονιδιώματος για τον SARS-CoV-2. Επιπλέον, σε σχέση με την κατασκευή της ισχυριζόμενης ιϊκής αλληλουχίας, δεν έχουν δημοσιευθεί αποτελέσματα πιθανών πειραμάτων ελέγχου (control experiments). Αυτό ισχύει εξίσου για όλες τις άλλες αλληλουχίες αναφοράς που εξετάζονται στην παρούσα εργασία. Στην περίπτωση του SARS-CoV-2, ένας προφανής έλεγχος θα ήταν ότι η ισχυριζόμενη ιϊκή αλληλουχία δεν μπορεί να συναρμολογηθεί από ανυποψίαστες πηγές RNA ανθρώπινης, ή ακόμη και άλλης, προέλευσης.
Στην παρούσα εργασία, διερευνήσαμε την αναπαραγωγιμότητα των de novo συναρμολογήσεων χρησιμοποιώντας τα αρχικά δημοσιευμένα δεδομένα αλληλουχίας για την αρχική εργασία σχετικά με τον κορονοϊό SARS-CoV-2 [1]. Διερευνήσαμε περαιτέρω τη δομική ομοιότητα των παρόντων δεδομένων αλληλουχίας με άλλες διαθέσιμες στο κοινό ιϊκές αλληλουχίες αναφοράς για τον (νυχτερίδα) SARS-CoV [1, 7, 13, 14], τον Ιό Ανθρώπινης Ανοσοανεπάρκειας [8], τον Ιό Ηπατίτιδας Δέλτα [9], τον Ιό Ιλαράς [11, 12], τον Ιό Ζίκα [10], τον Ιό Έμπολα [15] και τον Ιό Marburg [16] (Πίνακες και Σχήματα: Πίνακας 3). Για τον σκοπό αυτό, παρουσιάζουμε εδώ ένα απλό πρωτόκολλο βιοπληροφορικής. Για να επικυρώσουμε τα αποτελέσματά μας, εξετάσαμε επίσης τυχαία παραγόμενες και φανταστικές αλληλουχίες για να αποκλείσουμε την καθαρή τυχαιότητα στα αποτελέσματά μας.
Κύριο μέρος
Ανανεωμένη de novo συναρμολόγηση δημοσιευμένων δεδομένων αλληλουχίας
Για να επαναλάβουμε τη de novo συναρμολόγηση, κατεβάσαμε τα αρχικά δεδομένα αλληλουχίας (SRR10971381) από 27/01/2020 στις 30/11/2021 χρησιμοποιώντας τα εργαλεία SRA [19] από το διαδίκτυο. Για να προετοιμάσουμε τις αλληλουχίες διπλού άκρου για το βήμα της συναρμολόγησης με το Megahit (v.1.2.9) [20], χρησιμοποιήσαμε τον προεπεξεργαστή FASTQ fastp (v.0.23.1) [21]. Μετά το φιλτράρισμα των αλληλουχιών διπλού άκρου, παρέμειναν 26,108,482 από το αρχικό σύνολο των 56,565,928 αλληλουχιών, με μήκος περίπου 150 bp. Ένα μεγάλο ποσοστό των αλληλουχιών, προφανώς η πλειονότητα αυτών που είναι ανθρώπινης προέλευσης, αντικαταστάθηκε από τους συγγραφείς με "N" για άγνωστο λόγο και επομένως φιλτραρίστηκε από το fastp. Αυτό θεωρείται προβληματικό από επιστημονική άποψη, καθώς δεν μπορούν να αναπαραχθούν ή να επανεξεταστούν όλα τα βήματα. Για τη λεπτομερή παραγωγή contigs από τις υπόλοιπες μικρές αλληλουχίες, χρησιμοποιήσαμε το Megahit (v.1.2.9) με τις προεπιλεγμένες ρυθμίσεις.
Αποκτήσαμε 28,459 (200 nt - 29,802 nt) contigs, σημαντικά λιγότερα από όσα περιγράφονται στο [1]. Σε απόκλιση από τις αναπαραστάσεις στο [1], το μεγαλύτερο contig που συναρμολογήσαμε είχε μήκος μόνο 29,802 nt, 672 nt λιγότερο από το μεγαλύτερο contig με 30,474 nt, που σύμφωνα με το [1] περιείχε σχεδόν ολόκληρο το ιϊκό γονιδίωμα. Το μεγαλύτερο contig μας έδειξε τέλεια ταύτιση με την αλληλουχία MN908947.3 σε μήκος 29,801 nt (Πίνακες και Σχήματα, Πίνακες 1, 2). Έτσι, δεν μπορέσαμε να αναπαράγουμε το μεγαλύτερο contig των 30,474 nt, το οποίο είναι τόσο σημαντικό για την επιστημονική επαλήθευση. Συνεπώς, τα δημοσιευμένα δεδομένα αλληλουχίας δεν μπορούν να είναι οι αρχικές αναγνώσεις που χρησιμοποιήθηκαν για τη συναρμολόγηση.
Μετά τη συναρμολόγηση των contigs, καθορίσαμε την αντίστοιχη πληρότητα κάλυψης αντιστοιχίζοντας τις μικρές αλληλουχίες στα 28,459 καθορισμένα contigs χρησιμοποιώντας το Bowtie2 (v.2.4.4) [22]. Στη συνέχεια αντιστοιχίσαμε τα 50 contigs με την υψηλότερη πληρότητα κάλυψης και τα 50 μεγαλύτερα contigs στη βάση δεδομένων νουκλεοτιδίων (Blastn) στις 05/12/2021 και 20/12/2021 αντίστοιχα. Τα αναλυτικά αποτελέσματα αναζήτησης μπορούν να βρεθούν στους Πίνακες και Σχήματα: Πίνακες 1, 2.
Μια σύγκριση των αποτελεσμάτων μας (Πίνακες και Σχήματα: Πίνακας 1) με αυτά από το [1, Συμπληρωματικός Πίνακας 1. Τα 50 πιο άφθονα συναρμολογημένα contigs που δημιουργήθηκαν χρησιμοποιώντας το πρόγραμμα Megahit.] δείχνουν αξιοσημείωτες διαφορές. Στο εξής, οι αναγνωριστικοί κωδικοί contig από το [1] προηγούνται από το "1_" για να διακριθούν καλύτερα από τους αναγνωριστικούς κωδικούς contig μας. Γενικά, μπορεί να ειπωθεί ότι οι αναζητήσεις μας σχετικά με τους αριθμούς πρόσβασης δεν ταιριάζουν ακριβώς με αυτές από το [1]. Σχετικά με τις περιγραφές των θεμάτων, παρατηρήσαμε καλή ταύτιση στο μεγαλύτερο μέρος. Επιπλέον, με εξαίρεση το μεγαλύτερο contig (1_k141_275316), τα contigs μας βρέθηκαν να έχουν μεγαλύτερο μήκος και τείνουν να έχουν μεγαλύτερη πληρότητα κάλυψης. Η περίπτωση είναι σαφής για το contig 1_k141_179411 σε σύγκριση με το contig k141_12253. Το πρώτο έχει μήκος 2,733 nt, ενώ το δεύτερο είναι 5,414 nt μακρύ. Αυτό παρέχει την πρώτη πιθανή ένδειξη ότι μη ειδική ενίσχυση αλληλουχιών που δεν σχετίζονται με τον SARS-CoV-2 συνέβη κατά την επιβεβαίωση PCR με εκκινητές που κατασκευάστηκαν για την MN908947.3 από το 1_k141_275316 (30.474 nt).
Σε αυτό το σημείο, το contig με τον αναγνωριστικό κωδικό k141_27232, με το οποίο σχετίζονται 1,407,705 αλληλουχίες, και επομένως περίπου το 5% των υπόλοιπων 26,108,482 αλληλουχιών, πρέπει να συζητηθεί λεπτομερώς. Η ευθυγράμμιση με τη βάση δεδομένων νουκλεοτιδίων στις 05/12/2021 έδειξε υψηλή ταύτιση (98.85%) με το "Homo sapiens RNA, 45S προ-ριβοσωμικό N4 (RNA45SN4), ριβοσωμικό RNA" (GenBank: NR_146117.1, με ημερομηνία 07/04/2020). Αυτή η παρατήρηση έρχεται σε αντίθεση με τον ισχυρισμό στο [1] ότι πραγματοποιήθηκε εξάντληση ριβοσωμικού RNA και οι ανθρώπινες αλληλουχίες φιλτραρίστηκαν χρησιμοποιώντας το ανθρώπινο γονιδίωμα αναφοράς (ανθρώπινη έκδοση 32, GRCh38.p13). Ιδιαίτερα αξιοσημείωτο είναι εδώ το γεγονός ότι η αλληλουχία NR_146117.1 δεν δημοσιεύτηκε παρά μετά τη δημοσίευση της βιβλιοθήκης αλληλουχίας SRR10971381 που εξετάζεται εδώ.
Η παρατήρηση αυτή τονίζει τη δυσκολία καθορισμού εκ των προτέρων της ακριβούς προέλευσης των μεμονωμένων θραυσμάτων νουκλεϊκού οξέος που χρησιμοποιούνται για την κατασκευή των ισχυριζόμενων ιϊκών αλληλουχιών γονιδιώματος.
Ανάλυση δομής αλληλουχίας βάσει αναφοράς
Βασικά, αντιστοιχίσαμε τις αλληλουχίες διπλού άκρου (2x151 bp) με το BBMap [23] στις αλληλουχίες αναφοράς που εξετάσαμε (Πίνακες και Σχήματα: Πίνακας 3) χρησιμοποιώντας σχετικά μη ειδικές ρυθμίσεις. Στη συνέχεια, διαφοροποιήσαμε το ελάχιστο μήκος (M1) και την ελάχιστη ταυτότητα νουκλεοτιδίων (M2) με το reformat.sh για να λάβουμε τα αντίστοιχα υποσύνολα των προηγουμένως αντιστοιχισμένων αλληλουχιών με την κατάλληλη ποιότητα. Η αύξηση του ελάχιστου μήκους M1 ή της ελάχιστης ταυτότητας νουκλεοτιδίων M2 αυξάνει τη σημασία της αντίστοιχης χαρτογράφησης. Στη συνέχεια, σχηματίσαμε συναίνεση αλληλουχιών με τα αντίστοιχα υποσύνολα επιλεγμένης ποιότητας σε σχέση με την επιλεγμένη αναφορά. Θέσαμε όλες τις βάσεις με ποιότητα μικρότερη από 20 ως "N" (άγνωστη). Μια “ποιότητα 20” σημαίνει ποσοστό σφάλματος 1% ανά νουκλεοτίδιο, το οποίο μπορεί να θεωρηθεί επαρκές στο πλαίσιο των αναλύσεών μας. Τέλος, η αξιολόγηση της συμφωνίας μεταξύ αναφοράς και αλληλουχιών συναίνεσης πραγματοποιήθηκε χρησιμοποιώντας BWA [24], Samtools [25], και Tablet [26].
Το ζευγάρι τιμών (M1; M2) = (37; 0,6) επιλέχθηκε για να δώσει ποσοστά σφάλματος F1 και F2, αντίστοιχα, μικρότερα από 10% για την αναφορά LC312715.1. Τα αποτελέσματα όλων των υπολογισμών που πραγματοποιήθηκαν φαίνονται στους Πίνακες και Σχήματα: Πίνακας 4.
Οι υπολογισμοί δείχνουν τη μεγαλύτερη σημασία για την επιλογή του ζεύγους τιμών (37; 0,6), που μπορεί να φανεί από τα υψηλότερα ποσοστά σφάλματος σε κάθε περίπτωση. Συγκρίσιμη σημασία παρέχουν τα ζεύγη τιμών (47; 0,50) και (25; 0,62). Ενώ οι αλληλουχίες γονιδιώματος που σχετίζονται με κοροναϊούς δείχνουν ποσοστά σφάλματος περίπου πάνω από 10% για όλα τα εξεταζόμενα ζεύγη τιμών (M1; M2), τα ποσοστά σφάλματος των δύο αλληλουχιών LC312715.1 (HIV) και NC_001653.2 (Ηπατίτιδα Δέλτα) είναι κάτω από 10% και μειώνονται περαιτέρω για τα ζεύγη τιμών (32; 0,60) και (30; 0,60).
Η αλληλουχία MG772933_short αποτελείται κυρίως από το μέρος που δεν μπορεί να καλυφθεί με τις αλληλουχίες που σχετίζονται με τον SARS-CoV-2 (βλέπε Πίνακες και Σχήματα: Σχήμα 3). Πάλι, δεν μπορούσε να επιτευχθεί βελτίωση με τη μείωση των τιμών για το M1 και το M2. Τα ποσοστά σφάλματος για τις αλληλουχίες NC_039345.1 (Ιός Έμπολα), NC_024781.1 (Ιός Marburg), AF266291.1 και KJ410048.1 (Ιός Ιλαράς) είναι σημαντικά υψηλότερα από αυτά για τις LC312715.1 και NC_001653.2. Ενώ οι νουκλεϊνικές αλληλουχίες που χρησιμοποιήθηκαν για τον υπολογισμό των πρώην γονιδιωμάτων καλλιεργήθηκαν σε κύτταρα Vero, οι νουκλεϊνικές αλληλουχίες που χρησιμοποιήθηκαν για τις LC312715.1 και NC_001653.2 προέρχονταν απευθείας από δείγματα ανθρώπινης προέλευσης (Πίνακες και Σχήματα: Πίνακας 3).
Επομένως, τίθεται το ερώτημα εάν αυτό το αποτέλεσμα οφείλεται σε δομικές διαφορές των αντίστοιχων πηγών νουκλεϊκών οξέων ή στα αντίστοιχα πρωτόκολλα αλληλούχισης που χρησιμοποιήθηκαν. Για παράδειγμα, η αντίστροφη τρανσκριπτάση που χρησιμοποιήθηκε για τη μετατροπή RNA σε cDNA ή οι αλληλουχίες εκκινητών που χρησιμοποιήθηκαν για ενίσχυση καθώς και οι κύκλοι ενίσχυσης θα μπορούσαν ενδεχομένως να οδηγήσουν σε διαφορές στις βιβλιοθήκες αλληλουχίας που λήφθηκαν.
Τα υψηλότερα ποσοστά σφάλματος F1 και F2 εμφανίζονται από τις τυχαία παραγόμενες φανταστικές αλληλουχίες γονιδιώματος rnd_uniform, rnd_wuhan, rnd_wh_mk_1 και rnd_wh_mk_2, έτσι τα αποτελέσματα που βρέθηκαν εδώ δεν είναι καθαρά τυχαία.
Γραφική ανάλυση των κατανομών κάλυψης και των μηκών αλληλουχιών
Μετά την παρατήρηση της δυνατότητας σχηματισμού αλληλουχιών συναίνεσης με υψηλή ποιότητα σε σχέση με ορισμένες αλληλουχίες αναφοράς, αναλύσαμε την κατανομή κάλυψης των σχετικών μικρών αλληλουχιών (Πίνακες και Σχήματα: Σχήματα 1-22) και την κατανομή των μηκών αλληλουχιών (Πίνακες και Σχήματα: Σχήματα 23-25). Για να το κάνουμε αυτό, προηγουμένως αντιστοιχίσαμε τις μικρές αλληλουχίες στις αντίστοιχες αλληλουχίες αναφοράς χρησιμοποιώντας το BBMap, ((M1; M2) = (37; 0,60)). Εκτός από τις μικρές αλληλουχίες, αντιστοιχίσαμε επίσης τα 26 ζεύγη εκκινητών [1, Συμπληρωματικός Πίνακας 8. Εκκινητές PCR που χρησιμοποιήθηκαν σε αυτήν την μελέτη.] για την αλληλούχιση ολόκληρου του γονιδιώματος του SARS-CoV-2 (GenBank: MN908947.3) στις αλληλουχίες αναφοράς που εξετάζονται. Η επακόλουθη ανάλυση πραγματοποιήθηκε μέσω Tablet και του προγράμματος υπολογιστικών φύλλων Excel.
Πρώτα, εξετάζουμε την τυχαία παραγόμενη αναφορά rnd_uniform. Συγκρίσιμες παρατηρήσεις ισχύουν για τις τυχαία παραγόμενες αλληλουχίες αναφοράς rnd_wuhan, rnd_wh_mk_1, και rnd_wh_mk_2 (Πίνακες και Σχήματα: Σχήματα 14-16).
Αναφορά - rnd_uniform
Μήκος γονιδιώματος
29.903
Αριθμός αλληλουχιών
46.288
Μέσο μήκος αλληλουχίας (Ø Read length)
41,96
P (Κάλυψη νουκλεοτιδίου)
0,00140307
Λάμδα
0,01539754
EN (Αναμενόμενη κάλυψη)
64,9454
VARN (Εκθετική κατανομή)
4.218
VARN (Περικομμένη 99,5%)
4.125
Καλυμμένα νουκλεοτίδια
29.903
Κάλυψη σε %
100,00%
Εκκινητής
Μήκος γονιδιώματος
29.903
Αριθμός αλληλουχιών
52
Μέσο μήκος αλληλουχίας (Ø Read length)
23,81
P (Κάλυψη νουκλεοτιδίου)
0,00079616
EN (Αναμενόμενη κάλυψη)
0,0414
VARN (Δυωνυμική κατανομή)
0,0414
Καλυμμένα νουκλεοτίδια
923
Κάλυψη σε %
3,09%
Ποσοστό σφάλματος σε %
36,70%
Σχήμα 13: Αναφορά rnd_uniform. α) rnd_uniform_reads χαρτογραφημένα χρησιμοποιώντας BBMap, (M1; M2) = (37; 0,60). β) rnd_uniform_primer χαρτογραφημένα χρησιμοποιώντας BBMap. γ) Η εκθετικά κατανεμημένη κάλυψη δημιουργήθηκε με στοχαστική προσομοίωση χρησιμοποιώντας τη μέθοδο αντιστροφής. δ) Τα 26 ζεύγη εκκινητών ([1, Συμπληρωματικός Πίνακας 8. Εκκινητές PCR που χρησιμοποιήθηκαν σε αυτή τη μελέτη.]) κατανέμονται άνισα σε όλο το γονιδίωμα αναφοράς. Οι θέσεις των εκκινητών συσχετίζονται μόνο αδύναμα με περιοχές υψηλής κάλυψης νουκλεοτιδίων, καλύπτοντας μόνο λίγα νουκλεοτίδια η κάθε μια. ε) Η κατανομή των rnd_uniform_reads φαίνεται σε μεγάλο βαθμό τυχαία. Η διακύμανση της εκθετικής κατανομής συμφωνεί καλά με την περικομμένη εμπειρική διακύμανση.
Η κάλυψη (rnd_uniform_reads) ποικίλλει τυχαία και σχετικά ομοιόμορφα σε όλες τις θέσεις νουκλεοτιδίων. Η δομή είναι συγκρίσιμη με την τυχαία παραγόμενη κάλυψη (εκθετικά κατανεμημένη κάλυψη), αν και η διακύμανση φαίνεται κάπως χαμηλότερη. Σε λίγες απομονωμένες θέσεις νουκλεοτιδίων, η κάλυψη δείχνει υψηλή κάλυψη σε σύγκριση με τη μέση τιμή, αλλά η καθεμία από αυτές καλύπτει μόνο λίγες συνεχόμενες περιοχές νουκλεοτιδίων. Η συσχέτιση με τις θέσεις των εκκινητών είναι μόνο αδύναμα εκφρασμένη. Η καθαρά τυχαία εμφανιζόμενη κάλυψη με τις μικρές αλληλουχίες συσχετίζεται με μια ασυνεχώς χαρτογραφημένη αλληλουχία συναίνεσης και υψηλό ποσοστό σφάλματος F1 38,60%. Έτσι, η τυχαία (εσωτερική) δομή νουκλεοτιδίων της στοχαστικά προσομοιωμένης αλληλουχίας αναφοράς "rnd_uniform" απουσιάζει μάλλον από τα εξεταζόμενα δεδομένα αλληλουχίας.
Αντίθετα, τώρα εξετάζουμε το γονιδίωμα αναφοράς για τον SARS-CoV-2 (GenBank: MN908947.3).
Αναφορά - MN908947.3
Μήκος γονιδιώματος
29.903
Αριθμός αλληλουχιών
121.779
Μέσο μήκος αλληλουχίας (Ø Read length)
145,56
P (Κάλυψη νουκλεοτιδίου)
0,00486776
EN (Αναμενόμενη κάλυψη)
592,7907
VARN (Δυωνυμική κατανομή)
589,9052
Καλυμμένα νουκλεοτίδια
29.903
Κάλυψη σε %
100,00%
Εκκινητής
Μήκος γονιδιώματος
29.903
Αριθμός αλληλουχιών
52
Μέσο μήκος αλληλουχίας (Ø Read length)
23,75
P (Κάλυψη νουκλεοτιδίου)
0,00079423
EN (Αναμενόμενη κάλυψη)
0,0413
VARN (Δυωνυμική κατανομή)
0,0413
Καλυμμένα νουκλεοτίδια
1.235
Κάλυψη σε %
4,13%
Ποσοστό σφάλματος σε %
0,00%
Σχήμα 1: Αναφορά MN908947.3. α) MN908947_reads χαρτογραφημένα με Bowtie2 χρησιμοποιώντας τις προεπιλεγμένες ρυθμίσεις.
β) MN908947_primer χαρτογραφημένα χρησιμοποιώντας BBMap. γ) Τα ποσοστά υπολογίστηκαν από EN και VARN υπό την υπόθεση κατανομής μιας δυωνυμικής κατανομής. δ) Τα 26 ζεύγη εκκινητών ([1], Συμπληρωματικός Πίνακας 8. Εκκινητές PCR που χρησιμοποιήθηκαν σε αυτήν τη μελέτη.) κατανέμονται ομοιόμορφα σε όλο το γονιδίωμα αναφοράς. Οι θέσεις των εκκινητών συσχετίζονται με περιοχές υψηλής κάλυψης νουκλεοτιδίων.
Σε αντίθεση με το Σχήμα 13, η κατανομή της κάλυψης δείχνει περισσότερο ένα κυματοειδές πρότυπο με τακτικά αυξημένες καλύψεις νουκλεοτιδίων. Τα 26 ζεύγη εκκινητών κατανέμονται ομοιόμορφα σε όλες τις θέσεις νουκλεοτιδίων της αλληλουχίας αναφοράς. Οι θέσεις των εκκινητών βρίσκονται συχνά κοντά σε θέσεις νουκλεοτιδίων με υψηλή κάλυψη νουκλεοτιδίων σε σύγκριση με τη μέση τιμή. Αυτό υποδεικνύει ότι δεν ενισχύθηκαν εξίσου όλα τα μέρη του γονιδιώματος αναφοράς. Υποθέτοντας ότι όλες οι 29.903 θέσεις νουκλεοτιδίων είναι εξίσου πιθανές να εμφανιστούν στις αλληλουχίες που σχετίζονται με τον SARS-CoV-2, η κάλυψη για κάθε θέση νουκλεοτιδίου θα πρέπει να βρίσκεται μεταξύ των δύο γραμμών με πιθανότητα 99,5% (υποθέτοντας μια δυωνυμική κατανομή). Αυτό δεν ισχύει για περίπου το 90% των θέσεων νουκλεοτιδίων. Εκ των προτέρων, θα περίμενε κανείς ότι εάν υπάρχει επαρκές ιϊκό RNA στο δείγμα και διαβάζονται επαρκή θραύσματα αλληλουχίας, θα επιτυγχανόταν ομοιογενής κάλυψη των νουκλεοτιδίων εντός του ιϊκού γονιδιώματος.
Το ακόλουθο διάγραμμα επιτρέπει τη μελέτη των κατανομών των μηκών αλληλουχίας των αναφορών που μόλις εξετάστηκαν (rnd_uniform και MN908947.3).
Σχήμα 23: α)-στ) Χαρτογραφημένα χρησιμοποιώντας BBMap, (M1; M2) = (37; 0,60). Ανάλυση στο Excel.
Σχήμα 23ε) δείχνει την κατανομή των μηκών αλληλουχίας στην περίπτωση της αναφοράς "rnd_uniform". Το μέσο μήκος αλληλουχίας είναι 41,96 nt, ελαφρώς δεξιά από το μέγιστο της κατανομής. Σε σύγκριση, η κατανομή για την αναφορά MN908947.3, Σχήμα 23α) δείχνει μια εξέχουσα (τυχαία) περιοχή παρόμοια με το Σχήμα 23ε) και μια διακριτή περιοχή με αλληλουχίες μήκους περίπου 150 nt. Το μέσο μήκος αλληλουχίας είναι πάνω από 110 nt. Όλες οι αλληλουχίες αναφοράς με συγκρίσιμη και επομένως μάλλον τυχαία κατανομή μηκών αλληλουχίας όπως στην στοχαστικά προσομοιωμένη αναφορά "rnd_uniform" (Πίνακες και Σχήματα: Σχήμα 23δ), στ); Σχήμα 24δ), ε), στ); Σχήμα 25α) - γ)) δείχνουν επίσης υψηλά ποσοστά σφάλματος F1 και F2 (Πίνακες και Σχήματα: Πίνακας 4).
Το εύρημα αυτό υπογραμμίζεται από την ακόλουθη ανάλυση. Για να κατανοήσουμε καλύτερα την εσωτερική δομή των δημοσιευμένων περίπου 56 εκατομμυρίων αλληλουχιών, εξετάσαμε την επιπρόσθετη συνθήκη maxlength=100 για την αλληλουχία MN908947.3 κατά τον σχηματισμό υποσυνόλων μετά τη χαρτογράφηση με το BBMap, εκτός από τις παραμέτρους M1 και M2.
Αναφορά - MN908947.3
Μήκος γονιδιώματος
29.903
Αριθμός αλληλουχιών
121.779
Μέσο μήκος αλληλουχίας (Ø Read length)
145,56
P(Κάλυψη νουκλεοτιδίου)
0,00486776
EN (Αναμενόμενη κάλυψη)
592,7907
VARN (Δυωνυμική κατανομή)
589,9052
Καλυμμένα νουκλεοτίδια
29.903
Κάλυψη σε %
100,00%
Αναφορά - MN908947.3 - Σύντομες αλληλουχίες
Μήκος γονιδιώματος
29.903
Αριθμός αλληλουχιών
59.949
Μέσο μήκος αλληλουχίας (Ø Read length)
46,24
P(Κάλυψη νουκλεοτιδίου)
0,00154643
Λάμδα
0,01078668
EN (Αναμενόμενη κάλυψη)
92,7070
VARN (Εκθετική κατανομή)
8.595
VARN (Περικομμένη 99,5%)
19.129
Καλυμμένα νουκλεοτίδια
29.903
Κάλυψη σε %
100,00%
Σχήμα 2: Αναφορά MN908947.3. α) MN908947_reads χαρτογραφημένα με Bowtie2 χρησιμοποιώντας τις προεπιλεγμένες ρυθμίσεις.
β) MN908947_short_reads χαρτογραφημένα με BBMap, (M1; M2) = (37 (μέγιστο 100); 0.60). γ) Η εκθετικά κατανεμημένη κάλυψη δημιουργήθηκε με στοχαστική προσομοίωση χρησιμοποιώντας τη μέθοδο αντιστροφής. Η κατανομή κάλυψης MN908947_short_reads δείχνει ένα πιο τυχαίο μοτίβο, αλλά έχει υψηλότερη περικομμένη διακύμανση. Αυτό οφείλεται κυρίως στις λίγες ταλαντώσεις στην κατανομή κάλυψης.
Με την εξαίρεση όλων των χαρτογραφημένων αλληλουχιών μεγαλύτερων από 100 νουκλεοτίδια, ουσιαστικά αφαιρέθηκαν οι περίπου 120.000 αλληλουχίες που σχετίζονται με τον SARS-CoV-2. Η κατανομή κάλυψης των υπόλοιπων σύντομων αλληλουχιών εμφανίζεται τώρα τυχαία, αναλογικά με το Σχήμα 13. Και πάλι, αυτό συσχετίζεται με υψηλά ποσοστά σφάλματος R1 (29,90%) και R2 (29,96%). Αυτό υποδεικνύει ότι καμία σημαντική δομή της αναφοράς MN908947.3 δεν περιλαμβάνεται στις δημοσιευμένες αλληλουχίες, εκτός από τις περίπου 120.000 (Πίνακες και Σχήματα. Πίνακας 1) σχετικές σύντομες αλληλουχίες.
Πριν εξετάσουμε λεπτομερώς μερικά από τα γονιδιώματα αναφοράς που εξετάσαμε, θα θέλαμε πρώτα να δούμε την κάλυψη δύο άλλων contigs k141_12253 και k141_20796. Ενώ το contig που αναγνωρίζεται ως k141_12253 χαρακτηρίζεται από σχετικά υψηλή κάλυψη, το k141_20796 είναι μεταξύ των τριών μακρύτερων contigs που υπολογίστηκαν.
Αναφορά - k141_12253
Μήκος γονιδιώματος
5.414
Αριθμός αλληλουχιών
213.744
Μέσο μήκος αλληλουχίας (Ø Read length)
142,04
P(Κάλυψη νουκλεοτιδίου)
0,02623561
EN (Αναμενόμενη κάλυψη)
5607,7039
VARN (Δυωνυμική κατανομή)
5460,5824
Καλυμμένα νουκλεοτίδια
5.414
Κάλυψη σε %
100,00%
Εκκινητής
Μήκος γονιδιώματος
5.414
Αριθμός αλληλουχιών
38
Μέσο μήκος αλληλουχίας
22,82
P(Κάλυψη νουκλεοτιδίου)
0,00421422
EN (Αναμενόμενη κάλυψη)
0,1601
VARN (Δυωνυμική κατανομή)
0,1595
Καλυμμένα νουκλεοτίδια
812
Κάλυψη σε %
15,00%
Ποσοστό σφάλματος σε %
37,30%
Σχήμα 18: Αναφορά k141_12253. α) k141_12253_reads χαρτογραφημένα με Bowtie2 χρησιμοποιώντας τις προεπιλεγμένες ρυθμίσεις.
β) k141_12253_primer χαρτογραφημένα με BBMap.
Το contig k141_12253 δείχνει υψηλή ομοιότητα με το βακτήριο Leptotrichia (GenBank: CP012410.1). Από τις 52 δημοσιευμένες αλληλουχίες εκκινητών, 38 μπορούσαν να χαρτογραφηθούν στην αναφορά k141_12253 με σχετικά υψηλό ποσοστό σφάλματος 37,30%. Η κατανομή κάλυψης αποδεικνύεται εξαιρετικά ανισομερής και δείχνει, ιδιαίτερα μέσα στα πρώτα 500 νουκλεοτίδια, εξαιρετικά υψηλή κάλυψη νουκλεοτιδίων σε σύγκριση με τη μέση τιμή. Οι περιοχές με υψηλή κάλυψη συσχετίζονται με τις καθορισμένες θέσεις των εκκινητών. Αυτό θα μπορούσε να υποδεικνύει ότι δεν ενισχύθηκαν αποκλειστικά οι αλληλουχίες που σχετίζονται με τον SARS-CoV-2 σε μεγάλες ποσότητες. Λαμβάνοντας υπόψη το σχετικά υψηλό ποσοστό σφάλματος 37,30%, αυτό θα υπονοούσε μια σχετικά μη ειδική ενίσχυση. Έτσι, προκύπτει το ερώτημα εάν οι αλληλουχίες που ελήφθησαν με την ενίσχυση του cDNA με τις συγκεκριμένες αλληλουχίες εκκινητών ήταν ήδη παρούσες στο αρχικό δείγμα ή δημιουργήθηκαν από τη διαδικασία αυτή καθ' αυτή.
Αναφορά - k141_20796
Μήκος γονιδιώματος
13.656
Αριθμός αλληλουχιών
10.287
Μέσο μήκος αλληλουχίας (Ø Read length)
142,11
P(Κάλυψη νουκλεοτιδίου)
0,01040648
EN (Αναμενόμενη κάλυψη)
107,0515
VARN (Δυωνυμική κατανομή)
105,9374
Καλυμμένα νουκλεοτίδια
13.645
Κάλυψη σε %
99,92%
Εκκινητής
Μήκος γονιδιώματος
13.656
Αριθμός αλληλουχιών
47
Μέσο μήκος αλληλουχίας
23,49
P(Κάλυψη νουκλεοτιδίου)
0,00172008
EN (Αναμενόμενη κάλυψη)
0,0808
VARN (Δυωνυμική κατανομή)
0,0807
Καλυμμένα νουκλεοτίδια
1.053
Κάλυψη σε %
7,71%
Ποσοστό σφάλματος σε %
35,80%
Σχήμα 21: Αναφορά k141_20796. α) k141_20796_reads χαρτογραφημένα με Bowtie2 χρησιμοποιώντας τις προεπιλεγμένες ρυθμίσεις.
β) k141_20796_primer χαρτογραφημένα με BBMap.
Το contig k141_20796, το οποίο έχει υψηλή ομοιότητα με το βακτήριο Veillonella parvula (GenBank: LR778174.1), δείχνει χαμηλότερη κάλυψη με σχετικές αλληλουχίες σε σύγκριση με το contig με την ταυτότητα k141_12253. Η δομή κάλυψης των νουκλεοτιδίων είναι παρόμοια με αυτή του SARS-CoV-2 (GenBank: MN908947.3). Αξιοσημείωτο είναι ότι η κάλυψη είναι και πάλι ανόμοια, υποδεικνύοντας άνιση ενίσχυση. Λόγω του μεγαλύτερου μήκους νουκλεοτιδίων, 47 από τις 52 δημοσιευμένες αλληλουχίες εκκινητών μπορούσαν τώρα να χαρτογραφηθούν στο αναφορικό contig με μέσο ποσοστό σφάλματος 35,80%. Και πάλι, οι θέσεις των εκκινητών συσχετίζονται καλά με περιοχές υψηλής κάλυψης νουκλεοτιδίων. Αυτό θα μπορούσε και πάλι να υποδεικνύει μη συγκεκριμένη/ειδική ενίσχυση αλληλουχιών που δεν σχετίζονται με τον SARS-CoV-2 (GenBank: MN908947.3).
Στην παρούσα ενότητα, θα συζητήσουμε με περισσότερες λεπτομέρειες τις αλληλουχίες αναφοράς "Ιός της ανθρώπινης ανοσοανεπάρκειας 1" (GenBank: LC312715.1) και "Ιός ιλαράς γονότυπος D8 στέλεχος MVi/Muenchen" (GenBank: KJ410048.1). Όλες οι άλλες εικόνες μπορούν να βρεθούν στα συμπληρωματικά υλικά (Πίνακες και Σχήματα: Εικόνες 1-22 και Εικόνες 23-25).
Αναφορά - LC312715.1
Μήκος γονιδιώματος
8.819
Αριθμός αλληλουχιών
65.196
Μέσο μήκος αλληλουχίας (Ø Read length)
51,84
P(Κάλυψη νουκλεοτιδίου)
0,00587873
EN (Αναμενόμενη κάλυψη)
383,2696
VARN (Δυωνυμική κατανομή)
381,0165
Καλυμμένα νουκλεοτίδια
8.819
Κάλυψη σε %
100,00%
Εκκινητής
Μήκος γονιδιώματος
8.819
Αριθμός αλληλουχιών
46
Μέσο μήκος αλληλουχίας
23,54
P(Κάλυψη νουκλεοτιδίου)
0,00266963
EN (Αναμενόμενη κάλυψη)
0,1228
VARN (Δυωνυμική κατανομή)
0,1225
Καλυμμένα νουκλεοτίδια
1.031
Κάλυψη σε %
11,69%
Ποσοστό σφάλματος σε %
38,00%
Σχήμα 6: Αναφορά LC312715.1. α) LC312715.1_short_reads χαρτογραφημένα με το BBMap, (M1; M2) = (37; 0,60). β) LC312715.1_primer χαρτογραφημένα με το BBMap.
Ήδη στην προηγούμενη ενότητα, παρουσιάστηκε υψηλή δομική ομοιότητα των δημοσιευμένων αλληλουχιών με την αλληλουχία αναφοράς LC312715.1. Η υπολογισμένη συναίνεση αλληλουχίας έδειξε σχετικά χαμηλότερα ποσοστά σφάλματος R1 = 8,60% και R2 = 8,83% σε σύγκριση με π.χ. τις αναφορές που σχετίζονται με τον SARS. Το Σχήμα 6 δείχνει σαφείς διαφορές σε σχέση με το Σχήμα 13. Η κατανομή της κάλυψης δείχνει επίσης περισσότερο ένα μοτίβο κυματισμών με σχετικά τακτικές περιοχές ιδιαίτερα υψηλής κάλυψης και επομένως είναι σαφώς διαφορετική από την κατανομή κάλυψης της τυχαίας αναφοράς "rnd_uniform". Η κατανομή των μηκών ανάγνωσης (Σχήμα 23β), σύγκριση και με το γ)) διαφέρει επίσης σημαντικά από τις πιο τυχαίες κατανομές και δείχνει σημαντικό αριθμό χαρτογραφήσιμων αναγνώσεων με μήκη έως περίπου 110 nt. Το μέσο μήκος ανάγνωσης των 51,84 nt είναι επίσης μεγαλύτερο από ό,τι για το "rnd_uniform", για παράδειγμα.
Και πάλι, είναι ενδιαφέρον να σημειωθεί η θέση των αλληλουχιών εκκινητών σε σχέση με περιοχές υψηλής κάλυψης νουκλεοτιδίων σε σύγκριση με τη μέση κάλυψη. Συνολικά, 46 από τις 52 αλληλουχίες εκκινητών μπορούσαν να αποδοθούν στην αναφορά που εξετάζεται εδώ με ποσοστό σφάλματος 38,00%. Το Σχήμα 6 υποδηλώνει ότι οι σύντομες αλληλουχίες που σχετίζονται με την αναφορά LC312715.1 ενισχύθηκαν επίσης κατά την επιβεβαίωση PCR, παρά το γεγονός ότι οι αλληλουχίες εκκινητών μπορούσαν να αποδοθούν στην αναφορά μόνο με σχετικά υψηλό ποσοστό σφάλματος.
Τέλος, ας στραφούμε στην αναφορά KJ410048.1 (ιός ιλαράς).
Αναφορά - KJ410048.1
Μήκος γονιδιώματος
15.894
Αριθμός αλληλουχιών
42.849
Μέσο μήκος αλληλουχίας (Ø Read length)
42,38
P(Κάλυψη νουκλεοτιδίου)
0,00266641
EN (Αναμενόμενη κάλυψη)
114,2528
VARN (Δυωνυμική κατανομή)
113,9482
Καλυμμένα νουκλεοτίδια
15.894
Κάλυψη σε %
100,00%
Εκκινητής
Μήκος γονιδιώματος
15.894
Αριθμός αλληλουχιών
49
Μέσο μήκος αλληλουχίας
23,33
P(Κάλυψη νουκλεοτιδίου)
0,00146763
EN (Αναμενόμενη κάλυψη)
0,0719
VARN (Δυωνυμική κατανομή)
0,0718
Καλυμμένα νουκλεοτίδια
1.115
Κάλυψη σε %
7,02%
Ποσοστό σφάλματος σε %
35,10%
Σχήμα 10: Αναφορά KJ410048.1. α) KJ410048.1_short_reads χαρτογραφημένα με το BBMap, (M1; M2) = (37; 0,60). β) KJ410048.1_primer χαρτογραφημένα με το BBMap.
Η κατανομή της κάλυψης διαφέρει σημαντικά από αυτή στο Σχήμα 6 και δείχνει ομοιότητες με την κατανομή των σχετικών αλληλουχιών για το "rnd_uniform", με λιγότερη μεταβολή σε περιοχές χαμηλής κάλυψης. Η κατανομή των μηκών ανάγνωσης (Πίνακες και Σχήματα: Σχήμα 24δ)) καθώς και το μέσο μήκος ανάγνωσης των 42,38 είναι συγκρίσιμα με τα δεδομένα του "rnd_uniform" και επίσης συσχετίζονται με σχετικά υψηλά ποσοστά σφάλματος F1=28,70% και F2=28,79%.
Συζήτηση και προοπτική
Εξετάσαμε δημοσιευμένα δεδομένα αλληλουχιών (αριθμός πρόσβασης BioProject PRJNA603194 στη βάση δεδομένων Sequence Read Archive (SRA) του NCBI) για την αλληλουχία γονιδιώματος του SARS-CoV-2 (GenBank: MN908947.3) χρησιμοποιώντας μια απλή βιοπληροφοριακή προσέγγιση. Οι μέθοδοι που χρησιμοποιήσαμε δεν είναι ειδικές για τον SARS-CoV-2 και μπορούν να εφαρμοστούν σε άλλα δεδομένα αλληλουχίας χωρίς ειδικές τροποποιήσεις.
Πρώτον, επαναλάβαμε τη δημιουργία contig με το Megahit (v.1.2.9) χρησιμοποιώντας τα διαθέσιμα δεδομένα αλληλουχίας και λάβαμε σημαντικά διαφορετικά αποτελέσματα σε σύγκριση με τις αναπαραστάσεις στο [1]. Ιδιαίτερα, δεν καταφέραμε να αναπαραγάγουμε το μεγαλύτερο contig με μήκος 30.474 nt, το οποίο σύμφωνα με [1] περιλάμβανε σχεδόν ολόκληρο το ιϊκό γονιδίωμα και χρησίμευσε ως βάση για τον σχεδιασμό εκκινητών. Αντιθέτως, το μεγαλύτερο contig που δημιουργήσαμε (29.802 nt) έδειξε σχεδόν πλήρη αντιστοιχία με την αναφορά MN908947.3. Συνεπώς, τα δημοσιευμένα δεδομένα αλληλουχίας δεν μπορούν να είναι οι αρχικές σύντομες αναγνώσεις που χρησιμοποιήθηκαν για τη δημιουργία του contig. Αυτό θεωρείται εξαιρετικά προβληματικό στο πλαίσιο των επιστημονικών δημοσιεύσεων, καθώς με αυτόν τον τρόπο δεν είναι πλέον δυνατόν να επαληθευτούν τα δημοσιευμένα αποτελέσματα. Η δυνατότητα επαλήθευσης των δημοσιευμένων επιστημονικών υποθέσεων είναι η ουσία της ζωντανής επιστήμης.
Αντίθετα με όσα αναφέρθηκαν στο [1], μπορεί να βρήκαμε contigs με υψηλή κάλυψη που σχετίζονται με (ριβοσωμικά) ριβονουκλεϊκά οξέα ανθρώπινης προέλευσης. Έτσι, είναι πιθανό ότι δεν εξαλείφθηκαν όλα τα νουκλεϊκά οξέα που σχετίζονται με τον άνθρωπο κατά την κατασκευή του SARS-CoV-2. Επιπλέον, δεν παρέχεται καμία απόδειξη για την παρουσία ιϊκών νουκλεϊκών οξέων στο δείγμα του ασθενούς και, συνεπώς, υπάρχει πιθανότητα ότι θραύσματα ανθρώπινων ή μη ιϊκών νουκλεϊκών οξέων χρησιμοποιήθηκαν για την κατασκευή της υποτιθέμενης ιϊκής αλληλουχίας MN908947.3 σε σημαντικό βαθμό χωρίς ανίχνευση. Αυτή η πιθανότητα θα πρέπει να αποκλειστεί με ελεγχόμενα πειράματα (control experiments).
Σε όλες τις δημοσιεύσεις για τα γονιδιώματα αναφοράς που αναλύθηκαν σε αυτή τη μελέτη, δεν παρέχονται επίσης τα απαραίτητα στοιχεία για την ακριβή προέλευση των θραυσμάτων αλληλουχίας που χρησιμοποιήθηκαν για την κατασκευή και δεν δημοσιεύθηκαν τα απαραίτητα ελεγχόμενα πειράματα.
Θα θέλαμε να αναφέρουμε εδώ ότι τα ελεγχόμενα πειράματα μπορεί να έχουν ήδη εκτελεστεί πολλές φορές χωρίς να έχουν γίνει αντιληπτά, γεγονός που δείχνει την πιθανότητα κατασκευής γονιδιωμάτων SARS-CoV-2 από μη μολυσματικά ανθρώπινα δείγματα. Για παράδειγμα, η ολική αλληλούχιση γονιδιώματος από δείγματα με βασική τιμή Ct μεγαλύτερη από 35 αναφέρεται στο [5] και [17]. Αυτό θα μπορούσε να να αποτελέσει διάψευση του ιϊκού μοντέλου για τον SARS-CoV-2.
Η ανάλυση των κατανομών κάλυψης νουκλεοτιδίων καθώς και των κατανομών μήκους των χαρτογραφούμενων αναγνώσεων αλληλουχίας για τις αντίστοιχες αλληλουχίες αναφοράς οδηγεί στην υπόθεση μιας πιθανής ακούσιας ενίσχυσης αναγνώσεων αλληλουχίας που δεν σχετίζονται με τον SARS-CoV-2. Επιπλέον, μαζί με αυτό, πρέπει να ληφθεί υπόψη η πιθανότητα τυχαίας δημιουργίας αλληλουχιών που δεν υπήρχαν στο αρχικό δείγμα αλλά δημιουργήθηκαν μόνο από τις συνθήκες ενίσχυσης, όπως οι αλληλουχίες εκκινητών που χρησιμοποιήθηκαν και ο αριθμός των κύκλων που εκτελέστηκαν. Αυτή η πιθανότητα απαιτεί επομένως την εκτέλεση κατάλληλων ελεγχόμενων πειραμάτων.
Εκτός από την προσπάθεια επανάληψης της συναρμολόγησης που δημοσιεύθηκε στο [1] με τις δημοσιευμένες αναγνώσεις αλληλουχίας, εξετάσαμε μια απλή προσέγγιση για την ανάλυση της εσωτερικής δομής μεγάλων συνόλων δεδομένων σύντομων αναγνώσεων αλληλουχίας. Με τα δεδομένα αλληλουχίας που είχαμε στη διάθεσή μας, μπορέσαμε να υπολογίσουμε αλληλουχίες συναίνεσης για τα γονιδιώματα αναφοράς LC312715.1 (HIV) και NC_001653.2 (Ιός Δέλτα της Ηπατίτιδας) με υψηλότερη ποιότητα από αυτές των γονιδιωμάτων αναφοράς που θεωρήσαμε ότι σχετίζονται με κορονοϊούς. Αυτό ίσχυε ιδιαίτερα για το bat-SL-CoVZC45 (GenBank: MG772933.1), το οποίο οδήγησε στην υπόθεση προέλευσης του SARS-CoV-2. Έτσι, μπορέσαμε να τεκμηριώσουμε την υπόθεσή μας ότι οι υποτιθέμενες ιϊκές αλληλουχίες γονιδιώματος είναι παρανοήσεις/παρερμηνείες με την έννοια ότι έχουν κατασκευαστεί ή κατασκευάζονται απαρατήρητες από μη ιϊκά θραύσματα νουκλεϊκών οξέων. Ιδιαίτερα, τα αποτελέσματά μας τονίζουν την επείγουσα ανάγκη εκτέλεσης κατάλληλων ελεγχόμενων πειραμάτων. Για κάθε υποψήφια παθογόνα ιϊκή αλληλουχία γονιδιώματος, ένα προφανές πρωτόκολλο θα ήταν να επιχειρηθεί η συναρμολόγηση των αλληλουχιών γονιδιώματος από αντίστοιχα μη ύποπτα δείγματα χρησιμοποιώντας τα ίδια πρωτόκολλα.
Παρατηρήσαμε υψηλά ποσοστά σφάλματος R1 και R2 στα γονιδιώματα αναφοράς για την ιλαρά, τον Έμπολα ή τον Marburg, όπου τα θραύσματα νουκλεϊκών οξέων που χρησιμοποιήθηκαν για την κατασκευή πολλαπλασιάστηκαν σε κύτταρα Vero. Παραμένει ανοιχτό ερώτημα μέχρι στιγμής αν αυτό οφείλεται στις ίδιες τις πηγές νουκλεϊκών οξέων ή στις συνθήκες ενίσχυσης που χρησιμοποιήθηκαν (π.χ. αλληλουχίες εκκινητών και αριθμός κύκλων) ή στα πρωτόκολλα αλληλούχισης (π.χ. τις πολυμεράσες και τις ανάστροφες τρανσκριπτάσες που χρησιμοποιήθηκαν).
Όσον αφορά τα αποτελέσματά μας, εκτός από τη δημοσίευση των τελικών δεδομένων αλληλουχίας που χρησιμοποιήθηκαν, συνιστούμε πάντα τη δημοσίευση δεδομένων αλληλουχίας που προέκυψαν μόνο από ενίσχυση με τυχαίους εξάμερους και μέτριους αριθμούς κύκλων για την παροχή όσο το δυνατόν πιο αμερόληπτων δεδομένων για τη δομική ανάλυση.
Υλικά και μέθοδοι
Βάθος κάλυψης μιας αλληλουχίας αναφοράς με σύντομες αναγνώσεις αλληλουχίας
Ας συμβολίσουμε με 𝐺 το μήκος της αλληλουχίας αναφοράς, με Ø𝐿 το μέσο μήκος ανάγνωσης, με 𝑛 τον αριθμό των σύντομων αναγνώσεων αλληλουχίας και με 𝑁 το τυχαίο μέσο βάθος κάλυψης της αλληλουχίας αναφοράς με τις σύντομες αναγνώσεις αλληλουχίας. Τότε
𝐸𝑁 = 𝑛 ⋅
Ø𝐿
𝐺
Η έκφραση Ø𝐿 μπορεί να θεωρηθεί ως η πιθανότητα κάλυψης ενός νουκλεοτιδίου εντός
𝐺
της αλληλουχίας αναφοράς με μια σύντομη ανάγνωση αλληλουχίας.
Δημιουργία τυχαίων αλληλουχιών αναφοράς
Το ακόλουθο θεώρημα επιτρέπει την προσομοίωση μιας τυχαίας μεταβλητής 𝑋 με σωρευτική συνάρτηση κατανομής 𝐹.
Θεώρημα (Αρχή Αντιστροφής) [28]. Έστω 𝑈 μια τυχαία μεταβλητή που κατανέμεται ομοιόμορφα στο διάστημα (0,1). Έστω 𝑋 μια τυχαία μεταβλητή με σωρευτική συνάρτηση κατανομής 𝐹 και έστω
𝐹−1(𝑦) ≔ inf {𝑥 ∈ ℝ|𝐹(𝑥) ≥ 𝑦}.
Τότε ισχύει
𝐹−1(𝑈) ~ 𝑋.
Έστω 𝑈𝑖, 𝑖 = 1, … ,29.903 ανεξάρτητες, πανομοιότυπα κατανεμημένες τυχαίες μεταβλητές στο διάστημα (0,1). Έστω 𝑝𝑛𝑡, 𝑛𝑡 ∈ {𝐴, 𝑇, 𝐶, 𝐺} η πιθανότητα για το νουκλεοτίδιο
𝑛𝑡. Τότε το νουκλεοτίδιο 𝑁𝑖, 𝑖 = 1, … ,29.903 της τυχαία δημιουργημένης αλληλουχίας αναφοράς λαμβάνεται μέσω
𝑁𝑖
𝐴, 0 < 𝑈𝑖 ≤ 𝑝𝐴,
= {𝑇, 𝑝𝐴 < 𝑈𝑖 ≤ 𝑝𝐴 + 𝑝𝑇,
𝐶, 𝑝𝐴 + 𝑝𝑇 < 𝑈𝑖 ≤ 𝑝𝐴 + 𝑝𝑇 + 𝑝𝐶,
𝐺, 𝑝𝐴 + 𝑝𝑇 + 𝑝𝐶 < 𝑈𝑖 < 1.
Για την αλληλουχία αναφοράς "rnd_uniform", χρησιμοποιήθηκε η ομοιόμορφη κατανομή στο σύνολο {𝐴, 𝑇, 𝐶, 𝐺}. Για την προσομοίωση της τυχαίας αλληλουχίας αναφοράς "rnd_wuhan", επιλέχθηκε η σχετική εμφάνιση των νουκλεοτιδίων A, T, C και G στη γονιδιωματική αλληλουχία του SARS-CoV-2 (GenBank: MN908947.3) ως κατανομή των νουκλεοτιδίων. Στην κατασκευή των τυχαίων αλληλουχιών αναφοράς "rnd_wh_mk_1" και "rnd_wh_mk_2", η υπό όρους πιθανότητα, υπό την προϋπόθεση του τελευταίου και των τελευταίων δύο νουκλεοτιδίων, αντίστοιχα, επιλέχθηκε σύμφωνα με τις αντίστοιχες εμπειρικές συχνότητες στην αλληλουχία του SARS-CoV-2 (GenBank: MN908947.3).
Στοχαστική προσομοίωση τυχαίων καλύψεων μιας αλληλουχίας αναφοράς
Η σωρευτική συνάρτηση κατανομής της εκθετικής κατανομής με παράμετρο 𝜆 είναι [28],
𝐹(𝑥) = {1 − 𝑒−𝜆⋅𝑥, 𝑥 > 0,
0, 𝑥 ≤ 0.
Έστω 𝑋 μια τυχαία μεταβλητή με συνάρτηση κατανομής 𝐹. Τότε 𝐸𝑋 = 1
𝜆
και 𝑉𝐴𝑅𝑋 = 1
𝜆2
ισχύουν.
Βιοπληροφορικές μέθοδοι (δομική ανάλυση)
Χαρτογράφηση χρησιμοποιώντας το BBMap
bbmap.sh ref=$reference.fasta
mapPacBio.sh in=SRR10971381_1.fastq in2=SRR10971381_2.fastq outm=mapped.sam vslow k=8 maxindel=0 minratio=0.1
Επιλογή των χαρτογραφημένων αλληλουχιών ανάλογα με τα M1 και M2 χρησιμοποιώντας το BBMap (reformat.sh)
reformat.sh in=mapped.sam out=sample_selection.sam minlength=$M1 (maxlength=100) idfilter=$M2 ow=t
Υπολογισμός της αλληλουχίας συναίνεσης
Προετοιμασία χρησιμοποιώντας το Samtools
samtools view -b sample_selection.sam > sample.bam samtools sort sample.bam -o sample_sort_reads.bam samtools index sample_sort_reads.bam
Καθορισμός της προκαταρκτικής αλληλουχίας συναίνεσης
samtools mpileup -uf mapping/$reference.fasta sample_sort_reads.bam | bcftools call -c | vcfutils.pl vcf2fq > SAMPLE_cns.fastq
Καθορισμός της τελικής αλληλουχίας συναίνεσης (min. Q20)
seqtk seq -aQ64 -q20 -n N sample_cns.fastq > sample_cns.fasta
Χαρτογράφηση της αλληλουχίας συναίνεσης στην αλληλουχία αναφοράς χρησιμοποιώντας το BWA.
bwa index $reference.fasta
bwa mem $reference.fasta sample_cns.fasta > sample_cns.sam
Αξιολόγηση με το Tablet και το Excel
Η αξιολόγηση έγινε χρησιμοποιώντας το λογισμικό Tablet για την απεικόνιση δεδομένων αλληλουχίας και το πρόγραμμα υπολογιστικών φύλλων Excel.
Βιβλιογραφικές αναφορές
Fan Wu u. a. A new coronavirus associated with human respiratory disease in China. In: Nature 580.7803 (2020). DOI: 10.1038/s41586-020-2202-3.
Na Zhu u. a. A Novel Coronavirus from Patients with Pneumonia in China, 2019. In: New England Journal of Medicine 382.8 (2020), S. 727-733. DOI:10.1056/nejmoa2001017.
Divinlal Harilal u. a. SARS-CoV-2 Whole Genome Amplication and Sequencing for Effective Population-Based Surveillance and Control of Viral Transmission. In: Clinical Chemistry 66.11 (2020), S. 1450-1458. DOI: 10.1093/clinchem/hvaa187.
Jalees A. Nasir u. a. A Comparison of Whole Genome Sequencing of SARSCoV-2 Using Amplicon-Based Sequencing, Random Hexamers, and Bait Capture. In: Viruses 12.8 (2020), S. 895. DOI: 10.3390/v12080895.
Clinton R. Paden u. a. Rapid, sensitive, full-genome sequencing of severe acute respiratory syndrome coronavirus 2. In: Emerging Infectious Diseases 26.10 (2020), S. 2401-2405. DOI: 10.3201/eid2610.201800.
Sureshnee Pillay u. a. Whole Genome Sequencing of SARS-CoV-2: Adapting Illumina Protocols for Quick and Accurate Outbreak Investigation during a Pandemic. In: Genes 11.8 (2020), S. 949. DOI: 10.3390/genes11080949.
Dan Hu u. a. Genomic characterization and infectivity of a novel SARS-like coronavirus in Chinese bats. In: Emerging Microbes & Infections 7.1 (2018), S. 1-10. DOI: 10.1038/s41426-018-0155-5.
Davaalkham Jagdagsuren u. a. The second molecular epidemiological study of HIV infection in Mongolia between 2010 and 2016. In: Plos One 12.12 (2017). DOI: 10.1371/journal.pone.0189605.
J. A. Saldanha, H. C. Thomas und J. P. Monjardino. Cloning and sequencing of RNA of hepatitis delta virus isolated from human serum. In: Journal of General Virology 71.7 (1990), S. 1603-1606. DOI: 10.1099/0022-1317-71-7-1603.
Jernej Mlakar u. a. Zika Virus Associated with Microcephaly. In: New England Journal of Medicine 374.10 (2016), S. 951-958. DOI: 10.1056 /nejmoa1600651.
Christopher L. Parks u. a. Comparison of Predicted Amino Acid Sequences of Measles Virus Strains in the Edmonston Vaccine Lineage. In: Journal of Virology 75.2 (2001), S. 910-920. DOI: 10.1128/jvi.75.2.910-920.2001.
Konstantin M. J. Sparrer u. a. Complete Genome Sequence of a Wild-Type Measles Virus Isolated during the Spring 2013 Epidemic in Germany. In: Genome Announcements 2.2 (2014). DOI: 10.1128/genomea.00157-14.
13. Paul A. Rota u. a. Characterization of a Novel Coronavirus Associated with Severe Acute Respiratory Syndrome. In: Science 300.5624 (2003), S. 1394- 1399. DOI: 10.1126/science.1085952.
Runtao He u. a. Analysis of multimerization of the SARS coronavirus nucleocapsid protein. In: Biochemical and Biophysical Research Communications 316.2 (2004), S. 476-483. DOI: 10.1016/j.bbrc.2004.02.074.
Tracey Goldstein u. a. The discovery of Bombali virus adds further support for bats as hosts of ebolaviruses. In: Nature Microbiology 3.10 (2018), S. 1084- 1089. DOI: 10.1038/s41564-018-0227-2.
Jonathan S. Towner u. a. Marburgvirus Genomics and Association with a Large Hemorrhagic Fever Outbreak in Angola. In: Journal of Virology 80.13 (2006), S. 6497-6516. DOI: 10.1128/jvi.00069-06.
Annika Brinkmann u. a. Amplicov: Rapid whole-genome sequencing using multiplex PCR amplication and real-time Oxford Nanopore minion sequencing enables rapid variant identication of SARS-COV-2. In: Frontiers in Microbiology 12 (2021). DOI: 10.3389/fmicb.2021.651151.
SARS-COV-2. url: https://artic.network/ncov-2019.
Ncbi. ncbi/sra-tools: SRA Tools. URL: https://github.com/ncbi/sra-tools.
[20a] Dinghua Li u. a. MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph. In: Bioinformatics 31.10 (2015), S. 1674-1676. DOI: 10.1093/bioinformatics/btv033.
[20b] Voutcn. voutcn/megahit: Ultra-fast and memory-ecient (meta-)genome assembler. URL: https://github.com/voutcn/megahit.
[21a] Shifu Chen u. a. fastp: an ultra-fast all-in-one FASTQ preprocessor. In:
Bioinformatics 34.17 (2018), S. i884-i890. DOI: 10.1093/bioinformatics/bty560.
[21b] OpenGene. OpenGene/fastp: An ultra-fast all-in-one FASTQ preprocessor (QC/adapters/trimming/ltering/splitting/merging...) URL:
https://github
. com/OpenGene/fastp.
[22a] Ben Langmead u. a. Scaling read aligners to hundreds of threads on generalpurpose processors. In: Bioinformatics 35.3 (2018), S. 421-432. DOI:
10. 1093/bioinformatics/bty648.
[22b] Ben Langmead. BenLangmead/bowtie2: A fast and sensitive gapped read aligner. URL: https://github.com/BenLangmead/bowtie2.
[23a] Brian Bushnell. BBMap: A Fast, Accurate, Splice-Aware Aligner. In: (March 2014). URL: https://www.osti.gov/biblio/1241166.
[23b] BBMap. url: https://sourceforge.net/projects/bbmap/.
[24a] Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. In: (May 2013). URL: https://arxiv.org/abs/1303.3997.
[24b] lh3. lh3/bwa: Burrow-Wheeler Aligner for short-read alignment (see mini-map2 for long-read alignment). URL: https://github.com/lh3/bwa.
[25a] H. Li u. a. The Sequence Alignment/Map format and SAMtools. In: Bioinformatics 25.16 (2009), S. 2078-2079. DOI: 10.1093/bioinformatics/btp352.
[25b] Samtools. url:
http://www.htslib.org/
[25c] P. Danecek u. a. Twelve years of SAMtools and BCFtools. In: GigaScience 10.2 (2021). DOI: 10.1093/gigascience/giab008.
[25d] P. Danecek u. a. The variant call format and VCFtools". In: Bioinformatics 27.15 (2011), S. 2156-2158. DOI: 10.1093/bioinformatics/btr330.
[26] Tablet. URL: https://ics.hutton.ac.uk/tablet/.
[27a] Wei Shen u. a. SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation. In: Plos One 11.10 (2016). DOI: 10.1371/journal.pone.0163962.
[27b] lh3. lh3/seqtk: Toolkit for processing sequences in FASTA/Q formats. URL: https://github.com/lh3/seqtk.
[28] Albrecht Irle. Wahrscheinlichkeitstheorie und Statistik: Grundlagen - Resultate - Anwendungen. Teubner, 2010.
Αν σας άρεσε αυτό το άρθρο και θα θέλατε να βοηθήσετε να στηρίξετε το συνεχές έργο μου, ο παρακάτω σύνδεσμος είναι μια επιλογή.
Παρακαλώ βοηθήστε να στηρίξετε το έργο μου.
🙏
---Δικτυογραφία :
Revealed: The SARS-CoV-2 Sequencing Sham