ΦΑΚΕΛΛΟΣ "ΙΟΛΟΓΙΑ": Η Eπιστημολογική Kρίση της Γονιδιωματικής
Μετάφραση: Απολλόδωρος
26 Ιανουαρίου 2022 | Mike Stone, ViroLIEgy | Διαβάστε το εδώ
“Υπάρχει ο κίνδυνος, στη μοριακή βιολογία, η συσσώρευση δεδομένων να φτάσει τόσο πολύ μπροστά από την αφομοίωσή τους σε ένα εννοιολογικό πλαίσιο, ώστε τα δεδομένα να αποδειχθούν τελικά βάρος; Μέρος του προβλήματος είναι ότι ο ενθουσιασμός του κυνηγιού αφήνει ελάχιστο χρόνο για προβληματισμό. Και υπάρχουν επιχορηγήσεις για την παραγωγή δεδομένων, αλλά σχεδόν καθόλου για το να στέκεσαι πίσω στο στοχασμό". -John Maddox. Nature 335, 11 (1988).
ΕΠΙΣΤΗΜΟΛΟΓΙΚΟΣ: σχετίζεται με τη θεωρία της γνώσης, ιδίως όσον αφορά τις μεθόδους, την εγκυρότητα και το πεδίο εφαρμογής της, καθώς και τη διάκριση μεταξύ δικαιολογημένης πίστης και γνώμης
https://www.lexico.com/en/definition/epistemological
Πώς γνωρίζουμε τι θεωρούμε ως "γεγονός" στην επιστήμη; Βασίζεται όντως σε παρατηρήσιμα φαινόμενα που μπορούμε να δούμε με τα μάτια μας ή τα περισσότερα από τα αποτελέσματα που ισχυριζόμαστε ως γνώση προέρχονται από υπολογιστική ανάλυση δεδομένων επιρρεπή σε προκαταλήψεις και σφάλματα που συχνά δεν συζητούνται και συνήθως αγνοούνται;
Τα παρακάτω κυριότερα σημεία προέρχονται από ένα άρθρο του Edward R Dougherty:
"Ο Edward R. Dougherty είναι Αμερικανός μαθηματικός, ηλεκτρολόγος μηχανικός, κάτοχος της έδρας Robert M. Kennedy '26 και διακεκριμένος καθηγητής Ηλεκτρολόγων Μηχανικών στο Πανεπιστήμιο Texas A&M. Είναι επίσης ο επιστημονικός διευθυντής του Κέντρου Βιοπληροφορικής και Μηχανικής Γονιδιωματικών Συστημάτων"
https://engineering.tamu.edu/electrical/profiles/edougherty.html
Στο άρθρο του, ο Dougherty εστιάζει στην κρίση του τι συνιστά επιστημονική γνώση στη γονιδιωματική. Αναφέρεται στα προβλήματα που σχετίζονται με το να βασίζεται κανείς σε μια πληθώρα δεδομένων και αναλύσεων που λειτουργούν ως επιστήμη, ενώ στην πραγματικότητα αποτυγχάνουν ως έγκυρη επιστημονική γνώση. Είναι ένα μεγάλο άρθρο και είμαι σίγουρος ότι παρέλειψα κάποιες χρήσιμες πληροφορίες, γι' αυτό συνιστώ να διαβάσετε όλο το άρθρο κάποια στιγμή. Τα κυριότερα σημεία του άρθρου είναι τα εξής:
Σχετικά με την επιστημολογική κρίση της γονιδιωματικής
Edward R. Dougherty
Περίληψη
"Υπάρχει μια επιστημολογική κρίση στη γονιδιωματική. Το ζήτημα είναι τι συνιστά επιστημονική γνώση στη γονιδιωματική επιστήμη ή στη βιολογία συστημάτων γενικότερα. Απαιτεί αυτή η κρίση μια νέα οπτική γωνία για τη γνώση που μέχρι σήμερα απουσίαζε από την επιστήμη ή πρόκειται απλώς για θέμα ερμηνείας των νέων επιστημονικών εξελίξεων σε ένα υπάρχον επιστημολογικό πλαίσιο; Το παρόν έγγραφο συζητά τον τρόπο με τον οποίο η πειραματική μέθοδος, όπως αναπτύχθηκε και κατανοήθηκε τους τελευταίους αιώνες, οδηγεί με φυσικό τρόπο σε μια επιστημονική επιστημολογία που βασίζεται σε μια πειραματική-μαθηματική δυαδικότητα. Τοποθετεί τη γονιδιωματική σε αυτό το επιστημολογικό πλαίσιο και εξετάζει την τρέχουσα κατάσταση στη γονιδιωματική. Το νόημα και η συγκρότηση της επιστημονικής γνώσης αποτελούν βασικές ανησυχίες για τη γονιδιωματική, και η φύση της επιστημολογικής κρίσης στη γονιδιωματική εξαρτάται από τον τρόπο με τον οποίο αυτές κατανοούνται.
ΕΙΣΑΓΩΓΗ
Υπάρχει μια επιστημολογική κρίση στη γονιδιωματική. Οι κανόνες του επιστημονικού παιχνιδιού δεν τηρούνται. Δεδομένης της ιστορικής εμπειρικής έμφασης της βιολογίας και του μεγάλου αριθμού ευφυών πειραμάτων που έχουν κινήσει το πεδίο, θα μπορούσε κανείς να υποψιαστεί ότι τα σημαντικότερα επιστημολογικά προβλήματα θα εντοπίζονταν στα μαθηματικά, αλλά αυτό δεν ισχύει. Αν και σίγουρα πρέπει να δοθεί μεγαλύτερη προσοχή στη μαθηματική μοντελοποίηση, το μείζον πρόβλημα βρίσκεται στην πειραματική πλευρά του επιστημονικού δυϊσμού μαθηματικού-πειραματικού. Οι τεχνολογίες υψηλής απόδοσης, όπως οι μικροσυστοιχίες γονιδιακής έκφρασης, έχουν οδηγήσει στη συσσώρευση τεράστιου όγκου δεδομένων, που ξεπερνούν κατά τάξεις μεγέθους αυτό που μέχρι σήμερα ήταν δυνατό να φανταστεί κανείς. Αλλά η συσσώρευση δεδομένων δεν συνιστά επιστήμη, ούτε η εκ των υστέρων ορθολογική ανάλυση των δεδομένων.
Οι αρχαίοι γνώριζαν καλά το ρόλο της παρατήρησης στη φυσική επιστήμη. Η λογική εφαρμοσμένη στις παρατηρήσεις, όχι η λογική από μόνη της, απέδιδε ρεαλιστική γνώση της Φύσης. Αυτό τονίζεται από τον Έλληνα ιατρό του δεύτερου αιώνα Γαληνό στην πραγματεία του Περί των φυσικών ικανοτήτων, όταν, όσον αφορά τις επιδράσεις ενός συγκεκριμένου φαρμάκου, αντικρούει τον ορθολογισμό του Ασκληπιάδη όταν γράφει: "Αυτό είναι τόσο προφανές που ακόμη και εκείνοι που κάνουν την εμπειρία και μόνο αφετηρία τους το γνωρίζουν... Για τους αρχαίους, η φιλοσοφία της Φύσης μπορεί να ασχολήθηκε με τις αρχές της ενότητας, τις ιδανικές μορφές και τις τελικές αιτίες, αλλά η φυσική επιστήμη ήταν η παρατήρηση που ακολουθούσε η ορθολογική ανάλυση. Αυτό ίσχυε ιδιαίτερα κατά τη ρωμαϊκή περίοδο, όπως αποδεικνύεται από τα αξιοσημείωτα τεχνικά τους επιτεύγματα".
"Τα πάντα ξεκινούν με την έννοια του σχεδιασμένου πειράματος - δηλαδή της μεθοδολογικής σε αντίθεση με την απρογραμμάτιστη παρατήρηση. Αντί να είναι ένας παθητικός παρατηρητής της Φύσης, ο επιστήμονας δομεί τον τρόπο με τον οποίο θα παρατηρηθεί η Φύση. Η μνημειώδης σημασία αυτής της αλλαγής αντικατοπτρίζεται από τη συμπερίληψη της ακόλουθης δήλωσης σχετικά με τους πρώιμους σύγχρονους επιστήμονες, ιδίως τον Γαλιλαίο και τον Τοριτσέλι, από τον Immanuel Kant στον πρόλογο της δεύτερης έκδοσης της Κριτικής του Καθαρού Λόγου:
Έμαθαν ότι ο λόγος αντιλαμβάνεται μόνο αυτό που παράγει σύμφωνα με το δικό του σχέδιο- ότι δεν πρέπει να αρκείται στο να ακολουθεί, κατά κάποιον τρόπο, τα νήματα της Φύσης, αλλά πρέπει να προχωρά εκ των προτέρων με αρχές κρίσης σύμφωνα με αμετάβλητους νόμους και να υποχρεώνει τη Φύση να απαντά στα ερωτήματά του. Διότι οι τυχαίες παρατηρήσεις, που γίνονται σύμφωνα με κανένα προσχεδιασμένο σχέδιο, δεν μπορούν να ενωθούν κάτω από έναν αναγκαίο νόμο... Η λογική πρέπει να προσεγγίζει τη Φύση... [ως] δικαστής που υποχρεώνει τους μάρτυρες να απαντήσουν σε εκείνα τα ερωτήματα που ο ίδιος θεωρεί σκόπιμο να προτείνει. Σε αυτή τη μοναδική ιδέα πρέπει να αποδοθεί η επανάσταση, με την οποία, μετά από τόσους αιώνες στο σκοτάδι, η φυσική επιστήμη οδηγήθηκε επιτέλους στο δρόμο της σίγουρης προόδου [2].
Ένα μεγάλο μέρος της κρίσης στη γονιδιωματική περιστρέφεται γύρω από την επιστροφή στο "ψάξιμο στο σκοτάδι".
Σε προηγούμενες εργασίες, εξετάσαμε πώς ο δυϊσμός μοντέλου-πειράματος οδηγεί σε μια σύγχρονη επιστημολογία για την υπολογιστική βιολογία[3], αντιμετωπίσαμε την επικύρωση των υπολογιστικών μεθόδων στη γονιδιωματική[4] και χαρακτηρίσαμε την εγκυρότητα της συμπερασματολογίας για τα γονιδιακά ρυθμιστικά δίκτυα στο πλαίσιο των αποστάσεων μεταξύ των δικτύων[5]. Εδώ εστιάζουμε στο πώς η πειραματική μέθοδος οδηγεί σε μια γενική επιστημονική επιστημολογία και πώς η σύγχρονη γονιδιωματική έρευνα συχνά αποτυγχάνει να ικανοποιήσει τις βασικές απαιτήσεις αυτής της επιστημολογίας, αποτυγχάνοντας έτσι να παράγει έγκυρη επιστημονική γνώση".
"Ακόμη και αν αποδεχόμασταν την αιτιότητα με τη μορφή αναγκαίων συνδέσεων, μόνο αν ήταν γνωστοί όλοι οι αιτιώδεις παράγοντες θα μπορούσαμε να προβλέψουμε τα αποτελέσματα με βεβαιότητα. Σε πολύπλοκες καταστάσεις, όπως το ρυθμιστικό σύστημα ενός κυττάρου, δεν μπορεί κανείς να διανοηθεί να λάβει υπόψη του όλους τους παράγοντες που συμβάλλουν. Η πολυπλοκότητα των μοντέλων περιορίζεται λόγω διαφόρων παραγόντων, όπως η μαθηματική εφικτότητα, οι απαιτήσεις δεδομένων για εξαγωγή συμπερασμάτων, ο υπολογισμός και ο εφικτός πειραματικός σχεδιασμός. Έτσι, θα υπάρχουν λανθάνουσες μεταβλητές εξωτερικές προς το μοντέλο που επηρεάζουν τις μεταβλητές του μοντέλου και κάνουν το μοντέλο να συμπεριφέρεται στοχαστικά".
"Η αλήθεια μιας επιστημονικής θεωρίας βασίζεται στην επικύρωσή της και μια θεωρία επικυρώνεται ανεξάρτητα από τη σκέψη που οδηγεί σε αυτήν. Καμία ποσότητα ορθολογικής εξήγησης δεν μπορεί να επικυρώσει μια θεωρία. Η επιστήμη δεν έχει να κάνει με την ορθολογιστική εξήγηση, ούτε με την κλασική φιλοσοφική της μορφή που εξηγεί τα γεγονότα με όρους φυσικών κατηγοριών ούτε με την πιο πρόσφατη υπολογιστική της μορφή που εξηγεί τα δεδομένα με την προσαρμογή ενός μοντέλου. Δεν είναι ασυνήθιστο να ακούει κανείς να λέγεται ότι κάποια θεωρία "εξηγεί" κάποια φαινόμενα. Ακούει κανείς την εξήγηση και όλα φαίνονται αρκετά λογικά. Η εξήγηση ταιριάζει με τα δεδομένα. Σκεφτείτε την ακόλουθη δήλωση του Steven Jay Gould: "Η επιστήμη προσπαθεί να καταγράψει τον πραγματολογικό χαρακτήρα του φυσικού κόσμου και να αναπτύξει θεωρίες που συντονίζουν και εξηγούν αυτά τα γεγονότα"[19]. Ίσως αυτή η δήλωση να ήταν ακριβής κατά τον Μεσαίωνα, αλλά όχι σήμερα. Ενώ είναι αλήθεια ότι οι θεωρίες συντονίζουν τις μετρήσεις (γεγονότα), δεν είναι οι τεκμηριωμένες μετρήσεις που είναι κρίσιμες, αλλά οι μετρήσεις που δεν έχουν ακόμη ληφθεί. Η δήλωση του Gould είναι prima fascia εκτός πραγματικότητας επειδή δεν αναφέρει την πρόβλεψη.
Η επιστήμη δεν έχει να κάνει με την προσαρμογή των δεδομένων. Σκεφτείτε το σχεδιασμό ενός γραμμικού ταξινομητή. Ένας ταξινομητής (δυαδική συνάρτηση απόφασης) κατασκευάζεται σύμφωνα με κάποια διαδικασία σχεδιασμού που λαμβάνει υπόψη τη μαθηματική δομή του, τα δεδομένα και την επιτυχία του στην κατηγοριοποίηση των δεδομένων σε σχέση με κάποιο κριτήριο. Το αποτέλεσμα μπορεί να είναι καλό σε σχέση με τα συγκεντρωμένα δεδομένα- μάλιστα, η κατασκευασμένη γραμμή μπορεί ακόμη και να ταξινομεί τέλεια τα δεδομένα. Αλλά αυτό το μοντέλο γραμμικού ταξινομητή δεν αποτελεί επιστημονική θεωρία, εκτός εάν υπάρχει ένα ποσοστό σφάλματος που συνδέεται με τη γραμμή, το οποίο προβλέπει το ποσοστό σφάλματος σε μελλοντικές παρατηρήσεις. Καθοριστικής σημασίας για την επιστημονική επιστημολογία είναι ότι το μοντέλο, που αποτελείται τόσο από τον ταξινομητή όσο και από το ποσοστό σφάλματος, είναι έγκυρο μόνο στο βαθμό που το αναφερόμενο ποσοστό σφάλματος είναι ακριβές. Ένα μοντέλο δεν επικυρώνεται ούτε από την ορθολογική σκέψη που κρύβεται πίσω από τη διαδικασία σχεδιασμού ούτε από την εξαιρετική απόδοση προσαρμογής του στα δεδομένα. Μόνο η γνώση της προβλεπτικής του ικανότητας παρέχει εγκυρότητα. Στην πράξη, το ποσοστό σφάλματος ενός ταξινομητή εκτιμάται μέσω κάποιας διαδικασίας εκτίμησης σφάλματος, έτσι ώστε η εγκυρότητα του μοντέλου να εξαρτάται από αυτή τη διαδικασία. Συγκεκριμένα, ο βαθμός στον οποίο γνωρίζει κανείς το σφάλμα του ταξινομητή, το οποίο ποσοτικοποιεί την προβλεπτική ικανότητα του ταξινομητή, εξαρτάται από τις μαθηματικές ιδιότητες της διαδικασίας εκτίμησης. Ελλείψει κατανόησης αυτών των ιδιοτήτων, τα αποτελέσματα δεν έχουν νόημα."
"Ας εστιάσουμε στην Ευφυΐα, η οποία ίσως είναι η ερμηνεία της εξήγησης που συγχέεται συχνότερα με την επιστήμη. Αν θεωρήσουμε ότι η ευφυΐα σημαίνει ότι τα ίδια τα φαινόμενα γίνονται αντιληπτά από τη διάνοια, τότε αυτό θα σήμαινε ότι η Φύση είναι προσιτή στην ανθρώπινη διάνοια. Είναι αλήθεια ότι το μαθηματικό μοντέλο (εννοιολογικό σύστημα) είναι κατανοητό, αλλά αυτό συμβαίνει επειδή το μαθηματικό μοντέλο κατασκευάζεται από ανθρώπους σύμφωνα με την ανθρώπινη νοημοσύνη. Όμως το μοντέλο δεν αντικατοπτρίζει τον φυσικό κόσμο. Κάποιος θα μπορούσε να υποστηρίξει ότι αυτό που εννοείται με την εξήγηση είναι η μαθηματική εξήγηση, με την έννοια ότι οι εξισώσεις ταιριάζουν με τις παρατηρήσεις. Ακόμη και αν δεχτούμε αυτή την προσαρμογή στα δεδομένα έννοια της εξήγησης, αφήνει έξω τη θεμελιώδη πτυχή του επιστημονικού νοήματος - την πρόβλεψη".
"Δεν είναι ότι δεν έχουμε καμία απολύτως κατανόηση- όπως προαναφέρθηκε, κατανοούμε το μαθηματικό μοντέλο. Η γνώση μας για τα φαινόμενα βρίσκεται στο μαθηματικό μοντέλο, στο βαθμό που αυτή η γνώση είναι εννοιολογική. Αλλά εδώ πρέπει να αποφύγουμε τον κίνδυνο να διολισθήσουμε στον ορθολογισμό, μπερδεύοντας το εννοιολογικό σύστημα με την ίδια τη Φύση. Η επιστημονική γνώση δεν σταματά με τη συλλογιστική για τις δυνατότητες και τη δημιουργία ενός μοντέλου. Πηγαίνει παραπέρα και περιλαμβάνει μια μεθοδολογία επικύρωσης της πρόβλεψης και στη συνέχεια την πραγματική επικύρωση. Ο Reichenbach σημειώνει ότι "το ίδιο το λάθος που έκανε τον ορθολογισμό ασύμβατο με την επιστήμη" είναι "το λάθος της ταύτισης της [επιστημονικής] γνώσης με τη μαθηματική γνώση"[22]. Εδώ είναι που βλέπουμε έναν μεγάλο κίνδυνο που κρύβεται στη διατύπωση του Gould. Χωρίς λειτουργικούς ορισμούς και συνακόλουθα πειραματικά πρωτόκολλα για την επικύρωση, καθώς και χωρίς την ίδια την επικύρωση, η ανάπτυξη "θεωριών που συντονίζουν και εξηγούν" τα γεγονότα διολισθαίνει γρήγορα στον ορθολογισμό. Ο συλλογισμός, είτε με τη μορφή εννοιολογικών κατηγοριών όπως η αιτιότητα είτε μέσω ενός μαθηματικού συστήματος, εφαρμόζεται στα δεδομένα χωρίς καμία πιθανολογική ποσοτικοποίηση σχετικά με το αποτέλεσμα της μελλοντικής παρατήρησης. Η εξήγηση και η γνώμη αντικαθιστούν την επιστημονική μεθοδολογία. Ποιανού συλλογισμό εμπιστευόμαστε; Μια τυπική διαδικασία επικύρωσης διευθετεί το ζήτημα".
ΕIΝΑΙ ΚΑΤΑΝΟΗΤΗ Η ΓΟΝΙΔΙΩΜΑΤΙΚΉ;
"Όταν αναφέρεται στη Φύση ως παράλογη, ο Feynman δεν ασκεί κριτική στην κατανόηση των μαθηματικών συστημάτων που επιτρέπουν σε κάποιον να μοντελοποιήσει τα φυσικά φαινόμενα και να κάνει προβλέψεις σχετικά με αυτά τα φαινόμενα- μάλλον, αναφέρεται στην έλλειψη κατηγορηματικής κατανόησης των ίδιων των φυσικών φαινομένων. Το φως δεν γίνεται αντιληπτό ούτε ως κύμα ούτε ως σωματίδιο. Έτσι, παραβιάζεται η κατηγορηματική απαίτηση να είναι το ένα ή το άλλο. Από την καντιανή οπτική γωνία, το αντικείμενο της ευαισθησίας δεν μπορεί να συμμορφωθεί με τις κατηγορίες της κατανόησης και επομένως δεν μπορεί να κατανοηθεί. Ως προϊόν της ανθρώπινης διάνοιας, ένα μαθηματικό μοντέλο είναι ipso facto κατανοητό. Η φύση δεν είναι προϊόν της ανθρώπινης διάνοιας".
"Οι δυσκολίες μας στην κατανόηση προκύπτουν επειδή οι κατηγορίες της συνηθισμένης μας κατανόησης σχετίζονται με πιθανές αισθητηριακές εμπειρίες. Οι δυσκολίες αυτές επεκτείνονται και στη γονιδιωματική. Δεν έχουμε καμία αισθητηριακή εμπειρία με δίκτυα χιλιάδων μη γραμμικά αλληλεπιδρώντων κόμβων που παρουσιάζουν ανατροφοδότηση, κατανεμημένη ρύθμιση και τεράστιο πλεονασμό. Οι λόγοι για την έλλειψη κατανόησης είναι διαφορετικοί από εκείνους της φυσικής, αλλά είναι συναρπαστικοί με τον δικό τους τρόπο. Η φύση είναι παράλογη από την ανθρώπινη οπτική γωνία, επειδή μας λείπουν οι κατηγορίες κατανόησης με τις οποίες μπορούμε να την διαισθανθούμε - είτε πρόκειται για φυσική είτε για βιολογία.
Η ΤΡEΧΟΥΣΑ ΚΑΤΑΣΤΑΣΗ ΣΤΗ ΓΟΝΙΔΙΩΜΑΤΙΚΗ
Σχεδόν από την αρχή της εποχής των μικροσυστοιχιών υψηλής απόδοσης, εμφανίστηκαν εργασίες που ανέφεραν ταξινομητές βασισμένους σε χαρακτηριστικά γονιδιακής έκφρασης. Υπήρξαν επίσης προειδοποιητικές προειδοποιήσεις για τους κινδύνους της λανθασμένης εφαρμογής μεθόδων ταξινόμησης που έχουν σχεδιαστεί για χρήση με το πολύ εκατοντάδες χαρακτηριστικά και πολλές χιλιάδες σημεία δειγματοληψίας σε σύνολα δεδομένων με χιλιάδες ή δεκάδες χιλιάδες χαρακτηριστικά (γονίδια) και λιγότερα από εκατό σημεία δειγματοληψίας (μικροσυστοιχίες) [31-32]. Έχοντας κατά νου τις χιλιάδες γονιδιακές εκφράσεις σε μια μικροσυστοιχία, θεωρήστε ένα δείγμα δειγμάτων για την ταξινόμηση καρκίνου: οξεία λευχαιμία, 38[33], λευχαιμία, 37[34], καρκίνος του μαστού, 38[35], καρκίνος του μαστού, 22[36], οζώδες λέμφωμα, 24[37], γλοίωμα, 50 (αλλά μόνο 21 κλασικοί όγκοι που χρησιμοποιούνται για την πρόβλεψη κλάσης)[38] και ραγοειδής μελάνωμα, 20[39]. Αυτό είναι ένα μικροσκοπικό δείγμα από το πλήθος των εργασιών ταξινόμησης με μικροσυστοιχίες που βασίζονται σε πολύ μικρά δείγματα και επιλέγουν σύνολα χαρακτηριστικών μεταξύ χιλιάδων γονιδίων.
Δεδομένου ότι η βάση της επιστημονικής γνώσης είναι η πρόβλεψη, η επιστημονική αξία ενός ταξινομητή εξαρτάται από την ακρίβεια της εκτίμησης του σφάλματος. Εάν ένας ταξινομητής εκπαιδευτεί από δειγματικά δεδομένα και το σφάλμα του εκτιμηθεί, τότε η εγκυρότητα του ταξινομητή σχετίζεται με την ακρίβεια της εκτίμησης σφάλματος, δεδομένου ότι η εκτίμηση αυτή ποσοτικοποιεί την προβλεπτική ικανότητα του ταξινομητή. Η αδυναμία εκτίμησης της προβλεπτικής ικανότητας θα αποτελούσε επιστημολογικό εμπόδιο στο να μπορεί να υποστηριχθεί ότι ένα μοντέλο ταξινομητή είναι επιστημονικά ορθό. Σίγουρα, υπάρχουν μαθηματικά ζητήματα σε κάθε βήμα κατά την εφαρμογή της ταξινόμησης σε δεδομένα μικροσυστοιχιών. Μπορεί κανείς να σχεδιάσει έναν καλό ταξινομητή δεδομένων των μικρών δειγμάτων που είναι κοινός τόπος στη γονιδιωματική; [40] Μπορεί κανείς να περιμένει από έναν αλγόριθμο επιλογής χαρακτηριστικών να βρει καλά χαρακτηριστικά υπό αυτούς τους περιορισμούς; [41] Αυτές οι ανησυχίες, ενώ είναι σημαντικές για την απόκτηση χρήσιμων ταξινομητών, υπερκαλύπτονται επιστημολογικά από την ανησυχία ότι η προβλεπτική ικανότητα, και επομένως το επιστημονικό νόημα, ενός σχεδιασμένου ταξινομητή έγκειται στην ακρίβεια της εκτίμησης σφάλματος. Εκτός από ασήμαντες περιπτώσεις, δεν έχουν παρασχεθεί στοιχεία που να αποδεικνύουν ότι η αποδεκτή εκτίμηση σφάλματος είναι δυνατή με τόσα πολλά χαρακτηριστικά και τόσο μικρά δείγματα. Ακόμη χειρότερα, σε πολλές περιπτώσεις που μελετήθηκαν έχει αποδειχθεί ότι είναι αδύνατη [42-45]. Ως εκ τούτου, όχι μόνο δεν έχει αποδειχθεί ότι η συντριπτική πλειονότητα των εργασιών δεν έχει επιστημονικό περιεχόμενο, αλλά μεγάλος αριθμός αυτών έχει αποδειχθεί ότι δεν έχει επιστημονικό περιεχόμενο. Ο Braga-Neto γράφει: "Εδώ, έχουμε να κάνουμε με την απρόσεκτη, αδόκιμη εφαρμογή μεθόδων ταξινόμησης σε δεδομένα μικροσυστοιχιών μικρών δειγμάτων, η οποία έχει δημιουργήσει μεγάλο αριθμό δημοσιεύσεων και εξίσου μεγάλο αριθμό ατεκμηρίωτων επιστημονικών υποθέσεων" [40]. Η αποτυχία της ερευνητικής κοινότητας να απαιτήσει στέρεες μαθηματικές αποδείξεις της εγκυρότητας των μεθόδων ταξινόμησης που χρησιμοποιούνται με τον τύπο των διαθέσιμων δεδομένων έχει ως αποτέλεσμα μεγάλο αριθμό δημοσιεύσεων χωρίς επιστημονικό περιεχόμενο.
Πολλά επιστημολογικά ζητήματα στη γονιδιωματική σχετίζονται με τη στατιστική. Οι Mehta et al. γράφουν: "Πολλές εργασίες που απευθύνονται στην κοινότητα της βιολογίας υψηλών διαστάσεων περιγράφουν την ανάπτυξη ή την εφαρμογή στατιστικών τεχνικών. Η εγκυρότητα πολλών από αυτές είναι αμφισβητήσιμη και φαίνεται να λείπει μια κοινή αντίληψη σχετικά με τα επιστημολογικά θεμέλια των ίδιων των στατιστικών μεθόδων" [46]. Εφιστούν την προσοχή στην έλλειψη υγιούς στατιστικής επιστημολογίας, η οποία καθιστά τα αποτελέσματα χωρίς νόημα. Το σημείο υπογραμμίζεται περαιτέρω από τους Dupuy και Simon, οι οποίοι γράφουν: "Τόσο η εγκυρότητα όσο και η αναπαραγωγιμότητα της κλινικής έρευνας με βάση τις μικροσυστοιχίες έχουν αμφισβητηθεί" [47]. Για να εξετάσουν το ζήτημα, εξέτασαν 90 μελέτες, το 76% των οποίων δημοσιεύθηκε σε περιοδικά με συντελεστή απήχησης μεγαλύτερο από 6. Με βάση μια λεπτομερή ανάλυση των 42 μελετών που δημοσιεύθηκαν το 2004, αναφέρουν:
Είκοσι μία (50%) από αυτές περιείχαν τουλάχιστον μία από τις ακόλουθες τρεις βασικές ατέλειες: (1) στην εύρεση γονιδίων που σχετίζονται με την έκβαση, ένας μη δηλωμένος, ασαφής ή ανεπαρκής έλεγχος για πολλαπλές δοκιμές, (2) στην ανακάλυψη κλάσεων, ένας ψευδής ισχυρισμός συσχέτισης μεταξύ των ομάδων και της κλινικής έκβασης, που έγινε μετά την ομαδοποίηση των δειγμάτων χρησιμοποιώντας μια επιλογή γονιδίων που σχετίζονται με την έκβαση και εκφράζονται διαφορετικά, ή (3) στην επιβλεπόμενη πρόβλεψη, μια μεροληπτική εκτίμηση της ακρίβειας πρόβλεψης μέσω μιας λανθασμένης διαδικασίας διασταυρούμενης επικύρωσης [47].
Η κατάσταση είναι στην πραγματικότητα πολύ χειρότερη από ό,τι αναφέρεται εδώ, καθώς σε περιβάλλοντα υψηλών διαστάσεων και μικρών δειγμάτων, η εκτίμηση σφάλματος με διασταυρούμενη επικύρωση, η οποία είναι πανταχού παρούσα στις μελέτες μικροσυστοιχιών, δεν παρέχει αποδεκτή εκτίμηση σφάλματος (όπως θα αποδειχθεί στην επόμενη παράγραφο)[42-45]. Συνεπώς, η χρήση της διασταυρούμενης επικύρωσης στην επιβλεπόμενη πρόβλεψη υπονομεύει την επιστημονική εγκυρότητα".
"Ο πειραματικός σχεδιασμός αποτελεί βασικό στοιχείο για την εξαγωγή στατιστικών συμπερασμάτων. Ένα σωστά σχεδιασμένο πείραμα μπορεί να αυξήσει σημαντικά την ισχύ των συμπερασμάτων, ενώ ένα κακώς σχεδιασμένο πείραμα μπορεί να καταστήσει αδύνατη την εξαγωγή ουσιαστικών συμπερασμάτων. Ο Potter έχει επιστήσει την προσοχή σε αυτό το ζήτημα στο πλαίσιο των βιολογικών δεδομένων υψηλής απόδοσης, κάνοντας διάκριση μεταξύ της απλής παρατήρησης και του πειραματικού σχεδιασμού, τη θεμελιώδη διάκριση μεταξύ της προνεωτερικής και της σύγχρονης επιστήμης:
Η πραγματοποίηση των παρατηρήσεων με νέα και ισχυρή τεχνολογία φαίνεται να προκαλεί αμνησία ως προς την αρχική φύση του σχεδιασμού της μελέτης. Λες και οι αστρονόμοι έπρεπε να αγνοήσουν κάθε τι που γνώριζαν τόσο για τον τρόπο ταξινόμησης των αστέρων όσο και για τις μεθόδους δειγματοληψίας, και αντ' αυτού να στρέψουν τα φασματοσκόπια τυχαία σε αστέρια και να παρατηρήσουν πόσο διαφορετικό και ενδιαφέρον ήταν το μοτίβο των φασματικών γραμμών απορρόφησης. Παρ' όλα αυτά, αμφιβάλλω αν οι αστρονόμοι θα ισχυρίζονταν ότι έκαναν πείραμα. Αυτή η προσέγγιση του ερασιτέχνη είτε στην αστρονομία είτε στη βιολογία δεν είναι στη μόδα εδώ και τουλάχιστον μισό αιώνα[32].
Στην πραγματικότητα, δεν είναι στη μόδα από την εποχή του Γαλιλαίου και του Torricelli. Θα επιστρέψουμε στο "ψάξιμο στο σκοτάδι";
Σε αυτό το πνεύμα, η πανταχού παρούσα παρουσία των τεχνικών εξόρυξης δεδομένων είναι ιδιαίτερα ανησυχητική. Αυτές τείνουν να αναζητούν μοτίβα στα υπάρχοντα δεδομένα χωρίς να λαμβάνουν υπόψη τον πειραματικό σχεδιασμό ή την προβλεπτική ικανότητα. Ο Keller επισημαίνει τον κίνδυνο της προσπάθειας εξαγωγής μεγάλων συμπερασμάτων από τα μοτίβα που εντοπίζονται στα δεδομένα. Αναφερόμενη στο κλασικό κείμενο του William Feller[52] για τη θεωρία πιθανοτήτων, γράφει,
Μέχρι το 1971, η προσπάθεια προσαρμογής εμπειρικών φαινομένων σε τέτοιες κατανομές ήταν ήδη τόσο διαδεδομένη ώστε ο Feller αισθάνθηκε υποχρεωμένος να προειδοποιήσει τους αναγνώστες του για την υπερβολική χρήση τους....Η έμφαση που έδωσε ο Feller στη λογιστική καμπύλη ως "ένα σαφές παράδειγμα του πόσο παραπλανητική μπορεί να είναι μια απλή καλή προσαρμογή" είχε ως κίνητρο ακριβώς την επιμονή μιας τέτοιας "αφελούς συλλογιστικής"[53].
Η εξόρυξη δεδομένων συχνά ταυτίζεται λανθασμένα με την αναγνώριση προτύπων, ενώ στην πραγματικότητα πρόκειται για πολύ διαφορετικά θέματα. Η αναγνώριση προτύπων μπορεί να χρησιμοποιηθεί ως βάση για την επιστήμη επειδή βασίζεται σε ένα αυστηρό πιθανολογικό πλαίσιο[54]. Από την άλλη πλευρά, πολύ συχνά, οι τεχνικές εξόρυξης δεδομένων αποτελούνται από μια συλλογή υπολογιστικών τεχνικών που υποστηρίζονται από ευρετικές μεθόδους και στερούνται μαθηματικής θεωρίας του σφάλματος, και επομένως δεν έχουν τη δυνατότητα να αποτελέσουν επιστημονική γνώση.
Ενώ η απροσεξία στην επιστημολογία στη γονιδιωματική ταξινόμηση είναι ανησυχητική, η κατάσταση με την ομαδοποίηση είναι πραγματικά εκπληκτική. Όπως εφαρμόζεται γενικά, δεν υπάρχει καμία προγνωστική πτυχή και, ως εκ τούτου, κανένα απολύτως επιστημονικό περιεχόμενο. Πράγματι, οι Jain et al. αναφέρουν ότι "η ομαδοποίηση είναι μια υποκειμενική διαδικασία" [55], οπότε στερείται της βασικής επιστημονικής απαίτησης της δια-υποκειμενικότητας. Στο πλαίσιο της γονιδιωματικής, οι Kerr και Churchill έθεσαν το επιστημολογικό ερώτημα: "Πώς μπορεί κανείς να βγάλει στατιστικά συμπεράσματα με βάση την ομαδοποίηση"[56]. Τα συμπεράσματα είναι δυνατά όταν η ομαδοποίηση τίθεται σε μια υγιή πιθανολογική (προβλεπτική) βάση αναγνωρίζοντας ότι, ενώ η επιστημολογία της ταξινόμησης βρίσκεται στο πεδίο των τυχαίων μεταβλητών[54], η επιστημολογία της ομαδοποίησης πρέπει να βρίσκεται στο πλαίσιο των τυχαίων συνόλων[57]. Πρέπει να γίνουν πολλές μελέτες προς αυτή την κατεύθυνση προτού η συσταδοποίηση μπορέσει πρακτικά να παράσχει επιστημονική γνώση. Εν τω μεταξύ, οι λεγόμενοι "δείκτες επικύρωσης" χρησιμοποιούνται μερικές φορές για την υποστήριξη ενός αποτελέσματος ομαδοποίησης, αλλά συχνά συσχετίζονται ελάχιστα με το σφάλμα ομαδοποίησης και, επομένως, δεν παρέχουν επιστημονική επικύρωση [58].
Οι επιστημολογικές εκτιμήσεις για τη γονιδιωματική παραπέμπουν αναπόφευκτα στη συστημική βιολογία. Φαίνεται προφανές ότι η συστημική βιολογία θα πρέπει να βασίζεται στη θεωρία των συστημάτων, η οποία, όπως συζητήσαμε, είναι μια κατεύθυνση που υποδεικνύεται σαφώς πριν από μισό αιώνα στο έργο των Wiener, Rosenblueth, Monod, Waddington, Kauffman και άλλων. Πρόκειται για την προσέγγιση που ακολουθείται στην επεξεργασία γονιδιωματικών σημάτων, όπου τόσο η δυναμική των γονιδιακών ρυθμιστικών δικτύων όσο και ο εξωτερικός έλεγχός τους επιδιώκονται στο πλαίσιο της θεωρίας συστημάτων[59]. Η γονιδιωματική έρευνα έχει ακολουθήσει ως επί το πλείστον διαφορετικό δρόμο. Με βάση την ιστορική διαδρομή της γονιδιωματικής, ο Wolkenhauer φτάνει στο σημείο να διαχωρίζει ουσιαστικά τη γονιδιωματική από τη βιολογία συστημάτων όταν γράφει,
Ο ρόλος της συστημικής θεωρίας στη συστημική βιολογία είναι η διαλεύκανση της λειτουργικής οργάνωσης των κυττάρων. Πρόκειται για μια συμπληρωματική αλλά πολύ διαφορετική προσπάθεια από τη γονιδιωματική, τη βιοφυσική και τη μοριακή βιολογία, των οποίων ο πρωταρχικός ρόλος ήταν να ανακαλύψουν και να χαρακτηρίσουν τα συστατικά του κυττάρου - να περιγράψουν τη δομική του οργάνωση. Ένα βασικό φιλοσοφικό σημείο που θέτει η θεωρία συστημάτων είναι ότι τα αντικείμενα και οι σχέσεις μεταξύ των αντικειμένων έχουν το ίδιο οντολογικό καθεστώς. Η ζωή είναι μια σχέση μεταξύ μορίων/κυττάρων και όχι μια ιδιότητα οποιουδήποτε μορίου/κυττάρου- ένα κύτταρο αποτελείται από μόρια, όπως ένα σπίτι από πέτρες. Μια σούπα μορίων δεν είναι περισσότερο κύτταρο από ό,τι ένα αεροπλάνο είναι ένας σωρός μετάλλων [60].
Ο Wolkenhauer κάνει μια εμπειρική παρατήρηση σχετικά με μια ευρέως διαδεδομένη απροσεξία στη θεωρία συστημάτων. Η γονιδιωματική, που είναι η μελέτη των πολυδιάστατων αλληλεπιδράσεων μεταξύ των κυτταρικών συστατικών, απαιτεί μοντελοποίηση βασισμένη σε συστήματα, ιδίως τη χρήση μη γραμμικών στοχαστικών δυναμικών συστημάτων, είτε αυτά έχουν τη μορφή διαφορικών εξισώσεων, είτε διακριτών δικτύων, είτε διαδικασιών Markov, είτε κάποιας άλλης μορφής τυχαίας διαδικασίας. Η επιστήμη και η μηχανική έχουν πάνω από μισό αιώνα εμπειρίας με τα στοχαστικά συστήματα. Εφόσον είναι αδύνατο να φανταστούμε τα σύγχρονα συστήματα επικοινωνίας και ελέγχου χωρίς να βασίζονται στη θεωρία συστημάτων, είναι σίγουρα αδύνατο να φανταστούμε ουσιαστική πρόοδο στη γονιδιωματική χωρίς τη χρήση (και την επέκταση) αυτής της θεωρίας. Φυσικά, υπάρχουν εμπόδια. Τα πειράματα πρέπει να σχεδιαστούν και να διεξαχθούν με τρόπο κατάλληλο για την κατασκευή μη γραμμικών δυναμικών συστημάτων και η θεωρία συστημάτων πρέπει να αναπτυχθεί με τρόπους κατάλληλους για τη βιολογική μοντελοποίηση [61]. Αυτά είναι επιβλητικά καθήκοντα. Παρ' όλα αυτά, με βάση τη μακρόχρονη εμπειρία μας με τα ανθρώπινα σχεδιασμένα συστήματα είναι σχεδόν βέβαιο ότι η μελέτη των βιολογικών συστημάτων δεν μπορεί να προχωρήσει ουσιαστικά χωρίς καλά μελετημένα πειράματα και βαθιά μαθηματικά".
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2674806/
Συνοπτικά:
Υπάρχει μια επιστημολογική κρίση στη γονιδιωματική.
Το ζήτημα είναι τι συνιστά επιστημονική γνώση στη γονιδιωματική επιστήμη ή στη βιολογία συστημάτων γενικότερα.
Το νόημα και η συγκρότηση της επιστημονικής γνώσης αποτελούν βασικές ανησυχίες για τη γονιδιωματική, και η φύση της επιστημολογικής κρίσης στη γονιδιωματική εξαρτάται από τον τρόπο με τον οποίο αυτές κατανοούνται
Σύμφωνα με τον Dougherty, οι κανόνες του επιστημονικού παιχνιδιού δεν τηρούνται
Οι τεχνολογίες υψηλής απόδοσης, όπως οι μικροσυστοιχίες γονιδιακής έκφρασης, έχουν οδηγήσει στη συσσώρευση τεράστιου όγκου δεδομένων, τάξεις μεγέθους μεγαλύτερες από ό,τι ήταν δυνατόν να φανταστεί κανείς μέχρι σήμερα, αλλά η συσσώρευση δεδομένων δεν συνιστά επιστήμη, ούτε η εκ των υστέρων ορθολογική ανάλυση των δεδομένων.
Όχι και τόσο σύντομη παράκαμψη για τις μικροσυστοιχίες:
"Μια μικροσυστοιχία είναι ένα εργαστηριακό εργαλείο που χρησιμοποιείται για την ανίχνευση της έκφρασης χιλιάδων γονιδίων ταυτόχρονα. Οι μικροσυστοιχίες DNA είναι αντικειμενοφόρες πλάκες μικροσκοπίου που είναι τυπωμένες με χιλιάδες μικροσκοπικά σημεία σε καθορισμένες θέσεις, με κάθε σημείο να περιέχει μια γνωστή αλληλουχία DNA ή γονίδιο. Συχνά, αυτές οι αντικειμενοφόροι πλάκες αναφέρονται ως τσιπ γονιδίων ή τσιπ DNA. Τα μόρια DNA που είναι προσαρτημένα σε κάθε αντικειμενοφόρο πλάκα λειτουργούν ως ανιχνευτές για την ανίχνευση της γονιδιακής έκφρασης, η οποία είναι επίσης γνωστή ως το μεταγραφόγραμμα ή το σύνολο των μεταγράφων του αγγελιοφόρου RNA (mRNA) που εκφράζονται από μια ομάδα γονιδίων".
https://www.nature.com/scitable/definition/microarray-202/
Για ποιο λόγο χρησιμοποιούνται οι μικροσυστοιχίες;
"Οι επιστήμονες χρησιμοποιούν μικροσυστοιχίες DNA για να μετρήσουν τα επίπεδα έκφρασης μεγάλου αριθμού γονιδίων ταυτόχρονα ή για να προσδιορίσουν γονότυπο σε πολλαπλές περιοχές ενός γονιδιώματος."
https://en.m.wikipedia.org/wiki/DNA_microarray
Τι είναι ο γονοτυπικός προσδιορισμός;
"Η γονοτυποποίηση είναι η τεχνολογία που ανιχνεύει μικρές γενετικές διαφορές που μπορούν να οδηγήσουν σε σημαντικές αλλαγές στον φαινότυπο, συμπεριλαμβανομένων τόσο των φυσικών διαφορών που μας κάνουν μοναδικούς όσο και των παθολογικών αλλαγών που υποκρύπτουν ασθένειες."
Με άλλα λόγια, οι μικροσυστοιχίες χρησιμοποιούνται για τη σύγκριση της γονιδιωματικής ποικιλομορφίας των γονιδιωμάτων προκειμένου να προσδιοριστούν οι διαφορές και οι παθολογικές αλλαγές που οδηγούν σε ασθένειες.
Πόσο ακριβείς είναι οι μικροσυστοιχίες;
Πειράματα μικροσυστοιχιών και παράγοντες που επηρεάζουν την αξιοπιστία τους
"Η ανάλυση των δεδομένων μικροσυστοιχιών είναι ωστόσο πολύ σύνθετη και απαιτεί εξελιγμένες μεθόδους για τον έλεγχο διαφόρων παραγόντων που είναι εγγενείς στις χρησιμοποιούμενες διαδικασίες. Σε αυτό το άρθρο περιγράφουμε τα επιμέρους βήματα ενός πειράματος μικροσυστοιχιών, επισημαίνοντας σημαντικά στοιχεία και παράγοντες που ενδέχεται να επηρεάσουν τις σχετικές διαδικασίες και που επηρεάζουν την ερμηνεία των αποτελεσμάτων."
Η ανάλυση μικροσυστοιχιών προσφέρει μια ποικιλία μεθόδων που επιτρέπουν, μεταξύ άλλων, τον εντοπισμό γονιδίων που μπορεί να είναι σημαντικά σε έναν συγκεκριμένο μηχανισμό κυτταρικής απόκρισης ή σε ένα συγκεκριμένο πρότυπο γονιδιακής έκφρασης που χαρακτηρίζει μια συγκεκριμένη ασθένεια. Για να προκύψουν σημαντικά αποτελέσματα, τα δεδομένα μικροσυστοιχιών πρέπει να υποβληθούν σε στατιστική επεξεργασία ώστε να γίνει διάκριση μεταξύ των αλλαγών του σήματος που προκαλούνται από άμεσους πειραματικούς παράγοντες και που προκύπτουν από τους έμμεσους πειραματικούς παράγοντες, όπως οι συγκεκριμένες μέθοδοι που χρησιμοποιούνται, καθώς και από ανακρίβειες των μετρήσεων. Αυτό το επίπεδο προκλήσεων επεξεργασίας οδήγησε σε μελέτες για τη συμβατότητα διαφορετικών πλατφορμών μικροσυστοιχιών[23-28], η οποία συνήθως επιτυγχάνεται με την τυποποίηση πρωτοκόλλων και σωληνώσεων ανάλυσης δεδομένων[29, 30]. Η επιλογή της κατάλληλης στατιστικής μεθόδου για την επεξεργασία μικροσυστοιχιών αποτελεί σημαντικό αντικείμενο επιστημονικής συζήτησης και παρόλο που οι μικροσυστοιχίες χρησιμοποιούνται για περισσότερα από δεκαπέντε χρόνια, πολλά ζητήματα που σχετίζονται με την ανάλυση δεδομένων παραμένουν άλυτα.
Τα ζητήματα που συζητούνται περισσότερο αφορούν τους αλγορίθμους που χρησιμοποιούνται για την κανονικοποίηση των δεδομένων [31, 32], στόχος της οποίας είναι η εξάλειψη των διαφορών μεταξύ των δειγμάτων που προέρχονται από τεχνικές πτυχές του χειρισμού των μικροσυστοιχιών, οι οποίες ενδέχεται να μπερδεύουν τις βιολογικές διαφορές σε μια δεδομένη πειραματική διάταξη. Ένας παρόμοιος στόχος διέπει τις μεθόδους που χρησιμοποιούνται για την αφαίρεση της επίδρασης της παρτίδας, ένα βήμα που είναι ζωτικής σημασίας κατά τη σύγκριση συνόλων δεδομένων που προέρχονται από διαφορετικές χρονικές στιγμές και εργαστήρια[33]. Άλλα θέματα που συζητούνται συχνά αφορούν τον εντοπισμό γονιδίων που διαφοροποιούν το δείγμα [34, 35] και την αξιολόγηση του επιπέδου θορύβου στο δείγμα [36], καθώς και μεθόδους για την αξιολόγηση της μόλυνσης ή της ζημίας στην επιφάνεια της μικροσυστοιχίας [37, 38]. Οι πιο συχνά χρησιμοποιούμενες μικροσυστοιχίες, που παράγονται από την Affymetrix, είναι γνωστές για πρόσθετα προβλήματα που σχετίζονται με τον ιδιαίτερο σχεδιασμό τους και επηρεάζουν τα τελικά αποτελέσματα.Σε αυτά περιλαμβάνονται προβλήματα που προκύπτουν από πολλές μετρήσεις του επιπέδου έκφρασης για ένα και μόνο γονίδιο [39, 40], εσφαλμένη αντιστοίχιση των ανιχνευτών στα γονίδια [41, 42], εσφαλμένη αξιολόγηση του επιπέδου υποβάθρου και των μη ειδικών σημάτων υβριδισμού των ανιχνευτών [43] και οι επιπτώσεις των διαφορετικών χαρακτηριστικών των ανιχνευτών στους αλγορίθμους επεξεργασίας δεδομένων [44].
Τα σημαντικότερα μειονεκτήματα των μικροσυστοιχιών περιλαμβάνουν το υψηλό κόστος ενός μεμονωμένου πειράματος, τον μεγάλο αριθμό σχεδιασμών ανιχνευτών που βασίζονται σε αλληλουχίες χαμηλής ειδικότητας, καθώς και την έλλειψη ελέγχου της δεξαμενής των αναλυόμενων μεταγράφων, δεδομένου ότι οι περισσότερες από τις ευρέως χρησιμοποιούμενες πλατφόρμες μικροσυστοιχιών χρησιμοποιούν μόνο ένα σύνολο ανιχνευτών σχεδιασμένων από τον κατασκευαστή. Άλλες αδυναμίες των μικροσυστοιχιών είναι η σχετικά χαμηλή ακρίβεια, ακρίβεια και εξειδίκευση [45], καθώς και η υψηλή ευαισθησία της πειραματικής διάταξης στις διακυμάνσεις της θερμοκρασίας υβριδισμού [46], της καθαρότητας και του ρυθμού αποικοδόμησης του γενετικού υλικού [47] και της διαδικασίας ενίσχυσης [48], οι οποίες, μαζί με άλλους παράγοντες, ενδέχεται να επηρεάσουν τις εκτιμήσεις της γονιδιακής έκφρασης".
Συμπεράσματα
"Παρά τις επιτυχείς μελέτες αναπαραγωγιμότητας [27] και ειδικότητας [97], οι μικροσυστοιχίες έχουν γίνει συχνά αντικείμενο κριτικής ως μέθοδος που αποτυγχάνει να προσδιορίσει σχετικές πληροφορίες που μπορούν να μεταφερθούν άμεσα σε κλινικές εφαρμογές [98]. Ο κύριος λόγος είναι ότι η στατιστική σημαντικότητα συχνά διαφέρει από τη βιολογική συνάφεια λόγω πολύ περιορισμένου αριθμού δειγμάτων ή λόγω της επιρροής άλλων παραγόντων, όπως η κυτταρική ετερογένεια ή η μεταβλητότητα των μορφολογικών χαρακτηριστικών, που είναι δύσκολο να διαχωριστούν από τα υπό μελέτη χαρακτηριστικά".
"Οι δυνατότητες των μελετών μικροσυστοιχιών είναι περιορισμένες, δεδομένου ότι η μέτρηση των επιπέδων των μεταγραφών παρέχει μόνο μια χονδρική εκτίμηση των ενδοκυτταρικών συνθηκών σε μια συγκεκριμένη χρονική στιγμή και επηρεάζεται από μια πληθώρα ειδικών για το πείραμα παραγόντων. Συνεπώς, η διαδικασία ανακάλυψης νέων φαρμάκων, με τη χρήση μικροσυστοιχιών έκφρασης ή γονοτύπων, έχει άνισο ρυθμό και σε ορισμένες περιπτώσεις μπορεί να είναι ακόμη και παραπλανητική."
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4559324/#Sec1title
Περιορισμοί των μικροσυστοιχιών
Οι προσεγγίσεις που βασίζονται στην υβριδοποίηση είναι υψηλής απόδοσης και σχετικά φθηνές, αλλά έχουν αρκετούς περιορισμούς, οι οποίοι περιλαμβάνουν(6):
εξάρτηση από την υπάρχουσα γνώση σχετικά με την αλληλουχία του γονιδιώματος
υψηλά επίπεδα υποβάθρου λόγω διασταυρούμενων υβριδισμών
περιορισμένο δυναμικό εύρος ανίχνευσης λόγω τόσο του υποβάθρου όσο και των σημάτων κορεσμού
η σύγκριση των επιπέδων έκφρασης μεταξύ διαφορετικών πειραμάτων είναι συχνά δύσκολη και μπορεί να απαιτεί περίπλοκες μεθόδους κανονικοποίησης
Πέρα από όλες αυτές τις αδυναμίες και τους περιορισμούς, είμαι βέβαιος ότι τα αποτελέσματα των μικροσυστοιχιών είναι "ακριβή" και "αξιόπιστα". Ίσως αυτός είναι ο λόγος για τον οποίο ο Dougherty δηλώνει ότι η συλλογή και η ερμηνεία της δάρτας δεν είναι επιστήμη;
Τέλος της παράκαμψης.
Οι αρχαίοι γνώριζαν καλά το ρόλο της παρατήρησης στη φυσική επιστήμη.
Η λογική εφαρμοσμένη στις παρατηρήσεις και όχι μόνο η λογική απέδιδε ρεαλιστική γνώση της Φύσης
Η φυσική επιστήμη ήταν η παρατήρηση ακολουθούμενη από ορθολογική ανάλυση
Τα πάντα ξεκινούν με την έννοια του σχεδιασμένου πειράματος - δηλαδή της μεθοδολογικής σε αντίθεση με την απρογραμμάτιστη παρατήρηση
Αντί να είναι ένας παθητικός παρατηρητής της Φύσης, ο επιστήμονας δομεί τον τρόπο με τον οποίο θα παρατηρηθεί η Φύση
Ένα μεγάλο μέρος της κρίσης στη γονιδιωματική στρέφεται στην επιστροφή στο "ψάξιμο στο σκοτάδι".
Ο Dougherty εστιάζει στο πώς η πειραματική μέθοδος οδηγεί σε μια γενική επιστημονική επιστημολογία και πώς η σύγχρονη γονιδιωματική έρευνα συχνά αποτυγχάνει να ικανοποιήσει τις βασικές απαιτήσεις αυτής της επιστημολογίας, αποτυγχάνοντας έτσι να παράγει έγκυρη επιστημονική γνώση
Ακόμη και αν αποδεχόμασταν την αιτιότητα με τη μορφή αναγκαίων συνδέσεων, μόνο αν ήταν γνωστοί όλοι οι αιτιώδεις παράγοντες θα μπορούσαμε να προβλέψουμε τα αποτελέσματα με βεβαιότητα
Σε πολύπλοκες καταστάσεις, όπως το ρυθμιστικό σύστημα ενός κυττάρου, δεν μπορεί κανείς να διανοηθεί να λάβει υπόψη του όλους τους παράγοντες που συμβάλλουν.
Η πολυπλοκότητα του μοντέλου περιορίζεται λόγω διαφόρων παραγόντων, όπως:
Μαθηματική ευχέρεια
Απαιτήσεις δεδομένων για εξαγωγή συμπερασμάτων
Υπολογισμός
Εφικτός πειραματικός σχεδιασμός
Θα υπάρχουν λανθάνουσες μεταβλητές εκτός του μοντέλου που επηρεάζουν τις μεταβλητές του μοντέλου και κάνουν το μοντέλο να συμπεριφέρεται στοχαστικά
Καμία ορθολογική εξήγηση δεν μπορεί να επικυρώσει μια θεωρίαΗ επιστήμη δεν έχει να κάνει με την ορθολογιστική εξήγηση, ούτε με την κλασική φιλοσοφική της μορφή που εξηγεί τα γεγονότα με όρους φυσικών κατηγοριών ούτε με την πιο πρόσφατη υπολογιστική της μορφή που εξηγεί τα δεδομένα με την προσαρμογή ενός μοντέλου.
Η επιστήμη δεν αφορά την προσαρμογή δεδομένων
Ένα µοντέλο δεν επικυρώνεται ούτε από την ορθολογική σκέψη πίσω από τη διαδικασία σχεδιασµού ούτε από την άριστη απόδοση προσαρµογής του στα δεδοµένα, µόνο η γνώση της προβλεπτικής του δύναµης παρέχει εγκυρότητα
Χωρίς την κατανόηση αυτών των ιδιοτήτων, τα αποτελέσματα δεν έχουν νόημα
Είναι αλήθεια ότι το μαθηματικό μοντέλο (εννοιολογικό σύστημα) είναι κατανοητό, αλλά αυτό συμβαίνει επειδή το μαθηματικό μοντέλο κατασκευάζεται από ανθρώπους σύμφωνα με την ανθρώπινη νοημοσύνη
Αλλά το μοντέλο δεν αντικατοπτρίζει τον φυσικό κόσμο
Η γνώση μας για τα φαινόμενα βρίσκεται στο μαθηματικό μοντέλο, στο βαθμό που η γνώση αυτή είναι εννοιολογική
Αλλά εδώ πρέπει να αποφύγουμε τον κίνδυνο να διολισθήσουμε στον ορθολογισμό, μπερδεύοντας το εννοιολογικό σύστημα με την ίδια τη Φύση καθώς η επιστημονική γνώση δεν σταματά με τη συλλογιστική για τις δυνατότητες και τη δημιουργία ενός μοντέλου
Προχωράει παραπέρα και περιλαμβάνει μια μεθοδολογία επικύρωσης της πρόβλεψης και στη συνέχεια την πραγματική επικύρωση
Όταν αναφέρεται στη Φύση ως παράλογη, ο Feynman δεν ασκεί κριτική στην κατανόηση των μαθηματικών συστημάτων που επιτρέπουν σε κάποιον να μοντελοποιήσει τα φυσικά φαινόμενα και να κάνει προβλέψεις σχετικά με αυτά τα φαινόμενα- μάλλον, αναφέρεται στην έλλειψη κατηγορηματικής κατανόησης των ίδιων των φυσικών φαινομένων
Ως προϊόν της ανθρώπινης διάνοιας, ένα μαθηματικό μοντέλο είναι ipso facto κατανοητό, ωστόσο, η Φύση δεν είναι προϊόν της ανθρώπινης διάνοιας.
Οι δυσκολίες μας στην κατανόηση προκύπτουν επειδή οι κατηγορίες της συνήθους κατανόησής μας σχετίζονται με πιθανές αισθητηριακές εμπειρίες και οι δυσκολίες αυτές επεκτείνονται στη γονιδιωματική
Δεν έχουμε καμία αισθητηριακή εμπειρία με δίκτυα χιλιάδων μη γραμμικά αλληλεπιδρώντων κόμβων που παρουσιάζουν ανατροφοδότηση, κατανεμημένη ρύθμιση και τεράστιο πλεονασμό
Υπήρξαν προειδοποιητικές προειδοποιήσεις σχετικά με τους κινδύνους της λανθασμένης εφαρμογής μεθόδων ταξινόμησης που έχουν σχεδιαστεί για χρήση με το πολύ εκατοντάδες χαρακτηριστικά και πολλές χιλιάδες σημεία δειγματοληψίας σε σύνολα δεδομένων με χιλιάδες ή δεκάδες χιλιάδες χαρακτηριστικά (γονίδια) και λιγότερα από εκατό σημεία δειγματοληψίας (μικροσυστοιχίες)
Σίγουρα, υπάρχουν μαθηματικά ζητήματα σε κάθε βήμα κατά την εφαρμογή της ταξινόμησης σε δεδομένα μικροσυστοιχιών:
Μπορεί κανείς να σχεδιάσει έναν καλό ταξινομητή δεδομένων των μικρών δειγμάτων που είναι κοινός τόπος στη γονιδιωματική;
Μπορεί κανείς να περιμένει από έναν αλγόριθμο επιλογής χαρακτηριστικών να βρει καλά χαρακτηριστικά υπό αυτούς τους περιορισμούς;
Εκτός από ασήμαντες περιπτώσεις, δεν έχουν παρασχεθεί στοιχεία που να αποδεικνύουν ότι είναι δυνατή η εκτίμηση αποδεκτού σφάλματος με τόσα πολλά χαρακτηριστικά και τόσο μικρά δείγματα.
Ακόμη χειρότερα, σε πολλές περιπτώσεις που μελετήθηκαν έχει αποδειχθεί ότι είναι αδύνατο
Όχι μόνο δεν έχει αποδειχθεί ότι η συντριπτική πλειονότητα των εργασιών έχει επιστημονικό περιεχόμενο, αλλά μεγάλος αριθμός αυτών έχει αποδειχθεί ότι δεν έχει επιστημονικό περιεχόμενο
Ο Braga-Neto γράφει: "Εδώ, έχουμε να αντιμετωπίσουμε την απρόσεκτη, αδόκιμη εφαρμογή μεθόδων ταξινόμησης σε δεδομένα μικροσυστοιχιών μικρών δειγμάτων, η οποία έχει δημιουργήσει μεγάλο αριθμό δημοσιεύσεων και εξίσου μεγάλο αριθμό ανυπόστατων επιστημονικών υποθέσεων".
Η αποτυχία της ερευνητικής κοινότητας να απαιτήσει στέρεες μαθηματικές αποδείξεις της εγκυρότητας των μεθόδων ταξινόμησης που χρησιμοποιούνται με τον τύπο των διαθέσιμων δεδομένων έχει οδηγήσει σε μεγάλο αριθμό δημοσιεύσεων χωρίς επιστημονικό περιεχόμενο
Πολλά επιστημολογικά ζητήματα στη γονιδιωματική σχετίζονται με τη στατιστική
Οι Mehta et al. γράφουν: "Πολλές εργασίες που απευθύνονται στην κοινότητα της βιολογίας υψηλών διαστάσεων περιγράφουν την ανάπτυξη ή την εφαρμογή στατιστικών τεχνικών. Η εγκυρότητα πολλών από αυτές είναι αμφισβητήσιμη και φαίνεται να λείπει μια κοινή κατανόηση σχετικά με τα επιστημολογικά θεμέλια των ίδιων των στατιστικών μεθόδων "
Εφιστούν την προσοχή στην έλλειψη υγιούς στατιστικής επιστημολογίας, η οποία καθιστά τα αποτελέσματα χωρίς νόημα
Μια μελέτη των Dupuy και Simon διαπίστωσε ότι είκοσι μία (50%) από τις 42 εργασίες μικροσυστοιχιών περιείχαν τουλάχιστον ένα από τα ακόλουθα τρία βασικά ελαττώματα:
Στην εύρεση γονιδίων που σχετίζονται με το αποτέλεσμα, ένας μη δηλωμένος, ασαφής ή ανεπαρκής έλεγχος για πολλαπλές δοκιμές
Στην ανακάλυψη κλάσεων, ένας ψευδής ισχυρισμός συσχέτισης μεταξύ συστάδων και κλινικής έκβασης, που έγινε μετά την ομαδοποίηση δειγμάτων χρησιμοποιώντας μια επιλογή γονιδίων που σχετίζονται με την έκβαση και εκφράζονται διαφορετικά
Στην επιβλεπόμενη πρόβλεψη, μια μεροληπτική εκτίμηση της ακρίβειας πρόβλεψης μέσω μιας λανθασμένης διαδικασίας διασταυρούμενης επικύρωσης.
Η εκτίμηση σφάλματος με διασταυρούμενη επικύρωση, η οποία είναι πανταχού παρούσα στις μελέτες μικροσυστοιχιών, δεν παρέχει αποδεκτή εκτίμηση σφάλματος
Συνεπώς, η χρήση της διασταυρούμενης επικύρωσης στην επιβλεπόμενη πρόβλεψη υπονομεύει την επιστημονική εγκυρότητα
Ένα σωστά σχεδιασμένο πείραμα μπορεί να αυξήσει σημαντικά την ισχύ των συμπερασμάτων, ενώ ένα κακώς σχεδιασμένο πείραμα μπορεί να καταστήσει αδύνατη την εξαγωγή ουσιαστικών συμπερασμάτων
Η πραγματοποίηση των παρατηρήσεων με νέα και ισχυρή τεχνολογία φαίνεται να προκαλεί αμνησία ως προς την αρχική φύση του σχεδιασμού της μελέτης
Η πανταχού παρουσία των τεχνικών εξόρυξης δεδομένων είναι ιδιαίτερα ανησυχητική , καθώς αυτές τείνουν να αναζητούν μοτίβα σε υπάρχοντα δεδομένα χωρίς να λαμβάνουν υπόψη τον πειραματικό σχεδιασμό ή την προβλεπτική ικανότητα.
Οι τεχνικές εξόρυξης δεδομένων αποτελούνται από μια συλλογή υπολογιστικών τεχνικών που υποστηρίζονται από ευρετικές μεθόδους και στερούνται μαθηματικής θεωρίας του σφάλματος, και συνεπώς στερούνται της δυνατότητας να αποτελέσουν επιστημονική γνώση
Γρήγορη παράκαμψη για την εξόρυξη δεδομένων:
"Εξόρυξη δεδομένων είναι η διαδικασία εύρεσης ανωμαλιών, μοτίβων και συσχετίσεων μέσα σε μεγάλα σύνολα δεδομένων για την πρόβλεψη αποτελεσμάτων".
https://www.sas.com/en_us/insights/analytics/data-mining.html
Εξόρυξη δεδομένων στη γονιδιωματική
Εισαγωγή
Τα τελευταία χρόνια παρατηρείται μεγάλη έκρηξη γονιδιωματικών δεδομένων. Αυτό οφείλεται στην πρόοδο των διαφόρων βιοτεχνολογιών υψηλής απόδοσης, όπως οι μικροσυστοιχίες γονιδιακής έκφρασης RNA. Αυτά τα μεγάλα σύνολα γονιδιωματικών δεδομένων είναι πλούσια σε πληροφορίες και συχνά περιέχουν πολύ περισσότερες πληροφορίες από όσες οι ερευνητές που παρήγαγαν τα δεδομένα μπορεί να είχαν προβλέψει. Ένας τέτοιος τεράστιος όγκος δεδομένων επιτρέπει νέους τύπους αναλύσεων, αλλά καθιστά επίσης δύσκολη την απάντηση ερευνητικών ερωτημάτων με τη χρήση παραδοσιακών μεθόδων. Η ανάλυση αυτών των μαζικών γονιδιωματικών δεδομένων έχει αρκετές πρωτοφανείς προκλήσεις:
Πρόκληση 1: ζήτημα πολλαπλών συγκρίσεων
Η ανάλυση γονιδιωματικών δεδομένων υψηλής απόδοσης απαιτεί το χειρισμό ενός αστρονομικού αριθμού υποψήφιων στόχων, οι περισσότεροι από τους οποίους είναι ψευδώς θετικοί [1, 2]".
Πρόκληση 2: Βιολογικά δεδομένα υψηλής διάστασης
"Η δεύτερη πρόκληση είναι ο υψηλός διαστατικός χαρακτήρας των βιολογικών δεδομένων σε πολλές γονιδιωματικές μελέτες[3]. Στην ανάλυση γονιδιωματικών δεδομένων, πολλοί γονιδιακοί στόχοι διερευνώνται ταυτόχρονα, με αποτέλεσμα να προκύπτουν δραματικά αραιά σημεία δεδομένων στον αντίστοιχο χώρο δεδομένων υψηλής διάστασης. Είναι γνωστό ότι οι μαθηματικές και υπολογιστικές προσεγγίσεις συχνά αποτυγχάνουν να συλλάβουν με ακρίβεια τέτοια φαινόμενα υψηλής διάστασης".
Πρόκληση 3: Πρόβλημα μικρού n και μεγάλου p
"Η τρίτη πρόκληση είναι το λεγόμενο πρόβλημα "μικρού n και μεγάλου p"[2]. Η επιθυμητή απόδοση των συμβατικών στατιστικών μεθόδων επιτυγχάνεται όταν το μέγεθος του δείγματος των δεδομένων, δηλαδή το "n" -ο αριθμός των ανεξάρτητων παρατηρήσεων και υποκειμένων- είναι πολύ μεγαλύτερο από τον αριθμό των υποψήφιων παραμέτρων πρόβλεψης και στόχων, δηλαδή το "p". Σε πολλές αναλύσεις γονιδιωματικών δεδομένων η κατάσταση αυτή είναι συχνά εντελώς αντίστροφη".
Πρόκληση 4: Υπολογιστικός περιορισμός
"Σημειώνουμε επίσης ότι, ανεξάρτητα από το πόσο ισχυρό γίνεται ένα υπολογιστικό σύστημα, είναι συχνά απαγορευτικό να επιλυθούν πολλά προβλήματα εξόρυξης γονιδιωματικών δεδομένων με εξαντλητική συνδυαστική αναζήτηση και συγκρίσεις [4]. Στην πραγματικότητα, πολλά τρέχοντα προβλήματα στην ανάλυση γονιδιωματικών δεδομένων έχουν αποδειχθεί θεωρητικά ότι είναι NP (μη πολυωνυμικής) πολυπλοκότητας, πράγμα που σημαίνει ότι κανένας υπολογιστικός αλγόριθμος δεν μπορεί να αναζητήσει όλες τις πιθανές υποψήφιες λύσεις. Έτσι, για τα προβλήματα εξόρυξης γονιδιωματικών δεδομένων αναζητούνται συχνά ευρετικοί -συχνότερα στατιστικοί- αλγόριθμοι που αναζητούν και διερευνούν αποτελεσματικά ένα πολύ μικρό μέρος όλων των πιθανών λύσεων. Η επιτυχία πολλών μελετών βιοπληροφορικής εξαρτάται καθοριστικά από την κατασκευή και τη χρήση αποτελεσματικών και αποδοτικών ευρετικών αλγορίθμων, οι περισσότεροι από τους οποίους βασίζονται στην προσεκτική εφαρμογή τεχνικών πιθανοτικής μοντελοποίησης και στατιστικής συμπερασματολογίας.
Πρόκληση 5: Θορυβώδη βιολογικά δεδομένα υψηλής απόδοσης
Η επόμενη πρόκληση απορρέει από το γεγονός ότι τα βιοτεχνολογικά δεδομένα υψηλής απόδοσης και οι μεγάλες βιολογικές βάσεις δεδομένων είναι αναπόφευκτα θορυβώδεις, επειδή οι βιολογικές πληροφορίες και τα σήματα ενδιαφέροντος συχνά παρατηρούνται με πολλούς άλλους τυχαίους ή συγχυτικούς παράγοντες. Επιπλέον, ένας πειραματικός σχεδιασμός ενός μεγέθους για όλες τις βιοτεχνολογικές τεχνικές υψηλής απόδοσης μπορεί να εισάγει μεροληψία και σφάλμα για πολλούς υποψήφιους στόχους".
Πρόκληση 6: Ενσωμάτωση πολλαπλών, ετερογενών βιολογικών δεδομένων για τη μεταφραστική βιοπληροφορική έρευνα
Η τελευταία πρόκληση είναι η ενσωμάτωση γονιδιωματικών δεδομένων με ετερογενή βιολογικά δεδομένα και συναφή μεταδεδομένα, όπως η γονιδιακή λειτουργία, οι φαινότυποι των βιολογικών υποκειμένων και οι κλινικές παράμετροι των ασθενών. Για παράδειγμα, πολλαπλά ετερογενή σύνολα δεδομένων, συμπεριλαμβανομένων δεδομένων γονιδιακής έκφρασης, βιολογικών αποκρίσεων, κλινικών ευρημάτων και δεδομένων αποτελεσμάτων, μπορεί να χρειαστεί να συνδυαστούν για την ανακάλυψη γονιδιωματικών βιοδεικτών και γονιδιακών δικτύων που σχετίζονται με την ασθένεια και προβλέπουν κλινικά αποτελέσματα, όπως η εξέλιξη του καρκίνου και η χημειοευαισθησία σε μια αντικαρκινική ένωση. Ορισμένα από αυτά τα σύνολα δεδομένων υπάρχουν σε πολύ διαφορετικές μορφές και μπορεί να απαιτούν συνδυασμένη προεπεξεργασία, αντιστοίχιση μεταξύ στοιχείων δεδομένων ή άλλα προπαρασκευαστικά βήματα πριν από τη συσχετιστική ανάλυση, ανάλογα με τα βιολογικά χαρακτηριστικά και τις κατανομές των δεδομένων τους. Ο αποτελεσματικός συνδυασμός και η αξιοποίηση των πληροφοριών από τέτοιους ετερογενείς πόρους γονιδιωματικών, κλινικών και άλλων δεδομένων παραμένει μια σημαντική πρόκληση".
Αυτά είναι μερικά μόνο από τα προβλήματα που σχετίζονται με την εξόρυξη δεδομένων σε σχέση με τη γονιδιωματική και εμποδίζουν την ακρίβεια και την αξιοπιστία. Συνιστώ να διαβάσετε την υπόλοιπη ανασκόπηση όταν έχετε το χρόνο. Οι προκλήσεις που περιγράφονται εδώ προσφέρουν περισσότερες αποδείξεις για το γιατί η συλλογή και η ερμηνεία των δεδομένων, όπως γίνεται στη γονιδιωματική, δεν είναι επιστήμη.
Τέλος της παράκαμψης.
Ενώ η απροσεξία στην επιστημολογία στη γονιδιωματική ταξινόμηση είναι ανησυχητική, η κατάσταση με την ομαδοποίηση είναι πραγματικά εκπληκτική
Όπως εφαρμόζεται γενικά, δεν υπάρχει καμία προγνωστική πτυχή και, ως εκ τούτου, κανένα επιστημονικό περιεχόμενο.
Γρήγορη παράκαμψη για την ομαδοποίηση:
Εισαγωγή στην ομαδοποίηση και τις διάφορες μεθόδους ομαδοποίησης
1. Επισκόπηση
"Η ομαδοποίηση είναι το έργο της διαίρεσης του πληθυσμού ή των σημείων δεδομένων σε έναν αριθμό ομάδων, έτσι ώστε τα σημεία δεδομένων στις ίδιες ομάδες να μοιάζουν περισσότερο με άλλα σημεία δεδομένων στην ίδια ομάδα από ό,τι εκείνα σε άλλες ομάδες. Με απλά λόγια, ο στόχος είναι να διαχωριστούν ομάδες με παρόμοια χαρακτηριστικά και να κατανεμηθούν σε ομάδες.
2. Τύποι ομαδοποίησης
Σε γενικές γραμμές, η ομαδοποίηση μπορεί να χωριστεί σε δύο υποομάδες:
Σκληρή ομαδοποίηση: Στη σκληρή συσταδοποίηση, κάθε σημείο δεδομένων είτε ανήκει πλήρως σε μια συστάδα είτε όχι.
Μαλακή ομαδοποίηση (Soft Clustering): Στη μαλακή ομαδοποίηση, αντί να τοποθετείται κάθε σημείο δεδομένων σε ξεχωριστή συστάδα, αποδίδεται μια πιθανότητα ή πιθανότητα να ανήκει το συγκεκριμένο σημείο δεδομένων σε αυτές τις συστάδες.
3. Τύποι αλγορίθμων συσταδοποίησης
Δεδομένου ότι το έργο της ομαδοποίησης είναι υποκειμενικό, τα μέσα που μπορούν να χρησιμοποιηθούν για την επίτευξη αυτού του στόχου είναι πολλά. Κάθε μεθοδολογία ακολουθεί ένα διαφορετικό σύνολο κανόνων για τον ορισμό της "ομοιότητας" μεταξύ των σημείων δεδομένων. Στην πραγματικότητα, είναι γνωστοί περισσότεροι από 100 αλγόριθμοι ομαδοποίησης. Όμως λίγοι από τους αλγορίθμους χρησιμοποιούνται ευρέως, ας τους εξετάσουμε λεπτομερώς".
Μια εισαγωγή στην ομαδοποίηση και τις διάφορες μεθόδους ομαδοποίησης
Στη γονιδιωματική, υπάρχουν πολυάριθμοι αλγόριθμοι ομαδοποίησης που μπορούν να χρησιμοποιηθούν. Υπάρχουν πάρα πολλές προσεγγίσεις για να απαριθμηθούν εδώ, αλλά όλες έχουν τα δικά τους δυνατά και αδύνατα σημεία. Δημιουργούνται πάντα νέοι αλγόριθμοι που οδηγούν σε υπερπληθώρα μεθόδων για να επιλέξει κανείς.
Τέλος παράκαμψης.
Οι Jain et al. αναφέρουν ότι "η ομαδοποίηση είναι μια υποκειμενική διαδικασία", οπότε στερείται της βασικής επιστημονικής απαίτησης της δια-υποκειμενικότητας
Πρέπει να γίνουν πολλές μελέτες προς αυτή την κατεύθυνση προτού η ομαδοποίηση μπορεί πρακτικά να παρέχει επιστημονική γνώση
Εν τω μεταξύ, οι λεγόμενοι "δείκτες επικύρωσης" χρησιμοποιούνται μερικές φορές για την υποστήριξη ενός αποτελέσματος ομαδοποίησης, αλλά αυτοί συχνά συσχετίζονται ελάχιστα με το σφάλμα της ομαδοποίησης και επομένως δεν παρέχουν επιστημονική επικύρωση
Οι επιστημολογικές εκτιμήσεις για τη γονιδιωματική οδηγούν αναπόφευκτα στη συστημική βιολογία
Η γονιδιωματική, που είναι η μελέτη των πολυμεταβλητών αλληλεπιδράσεων μεταξύ των κυτταρικών συστατικών, απαιτεί μοντελοποίηση βασισμένη σε συστήματα, ιδίως τη χρήση μη γραμμικών στοχαστικών δυναμικών συστημάτων, είτε αυτά έχουν τη μορφή διαφορικών εξισώσεων, είτε διακριτών δικτύων, είτε διαδικασιών Markov, είτε κάποιας άλλης μορφής τυχαίας διαδικασίας.
Τα πειράματα πρέπει να σχεδιάζονται και να διεξάγονται με τρόπο κατάλληλο για την κατασκευή μη γραμμικών δυναμικών συστημάτων και η θεωρία συστημάτων πρέπει να αναπτυχθεί με τρόπους κατάλληλους για τη βιολογική μοντελοποίηση.
Ο Dougherty συμπεραίνει ότι πρόκειται για επιβλητικά καθήκοντα.
Παρ' όλα αυτά, με βάση τη μακρόχρονη εμπειρία του με ανθρώπινα σχεδιασμένα συστήματα είναι σχεδόν βέβαιο ότι η μελέτη των βιολογικών συστημάτων δεν μπορεί να προχωρήσει ουσιαστικά χωρίς καλά μελετημένα πειράματα και βαθιά μαθηματικά
Θα πρέπει να βασιζόμαστε σε αλγόριθμους υπολογιστών, μοντελοποίηση, εξόρυξη/ομαδοποίηση τεράστιων όγκων δεδομένων κ.λπ. το καθένα με διάφορα μειονεκτήματα, περιορισμούς και αδυναμίες για να διαμορφώσουμε αυτό που υποτίθεται ότι πρέπει να θεωρούμε ως "επιστημονική γνώση"; Βλέποντας ότι χρειάζονται τόσες πολλές διαφορετικές υπολογιστικές μέθοδοι με διάφορους περιορισμούς προκειμένου να ερμηνευτούν τα αποτελέσματα για να ζωγραφιστεί αυτό που θεωρείται ότι είναι μια "ακριβής" αναπαράσταση των δεδομένων, είναι να απορεί κανείς γιατί υπάρχει κρίση αναπαραγωγιμότητας στον κόσμο της επιστήμης και της γονιδιωματικής; Ο Dougherty ήταν κατηγορηματικός ότι η συλλογή, η ερμηνεία και η ανάλυση των δεδομένων δεν είναι επιστήμη. Η γονιδιωματική δεν παρατηρεί ένα φυσικό φαινόμενο και δεν δημιουργεί πειράματα χρησιμοποιώντας έγκυρες ανεξάρτητες και εξαρτημένες μεταβλητές προκειμένου να προσδιορίσει την αιτία και το αποτέλεσμα. Δημιουργεί ένα τεχνητό φαινόμενο σε ένα εργαστήριο χρησιμοποιώντας αμφισβητήσιμη τεχνολογία. Ασχολείται με τη δημιουργία τεράστιων ποσοτήτων δεδομένων και τον υποκειμενικό προσδιορισμό και την ανάλυση αυτών των δεδομένων. Αυτό χρησιμοποιείται για να δημιουργηθεί ένα κατασκεύασμα που δεν παρατηρείται ποτέ στην πραγματικότητα παρά μόνο ως τυχαία Α, C, T, G στην οθόνη ενός υπολογιστή. Ενώ είναι σαφές ότι τα δεδομένα που παράγονται από τη γονιδιωματική δεν συνιστούν επιστημονική γνώση, υπάρχει ισχυρή υπόθεση ότι αποτελούν επιστημονική απάτη.
Παρακαλώ βοηθήστε να στηρίξετε το έργο μου.
🙏
*** Δικτυογραφία:
The Epistemological Crisis in Genomics – ViroLIEgy
https://viroliegy.com/2022/01/26/the-epistemological-crisis-in-genomics/