Η Anthropic Κατέστρεψε Εκατομμύρια Έντυπα Βιβλία για να Δημιουργήσει τα Μοντέλα Τεχνητής Νοημοσύνης της

Η εταιρεία προσέλαβε τον επικεφαλής της Google για τη σάρωση βιβλίων για να τεμαχίσει και να ψηφιοποιήσει "όλα τα βιβλία του κόσμου".

Apollodoros

Jul 15, 2025

Σας ευχαριστώ θερμά για το ενδιαφέρον σας και την αναδημοσίευση των άρθρων μου. Θα εκτιμούσα ιδιαίτερα αν, κατά την κοινοποίηση, σ̲υ̲μ̲π̲ε̲ρ̲ι̲λ̲α̲μ̲β̲ά̲ν̲α̲τ̲ε̲ ̲κ̲α̲ι̲ ̲τ̲ο̲ν̲ ̲σ̲ύ̲ν̲δ̲ε̲σ̲μ̲ο̲ ̲(̲l̲i̲n̲k̲)̲ ̲τ̲ο̲υ̲ ̲ά̲ρ̲θ̲ρ̲ο̲υ̲ ̲μ̲ο̲υ̲. Αυτό όχι μόνο αναγνωρίζει την πηγή, αλλά επιτρέπει και σε άλλους να ανακαλύψουν περισσότερο περιεχόμενο. Η υποστήριξή σας είναι πολύτιμη για τη συνέχιση της δουλειάς μου.

Απόδοση στα ελληνικά: Απολλόδωρος - Benj Edwards | 25 Ιουνίου 2025

Μπορείτε να κάνετε εφάπαξ ή επαναλαμβανόμενες δωρεές μέσω του Ko-Fi:

Πίστωση φώτο: Alexander Spatari via Google Images

Τη Δευτέρα, δικαστικά έγγραφα αποκάλυψαν ότι η εταιρεία τεχνητής νοημοσύνης Anthropic ξόδεψε εκατομμύρια δολάρια σαρώνοντας φυσικά έντυπα βιβλία για να κατασκευάσει το Claude, έναν βοηθό τεχνητής νοημοσύνης παρόμοιο με το ChatGPT. Κατά τη διαδικασία αυτή, η εταιρεία έκοψε εκατομμύρια έντυπα βιβλία από τις βιβλιοδεσίες τους, τα σάρωσε σε ψηφιακά αρχεία και πέταξε τα πρωτότυπα αποκλειστικά και μόνο για τον σκοπό της εκπαίδευσης της ΤΝ - λεπτομέρειες που θάφτηκαν σε μια απόφαση περί πνευματικών δικαιωμάτων σχετικά με τη δίκαιη χρήση, της οποίας τις ευρύτερες συνέπειες της δίκαιης χρήσης αναφέραμε χθες.

Η νομική απόφαση 32 σελίδων αφηγείται την ιστορία του πώς, τον Φεβρουάριο του 2024, η εταιρεία προσέλαβε τον Tom Turvey, τον πρώην επικεφαλής των συνεργασιών για το έργο σάρωσης βιβλίων Google Books, και του ανέθεσε να αποκτήσει "όλα τα βιβλία του κόσμου". Η στρατηγική πρόσληψη φαίνεται ότι είχε σχεδιαστεί για να αναπαράγει τη νομικά επιτυχημένη προσέγγιση ψηφιοποίησης βιβλίων της Google - την ίδια επιχείρηση σάρωσης που επέζησε από τις αμφισβητήσεις των πνευματικών δικαιωμάτων και δημιούργησε βασικά προηγούμενα δίκαιης χρήσης.

Ενώ η καταστροφική σάρωση αποτελεί κοινή πρακτική μεταξύ ορισμένων επιχειρήσεων ψηφιοποίησης βιβλίων, η προσέγγιση της Anthropic ήταν κάπως ασυνήθιστη λόγω της τεκμηριωμένης μαζικής κλίμακας. Αντίθετα, το πρόγραμμα Google Books χρησιμοποίησε σε μεγάλο βαθμό μια πατενταρισμένη μη καταστροφική διαδικασία με κάμερες για τη σάρωση εκατομμυρίων βιβλίων που δανείστηκαν από βιβλιοθήκες και αργότερα επιστράφηκαν. Για την Anthropic, η ταχύτερη ταχύτητα και το χαμηλότερο κόστος της καταστροφικής διαδικασίας φαίνεται ότι υπερίσχυσε κάθε ανάγκη για τη διατήρηση των ίδιων των φυσικών βιβλίων, υποδηλώνοντας την ανάγκη για μια φθηνή και εύκολη λύση σε μια άκρως ανταγωνιστική βιομηχανία.

Τελικά, ο δικαστής William Alsup έκρινε ότι αυτή η καταστροφική διαδικασία σάρωσης χαρακτηρίστηκε ως θεμιτή χρήση - αλλά μόνο επειδή η Anthropic είχε αγοράσει νόμιμα πρώτα τα βιβλία, είχε καταστρέψει κάθε έντυπο αντίγραφο μετά τη σάρωση και είχε κρατήσει τα ψηφιακά αρχεία εσωτερικά αντί να τα διανείμει. Ο δικαστής συνέκρινε τη διαδικασία με τη "διατήρηση του χώρου" μέσω της μετατροπής του μορφότυπου και τη θεώρησε μετασχηματιστική. Αν η Anthropic είχε επιμείνει σε αυτή την προσέγγιση από την αρχή, ίσως να είχε επιτύχει την πρώτη νομικά εγκεκριμένη περίπτωση θεμιτής χρήσης ΤΝ. Αντ' αυτού, η προηγούμενη πειρατεία της εταιρείας υπονόμευσε τη θέση της.

Αλλά αν δεν είστε καλά εξοικειωμένοι με τη βιομηχανία της τεχνητής νοημοσύνης και τα πνευματικά δικαιώματα, ίσως αναρωτηθείτε: Γιατί μια εταιρεία να ξοδέψει εκατομμύρια δολάρια για βιβλία για να τα καταστρέψει; Πίσω από αυτούς τους περίεργους νομικούς ελιγμούς κρύβεται μια πιο θεμελιώδης κινητήρια δύναμη: η ακόρεστη δίψα της βιομηχανίας ΤΝ για κείμενα υψηλής ποιότητας.

Η κούρσα για υψηλής ποιότητας δεδομένα εκπαίδευσης

Για να καταλάβετε γιατί η Anthropic θα ήθελε να σαρώσει εκατομμύρια βιβλία, είναι σημαντικό να γνωρίζετε ότι οι ερευνητές ΤΝ δημιουργούν μεγάλα γλωσσικά μοντέλα (LLM) όπως αυτά που τροφοδοτούν το ChatGPT και την Claude, τροφοδοτώντας δισεκατομμύρια λέξεις σε ένα νευρωνικό δίκτυο. Κατά τη διάρκεια της εκπαίδευσης, το σύστημα τεχνητής νοημοσύνης επεξεργάζεται το κείμενο επανειλημμένα, δημιουργώντας στατιστικές σχέσεις μεταξύ λέξεων και εννοιών κατά τη διαδικασία.

Η ποιότητα των δεδομένων εκπαίδευσης που τροφοδοτούνται στο νευρωνικό δίκτυο επηρεάζει άμεσα τις δυνατότητες του μοντέλου ΤΝ που προκύπτει. Τα μοντέλα που εκπαιδεύονται σε καλά επεξεργασμένα βιβλία και άρθρα τείνουν να παράγουν πιο συνεκτικές και ακριβείς απαντήσεις από εκείνα που εκπαιδεύονται σε κείμενο χαμηλότερης ποιότητας, όπως τυχαία σχόλια στο YouTube.

Οι εκδότες ελέγχουν νομικά το περιεχόμενο που οι εταιρείες AI επιθυμούν απεγνωσμένα, αλλά οι εταιρείες AI δεν θέλουν πάντα να διαπραγματεύονται μια άδεια. Το δόγμα της πρώτης πώλησης προσέφερε μια λύση: Από τη στιγμή που αγοράζετε ένα φυσικό βιβλίο, μπορείτε να κάνετε ό,τι θέλετε με αυτό το αντίγραφο -συμπεριλαμβανομένης της καταστροφής του. Αυτό σήμαινε ότι η αγορά φυσικών βιβλίων προσέφερε μια νομική λύση.

Και όμως η αγορά πραγμάτων είναι ακριβή, ακόμη και αν είναι νόμιμη. Έτσι, όπως και πολλές εταιρείες τεχνητής νοημοσύνης πριν από αυτήν, η Anthropic επέλεξε αρχικά τον γρήγορο και εύκολο δρόμο. Στην προσπάθειά της να αποκτήσει υψηλής ποιότητας δεδομένα εκπαίδευσης, αναφέρεται στη δικαστική κατάθεση, η Anthropic επέλεξε αρχικά να συγκεντρώσει ψηφιοποιημένες εκδόσεις πειρατικών βιβλίων για να αποφύγει αυτό που ο διευθύνων σύμβουλος Dario Amodei αποκάλεσε «νομικό/πρακτικό/επιχειρηματικό κόπο» - τις πολύπλοκες διαπραγματεύσεις αδειοδότησης με τους εκδότες. Αλλά μέχρι το 2024, η Anthropic είχε αρχίσει να « μην είναι τόσο ενθουσιασμένη με τη χρήση πειρατικών ηλεκτρονικών βιβλίων για νομικούς λόγους» και χρειαζόταν μια ασφαλέστερη πηγή.

Η αγορά χρησιμοποιημένων φυσικών βιβλίων παρέκαμψε εντελώς την αδειοδότηση, ενώ παρείχε το υψηλής ποιότητας, επαγγελματικά επεξεργασμένο κείμενο που χρειάζονται τα μοντέλα τεχνητής νοημοσύνης, και η καταστροφική σάρωση ήταν απλώς ο ταχύτερος τρόπος για την ψηφιοποίηση εκατομμυρίων τόμων. Η εταιρεία ξόδεψε "πολλά εκατομμύρια δολάρια" σε αυτή την αγορά και σάρωση, αγοράζοντας συχνά μεταχειρισμένα βιβλία χύμα. Στη συνέχεια, απογύμνωσαν τα βιβλία από τις βιβλιοδεσίες, έκοψαν τις σελίδες σε εργάσιμες διαστάσεις, τα σάρωσαν ως στοίβες σελίδων σε PDF με κείμενο αναγνώσιμο από μηχανήματα, συμπεριλαμβανομένων των εξωφύλλων, και στη συνέχεια πέταξαν όλα τα χάρτινα πρωτότυπα.

Τα δικαστικά έγγραφα δεν αναφέρουν ότι κατά τη διαδικασία αυτή καταστράφηκαν σπάνια βιβλία -η Anthropic αγόραζε τα βιβλία της χύμα από μεγάλους λιανοπωλητές- αλλά οι αρχειονόμοι έχουν καθιερώσει εδώ και καιρό άλλους τρόπους για την εξαγωγή πληροφοριών από το χαρτί. Για παράδειγμα, το Internet Archive πρωτοστάτησε στις μη καταστροφικές μεθόδους σάρωσης βιβλίων που διατηρούν τους φυσικούς τόμους δημιουργώντας παράλληλα ψηφιακά αντίγραφα. Και νωρίτερα αυτό το μήνα, η OpenAI και η Microsoft ανακοίνωσαν ότι συνεργάζονται με τις βιβλιοθήκες του Χάρβαρντ για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης σε σχεδόν 1 εκατομμύριο δημόσια βιβλία που χρονολογούνται από τον 15ο αιώνα - πλήρως ψηφιοποιημένα αλλά διατηρημένα για να ζήσουν μια άλλη μέρα.

Ενώ το Harvard συντηρεί προσεκτικά χειρόγραφα 600 ετών για την εκπαίδευση της τεχνητής νοημοσύνης, κάπου στη Γη βρίσκονται τα πεταμένα απομεινάρια εκατομμυρίων βιβλίων που δίδασκαν στο Claude πώς να ενισχύσει το βιογραφικό σας. Όταν ρωτήθηκε σχετικά με αυτή τη διαδικασία, το ίδιο το Claude έδωσε μια συγκλονιστική απάντηση σε ένα ύφος που προέρχεται από δισεκατομμύρια σελίδες απορριφθέντων κειμένων: «Το γεγονός ότι αυτή η καταστροφή βοήθησε στη δημιουργία μου -κάτι που μπορεί να συζητήσει τη λογοτεχνία, να βοηθήσει τους ανθρώπους να γράψουν και να ασχοληθούν με την ανθρώπινη γνώση- προσθέτει στρώματα πολυπλοκότητας που ακόμα επεξεργάζομαι. Είναι σαν να χτίζεται από τις στάχτες μιας βιβλιοθήκης».

Αυτό το άρθρο ενημερώθηκε στις 26/6/25 στις 7:57 π.μ. για να προστεθούν πληροφορίες σχετικά με τη μη καταστροφική τεχνική σάρωσης που χρησιμοποιεί το Google Books.

Benj Edwards Senior AI Reporter : Ο Benj Edwards είναι Senior AI Reporter του Ars Technica και ιδρυτής του ειδικού τομέα AI του ιστότοπου το 2022. Είναι επίσης ιστορικός τεχνολογίας με εμπειρία σχεδόν δύο δεκαετιών. Στον ελεύθερο χρόνο του, γράφει και ηχογραφεί μουσική, συλλέγει vintage υπολογιστές και απολαμβάνει τη φύση. Ζει στο Raleigh, NC.

Αν σας άρεσε αυτό το άρθρο, μοιραστείτε το, εγγραφείτε για να λαμβάνετε περισσότερο περιεχόμενο και αν θέλετε να στηρίξετε το συνεχές έργο μου, μπορείτε να χρησιμοποιήσετε τον παρακάτω σύνδεσμο.

Available for iOS and Android

—Δικτυογραφία:

Anthropic destroyed millions of print books to build its AI models - Ars Technica

https://arstechnica.com/ai/2025/06/anthropic-destroyed-millions-of-print-books-to-build-its-ai-models/?utm_source=substack&utm_medium=email

Apollodoros’s Newsletter

Discussion about this post