Πώς λειτουργεί το Google?
Το να ψάξουμε κάτι στο Google είναι κάτι τόσο καθημερινό για τους περισσότερους από εμάς, που το θεωρούμε δεδομένο. Αυτό που ίσως ξεχνάμε είναι το πόσο μεγάλο είναι το Internet. Κάθε μας αναζήτηση μπορεί να έχει την απάντησή της σε μία ή περισσότερες από τις 30 τρισεκατομμύρια ξεχωριστές σελίδες του παγκόσμιου ιστού (30.000.000.000.000, για τους λάτρεις των μηδενικών), που αυξάνονται συνεχώς. Και το γεγονός πως το Google μπορεί να μας επιστρέψει αποτελέσματα σχετικά με την αναζήτηση μέσα σε λιγότερο από ένα δευτερόλεπτο δεν είναι τίποτα λιγότερο από εκπληκτικό!
Σημείωση: ενώ το σωστό είναι "Η Google" (η μηχανή αναζήτησης ή η εταιρεία) στο παρόν άρθρο θα αναφέρομαι στο Google σαν ουδέτερο, για να μην μπερδευόμαστε.
Πολλές από τις παρακάτω αρχές ισχύουν γενικότερα για τις μηχανές αναζήτησης αλλά, ας μην γελιόμαστε, η συντριπτική πλειοψηφία χρησιμοποιούμε το Google. Το σίγουρο είναι, πάντως, πως χωρίς τις μηχανές αναζήτηση, θα ήταν πρακτικά αδύνατον να βρούμε οποιαδήποτε πληροφορία στο διαδίκτυο.
Και ήρθε μια αράχνη
Το Google, όπως και οι περισσότερες μηχανές αναζήτηση, χρησιμοποιεί αυτόματα προγράμματα που ονομάζονται Crawlers ή Spiders.
Τα προγράμματα αυτά επισκέπτονται όλες τις σελίδες στο Internet, εκτός από αυτές που ο ιδιοκτήτης ενός site έχει επιλέξει να μην συμπεριλαμβάνονται στην αναζήτηση.
Πηγαίνοντας από link σε link, οι crawlers καταγράφουν τις λέξεις-κλειδιά και τοποθετούν τις σελίδες σε κατηγορίες, με βάση το περιεχόμενό τους και άλλους παράγοντες.
Όλες αυτές οι πληροφορίες που συγκεντρώνουν, αποθηκεύονται στο "Index", ένα «κατάλογο περιεχομένων» για το Internet, που έχει μέγεθος πάνω από 100 petabytes (100 εκατομμύρια gigabytes).
Αυτή η μέθοδος είναι που κάνει την αναζήτηση στο Internet τόσο γρήγορη. Όταν ψάχνουμε κάτι στο Google, δεν ψάχνει εκείνη την ώρα σε ολόκληρο το Internet, αλλά κάνει μια αναζήτηση στο πολύ μικρότερο Index.
Το Hardware
Αν αναρωτιέστε που αποθηκεύεται αυτό το Index, καθώς και πώς γίνονται όλες οι λειτουργίες του Google, η απάντηση δεν είναι ούτε ένας υπερυπολογιστής, ούτε μια δεκάδα υπερυπολογιστές, ούτε καν μια εκατοντάδα υπερυπολογιστές.
Η πολιτική του Google είναι να χρησιμοποιεί εκατοντάδες χιλιάδες μικρούς και σχετικά οικονομικούς server σε ολόκληρο τον κόσμο για όλες τις λειτουργίες. Οι server αυτοί τρέχουν ένα ειδικά τροποποιημένο λειτουργικό σύστημα βασισμένο στο Linux. Ένα πρόγραμμα που ονομάζεται Google File System αναλαμβάνει τη διαχείριση των δεδομένων σε όλους τους διαφορετικούς server.
Οι server αυτοί χωρίζονται σε διαφορετικές κατηγορίες:
Οι Web Server δέχονται και επεξεργάζονται τις ερωτήσεις των χρηστών, στέλνοντας την ερώτηση στον κατάλληλο server
Οι Index servers αποθηκεύουν συνολικά το Index και τα αποτελέσματα των αναζητήσεων.
Οι Document servers αποθηκεύουν τις πληροφορίες των χρηστών, τα email του Gmail, τα αρχεία του Google Drive κλπ.
Οι Ad servers αποθηκεύουν τις διαφημίσεις του Google που προβάλλονται οπουδήποτε στον κόσμο.
Όσον αφορά συγκεκριμένα τους Index servers, η Google χωρίζει τις πληροφορίες που περιέχουν σε κομμάτια των 64ΜΒ (blocks). Κάθε block υπάρχει σε τρία αντίγραφα, και κάθε αντίγραφο αποθηκεύεται σε διαφορετικό server που λειτουργεί με διαφορετική ηλεκτρική τροφοδοσία.
Τα blocks των δεδομένων μοιράζονται σχετικά τυχαία, έτσι ώστε δύο server να μην έχουν ακριβώς τα ίδια data blocks. Έτσι, όταν εμφανιστεί πρόβλημα σε κάποιο server, δεν θα υπάρξει διακοπή στη λειτουργία του συστήματος, καθώς τα δεδομένα υπάρχουν και σε άλλους servers.
Αλγόριθμοί
Όλα τα εκατομμύρια Gigabytes του Index θα ήταν εντελώς άχρηστα χωρίς τους κατάλληλους αλγόριθμους – διαφορετικά προγράμματα που βοηθούν την αναζήτηση.
Όταν κάνουμε μία αναζήτηση, μία σειρά από αλγόριθμοι μπαίνουν σε λειτουργία. Ένας από αυτούς είναι ο αλγόριθμος του Autocomplete, που προσπαθεί να μαντέψει τι θέλουμε να ψάξουμε, για να μας γλιτώσει χρόνο.
Ένας άλλος ελέγχει την ορθογραφία και μας κάνει τις σωστές προτάσεις
Αλγόριθμοι εντοπίζουν συνώνυμα των λέξεων που ψάχνουμε, καθώς επίσης προσπαθούν να αντιληφθούν τι ακριβώς θέλουμε να βρούμε, με τις συγκεκριμένες λέξεις.
Στη συνέχεια, έχοντας μια γενικότερη κατανόηση του τι ψάχνουμε, γίνεται μια αναζήτηση στο Index (από τον αντίστοιχο αλγόριθμο αναζήτησης, βεβαίως-βεβαίως).
Αν ακούγονται πολλοί αυτοί οι αλγόριθμοι, στην πράξη κάθε αναζήτηση και επιστροφή αποτελεσμάτων γίνεται σε κλάσματα του δευτερολέπτου.
Ο σημαντικότερος αλγόριθμος όλων, όμως, είναι ο PageRank.
PageRank
Αυτό που κάνει το Google να ξεχωρίζει από άλλες μηχανές αναζήτησης είναι ο τρόπος με τον οποίο επιστρέφει τα σχετικότερα αποτελέσματα. Γι' αυτό σε κάθε αναζήτηση, συνήθως βρίσκουμε αυτό που ψάχναμε μέσα στην πρώτη ή το πολύ τη δεύτερη σελίδα των αποτελεσμάτων του Google (πολλοί από εμάς δεν ψάχνουμε καν πέρα από την πρώτη).
Ενώ πολλοί παράγοντες λαμβάνονται υπ' όψιν για τη σειρά των αποτελεσμάτων, βάση όλων είναι ο αλγόριθμος PageRank.
Αυτό που κάνει ο PageRank είναι να δίνει μια βαθμολογία σε κάθε σελίδα για κάθε λέξη-κλειδί στην αναζήτηση.
Fun Fact: Το "Page-" στο PageRank δεν αναφέρεται στις σελίδες, αλλά στο επώνυμο του συνιδρυτή της Google, Larry Page, που ανέπτυξε τον αλγόριθμο μαζί με τον Sergey Brin το 1996. Επίσης, ο αλγόριθμος είναι πατενταρισμένος, αλλά η πατέντα του δεν ανήκει στο Google, αλλά στο πανεπιστήμιο του Stanford, καθώς οι Page και Brin ήταν φοιτητές εκεί όταν τον ανέπτυξαν.
Η λειτουργία του PageRank είναι ιδιαίτερα περίπλοκη, κι αν δεν έχετε αλλεργία στα μαθηματικά, μπορείτε να ρίξετε μια ματιά στη σελίδα της Wikipedia http://en.wikipedia.org/wiki/PageRank#Simplified_algorithm
Μεταφράζοντας τα μαθηματικά σε κάτι που να έχει νόημα για τους υπόλοιπους από εμάς, ο PageRank ελέγχει, μεταξύ άλλων, τις παρακάτω παραμέτρους:
Την συχνότητα και την τοποθεσία των λέξεων κλειδιών στη σελίδα: Αν μια λέξη-κλειδί εμφανίζεται μόνο μία φορά στο κείμενο της σελίδας, η σελίδα θα έχει χαμηλή βαθμολογία όσον αφορά τη συγκεκριμένη λέξη.
Πόσο καιρό υπάρχει η σελίδα και πότε έχει ανανεωθεί τελευταία φορά: Με χιλιάδες σελίδες να δημιουργούνται κάθε μέρα, και πολλές από αυτές να εξαφανίζονται μετά από κάποιο διάστημα, το Google θεωρεί πιο αξιόπιστες αυτές που έχουν περισσότερα χρόνια στην πλάτη τους.
Το πόσες σελίδες έχουν link προς μία συγκεκριμένη σελίδα: Το Google ελέγχει πόσες διαφορετικές ιστοσελίδες έχουν link προς μία συγκεκριμένη σελίδα, σε συνδυασμό με το Rank εκείνων των σελίδων, προκειμένου να υπολογίσουν το κατά πόσον είναι σχετική με την αναζήτησή μας.
Από τους τρεις παραπάνω παράγοντες, ο τρίτος είναι ο πιο σημαντικός όλων, και στην πραγματικότητα είναι λίγο-πολύ όλη η ουσία του Search Engine Optimization (SEO).
Όσο πιο πολλά διαφορετικά sites έχουν σύνδεσμο προς μία συγκεκριμένη σελίδα του site μας, τόσο μεγαλύτερο θα είναι το δικό μας PageRank για τη συγκεκριμένη σελίδα, και τόσο πιο ψηλά θα εμφανίζεται στα αποτελέσματα του Google σε μια σχετική αναζήτηση.
Επίσης, αν τα sites που έχουν link προς εμάς έχουν υψηλό PageRank, τότε αυτό επηρεάζει περισσότερο και το δικό μας PageRank.
Επειδή η σημαντικότερη παράμετρος του PageRank είναι αυτό το σύστημα των εξωτερικών links, θεωρητικά, ο καλύτερος τρόπος για να έχει ψηλό PageRank μια σελίδα είναι να έχει καταπληκτικό περιεχόμενο, έτσι ώστε πολλές διαφορετικές σελίδες να έχουν link προς αυτή.
Όμως μια υψηλή θέση στα αποτελέσματα της Google είναι χρυσός, γιατί είναι μια δωρεάν μέθοδος για μια σελίδα να έχει μεγάλη επισκεψιμότητα – ιδιαίτερα αν είναι το πρώτο αποτέλεσμα.
Ως εκ τούτου, επιτήδειοι webmasters σελίδων με υψηλό PageRank πωλούν ακριβά σε ιστοσελίδες το να βάλουν ένα link προς αυτές, για να ανέβει το δικό τους PageRank.
Η Google πάντως έχει προειδοποιήσει δημοσίως πως αν αντιληφθεί κάποιον webmaster να πουλάει links με αυτό τον τρόπο, τότε οι σύνδεσμοί του θα αγνοούνται για τον υπολογισμό του PageRank.
Επίσης, για να μην επηρεάζονται τα αποτελέσματα από links που δημοσιεύονται πχ σε forum (όπου θα μπορούσε κάποιος δωρεάν να κάνε εκατοντάδες links και να επηρεάσει πλασματικά το PageRank), το 2005 η Google εφήρμοσε την παράμετρο "nofollow", που επιτρέπει στους webmasters ενός forum να ακυρώνουν την επίδραση όλων των links σε posts, όσον αφορά το PageRank.
Παρ' ότι η βάση του PageRank δημιουργήθηκε το 1996, οι αλγόριθμοι που υπολογίζουν την ποιότητα των σελίδων δέχονται συνεχώς αλλαγές και βελτιώσεις, προκειμένου να επιστρέφουν καλύτερα αποτελέσματα, και ταυτόχρονα να στέλνουν σε χαμηλότερες θέσεις αποτελέσματα από Spammers.
Μία από τις μεγαλύτερες αναβαθμίσεις, η οποία μάλιστα έφερε μεγάλη αναστάτωση στους απανταχού webmasters, ήταν η Google Panda.
Google Panda
Η διαδικασία Google Panda εφαρμόστηκε πρώτη φορά το Φεβρουάριο του 2011, με στόχο να μειώσει τη βαθμολογία «χαμηλής ποιότητας σελίδων» και αν βελτιώσει την ποιότητα των πρώτων αποτελεσμάτων.
Σύμφωνα με το CNET, αυτό είχε σαν αποτέλεσμα να αυξηθεί το Ranking των ειδησεογραφικών ιστοσελίδων και των κοινωνικών δικτύων, ενώ έπεσε το ranking σε σελίδες με υπερβολικά πολλές διαφημίσεις.
Η διαδικασία Google Panda, σύμφωνα με αναφορές, επηρέασε σχεδόν το 12% όλων των αποτελεσμάτων αναζήτησης. Με δεδομένο πως γίνονται 100 δισεκατομμύρια αναζητήσεις κάθε μήνα (πάνω από 38.500 κάθε δευτερόλεπτο), δεν μιλάμε για μικρό νούμερο...
Το Google Panda βασίστηκε σε βαθμολογίες ανθρώπων που εργάζονται ως quality testers για χιλιάδες ιστοσελίδες, με κριτήρια όπως η εμφάνιση, η αξιοπιστία, η ταχύτητα και το αν θα επέστρεφαν ή όχι σε ένα site. Ο Google Panda, που είναι βασισμένος σε τεχνητή νοημοσύνη, «διδάχτηκε» στο να βρίσκει ομοιότητες ανάμεσα στα sites που οι χρήστες βαθμολόγησαν σαν υψηλής και χαμηλής ποιότητας.
Ένας διαρκώς αναπτυσσόμενος οργανισμός
Μπορεί το Google να είναι σήμερα στην απόλυτη κορυφή των μηχανών αναζήτησης, και μία από τις ισχυρότερες εταιρείες παγκοσμίως στο χώρο της τεχνολογίας, αλλά χρειάζεται διαρκής εξέλιξη για να παραμείνει στην κορυφή.
Aν αύριο εμφανιστεί μια μηχανή αναζήτησης που με κάποιο τρόπο θα φέρνει αντικειμενικά καλύτερα αποτελέσματα αναζήτησης από το Google (όσο αντικειμενικό κι αν μπορεί να είναι κάτι τέτοιο), τίποτα δεν αποκλείει μετά από μερικά χρόνια το Google να είναι τόσο ξεχασμένο όσο μηχανές αναζήτησης όπως οι Altavista και Lycos, που μεσουρανούσαν στο Internet μέχρι που εμφανίστηκε το Google.
Βέβαια, υπάρχει και το Bing. Υπάρχουν άνθρωποι που το χρησιμοποιούν τακτικά, και είναι εξαιρετικά ικανοποιημένοι. Και οι πέντε τους.
Σχόλια
Δημοσίευση σχολίου