Μηχανές αναζήτησης και αρχείο robots.txt. Τι σχέση έχουν μεταξύ τους και πως λειτουργούν.
Είναι υπέροχο όταν οι μηχανές αναζήτησης επισκέπτονται συχνά την ιστοσελίδα σας και καταγράφουν σε καταλόγους το περιεχόμενο σας. Αλλά πολλές φορές τα καταγεγραμμένα μέρη του διαδικτυακού σας περιεχομένου δεν είναι αυτό που θα θέλατε.
Για παράδειγμα, εάν έχετε δύο εκδόσεις μίας σελίδας (μία για προβολή στον browser και μία για εκτύπωση). Θα ήταν καλύτερο να εξαιρέσετε την έκδοση εκτύπωσης από την διαδικασία crawling. Αλλιώς ρισκάρετε να σας επιβληθεί ποινή εξαιτίας του διπλού περιεχομένου.
Επίσης, εάν έχετε ευαίσθητα δεδομένα στην προσωπική ιστοσελίδα σας, που δεν επιθυμείτε να τα βλέπει ο κόσμος, θα ήταν καλύτερο να μην καταγράψουν οι μηχανές αναζήτησης αυτές τις σελίδες. Εάν και σε αυτή την περίπτωση ο μόνος ασφαλής τρόπος να μην καταγραφούν τα ευαίσθητα δεδομένα είναι να τα κρατάτε offline σε μία διαφορετική μηχανή.
Επιπλέον, εάν θέλετε να εξοικονομήσετε ζωνικό εύρος, με το να εξαιρέσετε εικόνες, stylesheet και javascript από την καταγραφή, πρέπει να βρείτε έναν τρόπο να πείτε στα spiders να μην χρησιμοποιήσουν αυτά τα στοιχεία.
Ένας τρόπος να πείτε στις μηχανές αναζήτησης ποια αρχεία και φακέλους να αποφύγουν στην ιστοσελίδα σας είναι να χρησιμοποιήσετε Robots metatag. Αλλά εφόσον δεν διαβάζουν όλες οι μηχανές αναζήτησης metatags, τα Robots metatag μπορεί να μην γίνουν αντιληπτά.
Ένας καλύτερος τρόπος να ενημερώσετε τις μηχανές αναζήτησης είναι να χρησιμοποιήσετε αρχείο robots.txt.
Μηχανές αναζήτησης και αρχείο robots.txt
Τι Είναι το Robots.txt;
Το Robots.txt είναι ένα αρχείο κειμένου (όχι html) που τοποθετείτε στην σελίδα σας. Για να πείτε στα search robots ποιες σελίδες θα θέλατε να επισκεφτούν.
Το Robots.txt δεν είναι σε καμία περίπτωση υποχρεωτικό για τις μηχανές αναζήτησης, αλλά γενικότερα οι μηχανές αναζήτησης υπακούουν όταν τους λέτε τι δεν θέλετε να κάνουν.
Είναι σημαντικό να τονίσουμε ότι το robots.txt δεν θα σταματήσει τις μηχανές αναζήτησης από το να κάνουν crawling στην σελίδα σας. Δηλαδή δεν είναι firewall, ούτε ένα είδος προστασίας με κωδικό.
Το ότι έχετε βάλει ένα αρχείο robots.txt είναι σαν να έχετε βάλει ένα σημείωμα “Παρακαλώ μην εισέρχεστε” σε μία ξεκλείδωτη πόρτα.
Δεν μπορείτε να αποτρέψετε τους κλέφτες από το να μπουν, αλλά τουλάχιστον οι καλοί άνθρωποι μάλλον θα σας ακούσουν.
Για αυτό τον λόγο λέμε, ότι εάν έχετε ιδιαιτέρως ευαίσθητα δεδομένα, είναι λίγο αφελές να βασίζεστε εξ ολοκλήρου στο robots.txt ώστε να αποτρέψετε την καταγραφή τους και την εμφάνισή τους στα αποτελέσματα αναζήτησης.
Η τοποθεσία του robots.txt είναι πολύ σημαντική. Πρέπει να είναι στο main directory γιατί σε διαφορετική περίπτωση οι μηχανές αναζήτησης δεν θα μπορέσουν να το βρουν. Δεν ψάχνουν σε ολόκληρη την σελίδα να βρουν το αρχείο με το όνομα robots.txt.
Αντίθετα, πρώτα ψάχνουν στο main directory. Και εάν δεν το βρουν εκεί; Απλά υποθέτουν ότι αυτή η ιστοσελίδα δεν έχει αρχείο robots.txt. Και έτσι καταγράφουν ότι βρουν στον δρόμο τους.
Οπότε, εάν δεν βάλετε το robots.txt στο σωστό μέρος, μην εκπλαγείτε εάν οι μηχανές αναζήτησης καταγράψουν όλη την ιστοσελίδα σας.
*ΑΠΑΓΟΡΕΥΕΤΑΙ ΡΗΤΑ η αντιγραφή και οποιαδήποτε χρήση, αναπαραγωγή, αναδημοσίευση, αποθήκευση, πώληση, μετάδοση, διανομή, έκδοση. Εκτέλεση, φόρτωση (download), μετάφραση, τροποποίηση με οποιονδήποτε τρόπο, τμηματικά ή περιληπτικά του περιεχομένου της ιστοσελίδας. Ακόμα και με αναφορά της πηγής με ενεργό σύνδεσμο, χωρίς έγγραφη άδεια του εκδότη.