Ce structura au fisierele robots.txt?

Atunci cand sunteti in discutii cu o firma optimizare seo probabil  veti auzi ca vi se include in oferta si crearea unui fisier robots.txt si probabil ca nu stiti ce este acesta si daca va este ori nu de folos. Tocmai de aceea incercam sa va ajutam cu acest articol ca sa puteti intelege despre ce anume este vorba.

Facem asta si pentru simplul fapt ca multi clienti se simt trasi pe sfoara in momentul in care aud anumite cuvinte pe care nu le inteleg cum ar fi si acesta. Ei bine nu tot ce suna ciudat este o tentativa de a va insela. De exemplu fisierul despre care vorbim este foarte util si indispensabil daca vreti ca lucrurile sa mearga bine la voi pe site.

Structura fisierului robots.txt a fost conceputa cu mai mult de 10 ani in urma si este folosit de aproape toate site-urile chiar si in prezent.

Structura acestui fisier este extrem de simpla pentru ca el este practic o lista infinita de agenti si de pagini si fisiere pe care le setati sa fie accesibile sau inaccesibile pentru acesti agenti. Sintaxa variaza in functie de ceea ce doriti sa faceti. User agent este secitiunea in care trebuie sa introduceti un crawler pentru  ca el sa primeasca sau nu drepturi de citire.

Disallow este lista cu fisierele si directoarele pe care acesti agenti sau boti nu le pot vedea si la care nu au acces asa cum s-ar intampla in absent acestui fisier. Fisierele si toate directoarele care sunt setate in acest fisier sunt ocolite de boti si acestia nu le mai indexeaza in motorul de cautare.

In plus pe langa toate aceste linii se pot pune si linii de comentarii denumite si comment lines si pentru acest lucru va trebui sa puneti # la inceput de linie pe fiecare rand in care adaugati un comentariu.

Sunt si capcane in fisierul robots.txt de care este bine sa va feriti. Atunci cand incepeti sa faceti fisiere foarte complicate sau sa permiteti accesul numai pentru anumite motoare de cautare si pentru altele nu si nu sunteti indeajuns de atenti la modul in care faceti configurarea este foarte posibil sa faceti anumite greseli comune care sa va strice socotelile.

Greselile comune sunt reprezentate de directive ce  se contrazic intre ele si de asemenea, mai pot fi si greseli in momentul in care se introduce numele agentilor sau numele fisierelor. Cele mai serioase probleme apar insa in momentul in care sunt prezente erorile logice.

O eroare logica extrem de comuna este aceea in care fisierul permite accesul pentru toti agentii sa acceseze toate fisierele de pe site exceptie facand directorul de poze. Pana in momentul acesta totul este in regula dar poate urma o alta inregistrare care sa impuna o masura ceva mai restrictiva pentru motorul de cautare.

Atunci cand crawlerul va incepe sa citeasca aceste fisiere el va vedea ca toti agentii, chiar si el insusi, pot sa acceseze fisierele in afara de directorul imagini. Mai departe acest bot nu va mai citi mai departe fisierul ci il va considera ca fiind citit complet.