Pengertian Robots Website

Pengertian Robots Website

Salam...

Postingan kali ini saya coba bahas tentang robots.txt. Robot? Beneran robot?, bukan. Robot yang saya akan jelaskan di sini adalah Web Robots (biasa dikenal dengan istilah Web Wanderers, Crawlers ataupun Spiders), yang merupakan program yang secara automatis menjelajah ke seluruh website. Mesin pencari seperti Google menggunakan Robots untuk mengindex isi atau konten dari web tersebut, para spammer menggunakannya sebagai alamat email palsu dan lain sebagainya.

Pemilik website menggukanan file robots.txt untuk menginstruksikan Robot dalam mengakses website, ini disebut The Robots Exclusion Protocol.
Cara kerjanya seperti ini: suatu robot mengunjungi url website, misalnya http://www.websiteku.com/selamatdatang.html. Sebelumnya, dia harus mengecek keberadaan file robots.txt pada http://www.websiteku.com/robots.txt, ternyata ditemukan file nya dan berisi:

User-agent: *
Disallow: /

"User-agent: *" maksudnya ini ditujukan kepada seluruh robots. "Disallow: /" memberitahukan ke robot bahwa seharusnya robot tidak boleh mengunjungi semua halaman website tersebut.

Ada dua hal penting dalam penggunaan robots.txt ini:
* Robots bisa mengabaikan robots.txt, terutama robots malware yang dapat secara langsung meng-scan keseluruhan website dan mencari kelemahan dari website tersebut (cracking), atau bisa juga dimanfaatkan oleh spammer dalam memperoleh alamat email
* Karena robots.txt merupakan file yang bersifat publik, bisa dilihat oleh siapa saja, karena nya, setiap orang, bisa saja melihat bagian-bagian dari server Anda yang tidak ingin digunakan oleh robots.

Jadi, jangan pernah gunakan robots.txt untuk menyimpan informasi penting dari server Anda.

Sekian dulu, pembahasan dilanjutkan pada postingan berikutnya. Smoga bermanfaat, terima kasih

(z)