Robots.txt là gì? Cách tùy chỉnh File robots.txt
Thêm 1 điều nữa của SEO Onpage là mình muốn chia sẻ với các bạn đó là tùy chỉnh Robots.txt. Đây cũng là 1 phần rất quan trọng trong việc các bạn thực hiện SEO Onpage. Để hiểu rõ hơn về vấn đề này mình sẽ đi theo 2 nội dung trả lời câu hỏi.
- Ngoài ra những trường hợp "nhạy cảm" của bạn trên Website bạn cũng không muốn ai thấy. :3
- Và bạn muốn tối ưu băng thông tiết kiệm nhất mà không ảnh hưởng tới Website.
...
Vậy hãy điều khiển SE bằng cách sử dụng robots.txt. Tệp tin robots.txt sẽ giúp bạn làm chủ SE và loại bỏ những gì bạn không mong muốn.
Robots.txt là một văn bản (không html) tập tin mà bạn đặt trên trang web của bạn để cho phép hoặc không cho phép các robot tìm kiếm đến.
^_^ Theo mình chỉ cần hiểu đơn giản như thế.
User-agent: đối tượng bot được chấp nhận
Disallow/Allow: URL muốn chặn/cho phép
*: Đại diện cho tất cả
Ví dụ các bạn xem robots.txt của site: http://seophongvu.com/robots.txt
Trong đó:
User-agent: * (Cho phép tất cả các SE được chấp nhận)
Disallow: /wp-admin/ (Chặn lại liên kết http://seophongvu.com/wp-admin/)
Disallow: /wp-includes/ (Chặn lại liên kết http://seophongvu.com/wp-includes/)
Nếu các bạn cho phép chấp nhận hết thì chỉ cần đơn giản như ví dụ:
User-agent: *
Allow: /
Chặn 1 trang
Disallow: /private_file.html
Loại bỏ 1 hình từ Google Images
User-agent: Googlebot-Image
Disallow: /images/sexy.jpg
Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /
Chặn 1 file hình bất kỳ, ví dụ .gif
User-agent: Googlebot
Disallow: /*.gif$
Những điều cần tránh trong file robots.txt
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoản trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
1. Robots.txt là gì?
Khi công cụ tìm kiếm (SE) thường xuyên ghé thăm Website, Blog của bạn và tiếp tục nó ghé thăm từng chỉ mục, nội dung trong mọi trang. Mọi nội dung bạn đưa lên Website đều được nạp vào tìm kiếm. Đặt trường hợp bạn không muốn SE mò đến và ăn 1 chỉ mục nào đó trong Website thì bạn phải làm thế nào?- Ngoài ra những trường hợp "nhạy cảm" của bạn trên Website bạn cũng không muốn ai thấy. :3
- Và bạn muốn tối ưu băng thông tiết kiệm nhất mà không ảnh hưởng tới Website.
...
Vậy hãy điều khiển SE bằng cách sử dụng robots.txt. Tệp tin robots.txt sẽ giúp bạn làm chủ SE và loại bỏ những gì bạn không mong muốn.
Robots.txt là một văn bản (không html) tập tin mà bạn đặt trên trang web của bạn để cho phép hoặc không cho phép các robot tìm kiếm đến.
^_^ Theo mình chỉ cần hiểu đơn giản như thế.
- Xem bài liên quan: Tối ưu Robots.txt trong Blogspot
2. Cách tùy chỉnh File robots.txt
Cách tạo và vị trí đặt file robots.txt- Dùng notepad hay bất cứ chương trình nào tạo file, sau đó đổi tên file là robots.txt.Cấu trúc của một robots.txt là khá đơn giản (và hầu như không linh hoạt). Về cơ bản, cú pháp như sau:
- Đặt ở thư mục gốc của website. (http://seophongvu/robots.txt)
User-agent: đối tượng bot được chấp nhận
Disallow/Allow: URL muốn chặn/cho phép
*: Đại diện cho tất cả
Ví dụ các bạn xem robots.txt của site: http://seophongvu.com/robots.txt
Trong đó:
User-agent: * (Cho phép tất cả các SE được chấp nhận)
Disallow: /wp-admin/ (Chặn lại liên kết http://seophongvu.com/wp-admin/)
Disallow: /wp-includes/ (Chặn lại liên kết http://seophongvu.com/wp-includes/)
Nếu các bạn cho phép chấp nhận hết thì chỉ cần đơn giản như ví dụ:
User-agent: *
Allow: /
Chặn 1 trang
Disallow: /private_file.html
Loại bỏ 1 hình từ Google Images
User-agent: Googlebot-Image
Disallow: /images/sexy.jpg
Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /
Chặn 1 file hình bất kỳ, ví dụ .gif
User-agent: Googlebot
Disallow: /*.gif$
Những điều cần tránh trong file robots.txt
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoản trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
Hỗ trợ bởi SEO Phong Vũ
Không có nhận xét nào: