Phần 13 - Robots.txt Là Gì
Robots.txt là gì?
Robots.txt là một file text mà người quản trị web tạo ra để hướng dẫn robot (bọ tìm kiếm của công cụ tìm kiếm) làm thế nào để thu thập dữ liệu và index các pages trên trang web của họ. Exclusion Protocol (REP) là một nhóm các tiêu chuẩn web để điều chỉnh hành vi Robot Web và lập chỉ mục cho công cụ tìm kiếm.
Mẫu code
Chặn tất cả robot với tất cả các nội dung
Chặn 1 robot với 1 folder
Chặn 1 robot với 1 trang
Cho phép 1 robot vào 1 trang
Thông số sitemap
Format tối ưu
Robots.txt cần được đặt ở thư mục gốc của tên miền để có thể phát huy tác dụng
Ví dụ: http:/www.example.com/robots.txt
Áp dụng tốt nhất trong SEO
Chặn trang (Blocking page)
Có một số cách để ngăn chặn các công cụ tìm kiếm truy cập một tên miền nhất định:
Chặn với Robots.txt
Điều này nói cho Google Spider không nên thu thập dữ liệu URL được nhắc tới, nhưng cũng nói cho Google Spider rằng có thể giữ cho các trang trong chỉ mục và hiển thị nó trong trong kết quả.
Chặn bởi Nofollowing Liên kết (Block by Nofollowing Links)
Đây gần như là cách làm kém hiệu quả nhất. Bởi vì vẫn có thể cho các công cụ tìm kiếm khám phá các trang theo những cách khác. (Thông qua thanh công cụ trình duyệt, các liên kết từ các trang khác, analytics, ...).
Robots.txt là một file text mà người quản trị web tạo ra để hướng dẫn robot (bọ tìm kiếm của công cụ tìm kiếm) làm thế nào để thu thập dữ liệu và index các pages trên trang web của họ. Exclusion Protocol (REP) là một nhóm các tiêu chuẩn web để điều chỉnh hành vi Robot Web và lập chỉ mục cho công cụ tìm kiếm.
Mẫu code
Chặn tất cả robot với tất cả các nội dung
User-agent: *
Disallow: /
Chặn 1 robot với 1 folder
User-agent: Googlebot
Disallow: /no-google/
Chặn 1 robot với 1 trang
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
Cho phép 1 robot vào 1 trang
User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: rogerbot
Allow: /no-bots/block-all-bots-except-rogerbot-page.html
Thông số sitemap
User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml
Format tối ưu
Robots.txt cần được đặt ở thư mục gốc của tên miền để có thể phát huy tác dụng
Ví dụ: http:/www.example.com/robots.txt
Áp dụng tốt nhất trong SEO
Chặn trang (Blocking page)
Có một số cách để ngăn chặn các công cụ tìm kiếm truy cập một tên miền nhất định:
Chặn với Robots.txt
Điều này nói cho Google Spider không nên thu thập dữ liệu URL được nhắc tới, nhưng cũng nói cho Google Spider rằng có thể giữ cho các trang trong chỉ mục và hiển thị nó trong trong kết quả.
Chặn bởi Nofollowing Liên kết (Block by Nofollowing Links)
Đây gần như là cách làm kém hiệu quả nhất. Bởi vì vẫn có thể cho các công cụ tìm kiếm khám phá các trang theo những cách khác. (Thông qua thanh công cụ trình duyệt, các liên kết từ các trang khác, analytics, ...).
Không có nhận xét nào: