Robots.txt dùng cho website, nó quy định cách thức của các công cụ tìm kiếm để thu thập và lập chỉ mục trên website. Không những vậy, nó còn có thể ảnh hưởng tới khả năng hiển thị của website đó khi Google Bots truy xuất dữ liệu. Chính vì vậy, bước đầu tiên bạn cần làm khi tối ưu website cho các công cụ tìm kiếm là có một file robots.txt. Ở bài viết này, hãy cùng CAS Solution tìm hiểu về vấn đề này nhé!
Robots.txt là gì?
Từ những năm 1994, nhằm giúp các webmaster có thể phân tích cho các công cụ tìm kiếm cách thu thập thông tin từ website của họ, Robots Exclusion Standard đã được phát triển. Nó hoạt động tương tự như robot meta tag, nhưng điểm khác biệt chính giữa chúng đó là: file robots.txt sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi robot meta tag chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được index (lập chỉ mục).
Nói một cách đơn giản, robots.txt là một tệp tin văn bản nằm trong thư mục gốc của trang web, cung cấp hướng dẫn các công cụ tìm kiếm thu thập dữ liệu, cung cấp nội dung cho người dùng.
Trên thực tế, robots.txt giúp các nhà quản trị web chủ động, linh hoạt hơn trong việc cho phép hay không cho các bots của công cụ Google index một số phần nào đó trong của mình.
VD: Hộp thư PDF của bạn nằm trong thư mục bí mật. Bạn có thể ngăn chặn công cụ tìm kiếm thu thập dữ liệu từ thư mục đó của bạn. Hoặc follow hay nofollow link,…
Tại sao nên sử dụng Robots.txt ?
Các trường hợp sử dụng robots.txt phổ biến như sau:
- Giúp chặn các công cụ tìm kiếm truy cập các trang, thư mục cụ thể trên trang web của bạn
- Sử dụng robots.txt để hạn chế quyền truy cập vào một số phần nhất định của trang web không quan trọng đối với SEO hoặc thứ hạng. Điều này giúp quá trình lập chỉ mục nhanh hơn.
- Quản lý các liên kết hợp lệ
Robots.txt hoạt động như thế nào?
Robots.txt có một số từ khóa phổ biến và hoạt động đơn giản như: User-agent, Disallow, Allow, Crawl-delay, Sitemap.
- User-agent: Bao gồm tất cả trình thu thập thông tin, chỉ định trình thu thập dữ liệu nào được đưa vào các chỉ thị.
- Disallow: Giữ vai trò chỉ thị, hướng dẫn các bot không thu thập dữ liệu URL hoặc một phần của trang web nào.
- Allow: Cho phép truy cập vào một thư mục con cụ thể trên trang web của bạn (mặc dù thư mục gốc không bao gồm) .
- Crawl- delay: Có thể sử dụng trong trường hợp trang web có nhiều trang và bạn không muốn máy chủ bị quá tải.
- Sitemap: Chỉ thị này được hỗ trợ bởi công cụ tìm kiếm Google, dùng để chỉ định vị trí Sơ đồ web XML của bạn.
Cách tạo file Robots.txt trong wordpress
Có 2 cách tạo robots.txt:
Cách 1: Tạo bằng phương pháp thủ công
Bạn chỉ cần mở một trình soạn thảo văn bản (Notepad hoặc Notepad++), lưu một tập tin có tên “robots.txt”. Thêm một số quy tắc vào tập tin và lưu lại, upload lên thư mục gốc của tên miền. Hãy chắc chắn rằng bạn đã upload tập tin robots.txt vào thư mục gốc tên miền, ngay cả khi wordpress được cài đặt trong thư mục con.
Cách 2: Tạo robots.txt bằng plugin
Hầu hết plugin đều được trang bị sẵn tính năng tạo file robots.txt. Bạn có thể truy cập SEO => Tools => File editor => click vào nút Create robots.txt file. Tiếp đó, sau khi file robots.txt được tạo ra, bạn có thể tùy chỉnh nội dung và chọn Save changes to robots.txt để lưu lại.
Công cụ tìm kiếm sẽ kiểm tra tập tin robots.txt ở thư mục gốc mỗi khi chúng bắt đầu tiến hành thu thập thông tin từ website của bạn.
*Lưu ý: bạn sẽ phải tạo các file robots.txt riêng biệt cho mỗi miền phụ và các giao thức khác nhau.
Mẫu file robots.txt chuẩn cho WordPress
WordPress mặc định sử dụng robots.txt ảo, vì vậy bạn không thể trực tiếp chỉnh sửa tập tin hoặc tìm nó trong thư mục gốc. Cách duy nhất có thể xem nội dung của tệp là gõ domain/robots.txt trong trình duyệt của bạn.
Như trên, bạn cần tạo một file robots.txt, VD: Tailieu.vn – bạn có thể xem file ở đường dẫn Tailieu.vn/robots.txt, kết quả thông thường sẽ ra bảng User- agent.
Nếu bạn dùng Yoast SEO thì không cần phải vào host để tìm. Theo trình tự Yoast SEO >> Tools >> File editor >> Robots.txt.
- Disallow: là khai báo những trang / đường dẫn chặn thu thập dữ liệu;
- Allow: khai báo những trang / đường dẫn cho phép thu thập dữ liệu;
Trong một file robots.txt WordPress bạn có thể chỉ định cho bot bằng cách viết không cách dòng. Trong trường hợp có nhiều lệnh đối với một loại bot thì bot mặc định sẽ làm theo lệnh được viết đầy đủ nhất.
Một số lưu ý khi sử dụng file robots.txt
- Không nên sử dụng file robots.txt để ngăn chặn những dữ liệu nhạy cảm (dữ liệu các nhân) xuất hiện trong kết quả SERP, các bot sẽ bỏ qua các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn, nên trang web này vẫn có thể được lập chỉ mục. Vì các trang web chứa các thông tin cá nhân sẽ liên kết với các trang web khác.
- Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt
- Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bot theo dõi, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.
Như vậy, trên đây là những thông tin về Robots.txt mà cung cấp cho bạn đọc, nhằm giúp bạn hiểu hơn về tệp tin văn bản robots.txt, cũng như cách tạo tệp đơn giản nhất. Chúng tôi mong bạn hài lòng về bài viết. Chúc bạn thành công!