Robots.txt là gì? Cách tạo file robot cho WordPress

Robots.txt là gì

Robots.txt là một file văn bản, dùng để khai báo cho con bọ của Google (hoặc robot thu thập dữ liệu của các bộ máy tìm kiếm khác) biết rằng nó được phép hay không được phép thu thập những dữ liệu nào trong website.

Nói một cách đơn giản, dễ hiểu thì robots.txt giống như một văn bản nội dung khi có một vị khách đến nhà bạn chơi, bạn sẽ nói cho họ biết họ được phép làm gì và không được phép làm gì.

1 file robots.txt sẽ như sau:

User-Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-content/plugins/

Disallow: /wp-admin/

Sitemap: https://example.com/sitemap_index.xml

Trong đó:

  • User-Agent: là dùng để khai báo tên bot được phép thu thập và không thu thập. Trong ví dụ trên để dấu * có nghĩa là file này áp dụng cho tất cả các bot trên internet
  • Allow: [đường dẫn] . Đây là câu lệnh CHO PHÉP đọc trong khu vực [đường dẫn]
  • Disallow: [đường dẫn] . Đây là câu lệnh KHÔNG CHO PHÉP đọc trong khu vực [đường dẫn]
  • Sitemap: [link sitemap] . Đây là chỉ định link sitemap của website để robot dễ dàng truy cập hơn.

Tại sao phải cần có file robots.txt

Thông thường, một website sẽ được tạo bởi nhiều thư mục khác nhau, thư mục chứa ảnh, thư mục quản lý database v.v… Chỉ một vài thư mục là sẽ được xuất hiện cho người dùng thấy, mỗi khi họ truy cập vào website, và cũng chỉ một vài thư mục nên được Google đọc (vì khi Google đọc nhiều quá nó sẽ bị loạn, dẫn đến tình trạng quét các dữ liệu không cần thiết). Robots.txt sinh ra có nhiệm vụ giúp bọ Google đọc dữ liệu ĐÚNG NƠI – ĐÚNG CHỖ và giúp bọ Google tập trung vào những nội dung cần thiết.

Một số trường hợp sử dụng phổ biến bao gồm:

  • Chỉ định thư mục website được phép thu thập và không được thu thập.
  • Chỉ định liên kết website được phép thu thập và không được thu thập.
  • Chỉ định vị trí của sơ đồ trang web (sitemap).
  • Ngăn chặn các bot thu thập dữ liệu, một ví dụ điển hình cho trường hợp này là ngăn chặn bot Ahrefs thu thập dữ liệu.

Cách tạo file robots.txt cho website WordPress

Có 2 cách tạo file robots.txt đơn giản mà mình thường sử dụng trong suốt thời gian qua. Với cách 1 – sử dụng plugin Yoast SEO thì bạn chỉ có thể áp dụng cho website làm bằng WordPress, với những bạn làm bằng mã nguồn khác thì xem cách 2 – upload trực tiếp.

1. Sử dụng Yoast SEO Plugin

Yoast SEO là một plugin phổ biến nhất trong SEO, có công dụng tối ưu nhanh các yếu tố quan trọng trong SEO. Nếu bạn chưa biết thì có thể xem qua video này.

Sau khi bạn cài đặt plugin này xong chuyển tới tab SEO -> Tools (công cụ) trong dashboard quản trị website của bạn,

Nhấp vào File Editor (Trình chỉnh sửa tập tin)

Có một nút gọi là  Create robots.txt file (tạo file robots.txt), sẽ giúp bạn tạo file robots.txt:

Nhập đoạn mã theo cú pháp chuẩn (đã giới thiệu phần đầu) theo ý muốn vào khung và lưu lại.

Vậy là xong, bạn đã tạo xong file robots.txt chuẩn cho WordPress.

2. Tạo và upload file robots.txt trực tiếp lên hosting

Cách này có thể dùng cho những bạn không sử dụng WordPress. Tuy nhiên, bắt buộc bạn phải có quyền quản trị hosting để chèn file.

Cách tạo file txt khá đơn giản, bạn chỉ cần mở notepad trên máy tính và lưu file với tên “robots.txt” là ok.

Sau đó, bạn nhập đoạn mã robots chuẩn, theo ý mình và lưu lại. Ở đây tôi sẽ tạo sẵn 1 file cho bạn về chỉnh sửa lại cho nhanh.

https://drive.google.com/file/d/1EE7MjymVueyZsCCTm7d2Z0jfbHyxQfny/view?usp=sharing

Mình nghĩ đa số những bạn dùng cách upload trực tiếp này, một là IT lập trình website, hai là các bạn tự mò mẫm làm website nên các bạn sẽ có quyền truy cập vào trang quản trị hosting/server. Hiện nay, các nhà cung cấp hosting đã tạo ra giao diện quản trị hosting rất trực quan nên việc chèn file vào thư mục website đơn giản đi rất nhiều.

Bạn hãy upload lên file thư mục gốc của website public_html là thành công.

Nếu bạn vẫn chưa rõ, và hosting của bạn đang sử dụng Cpanel thì hãy xem các hình sau

  1. Vào File Manager trên Cpanel

  1. Truy cập vào public_html

  1. Nếu website của bạn đặt trực tiếp tại public_html thì chỉ cần Upload file lên hosting

  1. Nếu trường hợp website bạn không đặt trực tiếp trong public_html mà đặt trong folder nào đó thì phải vào đúng folder đó để upload file lên. Quan trọng là bạn phải upload lên thư mục gốc của website để tạo ra đường link https:domain/robots.txt

Cách kiếm tra file robots.txt có hoạt động hay không

Khi file chuẩn WordPress robots.txt đã được tạo và upload thành công, bạn có thể dùng  Google Search Console để kiểm tra thử nó xem có lỗi không.

Để sử dụng, bạn đăng nhập vào Google Search Console: https://search.google.com/search-console/about?hl=vi

Sau đó bấm vào link sau:

https://www.google.com/webmasters/tools/robots-testing-tool

Chọn trang web cần kiểm tra robots.txt

Sau đó nhập đường dẫn muốn kiểm tra vao ô như hình và bấm KIỂM TRA

Nếu báo chặn là robots.txt của bạn đã hoạt động chặn link đó.