Robot.txt là gì? Hướng dẫn tạo robots.txt cho WordPress website

Có không ít người băn khoăn làm sao một Robot của công cụ tìm kiếm có thể phân tích một Website để Index? Vậy muốn Googlebot nhanh Index trang Web của bạn hay không Index một trang cụ thể thì làm thế nào? Những chia sẻ về File Robots.txt là gì sẽ giải đáp giúp bạn.

robots.txt
File Robots.txt và những điều cần biết

1. File robots.txt là gì?

File robots.txt chính là một tập tin văn bản đơn giản có dạng .txt. Robots.txt là một phần của Robots Exclusion Protocol (REP) chứa một nhóm những tiêu chuẩn Web quy định cách Robot Web (hay Robot của các công cụ tìm kiếm) truy cập, thu thập dữ liệu trên Web, Index nội dung và cung cấp cho người dùng.

robots.txt là gì
Khái niệm về File Robots.txt

Việc tạo robots.txt cho WordPress sẽ giúp những nhà quản trị Web chủ động, linh hoạt hơn trong việc đồng ý hay không đồng ý cho các con Bot của công cụ Google Index một số phần nào đó trong trang của mình.

2. Tại sao Website của bạn cần File robots.txt chuẩn – File robot.txt có tác dụng gì?

Robots.txt tuỳ chỉnh có thực sự quan trọng đối với Website, File robot.txt có tác dụng gì? Câu trả lời là có. Website thực sự cần robots txt để có thể kiểm soát truy cập trình thu thập thông tin đến các khu vực nhất định trên trang Web.

file robots.txt
Lý do File Robots.txt cần cho website

Nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang Web thì điều này có thể rất nguy hiểm. Trên thực tế, tạo robots.txt cho WordPress có thể rất tiện dụng trong một số tính huống:

  • Đảm bảo giữ toàn bộ các phần của trang Web ở chế độ riêng tư
  • Ngăn chặn sự xuất hiện của nội dung trùng lặp trong SERPs (chú ý, robot meta thông thường sẽ là lựa chọn tốt hơn cho việc này)
  • Ngăn công cụ tìm kiếm lập chỉ mục các tệp nhất định (hình ảnh, PDF,…) trên trang Web của bạn
  • Xác định vị trí của sơ đồ trang Web (sitemap)
  • Đảm bảo không hiển thị các trang kết quả tìm kiếm nội bộ trên SERP công khai
  • Khi trình thu thập dữ liệu tải nhiều phần nội dung cùng một lúc thì robot.txt sẽ chỉ định độ trễ thu thập dữ liệu để ngăn máy chủ của bạn bị quá tải.
robots.txt wordpress
Robot txt giúp điều hướng bots crawling tốt hơn

Bạn hoàn toàn không cần một tệp robot.txt nếu trên trang Web của bạn không có khu vực nào mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng (User-agent).

3. File robots.txt tùy chỉnh ở đâu trên một trang Web?

Các công cụ tìm kiếm và các robot đều sẽ tìm kiếm tệp robots txt bất cứ khi nào thu thập dữ liệu đến một trang Web (trình thu thập thông tin của Facebook , Facebot). Tuy nhiên, chỉ tìm được tệp đó ở một nơi cụ thể: thư mục gốc (thường là tên miền gốc hay trang chủ của bạn).

Khi một user-agent truy cập tienziven.com/robots.txt nhưng không tìm thấy tệp robot ở đó thì sẽ nghĩ trang Web không có từ đó tiến hành thu thập mọi thứ trên trang (có thể là trên toàn bộ trang Web).

robot.txt
Vị trí của Robots.txt trên một trang web

Tuy nhiên, ở một số trường hợp các file robots.txt chuẩn cho wordpress có tồn tại nhưng lại không được các Web Crawler tìm thấy. Đương nhiên, giống như trang không được tạo File robots txt cho Website là gì cho WordPress, nó sẽ được xử lý tương tự. Hãy luôn để nó trong các thư mục chính hoặc Root Domain để đảm bảo các trình thu thập dữ liệu có thể dễ dàng tìm thấy được tệp file robots.txt chuẩn seo của bạn.

4. Cú pháp để tạo File robots txt cho Website

Cú pháp robots.txt được xem là ngôn ngữ của các tập tin robot.txt. Tạo robots.txt cho WordPress có 5 thuật ngữ phổ biến mà bạn có thể gặp như:

  • Disallow: Lệnh này dùng để thông báo cho user-agent không thu thập dữ liệu URL cụ thể. Mỗi URL chỉ được phép một dòng “Disallow:”
  • User-agent: Đây là tên của các trình thu thập, truy cập dữ liệu Web ( Bingbot, Googlebot,,…)
robot txt wordpress
Cú pháp của File Robots.txt
  • Allow(Chỉ áp dụng cho Googlebot): Lệnh thông báo cho Googlebot biết rằng nó có thể truy cập một trang hay thư mục con dù trang mẹ hay thư mục con của nó có thể không được phép.
  • Sitemap: Được dùng để chỉ ra vị trí của bất kỳ (các) sơ đồ trang Web XML nào được liên kết với URL này. Lệnh này chỉ được hỗ trợ bởi Google, Yahoo, Ask, Bing.
  • Crawl-delay: Thông báo các Web crawler biết cần bao nhiêu giây để trình thu thập thông tin trước khi tải cũng như thu thập nội dung trang. Tuy Googlebot không thừa nhận lệnh này, nhưng trong Google Search Console bạn có thể cài đặt được tốc độ thu thập dữ liệu.

Tham khảo thêm Tiêu chuẩn loại trừ robots (Robots Exclusion Standard)

5. Cách kiểm tra Website có File Robot.txt hay không?

Hãy nhập Root Domain của bạn, nếu đang băn khoăn không biết Website của mình có File robots.txt chuẩn SEO không và tiếp theo là thêm /robots.txt vào cuối URL rồi nhấn enter.

tạo robots.txt cho wordpress
Cách kiểm tra Website có File Robots.txt

Nếu kết quả đưa ra mà không có trang .txt xuất hiện thì đồng nghĩa với việc Website bạn hiện không tạo robots.txt cho WordPress. Bạn hoàn toàn có thể kiểm tra bất cứ trang Web nào có chứa tệp robot txt hay không bằng cách đơn giản ở trên.

6. Cách tạo File robots txt cho Website

Nếu khi kiểm tra Website của mình bạn thấy không có robot.txt hoặc đơn giản là bạn đang muốn thay đổi File robots.txt WordPress của mình thì 3 cách tạo robots.txt cho WordPress bên dưới sẽ giúp ích được bạn:

Sử dụng Yoast SEO để tạo robots.txt cho WordPress

All in One SEO
Cách tạo robots.txt cho WordPress hiệu quả với Yoast

Với vài bước đơn giản bạn hoàn toàn có thể chỉnh sửa hay tạo File robots.txt cho WordPress trên chính WordPress Dashboard. Khi bạn đăng nhập vào Website sẽ thấy giao diện của trang Dashboard. Nhìn phía bên trái màn hình, click vào SEO »Tools »File editor. Bạn vào phần Tools của SEO rồi bấm vào File Editor để bắt đầu tạo File robots txt cho Website

Nếu WordPress của bạn vẫn chưa được kích hoạt tính chỉnh sửa File Tính năng File editor sẽ không xuất hiện. Vì thế thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin) hãy kích hoạt chúng. Khi đó bạn sẽ thấy mục .htaccess File và một nút Create robots.txt File – đây là nơi mà bạn sẽ có thể thực hiện cách tạo File robots.txt cho WordPress.

Cách tạo File robots.txt cho WordPress sử dụng bộ Plugin All in One SEO 

Bên cạnh đó, bạn cũng có thể tạo File robots.txt WordPress nhanh chóng bằng cách sử dụng bộ Plugin All in One SEO. Plugin này vừa đơn giản, vừa dễ sử dụng lại tiện ích cho WordPress.

tạo file robots.txt cho website
Cách sử dụng bộ Plugin All in One SEO

Bạn phải đến giao diện chính của Plugin All in One SEO Pack để tạo File robots.txt chuẩn SEO. Bạn hãy chọn All in One SEO » Features Manager » Nhấp Active cho mục robots.txt. Sử dụng All in One SEO để áp dụng cách tạo File robots.txt cho WordPress. Khi đó, nhiều tính năng thú vị sẽ xuất hiện trên giao diện. Để kích hoạt Robots.txt bạn hãy nhấn Activate. Lúc này mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Tại đây bạn có thể tạo lập hay điều chỉnh tệp robots.txt tùy chỉnh. Nhưng so với Yoast SEO thì bộ plugin này có một chút khác biệt.

tạo robots.txt
All in One SEO làm mờ đi thông tin của File robots.txt khi chỉnh sửa

Thay vì bạn được chỉnh sửa File như công cụ Yoast SEO thì All in One SEO làm mờ đi thông tin của File robots.txt. Do đó, khi chỉnh sửa File robots.txt WordPress bạn có thể hơi bị động một chút. Nhưng yếu tố này cũng mang lại điều tích cực là giúp bạn hạn chế thiệt hại cho Website của mình. Nhất là một số Malware bots sẽ gây hại cho Website mà bạn không thể ngờ tới.

Tạo rồi Upload File robots.txt chuẩn cho WordPress qua FTP

Nếu bạn không muốn tạo File robot.txt bằng Plugin để WordPress thì có thể tự tạo File robots txt cho Website thủ công cho WordPress của mình. Để tạo File robots.txt WordPress bằng tay bạn chỉ mất khoảng vài phút.

Để tạo mẫu File robots.txt chuẩn cho WordPress theo Rule sử dụng Notepad hoặc Textedit và Upload File này qua FTP không cần sử dụng Plugin. Vừa đơn giản vừa không tốn quá nhiều thời gian của bạn.

file robots.txt wordpress
Những lưu ý khi sử dụng File Robots.txt

7. Một số lưu ý khi sử dụng File robots.txt chuẩn SEO

Khi sử dụng tệp robots.txt tùy chỉnh bạn hãy lưu ý một số điều sau:

  • Đảm bảo không chặn bất kỳ nội dung hay phần nào trên trang Web mà bạn muốn Google index.
  • Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Bạn hãy sử dụng một phương pháp khác thay vì tạo robots.txt WordPress nếu muốn dòng sức mạnh Link juice truyền qua các trang này. Để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP không nên dùng File robot.txt. Bởi trang Web chứa thông tin cá nhân này có thể liên kết với nhiều trang Web khác. Trang Web này vẫn có thể được Google index vì các con Bots sẽ bỏ quá các chỉ thị của tệp robots.txt tùy chỉnh trên root domain hay trang chủ của bạn.
file robots.txt chuẩn
Dòng sức mạnh của Link juice truyền qua các trang
  • Những liên kết trên trang bị chặn do việc tạo robots.txt cho WordPress sẽ không được các Bots theo dõi. Chỉ trừ khi những links này có liên kết với các trang khác (không bị chặn do File robots.txt chuẩn SEO, Meta Robots,…). Còn không những tài nguyên được liên kết sẽ có thể không được thu thập và Index.
  • Bạn hãy dùng một phương pháp khác thay vì tạo File robots txt cho Website nếu muốn chặn trang Web này khỏi các kết quả tìm kiếm. Bạn có thể sử dụng mật khẩu bảo vệ hay Noindex Meta Directive. Có những công cụ tìm kiếm có rất nhiều User-Agent như Google dùng Googlebot cho các tìm kiếm miễn phí và còn khi tìm kiếm hình ảnh thì sử dụng Googlebot-Image.
  • Đa số những User-Agent từ cùng một công cụ đều tuân theo một quy tắc. Chính vì thế không nhất thiết phải chỉ định các lệnh cho từng User-Agent. Dù vậy, việc làm này vẫn có thể giúp bạn điều chỉnh được cách Index nội dung trang Web. Nội dung File robots.txt WordPress sẽ được các công cụ tìm kiếm lưu trữ. Nhưng ít nhất một lần một ngày nó vẫn thường cập nhật nội dung trong bộ nhớ Cache. Bạn có thể gửi File robots.txt chuẩn cho WordPress url cho Google nếu muốn thay đổi tệp và cập nhật tệp của mình nhanh hơn.
robots.txt tùy chỉnh
Các công cụ tìm kiếm lưu trữ nội dung File robots.txt WordPress

Như vậy, những chia sẻ về File robots.txt là gì đã giúp bạn hiểu rõ hơn và biết cách thiết lập File robots.txt WordPress đúng cách theo ý muốn từ đó hỗ trợ các con Bot của công cụ tìm kiếm hoạt động tốt thu thập dữ liệu và Index trang Web nhanh chóng hơn.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *