Crawl Budget là gì? Cách tối ưu ngân sách cào của website

Updated on Tháng Chín 18, 2021

Ở bài viết trước, TIEN ZIVEN đã lý giải cho bạn tất cả kiến thức về hành vi cào (crawling) của SE. Còn một vấn đề mà chúng tôi phải bóc tách mới có thể tìm hiểu chi tiết technical SEO được. Đó chính là ngân sách cào. Trong bài viết này, TIEN ZIVEN sẽ giải thích Crawl Budget là gì? Vai trò của chỉ số này và cách tối ưu nó nhé!

1. Crawl budget là gì?

Crawl Budget (ngân sách thu thập web) là số lượt thu thập dữ liệu trang web mà công cụ tìm kiếm giới hạn cho website trong một khoảng thời gian (thường là một tháng).

crawl budget la gi
Hiểu đơn giản, nó là số lần google gửi bot thu thập dữ liệu trang web của bạn để cập nhật thông tin.

Crawl budget có nhiều tên gọi, như: ngân sách thu thập dữ liệu, ngân sách thu thập website… Nhưng chúng tôi thường gọi nhất là ngân sách cào (crawl: cào, budget: ngân sách).

Các Website có giới hạn ngân sách cào khác nhau tuỳ thuộc vào nhiều yếu tố như xử lý. Tham khảo lại bài viết trước: crawling là gì?

2. Tại sao cần quan tâm đến chỉ số ngân sách cào?

Đây là một chỉ số ít SEOer đặt quan tâm vì họ chưa thực sự hiểu tầm quan trọng của nó. Vai trò của Crawl budget trong SEO là:

  • Ngân sách cào là một tín hiệu gián tiếp thể hiện mức độ thẩm quyền của website. Qua đó, bạn sẽ nắm được và lên kế hoạch cải thiện và tối ưu thẩm quyền website.
  • Phần báo cáo của ngân sách cào cho biết những trang được thu thập và tình trạng của chúng. Điều này giúp bạn biết được những nơi Google thu thập đã phù hợp hay chưa? Hay cả những lỗi về kỹ thuật SEO.
  • Khi quản lý tốt ngân sách thu thập dữ liệu, bạn sẽ giúp Google dễ dàng hiểu website của mình hơn. Từ đó tạo tiền đề để Google đánh giá đúng chất lượng nội dung và xếp hạng cao.

> Đề xuất: Nghề SEO là gì và làm những gì?

3. Cách xác định Crawl budget?

Nếu là một SEOer lâu năm, bạn sẽ biết được vị trí của báo cáo Crawl Stat sẽ nằm ở Google webmaster tool (phiên bản cũ). Tuy nhiên, vào cuối năm 2020 Google đã cập nhật cho Google Search Console.

Báo cáo ngân sách cào bạn dễ dàng tìm thấy trong mục Thiết lập (Setting) > Crawl Stat.

crawl budget

4. Những yếu tố tác động đến Crawl Budget và cách tối ưu ngân sách cào

Chúng tôi tách riêng ra Crawl budget là gì ra ngoài bài viết giải thích quá trình thu thập dữ liệu (Crawling) là vì:

  • Những kiến thức ở bài crawling sẽ phù hợp cho việc tối ưu quá trình cho 1 trang
  • Bài viết này sẽ hướng đến việc tối ưu quá trình thu thập trang web cho cả website.

4.1. Quản lý những tài nguyên được thu thập dữ liệu

Yếu tố đầu tiên là việc quyết định đâu là nơi search engine được và không được phép cào.

Trước tiên, file htaccess và robots.txt không được chặn những trang quan trọng. Đặc biệt các tập tin CSS và Javascript rất cần thiết để Google trải nghiệm website như người dùng. Các thẻ Meta robots chỉ nên sử dụng tạm thời để áp dụng vào việc cập nhật hay chỉnh sửa nội dung trong thời gian ngắn.

> Tham khảo Cách tạo robots.txt cho wordpress

Những tài nguyên không quan trọng đối với SEO thì không cần thiết được thu thập dữ liệu. Những nội dung bao gồm các trang chạy quảng cáo, truyền thông bằng kênh khác. Các đường dẫn quản trị website (admin) cũng không ngoại lệ.

ngan sach cao
Sau khi nắm được vùng được và không được phép thu thập dữ liệu, bạn cũng cần điều chỉnh internal link cho đồng bộ.

4.2. Xử lý các lỗi truy cập (chuyển hướng 3xx và truy cập khách 4xx, truy cập máy chủ 5xx)

Số lượng lớn lỗi truy cập sẽ lãng phí rất nhiều crawl budget. Với TIEN ZIVEN, mã điều hướng 3xx cũng là một tác động xấu. Tác nhân bao gồm chủ quan lẫn khách quan.

Về chủ quan, bạn cần điều chỉnh, cập nhật lại liên kết nội bộ thành các link 200. Hoặc những trang đích đã xoá thì bạn nên gỡ liên kết.

Về khách quan, backlink thường khó điều chỉnh hơn internal link. Nếu được bạn vẫn nên điều chỉnh thành liên kết 2xx. Bằng không, đảm bảo rằng bạn sẽ tạo điều hướng 301 về trang liên quan nhất.

4.3. Quản lý tham số

Tham số của URL là vấn đề hay gặp ở các website thương mại điện tử, bán hàng. Nếu không tác động hay quản lý những tham số thì Googlebot mặc định URL chứa tham số và URL bình thường là 2 trang khác nhau. Điều này ảnh hưởng đến lỗi duplicate content, tiêu tốn ngân sách cào lẫn giảm thẩm quyền website.

Do đó, TIEN ZIVEN khuyên bạn tối ưu Crawl Budget bằng cách thiết lập thẻ canonical về chính nó đối với các URL SEO. Trong trường hợp phát sinh URL tham số thì thẻ canonical thông báo với Google rằng đây chỉ là trang phụ, URL mặc định mới là trang chính.

4.4. Xác định và khắc phục lỗi trạng thái http

Google crawling thực hiện trên URL thông qua mã HTML, hình ảnh và cả CSS và Javascript. Tiến trình này sẽ liên quan đến HTTP request. Hiểu đơn giản, ứng với một tệp dữ liệu trong mã HTML đều tiêu tốn một đề xuất HTTP. Sẽ lãng phí khi những đề xuất này trả về trạng thái 4xx và 5xx phải không nào?

4.5. Quản lý tốt sitemap.xml

Ở đây, bạn chỉ cần nhớ nguyên tắc: “Đặt những trang quan trọng vào Sitemap.xml”. Ở tài liệu Crawl Budget là gì TIEN ZIVEN chỉ mong hiểu sâu sắc điều này. Bạn có thể tìm hiểu và tối ưu file sitemap.xml chi tiết nhất tại bài viết Sitemap là gì?

4.6. Khắc phục hiệu quả tình trạng duplicate content

Như TIEN ZIVEN đề cập mục tham số, trùng lặp nội dung ảnh hưởng rất lớn đến ngân sách thu thập dữ liệu. Chúng tôi có bài viết chi tiết về tình trạng này để nói về cách khắc phục. Bạn tìm hiểu tại: Duplicate content là gì?

ngan sach thu thap du lieu
Lưu ý là bạn nên xác định chính xác nguyên nhân dẫn đến trùng lặp nội dung để khắc phục hiệu quả.

Một số biện pháp về Technical SEO gồm:

  • Thiết lập Hreflang: khai báo ngôn ngữ, địa phương cho nội dung
  • Thiết lập thẻ canonical: Khai báo trang chính tắc. Hiểu đơn giản là trang nào là trang chỉnh, đâu là phụ thôi.

4.7. Đảm bảo hoạt động nguồn RSS

Đảo bảo nguồn RSS của website bạn hoạt động tốt nhưng các SEOer thường hay bỏ qua. Đó là vì trình thu thập dữ liệu rất thường xuyên ghé vào các đường dẫn RSS. Mục đích cũng chỉ là để thu thập dữ liệu và thông tin cập nhật. Do đó bạn cần quan tâm cả yếu tố tối ưu Crawl Budget này nữa.

4.8. Tăng ngân sách cào

Bên cạnh việc tránh lãng phí và sử dụng hiệu quả, bạn vẫn có thể tăng ngân sách thu thập dữ liệu trang web. Một số cách điển hình là tăng thẩm quyền, nâng cao chất lượng nội dung website.

> Xem ngay Google Index là gì

Kết luận

Trên đây là một số cách tối ưu ngân sách thu thập dữ liệu. Nếu bạn có cách nào khác, hãy chia sẻ hoặc lan toả đến cộng đồng SEOer nhé. Hy vọng qua bài viết, bạn đã hiểu được Crawl Budget là gì và các vấn đề liên quan. Cảm ơn bạn đã ủng hộ!

Tài liệu tham khảo:

Tham khảo ngay khoá học SEO chuyên sâu nằm nâng cao khả năng triển khai dự án SEO!

Tâm Trần
Tâm Trần

"Tôi là Tâm Trần, với hơn 6 năm kinh nghiệm trong lĩnh vực SEO, cùng hàng chục dự án quy mô lớn nhỏ, tôi tin rằng mình có thể giúp được bạn cải thiện hiệu quả SEO lẫn Digital Marketing"

Liên hệ với chúng tôi