Ở bài viết trước, TIEN ZIVEN đã lý giải cho bạn tất cả kiến thức về hành vi cào (crawling) của SE. Còn một vấn đề mà chúng tôi phải bóc tách mới có thể tìm hiểu chi tiết technical SEO được. Đó chính là ngân sách cào. Trong bài viết này, TIEN ZIVEN sẽ giải thích Crawl Budget là gì? Vai trò của chỉ số này và cách tối ưu nó nhé!
1. Crawl budget là gì?
Crawl Budget (ngân sách thu thập web) là số lượt thu thập dữ liệu trang web mà công cụ tìm kiếm giới hạn cho website trong một khoảng thời gian (thường là một tháng).
Hiểu đơn giản, nó là số lần google gửi bot thu thập dữ liệu trang web của bạn để cập nhật thông tin.
Crawl budget có nhiều tên gọi, như: ngân sách thu thập dữ liệu, ngân sách thu thập website… Nhưng chúng tôi thường gọi nhất là ngân sách cào (crawl: cào, budget: ngân sách).
Các Website có giới hạn ngân sách cào khác nhau tuỳ thuộc vào nhiều yếu tố như xử lý. Tham khảo lại bài viết trước: crawling là gì?
2. Tại sao cần quan tâm đến chỉ số ngân sách cào?
Đây là một chỉ số ít SEOer đặt quan tâm vì họ chưa thực sự hiểu tầm quan trọng của nó. Vai trò của Crawl budget trong SEO là:
- Ngân sách cào là một tín hiệu gián tiếp thể hiện mức độ thẩm quyền của website. Qua đó, bạn sẽ nắm được và lên kế hoạch cải thiện và tối ưu thẩm quyền website – Domain Authority.
- Phần báo cáo của ngân sách cào cho biết những trang được thu thập và tình trạng của chúng. Điều này giúp bạn biết được những nơi Google thu thập đã phù hợp hay chưa? Hay cả những lỗi về kỹ thuật SEO.
- Khi quản lý tốt ngân sách thu thập dữ liệu, bạn sẽ giúp Google dễ dàng hiểu website của mình hơn. Từ đó tạo tiền đề để Google đánh giá đúng chất lượng nội dung và xếp hạng cao.
> Đề xuất: Nghề SEO là gì và làm những gì?
3. Cách xác định Crawl budget?
Nếu là một SEOer lâu năm, bạn sẽ biết được vị trí của báo cáo Crawl Stat sẽ nằm ở Google webmaster tool (phiên bản cũ). Tuy nhiên, vào cuối năm 2020 Google đã cập nhật cho Google Search Console.
Báo cáo ngân sách cào bạn dễ dàng tìm thấy trong mục Thiết lập (Setting) > Crawl Stat.

4. Những yếu tố tác động đến Crawl Budget và cách tối ưu ngân sách cào
Chúng tôi tách riêng ra Crawl budget là gì ra ngoài bài viết giải thích quá trình thu thập dữ liệu (Crawling) là vì:
- Những kiến thức ở bài crawling sẽ phù hợp cho việc tối ưu quá trình cho 1 trang
- Bài viết này sẽ hướng đến việc tối ưu quá trình thu thập trang web cho cả website.
4.1. Quản lý những tài nguyên được thu thập dữ liệu
Yếu tố đầu tiên là việc quyết định đâu là nơi search engine được và không được phép cào.
Trước tiên, file htaccess và robots.txt không được chặn những trang quan trọng. Đặc biệt các tập tin CSS và Javascript rất cần thiết để Google trải nghiệm website như người dùng. Các thẻ Meta robots chỉ nên sử dụng tạm thời để áp dụng vào việc cập nhật hay chỉnh sửa nội dung trong thời gian ngắn.
> Tham khảo Cách tạo robots.txt cho wordpress
Những tài nguyên không quan trọng đối với SEO thì không cần thiết được thu thập dữ liệu. Những nội dung bao gồm các trang chạy quảng cáo, truyền thông bằng kênh khác. Các đường dẫn quản trị website (admin) cũng không ngoại lệ.
Sau khi nắm được vùng được và không được phép thu thập dữ liệu, bạn cũng cần điều chỉnh internal link cho đồng bộ.
4.2. Xử lý các lỗi truy cập
Số lượng lớn lỗi truy cập sẽ lãng phí rất nhiều crawl budget. Với TIEN ZIVEN, mã điều hướng 3xx cũng là một tác động xấu. Ngoài ra bạn sẽ bắt gặp thêm các lỗi truy cập máy chủ 5xx và lỗi truy cập khách 4xx điển hình là lỗi 404. Tác nhân bao gồm chủ quan lẫn khách quan.
Về chủ quan, bạn cần điều chỉnh, cập nhật lại liên kết nội bộ (internal link) thành các link 200. Hoặc những trang đích đã xoá thì bạn nên gỡ liên kết.
Về khách quan, backlink thường khó điều chỉnh hơn internal link. Nếu được bạn vẫn nên điều chỉnh thành liên kết 2xx. Bằng không, đảm bảo rằng bạn sẽ tạo điều hướng 301 về trang liên quan nhất.
4.3. Quản lý tham số
Tham số của URL là vấn đề hay gặp ở các website thương mại điện tử, bán hàng. Nếu không tác động hay quản lý những tham số thì Googlebot mặc định URL chứa tham số và URL bình thường là 2 trang khác nhau. Điều này ảnh hưởng đến lỗi duplicate content, tiêu tốn ngân sách cào lẫn giảm thẩm quyền website.
Do đó, TIEN ZIVEN khuyên bạn tối ưu Crawl Budget bằng cách thiết lập thẻ canonical về chính nó đối với các URL SEO. Trong trường hợp phát sinh URL tham số thì thẻ canonical thông báo với Google rằng đây chỉ là trang phụ, URL mặc định mới là trang chính.
4.4. Xác định và khắc phục lỗi trạng thái http
Google crawl data trên URL thông qua mã HTML, hình ảnh và cả CSS và Javascript. Tiến trình này sẽ liên quan đến HTTP request. Hiểu đơn giản, ứng với một tệp dữ liệu trong mã HTML đều tiêu tốn một đề xuất HTTP. Sẽ lãng phí khi những đề xuất này trả về trạng thái 4xx và 5xx phải không nào?
4.5. Quản lý tốt sitemap.xml
Ở đây, bạn chỉ cần nhớ nguyên tắc: “Đặt những trang quan trọng vào Sitemap.xml”. Ở tài liệu Crawl Budget là gì TIEN ZIVEN chỉ mong hiểu sâu sắc điều này. Bạn có thể tìm hiểu và tối ưu file sitemap.xml chi tiết nhất tại bài viết Sitemap là gì?
4.6. Khắc phục hiệu quả tình trạng duplicate content
Như TIEN ZIVEN đề cập mục tham số, trùng lặp nội dung ảnh hưởng rất lớn đến ngân sách thu thập dữ liệu. Chúng tôi có bài viết chi tiết về tình trạng này để nói về cách khắc phục. Bạn tìm hiểu tại: Duplicate content là gì?
Lưu ý là bạn nên xác định chính xác nguyên nhân dẫn đến trùng lặp nội dung để khắc phục hiệu quả.
Một số biện pháp về Technical SEO gồm:
- Thiết lập Hreflang: khai báo ngôn ngữ, địa phương cho nội dung
- Thiết lập thẻ canonical: Khai báo trang chính tắc. Hiểu đơn giản là trang nào là trang chỉnh, đâu là phụ thôi.
Đảo bảo nguồn RSS của website bạn hoạt động tốt nhưng các SEOer thường hay bỏ qua. Đó là vì trình thu thập dữ liệu rất thường xuyên ghé vào các đường dẫn RSS. Mục đích cũng chỉ là để thu thập dữ liệu và thông tin cập nhật. Do đó bạn cần quan tâm cả yếu tố tối ưu Crawl Budget này nữa.
4.8. Tăng ngân sách cào
Bên cạnh việc tránh lãng phí và sử dụng hiệu quả, bạn vẫn có thể tăng ngân sách thu thập dữ liệu trang web. Một số cách điển hình là tăng thẩm quyền, nâng cao chất lượng nội dung website.
> Xem ngay Google Index là gì
Kết luận
Trên đây là một số cách tối ưu ngân sách thu thập dữ liệu. Nếu bạn có cách nào khác, hãy chia sẻ hoặc lan toả đến cộng đồng SEOer nhé. Hy vọng qua bài viết, bạn đã hiểu được Crawl Budget là gì và các vấn đề liên quan. Cảm ơn bạn đã ủng hộ!
Tài liệu tham khảo:
Tham khảo ngay khoá học SEO chuyên sâu nằm nâng cao khả năng triển khai dự án SEO!
Bài viết đề xuất: