Crawling là gì? Web Crawler là gì? Quá trình Crawl data chi tiết

Updated on Tháng Chín 18, 2021

Crawling là gì là bài viết đầu trong chuỗi tài liệu về Technical SEO. Nguyên nhân là vì TIEN ZIVEN luôn hướng đến việc bạn có nền tảng kiến thức vững chắc trước khi đi sâu vào các kỹ thuật hay thủ thuật cao siêu. Nội dung bài viết này nói về nguyên tắc hoạt động đầu tiên của công cụ tìm kiếm (Google).

crawling la gi
Crawl data là gì? Nguyên lý hoạt động và cách tối ưu quá trình thu thập dữ liệu.

1. Crawling là gì

Crawling là quá trình thu thập dữ liệu của công cụ tìm kiếm nhằm tìm nội dung mới hoặc cập nhật những thay đổi trên trang cũ. Những định dạng được thu thập dữ liệu gồm: html, hình ảnh, video…

Crawl dữ liệu (quá trình cào) diễn ra tạo tiền đề cho quá trình Indexing (Lập chỉ mục).

2. Web Crawler là gì

Trước khi đi vào chi tiết của quá trình thu thập dữ liệu, chúng ta cần biết rõ về Web Crawler.

web crawler la gi
Các công nhân làm việc cho công cụ tìm kiếm là gì?

Web Crawler (trình thu thập web) là một bot internet thực hiện thu thập dữ liệu qua World Wide Web. Crawler được công cụ tìm kiếm lập trình sẵn nhằm mục đích lập chỉ mục. Trình thu thập thông tin còn được gọi là spider, spiderbot… Nhưng phổ biến nhất vẫn là Googlebot.

Đọc thêm bài viết Tổng quan SEO!

3. Quá trình crawl data của trình thu thập

Khi bạn nắm các khái niệm cơ bản thì không quá khó để hiểu quá trình thu thập dữ liệu. Quá trình này được diễn ra như sau:

  1. Crawling được bắt đầu khi công cụ tìm kiếm (Search Engine – SE) phát hiện một liên kết.
  2. Dựa vào liên kết, SE sẽ khởi động trình thu thập web để thu thập thông tin của trang đích.
  3. Trong trang đích này, chúng sẽ phát hiện những liên kết mới. Crawler sẽ nhân đôi để quá trình thu thập trang hiện tại vấn được diễn ra với 1 lượt crawl data. Trình thu thập web còn lại sẽ sang trang đích của các liên kết khác.
  4. Quá trình này được lặp đi lặp lại liên tục.
crawl data
Với điều kiện lý tưởng thì hoạt động thu thập dữ liệu được diễn ra vô hạn.

Tuy nhiên, điều này sẽ tiêu tốn rất nhiều tài nguyên của SE (quá tải về lưu lượng và dung lượng). Do đó, Search Engine cập nhật những nguyên tắc hoạt động cho web crawler (thuật toán).

Nguyên tắc mà bạn cần quan tâm nhất trong bài viết này là:

Nếu trang có hơn 1 liên kết đến cùng 1 trang đích, trình thu thập web chỉ thu thập một lần từ link đầu tiên nó phát hiện.

Ở đây bạn có thể hiểu: Bạn có thể đặt bao nhiêu internal link (liên kết nội bộ) tuỳ thích. Nhưng duy nhất chỉ 1 link đầu tiên có giá trị

Quá trình này được giới hạn và mỗi website có một ngân sách thu thập dữ liệu (crawl budget) khác nhau. Trong bài viết này TIEN ZIVEN sẽ hướng dẫn cách nâng cao hiệu suất của mỗi lần crawling. Còn về cách tối ưu ngân sách Cào sẽ được nói chi tiết trong bài viết Crawl Budget là gì?

4. Tại sao cần tối ưu và Cách tối ưu quá trình crawl dữ liệu

Tối ưu crawl data là quá trình giúp trình thu thập web lấy được nhiều thông tin nhất trong một lần cào.

Quá trình này vô cùng quan trọng vì:

  • Giúp nâng cao hiệu suất trong một lần thu thập dữ liệu của Web crawler.
  • Tạo điều kiện để công cụ tìm kiếm hiểu nội dung tốt hơn
  • Công cụ tìm kiếm sẽ đánh giá chất lượng nội dung và thực hiện quá trình lập chỉ mục.

Bạn có thể theo dõi tiến trình crawl dữ liệu hoặc kiểm tra crawl budget qua Crawl Stat của Google Search Console.

Mời bạn đi sâu vào từng cách tối ưu crawling nhé!

Mã phản hồi (responsive code) 2xx là mã cho biết liên kết có khả năng được lập chỉ mục. Điều đầu tiên là bạn không lãng phí bất kỳ liên kết nào trên website. Sau đó bạn cần điều chỉnh chúng thành những liên kết chính xác.

web crawler
Như vậy web crawler sẽ liên tục nhân đôi để thu thập dữ liệu trên website (crawl website).

4.2. Xử lý các lỗi điều hướng mã code 3xx

Responsive code 3xx là mã cho biết trình thu thập sẽ bị điều hướng sang một trang khác. Các mã phản hồi 3xx thường thấy là 301, 302, 304 và 307.
Các liên kết 3xx bạn cần quan tâm bao gồm cả internal link lẫn backlink. Nếu là liên kết nội bộ bạn cần chỉnh sửa toàn bộ. Còn backlink, bạn chỉnh thành điều hướng 301.

4.3. Xử lý các sự cố truy cập: 4xx và 5xx

crawl data la gi
Sự cố 4xx và 5xx cũng bắt nguồn từ cả nguyên nhân chủ quan (internal link) và khách quan (backlink).
  • 4xx là mã phản hồi thông báo rằng trình thu thập không thể truy cập do máy khách (người dùng).
  • 5xx là mã phản hồi thông báo crawler không truy cập được do máy chủ (server).

Tương tự như cách thứ 2, đối với các liên kết nội bộ, bạn cần cập nhật những liên kết 2xx. Đối với backlink, nếu có thể điều chỉnh, hãy đổi thành link 2xx. Hoặc không, hãy tạo những điều hướng 301 từ liên kết gây lỗi sang liên kết chính xác. Từ đó tiến trình crawling vẫn được thực hiện.

4.4. Chặn các tài nguyên không nên crawl dữ liệu

Cả 3 quá trình trên đều giúp bạn tránh lảng phí lượt thu thập dữ liệu. Cách cuối cùng giúp kiểm soát được dữ liệu mà web crawler được và không được phép crawl data.

Bạn có thể thực hiện với robots.txt, sitemap, meta robots, thuộc tính rel=”nofollow”.

Bạn có thể tìm hiểu chi tiết hơn tại những bài viết:

Kết luận

Hy vọng rằng với nội dung đầu tiên của tài liệu về SEO technical không làm bạn ngợp. Mong rằng qua bài viết này, TIEN ZIVEN giúp bạn hiểu được crawling là gì? Web Crawler là gì? Quá trình thu thập dữ liệu và cách tối ưu crawl data. Cảm ơn bạn đã ủng hộ chúng tôi. Nếu thấy những kiến thức này hữu ích, giúp TIEN ZIVEN lan toả tới cộng đồng SEOer nhé!

Tài liệu tham khảo: Advanced Guide to How Google Search Works | Google Search Central

Xem ngay khoá học đào tạo SEO nâng cao TIEN ZIVEN!

Tâm Trần
Tâm Trần

"Tôi là Tâm Trần, với hơn 6 năm kinh nghiệm trong lĩnh vực SEO, cùng hàng chục dự án quy mô lớn nhỏ, tôi tin rằng mình có thể giúp được bạn cải thiện hiệu quả SEO lẫn Digital Marketing"

Liên hệ với chúng tôi