Có lẽ ai làm SEO đều đã từng nghe đến khái niệm Duplicate content và tình trạng này là không tốt cho SEO. Nhưng cụ thể thì Duplicate content là gì và làm thế nào để khắc phục nó? Tất cả các thắc mắc trên sẽ được làm rõ với bài viết này!
1. Duplicate content là gì?
Duplicate Content là nội dung trùng lặp, là tình trạng phần lớn nội dung trang trùng lặp giống với nội dung trang khác trên website của bạn. Hoặc cũng có thể là với nội dung trang của website khác.
Bạn sẽ thường thấy duplicate content xuất hiện trên các URL khác nhau
Tuy nhiên đôi khi là trên một tên miền khác. Ví dụ như trong trường hợp website của bạn có sẵn trên cả www và không www hoặc HTTP và HTTPS (cũng có thể là cả hai cùng một lúc).
Tình trạng duplicate content đa phần xảy ra là do vô tình hoặc là do lỗi kỹ thuật. (Google nói rằng hầu hết duplicate content không phải là sự gian dối về nguồn gốc nội dung). Nếu bạn sao chép và spin nội dung đã xuất bản trước đó với ý định đánh lừa công cụ tìm kiếm thì Google gọi đây là Copied Content.
2. Tại sao Duplicate không tốt cho SEO?
Duplicate Content sẽ không tốt cho nỗ lực tối ưu SEO Content của bạn? Bởi vì:
- Khi có nhiều phiên bản nội dung hoàn toàn giống nhau hoặc rất giống nhau thì Google sẽ trở nên bối rối để xác định nên index phiên bản nào, hiển thị phiên bản nào cho người dùng…
- Nhiều phiên bản cùng tập trung vào một nhóm từ khóa giống nhau, chẳng phải chúng lại đang cạnh tranh lẫn nhau hay sao. Có thể gọi là cạnh tranh nội bộ.
- Công cụ tìm kiếm gặp khó khăn trong vấn đề hợp nhất số liệu về mức độ liên quan, tin cậy của nội dung… (nhất là khi các website khác liên kết với nhiều phiên bản nội dung đó).
> Tham khảo: SEO là gì trong Markeing? và Cách viết bài chuẩn SEO!
3. Nguyên nhân và cách khắc phục
Nguyên nhân dẫn đến tình trạng Duplicate Content rất nhiều, dưới đây là những nguyên nhân phổ biến và hướng dẫn cách giải quyết cho từng nguyên nhân để bạn tham khảo.
3.1. Faceted Navigation (Điều hướng nhiều chiều)
Đây là tình huống Duplicate Content thường thấy ở các website thương mại điện tử bởi chúng phổ biến với việc cung cấp các tùy chọn để người dung có thể lọc và sắp xếp các mục. Người dùng khi mua sắm lại hay có nhiều sự kết hợp các bộ lọc với nhau nên.
Faceted Navigation dẫn đến Duplicate Content
Bạn sẽ hiểu rõ hơn về vấn đề này với ví dụ trên một website bán dây giày sau đây:
- example.com/product-category?filter_color=black (Đây là trang kết quả hiển thị những dây giày có màu đen).
- example.com/product-category?filter_color=black&filter_size=60-inch (Đây là trang kết quả hiển thị những dây giày kết hợp 2 tùy chọn: màu đen và kích thước 60 inch).
Các URL ở ví dụ trên đều là duy nhất, nhưng nội dung lại gần giống nhau vì những sản phẩm ở link số 2 là “tập hợp con” của sản phẩm ở link số 1. Bên cạnh đó, thay đổi thứ tự của các tham số cũng tạo rạ 2 URL khác nhau nhưng nội dung thì lại giống nhau. Ví dụ như 2 URL dưới đây:
- example.com/product-category?filter_color=black&filter_size=60-inch
- example.com/product-category?filter_size=60-inch&filter_color=black
Cách khắc phục:
- Thực ra Faceted navigation không phải là vấn đề đơn giản trong SEO. Nếu bạn có lý do để cho rằng đây là nguyên nhân dẫn đến Duplicate Content trên website của mình thì hãy quyết định đâu là những trang mà bạn muốn Google index.
- Tiếp theo đó, bạn tăng số lượng trang hữu ích được index và bỏ đi những trang không cần thiết.
3.2. Tracking Parameters (Các thông số theo dõi)
Nếu URL của bạn được tham số hóa cũng có thể là nguyên nhân dẫn đến trùng lặp nội dung. Ví dụ: example.com/page?utm_source=newsletter. Ở ví dụ này, URL sử dụng thông số UMT để theo dõi lượt truy cập.
Cách khắc phục:
Hãy chuẩn hóa các URL này để có được các phiên bản không cần thông số theo dõi và vẫn thân thiện với SEO.
> Đọc thêm: DMCA là gì?
3.3. HTTPS với HTTP và non-www với www
Bạn có thể truy cập vào website bằng 1 trong 4 biến thể dưới đây (Biến thể thứ 1 và thứ 2 sử dụng HTTPS và dù là với biến thể có www hay không có www thì chúng ta vẫn có thể truy cập được vào website):
- https://www.example.com (HTTPS, www)
- https://example.com (HTTPS, non-www)
- http://www.example.com (HTTP, www)
- http://example.com (HTTP, non-www)
Vậy vấn đề ở đây là gì? Nếu như bạn không cấu hình chính xác máy chủ thì người dùng có thể truy cập vào website của bạn bằng các biến thể trên và điều này có thể dẫn đến Duplicate Content.

Cách khắc phục:
Cài đặt chuyển hướng để chắc chắn rằng website của bạn chỉ có một phiên bản duy nhất.
3.4 Session IDs
Session IDs lưu trữ thông tin về khách truy cập vào website và chúng thường thường được nhìn thấy với một chuỗi dài nối vào URL.
Ví dụ: example.com?sessionId=jow1234567hnfn8910
Cách khắc phục:
Cách khắc phục Duplicate Content do Session IDs được dùng phổ biến là chuẩn hóa các URL này để chúng thân thiện hơn với SEO.
3.5. URL phân biệt giữa chữ viết hoa và viết thường
Dưới đây là ví dụ về các URL phân biệt chữ viết hoa và chữ viết thường, tức là cả 3 URL này đều khác nhau:
- example.com/page
- example.com/PAGE
- example.com/pAgE
Cách khắc phục:
- Không tạo các liên kết nội bộ với nhiều phiên bản URL để có sự nhất quán.
- Chuẩn hóa hoặc chuyển hướng URL.
Tham khảo bài viết về Topic Cluster và Pillar là gì?
3.6. Có hoặc không có dấu gạch chéo theo sau
Google sẽ không xem xét đến việc URL có dấu gạch chéo theo sau hay là không có dấu gạch chéo theo sau. Do đó, Google cho rằng 2 URL như dưới đây là một:
- example.com/page/
- example.com/page
Do đó, nếu nội dung của bạn có thể được truy cập bằng cả 2 URL (có và không có dấu gạch chéo theo sau) thì sẽ xảy ra lỗi Duplicate Content. Bạn có thể lần lượt thử truy cập bằng 2 URL này để kiểm tra.
Cách khắc phục:
Trong 2 phiên bản, chọn phiên bản mà bạn muốn và chuyển hướng phiên bản còn lại sang phiên bản mà bạn muốn. Đồng thời, hãy tạo sự nhất quán bằng cách sử dụng một toàn bộ một phiên bản (có hoặc không có dấu gạch chéo theo sau) cho tất cả các URL trên website của bạn.
3.7. URL AMP (Accelerated Mobile Pages)
Đây cũng là một trong những trường hợp có thể dẫn đến trùng lặp. Bên dưới là ví dụ về 2 URL gốc và URL AMP:
- example.com/page
- example.com/amp/page
Cách khắc phục:
- Chuẩn hóa phiên bản AMP thành phiên bản không sử dụng AMP. Sử dụng thẻ rel=”amphtml” để thông báo với Google rằng các URL AMP là phiên bản thay thế cho các nội dung không chứa AMP.
- Nếu chỉ có nội dung AMP thì bạn hãy sử dụng self-referencing canonical tag hay còn gọi là thẻ canonical tự tham chiếu.
3.8. URL thân thiện với bản in
URL thân thiện với bản in là một URL khác với bản gốc nhưng về nội dung giống nhau. Dưới đây là ví dụ về URL gốc (URL thứ 1) và URL thân thiện với bản in (URL thứ 2).
- example.com/page
- example.com/print/page
Cách khắc phục:
Chuẩn hóa phiên bản thân thiện với bản in thành phiên bản bản gốc.
> Đọc ngay: Audit Content là gì?
3.9. URL thân thiện với thiết bị di động
Tương tự URL thân thiện với bản in, URL thân thiện với thiết bị di động cũng có thể là nguyên nhân xuất hiện Duplicate Content cho website của bạn. Ví dụ như 2 URL dưới đây (URL trên là bản gốc, URL dưới là URL thân thiện với thiết bị di động):
- example.com/page
- m.example.com/page
Cách khắc phục:
Chuẩn hóa phiên bản thân thiện với thiết bị di động thành phiên bản gốc. Bạn có thể dùng cú pháp rel=“alternate” để thông báo với Google rằng URL thân thiện với thiết bị di động là phiên bản thay thế cho phiên bản nội dung trên desktop (máy để bàn).
3.10. Tag và Category Pages
*Đối với Tag:
Hầu hết với các CMS (Content Management System – Hệ quản trị nội dung), bạn đều có thể tạo các thẻ chuyên dụng.
Ví dụ: Bạn có một bài viết về “ví mini cho nam giới” và bạn sử dụng 2 tag gồm: ví nam và ví mini thì sẽ có 2 URL như sau:
- example.com/tag/vi-nam/
- example.comtag/vi-mini/
Mặc dù không phải trong tất cả các trường hợp nhưng đôi khi việc sử dụng thẻ tag như thế này cũng có thể gây ra Duplicate Content. Giả sử chỉ có một trang trên website có hai thẻ này thì cả 2 URL trên đều giống hệt nhau.
Cách khắc phục:
- Không sử dụng tag (vì việc dùng thẻ này hầu như không có giá trị gì)
- Không index những trang có nhiều thẻ.
Các trang Tag và Category cũng thường gây ra trùng lặp nội dung
*Đối với Category Pages:
Tương tự việc dùng thẻ, các trang danh mục cũng có thể dẫn đến vấn đề trùng lặp nội dung.
Cách khắc phục:
Cân nhắc việc sử dụng các danh mục trên website với số lượng ít hoặc nếu cần thiết có thể không index các trang danh mục này.
3.11. URL hình ảnh đính kèm
Nhiều CMS tạo ra các trang dành riêng cho tệp đính kèm hình ảnh và đa phần chúng sẽ không hiển thị gì ngoài hình ảnh và một số bản sao. Tình trạng Duplicate Content xảy ra bởi vì các bản sao này giống nhau tại tất cả các trang được tạo tự động
Cách khắc phục:
Tắt các trang dành riêng cho hình ảnh trong CMS (Nếu sử dụng WordPress, bạn có thể dùng plugin Yoast để xử lý vấn đề này).
Nhiều CMS (trong đó có WordPress) cho phép comment được phân trang. Do đó, có thể sẽ tạo ra nhiều phiên bản của cùng một URL và dẫn đến Duplicate Content. Bên dưới là một số ví dụ để bạn có thể hình dung rõ hơn về trường hợp này:
- example.com/post/
- example.com/post/comment-page‑2
- example.com/post/comment-page‑3
Cách khắc phục:
Tắt phân trang comment hoặc không lập chỉ mục những trang được phân trang (Với WordPress, bạn có thể sử dụng plugin Yoast).
Bài viết đề xuất: Entity là gì? Hướng dẫn triển khai Entity Building
3.13. Trang kết quả tìm kiếm nội bộ
Việc có một hộp tìm kiếm ngay trên website có lẽ khá phổ biến. Khi dùng các hộp này thì chúng ta sẽ có một URL tìm kiếm được tham số hóa.
Trang tìm kiếm nội bộ cần được xử lý phù hợp để tránh Duplicate Content
Cách khắc phục:
- Xóa các trang tìm kiếm khỏi danh sách chỉ mục của Google hoặc chặn quyền truy cập vào các trang này trong tệp robots.txt.
- Đồng thời, hạn chế tạo các internal link (liên kết) nội bộ đến các trang chứa kết quả tìm kiếm trên website của bạn.
3.14. Localization (Bản địa hóa ngôn ngữ)
Tình huống có thể dẫn đến trùng lặp nội dung với Localization là khi bạn phân bổ một nội dung tương tự người dùng ở nhiều quốc gia nhưng họ sử dụng chung một ngôn ngữ (tiếng Anh chẳng hạn).
Ví dụ: Website của bạn có nhiều phiên bản khác nhau cho người dùng ở Mỹ, Anh và Úc. Lúc này, mỗi phiên bản sẽ gần như trùng lặp bởi ngôn ngữ của họ. Tuy nhiên, theo John Mueller (Nhà phân tích xu hướng Webmaster cấp cao tại Google) thì nội dung bản dịch không phải là Duplicate Content.
Cách khắc phục:
Sử dụng thẻ Hreflang để thông báo cho Google về mối quan hệ giữa các phiên bản.
3.15. Môi trường Staging
Khi bạn muốn thực hiện một vài thay đổi trên website của mình về code hoặc Plugin nhưng bạn không muốn hiển thị chúng công khai khi chúng vẫn chưa hoàn thiện (vì website của bạn hiện đang có rất nhiều khách truy cập mỗi ngày).
Do đó, bạn sử dụng môi trường Staging, đây là một phiên bản trùng (hoặc gần trùng lặp) của website được tạo ra với mục đích thử nghiệm. Và môi trường Staging lại ảnh hưởng đến SEO (Google vẫn index chúng) nên dẫn đến tình trạng Duplicate Content.
Cách khắc phục:
- Xác thực HTTP, danh sách trắng các địa chỉ IP hoặc quyền truy cập VPN.
- Sử dụng lệnh ngăn index tự động để xóa nó (nếu áp dụng cách trên nhưng nó vẫn được index)
*Lưu ý rằng sau khi xử lý hết tất cả các nội dung trùng lặp, bạn hãy redirect 301 URL trùng lặp về URL gốc nhé!
4. Cách phát hiện Duplicate content
Để kiểm tra xem nội dung của bạn có bị lỗi Duplicate Content hay không, bạn có thể sử dụng Google hoặc các công cụ khác.
Dưới đây là hướng dẫn xác định nội dung trùng lặp cụ thể
4.1. Check Duplicate Content bằng Google
Đây là cách check Duplicate Content do Google đề xuất. Với cách này, bạn copy một đoạn nhỏ (khoảng hơn nửa dòng một chút) và đặt vào giữa dấu ngoặc kép. Tiếp đó, bạn dán chúng (đoạn vừa copy được đặt trong dấu ngoặc kép) vào hộp tìm kiếm của Google và nhấn enter. Bạn kiểm tra lại trong các kết quả được trả về sẽ thấy nội dung trùng lặp (nếu có).
Nếu như có một hoặc nhiều website khác hiển thị nội dung tương tự của bạn thì Google sẽ đánh giá đâu là trang gốc và ưu tiên hiển thị trang đó trước. Do đó, nếu website của bạn không phải là TOP 1 thì bạn đang gặp vấn đề Duplicate Content.
> Đọc thêm: Sitemap là gì?
4.2. Check Duplicate Content bằng công cụ miễn phí
Một cách khác cũng có thể giúp bạn check Duplicate Content đó là sử dụng các công cụ kiểm tra đạo văn. Bạn có thể tham khảo các công cụ online miễn phí dưới đây:
- Copyscape: Đây là công cụ kiểm tra Duplicate Content với những nội dung đã được xuất bản. Rất nhanh, bạn có thể biết trang của mình có có trùng lặp nội dung với những trang nào khác hay không? Bạn sẽ thấy các nội dung trùng lặp được làm nổi bật với số liệu trùng lặp tỷ lệ bao nhiêu %.
- Duplichecker: Cũng là một công cụ online kiểm tra trùng lặp nội dung nhưng là với bài viết bạn chỉ mới dự định đăng lên website. Với tính năng miễn phí không cần đăng ký, bạn có check văn bản dưới 1000 ký tự/lần.
- Plagspotter: Công cụ này sẽ giúp bạn biết những trang nào đang có nội dung trùng lặp với nội dung trên website của bạn. Ngoài ra, nó còn có tính năng tự động theo dõi các URL mỗi tuần để xác định Duplicate Content.
- Smallseotools: Đây là một bộ công cụ gồm nhiều công cụ dành cho SEO, trong đó có kiểm tra đạo văn. Do đó, bạn cũng có thể sử dụng để tìm các đoạn nội dung giống với của bạn.
- Siteliner: Công cụ này sẽ giúp bạn phát hiện Duplicate Content bằng cách kiểm tra toàn bộ website mỗi tháng 1 lần.
> Đọc về Keyword Cannibalization và cách khắc phục ăn thịt từ khoá!
5. Kết luận
Trên đây là những nội dung giúp bạn biết được Duplicate Content là gì và tại sao nó lại không tốt cho SEO, từ đó tìm hiểu chi tiết các nguyên nhân và cách khắc phục đối với tình trạng này. Để hạn chế Duplicate Content, bạn hãy dành một chút thời gian kiểm tra trùng lặp nội dung trước khi xuất bản, có thể là với các công cụ miễn phí được gợi ý phía trên. Hy vọng hướng dẫn này đã có ích với bạn, chúc bạn thành công!
Nguồn tham khảo:
Tham khảo thêm Dịch vụ SEO Tổng thể của TIEN ZIVEN!