Trang chủ / Glossary / Duplicate Content

Duplicate Content

Trở về trang danh sách thuật ngữ

Duplicate Content (tiếng Việt: Nội dung trùng lặp) đề cập đến các khối nội dung hoàn toàn khớp hoặc rất giống với nội dung khác trong cùng một hoặc trên nhiều miền (website).

Ví dụ: Tôi xuất bản lại nội dung bài đăng này trên website này hoặc website khác thì chúng đều là các nội dung trùng lặp.

Nội dung giống từng từ hoặc nội dung tương tự (gần giống) đều là các nội dung trùng lặp (duplicate content).
Nội dung giống từng từ hoặc nội dung tương tự (gần giống) đều là các nội dung trùng lặp. Nguồn ảnh: Backlinko.

Thực tế, 25–30% nội dung trên không gian web bị trùng lặp. Google không phạt nội dung trùng lặp nhưng chúng vẫn có thể tác động tiêu cực đến thứ hạng trong trang kết quả tìm kiếm.

Google cố gắng lập chỉ mục và hiển thị các trang có thông tin riêng biệt. Vì vậy, các trang chứa nội dung trùng lặp có thể gặp sự cố SEO.

Dưới đây là một vài vấn đề chính mà các website có nhiều nội dung trùng lặp gặp phải:

  • Công cụ tìm kiếm có thể khó quyết định phiên bản nào phù hợp hơn với truy vấn tìm kiếm nhất định. Nói cách khác, họ không chắc trang nào là bản gốc.
  • Xuất hiện URL không mong muốn hoặc không thân thiện trong trang kết quả tìm kiếm.
  • Công cụ tìm kiếm không biết nên hướng các số liệu liên kết (liên quan đến tin cậy, thẩm quyền, văn bản neo,…) vào một trang hay giữ nó tách biệt giữa nhiều phiên bản.
  • Số trang được lập chỉ mục ít hơn.
  • Có thể bị Google trừng phạt.

Khi nào Google phạt các nội dung trùng lặp?

Nếu nội dung trùng lặp của bạn là do vô tình và không phải là kết quả của việc cố ý thao túng kết quả tìm kiếm hoặc spam, bạn sẽ không bị phạt.

Ngược lại, trong một số trường hợp, nội dung được sao chép một cách có chủ ý giữa các tên miền nhằm cố gắng thao túng thứ hạng của công cụ tìm kiếm hoặc để đạt được nhiều lưu lượng truy cập hơn, bạn có thể bị phạt.

Do đó, trong một số ít trường hợp, thứ hạng của trang web có thể bị ảnh hưởng hoặc trang web có thể bị xóa hoàn toàn khỏi chỉ mục của Google. Điều đó có nghĩa là, trang web sẽ không còn xuất hiện trong kết quả tìm kiếm.

Những gì được Google coi là hành vi thao túng xếp hạng?

  • Cố ý tạo nhiều trang, tên miền phụ hoặc tên miền có nhiều nội dung trùng lặp.
  • Nội dung cóp nhặt. Ví dụ: Sao chép và xuất bản lại nội dung từ trang web khác mà không cung cấp thêm nội dung nguyên bản hay giá trị nào.

Cách khắc phục sự cố trùng lặp nội dung

Bạn có thể sử dụng công cụ Siteliner để quét website của bạn nhằm tìm các trang có chứa nhiều nội dung trùng lặp.

Sử dụng Siteliner để phát hiện nội dung trùng lặp

Giải pháp sẽ phụ thuộc vào tình huống cụ thể:

  • Sử dụng thẻ Canonical. Các thẻ này được sử dụng để hợp nhất các tín hiệu và chọn phiên bản ưa thích của bạn.
  • Chuyển hướng 301 là cách dễ nhất để khắc phục các sự cố nội dung trùng lặp trên trang web của bạn.

Ngoài ra, nếu bạn sử dụng WordPress, bạn có thể nhận thấy rằng nó tự động tạo các trang thẻ và danh mục. Các trang này là nguyên nhân lớn của nội dung trùng lặp.

Vì vậy, bạn nên chặn Googlebot bằng thêm “Disallow: /tag/” và “Disallow: /category/” vào robots.txt hoặc thêm thẻ “noindex” vào các trang này thông qua Yoast SEO hoặc Rank Math.

Disallow Category & Tag để tránh lỗi trùng lặp nội dung.
Disallow category và tag để tránh lỗi trùng lặp nội dung.

Nếu ai đó đang sao chép nội dung của bạn mà không được phép, bạn có thể yêu cầu xóa nội dung đó bằng cách gửi yêu cầu theo Đạo luật bản quyền thiên niên kỷ kỹ thuật số.

Trở về trang danh sách thuật ngữ