Duplicate content là thuật ngữ được sử dụng rất phổ biến trong lĩnh vực Content Marketing và luôn được các SEOer quan tâm. Việc trùng lặp nội dung gây ảnh hưởng rất lớn đến chất lượng website của bạn, chính vì thế việc phát hiện và khắc phục là cực kỳ cần thiết. Trong bài viết dưới đây CAS Media sẽ giới thiệu chi tiết về Duplicate content là gì, cách kiểm tra Duplicate content chính xác nhất.

Duplicate content là gì

Duplicate content là gì?

Duplicate content – trùng lặp nội dung là thuật ngữ được sử dụng rất phổ biến trong lĩnh vực SEO. Cụ thể Duplicate content là những nội dung giống nhau được xuất hiện trên website của bạn cùng với nhiều website khác trên Internet.

Trùng lặp nội dung có thể xảy ra trên một website hoặc Cross Domain. Duplicate content thường xuất hiện khi kỹ thuật thực hiện bị lỗi hoặc do sự vô tình của người thực hiện. Nếu việc liên kết không được thực hiện một cách chính xác thì cả các trang AMP cũng sẽ bị tính là Duplicate content.

Duplicate content sẽ khiến Google gặp nhiều khó khăn khi xác định phiên bản nào là phiên bản gốc và nếu không biết được phiên bản nào là bản gốc thì nó sẽ tự động chọn một phiên bản tốt nhất. Và trong trường hợp này nếu phiên bản được chọn chỉ là bản sao thì sẽ gây ra rất nhiều thiệt hại cho phiên bản gốc. Chính vì vậy, để tránh tình trạng này xảy ra thì Google sẽ hạn chế sự xuất hiện của những nội dung bị Duplicate content.

Nguyên nhân gây ra Duplicate content

Trùng lặp nội dung là tình trạng mà nhiều SEOer đều không muốn xảy ra trên website của mình, nhưng vì nhiều lý do khác nhau mà tình trạng này vẫn có thể xảy ra. Dưới đây là những nguyên nhân gây ra tình trạng trùng lặp nội dung phổ biến nhất mà bạn cần phải biết.

Tính năng Filter trong website

Tính năng Filter trong website giúp người dùng có thể lọc và sắp xếp các mục trên web vì thế nên các website thương mại điện tử thường sử dụng Filter rất nhiều. Với tính năng này thì ở cuối URL đều được gắn thêm tham số như ví dụ sau:

Tuy nhiên các bộ lọc này thường có nhiều sự kết hợp với nhau và mỗi bộ lọc đều sẽ gắn thêm một tham số khác nhau vào URL. Điều này dẫn đến việc nhiều nội dung bị trùng lặp hoặc gần trùng lặp.

Website có phiên bản cho Mobile

Thông thường những URL thân thiện với các giao diện điện thoại sẽ bị trùng lặp với URL dành cho máy tính để bàn. Để khắc phục tình trạng này thì bạn chỉ cần chuẩn hóa URL thân thiện với thiết bị điện thoại thành phiên bản gốc.

Phải sử dụng Rel = ‘Alternate” để Google phát hiện URL dành cho thiết bị điện thoại là phiên bản thay thế cho URL dành cho máy tính để bàn.

URL có gạch chéo và không có gạch chéo

Các URL có gạch chéo và không có gạch chéo sẽ được Google nhận định là những URL hoàn toàn độc lập với nhau. Ví dụ 2 URL sau đều được coi là 2 URL khác nhau: cas-solution.vn/page/ và cas-solution.vn/page.

Bạn có thể kiểm tra xem 2 URL này có độc lập với nhau không bằng cách thử load lại trang có dấu “/” và không có dấu “/”.

  • Khi URL không chứa “/” được chuyển hướng tới URL có chứa “/” thì không tính là trùng lặp nội dung.
  • Khi bạn có thể truy cập cả hai URL này thì là trùng lặp nội dung.

Phiên bản “Www” và không “www” + phiên bản “http” và “https”

Khi website của bạn có thể truy cập ở cả phiên bản có www và không có www thì bạn sẽ có 2 website giống hệt nhau với các bản duplicate content tất cả các trang nó có. Điều này cũng xảy ra tương tự với phiên bản http và https. Khi cả hai website này đều được Google lập chỉ mục thì sẽ xảy ra tình trạng trùng lặp nội dung.

Content có độ trùng lặp cao

Việc cố ý hay vô tình làm nội dung bị trùng lặp đều sẽ gây ra những ảnh hưởng tiêu cực đến hoạt động SEO.

Khi trang web khác đăng lại nội dung bài viết của trang bạn hoặc bạn đăng lại cùng một nội dung trên nhiều trang web khác nhau sẽ gây ra tình trạng trùng lặp nội dung. Content có độ trùng lặp cao sẽ ảnh hưởng đến quá trình tối ưu hóa của website trên các công cụ tìm kiếm nên bạn cần phải loại bỏ những content bị trùng lặp này.

Thẻ Heading và Meta Description

Bạn cần phải đảm bảo rằng các trang trong website của mình phải có một tiêu đề duy nhất trong mã HTML của trang thì mới có thể tránh được Duplicate content. Đồng thời các thẻ H1, H2, H3 trên website của bạn cũng cần phải đặt khác so với nội dung của các website khác.

Việc đảm bảo cho thẻ Meta Description không bị trùng lặp nội dung cũng là vấn đề quan trọng mà bạn cần phải quan tâm. Nếu bạn copy nội dung này cho tất cả các trang trong web thì sẽ khiến Google gặp nhiều khó khăn trong việc thu thập thông tin và hiểu được chủ đề nội dung của các trang.

Duplicate content

Duplicate content gây ra những thiệt hại gì?

Duplicate content gây ra rất nhiều ảnh hưởng tiêu cực đến hoạt động SEO của website. Dưới đây là những ảnh hưởng cụ thể của việc Duplicate content đến SEO.

Giảm hiệu quả của backlink

Nếu có cùng một nội dung được đăng tải trên nhiều website với nhiều URL khác nhau thì mỗi URL sẽ kéo về những backlink cho mình. Chính điều này sẽ dẫn đến sự phân chia giá trị liên kết giữa các URL (Link Equity).

Nội dung phân phối trên nhiều nền tảng gây hại đến Ranking

Nội dung của bạn có thể được xuất bản lại ở một website khác nếu nhận được sự cho phép của bạn, đây được gọi là phân phối nội dung. Hoặc các website khác cũng có thể tự lấy nội dung của bạn để xuất bản lại mà không có sự cho phép.

Cả hai trường hợp ở trên đều dẫn đến việc nội dung của bạn bị trùng lặp ở trên nhiều miền khác nhau. Tuy nhiên tình trạng này không gây ra các vấn đề nghiêm trọng. Chỉ khi phiên bản nội dung được sao chép có thứ hạng xếp hạng cao hơn cả phiên bản gốc thì mới phát sinh vấn đề. Chính vì thế bạn nên xem xét lại việc phân phối nội dung và yêu cầu tất cả các website đã sao chép nội dung của bạn phải gỡ bài viết xuống.

Làm chậm quá trình thu thập thông tin

Thông qua việc thu thập thông tin mà Google sẽ quét và hiểu được nội dung mới xuất hiện trên website của bạn. Hiểu đơn giản thì Google sẽ đi theo các liên kết từ trang đích đang truy cập đến các trang đích mới. Google cũng sẽ tiến hành thu thập lại dữ liệu từ các website cũ để xem có xảy ra thay đổi gì hay không.

Và khi xuất hiện tình trạng trùng lặp nội dung thì Google sẽ phải thực hiện nhiều công việc hơn. Điều này gây ảnh hưởng đến tần suất và mức độ Google thu thập dữ liệu, thông tin của các trang mới hay các cập nhật của bạn. Cũng chính điều này có thể khiến quá trình lập chỉ mục các trang mới hay Index lại các trang đã cập nhật diễn ra chậm hơn.

Xuất hiện URL không mong muốn và không thân thiện trong kết quả tìm kiếm

Có nhiều trường một Page với một nội dung như nhau lại xuất hiện đến ba URL khác nhau, ví dụ như sau:

  • URL số 1: là URL gốc của bài viết và thân thiện với người dùng sẽ có dạng domain.com/page/.
  • URL số 2: domain.com/page/?utm_content=buffer&utm_medium=social.
  • URL số 3: domain.com/category/page/.

URL số 1 sẽ được hiển thị trong phần kết quả tìm kiếm, nhưng Google có thể không chọn URL số 1 để cho lên Top tìm kiếm mà có thể chọn URL số 2 hoặc 3. Khi điều này xảy ra thì một link URL không mong muốn có thể thay thế URL chính trên website của bạn. URL không mong muốn này thường sẽ không thân thiện với người dùng vì có tên quá dài và không có từ khóa rõ ràng, cụ thể. Hầu hết người dùng đều sẽ không có thiện cảm và không muốn click vào một đường link không thân thiện. Điều này sẽ khiến cho website của bạn nhận được ít lượt truy cập từ người dùng hơn.

Cách khắc phục lỗi Duplicate content

Như đã nói ở trên việc trùng lặp nội dung có thể ảnh hưởng đến thứ hạng của website trên các công cụ tìm kiếm. Thậm chí website của bạn còn có thể bị Google xóa khỏi chỉ mục và không xuất hiện trong trang kết quả tìm kiếm nữa. Chính vì vậy việc phát hiện và khắc lỗi Duplicate content nhanh chóng, kịp thời và rất cần thiết. Sau đây là một số cách khắc phục lỗi Duplicate content đơn giản nhất.

Dùng Redirect 301

Cách đơn giản nhất để khắc phục lỗi Duplicate content chính là sử dụng chuyển hướng 301(Redirect Permanent) nằm trong tệp “.htaccess”. 301 sẽ giúp bạn điều hướng người dùng, Googlebot và cả các trình thu thập thông tin, dữ liệu theo ý muốn của bạn.

Nếu người dùng truy cập một URL có nội dung trùng lặp thì người dùng sẽ được tự động điều hướng sang trang bạn muốn, thường sẽ là trang gốc. Để sử dụng chuyển 301 thông qua bảng điều khiển quản trị trong IIS hay thực hiện trong Apache bằng .htaccess.

Sử dụng Top-Level Domain

Sử dụng Top-level Domain bất cứ khi nào để xử lý nội dung theo từng quốc gia, lĩnh vực cụ thể sẽ giúp Google cung cấp được phiên bản phù hợp nhất cho bài viết, tài liệu. Top -level Domain chính là phần mở rộng ở cuối tên miền và nằm sau dấu chấm cuối dòng.

Thẻ meta robot

Sử dụng thẻ meta “noindex,follow” cũng là cách khắc phục lỗi trùng lặp nội dung được nhiều SEOer sử dụng. Thẻ meta robot sẽ giúp Google tìm kiếm và thu thập thông tin, dữ liệu một cách chi tiết nhưng không lập chỉ mục cho trang. Việc sử dụng thẻ meta “noindex,follow” sẽ đảm bảo rằng Google sẽ không bỏ qua tất cả liên kết trên các trang có nội dung trùng lặp.

Phân phối nội dung hợp lý cho từng nền tảng khác nhau

Khi bạn cho phép một website khác sử dụng nội dung bài viết của web bạn thì Google sẽ luôn hiển thị phiên bản phù hợp nhất với truy vấn của người dùng. Như vậy, kết quả tìm kiếm có thể không phải là phiên bản gốc mà bạn mong muốn.

Để khắc phục lỗi Duplicate content trong trường hợp này thì bạn cần phải đảm bảo mỗi website, bài viết copy content của bạn phải gắn backlink trỏ về bài viết gốc của bạn.

Ngoài ra, bạn cũng có thể yêu cầu những website đang sử dụng content của bạn có dùng thẻ meta Noindex để ngăn Google lập chỉ mục cho phiên bản của họ.

>>> Tham khảo: Thuật toán Rankbrain – Cách tối ưu thuật toán Rankbrain.

Giảm thiểu tối đa content tương tự nhau

Nếu website của bạn đang sở hữu nhiều trang giống nhau thì nên suy nghĩ về việc hợp nhất các trang thành một hoặc mở rộng nội dung cho mỗi trang. Ví dụ website của bạn hoạt động trong lĩnh vực du lịch và có hai trang riêng biệt cho 2 địa điểm nhưng nội dung trên cả hai trang giống hệt nhau. Như vậy, bạn nên mở rộng nội dung bài viết cho mỗi trang hoặc hợp nhất cả hai trang về một.

Cách kiểm tra Duplicate content

Làm thế nào để kiểm tra trùng lặp nội dung cũng là vấn đề quan trọng được rất nhiều người quan tâm và tìm hiểu. Cách nhanh nhất để check nội dung trùng lặp được Google đề xuất chính là sao chép khoảng 10 từ đầu tiên trong 1 câu và để chúng trong dấu “.”.

Sau đó chỉ cần cho chúng lên Google để tìm kiếm xem có xảy ra việc trùng lặp nội dung không. Tuy nhiên cách kiểm tra độ trùng lặp nội dung này sẽ không có tác dụng nếu bạn muốn kiểm tra nội dung trên toàn website. Vì thế bạn có thể sử dụng một số công cụ check trùng lặp nội dung miễn phí mà chúng tôi giới thiệu ở dưới đây.

Công cụ check trùng lặp nội dung chính xác

Bạn nên tiến hành công việc kiểm tra nội dung trùng lặp trước khi đăng bài lên website để tránh những trường hợp không mong muốn. Dưới đây là một số công cụ check trùng lặp nội dung miễn phí và chính xác nhất mà bạn có thể tham khảo.

Copyscape

Copyscape là công cụ check trùng lặp nội dung cho kết quả chính xác và nhanh chóng nhất hiện nay được nhiều người sử dụng. Với tính năng tìm kiếm URL miễn phí, Copyscape sẽ cho ra kết quả chỉ trong vòng vài giây. Công cụ này sẽ chỉ rõ những nội dung trùng lặp và ghi rõ phần trăm bị trùng lặp.

Small SEO Tools

Small SEO Tools là công cụ kiểm tra Duplicate content được rất nhiều SEOer sử dụng hiện nay. Công cụ này có giao diện và cách sử dụng cực kỳ đơn giản, thân thiện với người mới sử dụng. Sau khi tiến hành so sánh, công cụ sẽ hiển thị những nội dung trùng lặp với màu đỏ và độ trùng lặp là bao nhiêu phần trăm, giúp bạn dễ dàng nắm bắt và chỉnh sửa hơn.

Small SEO Tools

Plagspotter

Đây là công cụ được sử dụng để xác định tất cả các trang có nội dung trùng lặp trên website của bạn. Như vậy Plagspotter có thể xác định chính xác xem những website nào đã đánh cắp nội dung của web bạn. Công cụ này cũng cho phép tự động theo dõi các URL của website theo tuần để phát hiện Duplicate content một cách kịp thời.

Plagspotter

Siteliner

Siteliner là công cụ cho phép bạn kiểm tra Duplicate content trên website của bạn định kỳ 1 lần/tháng. Công cụ này cũng có thể kiểm tra những liên kết bị hỏng và biết được những trang web nào nổi bật nhất trên các công cụ tìm kiếm. Như vậy, người dùng không chỉ phát hiện được những lỗi nội dung trùng lặp một cách kịp thời mà còn có những phương án phát triển những website chất lượng một cách phù hợp.

Siteliner

Plagiarism

Plagiarism cũng là công cụ kiểm tra trùng lặp nội dung được sử dụng nhiều. Công cụ này cho phép bạn check trùng lặp nội dung bằng nhiều hình thức khác nhau như bài viết dưới dạng văn bản, URL, file tải bài viết trực tiếp (PDF, doc,…).

Plagiarism

Như vậy, trong bài viết trên chúng tôi đã cung cấp đến các bạn những thông tin chi tiết về Duplicate content là gì và hướng dẫn kiểm tra độ trùng lặp nội dung chính xác nhất. Hy vọng sau khi tham khảo bài viết trên các bạn sẽ có thêm nhiều kiến thức và hiểu biết về trùng lặp nội dung cũng như biết cách kiểm tra nội dung trùng lặp một cách chính xác và hiệu quả nhất.