Google Panda: 10 nguyên nhân và 3 bước khôi phục án phạt Google Panda

Thuật toán Google 1130 lượt xem
5/5 - (2 bình chọn)

Google Panda là một phần trong chiến dịch loại bỏ Black Hat SEO và webspam, được Google cho ra mắt chính thức vào tháng 2 năm 2011. Tại thời điểm người dùng liên tục phàn nàn về sự tràn lan của các Content farm kém chất lượng, gây khó khăn trong việc tìm kiếm thông tin.

Google Panda là gì?

Google Panda là 1 bộ lọc nội dung để cải tiến kết quả tìm kiếm của Google, Google Panda ra đời tháng 2 năm 2011 áp dụng hình phạt đối với các trang web có nội dung chất lượng thấp, spam hoặc những website chất lượng thấp. Đây là thuật toán thay thế cho thuật toán Google Cafein trước kia.

Cách thức hoạt động

Đây là thuật toán của Google nhằm loại bỏ những website có chất lượng kém trong trang kết quả tìm kiếm Google (SERPs), các website được Google cho là mang chất lượng kém bao gồm nội dung copy, có nhiều backlink rác, spam từ khóa, chèn nội dung quảng cáo quá mức..v..v..

Cách điều chỉnh

Thường xuyên kiểm tra lại nội dung và hạn chế các nội dung sao chép, nội dung quá ngắn và nhồi nhét từ khóa. Tập trung xây dựng các nội dung chất lượng hướng đến người dùng.

Nếu bạn có một trang web thương mại điện tử và không có khả năng có 100% nội dung độc đáo, hãy thử sử dụng hình ảnh sản phẩm và dùng các bài đánh giá của người dùng để làm cho nội dung trở nên khác biệt hơn.

Lịch sử cập nhật Google Panda

  • Panda 1.0 – ngày 24 tháng 2 năm 2011
  • Panda 2.0 – ngày 11 tháng 4 năm 2011
  • Panda 2.1 – ngày 10 tháng 5 năm 2011
  • Panda 2.2 – ngày 16 tháng 6 năm 2011
  • Panda 2,3 – 23 tháng 7 năm 2011
  • Panda 2.4 – ngày 12 tháng 8 năm 2011
  • Panda 2,5 – ngày 28 tháng 9 năm 2011
  • Panda 3.0 – ngày 19 tháng 10 năm 2011
  • Panda 3.1 – ngày 18 tháng 11 năm 2011
  • Panda 3.2 – ngày 18 tháng 1 năm 2012
  • Panda 3.3 – ngày 27 tháng 2 năm 2012
  • Panda 3.4 – 23 tháng 3 năm 2012
  • Panda 3.5 – ngày 19 tháng 4 năm 2012
  • Panda 3.6 – ngày 27 tháng 4 năm 2012
  • Panda 3.7 – ngày 8 tháng 6 năm 2012
  • Panda 3.8 – 25 tháng 6 năm 2012
  • Panda 3,9 – 24 tháng 7 năm 2012
  • Panda 3.9.1 – 22 tháng 8 năm 2012
  • Panda 3.9.2 – 18 tháng 9 năm 2012
  • Panda 20 – 27 Tháng Chín năm 2012
  • Panda 21 – ngày 6 tháng 11 năm 2012
  • Panda 22 – 21 tháng 11 năm 2012
  • Panda 23 – 21 tháng 12 năm 2012
  • Panda 24 – ngày 22 tháng 1 năm 2013
  • Panda 25 – Ngày 15 tháng 3 năm 2013 (chưa được xác nhận)
  • Panda 26 – ngày 18 tháng 7 năm 2013
  • Panda 4.0 – ngày 20 tháng 5 năm 2014
  • Panda 4.1 – 23 tháng 9 năm 2014
  • Panda 4.2 – ngày 28 tháng 7 năm 2015
  • …………..
    • Thuật toán Google Panda
  • Update tháng 3/2020:
    • Ngày 3/3/2020: Fix sự cố liên quan đến máy chủ.
    • Ngày 16/3/2020: Thêm các tính năng “eventStatus” và “previousStartDate” vào trường Event trong Structured Data.
    • Ngày 31/3/2020: Thêm hướng dẫn về cách thêm dữ liệu cấu trúc vào thông báo về dịch bệnh COVID-19
  • Update tháng 4/2020
    • Ngày 2/4/2020: Thêm hướng dẫn về cách gửi thông báo về COVID-19 trong Search Console.
    • Ngày 10/4/2020: Cập nhật thêm tài liệu về COVID-19.
  • Update tháng 5/2020
    • Ngày 1/5/2020: Google cập nhật tài liệu về API lập chỉ mục.
    • Ngày 18/5/2020 – Core Update về Content từ Google
  • Update tháng 6/2020
    • Ngày 13/6/2020 – Core Update thuật toán từ Google
  • Trục trặc thuật toán Google tháng 8/2020
    • Ngày 11/8/2020: Lỗi Index và biến đổi thứ hạng các Website
  • Update tháng 10/2020
    • Ngày 15/10/2020 – Google vô hiệu hóa tính năng “Yêu cầu lập chỉ mục” trong Google Search Console
  • Cập nhật Google SearchOn tháng 10/2020
    • Vào cuối năm 2020, Google đã thông báo bản cập nhật về BERT, Google Passage Ranking, Subtopic Indexing và hơn thế nữa.

BERT

– BERT bắt đầu vận hành vào tháng 11/2019.
– BERT được áp dụng cho những câu hỏi, những mệnh đề ở dạng truy vấn.
Ảnh hưởng lớn đối với Google Featured Snippet đối với nhiều loại ngôn ngữ.
– BERT không phải là RankBrain và không có vai trò thay thế RankBrain. Nó chỉ xác định truy vấn, ngữ cảnh và xem xét Content trên Website để đưa ra quyết định Ranking. Hoặc nói cách khác, BERT giúp Google hiểu được ý nghĩa câu hỏi, ngữ cảnh sao cho giống con người hơn.
– Sự thay đổi này được các chuyên gia đánh giá có biến động khá lớn, gần giống như những đợt cập nhật thuật toán Google Panda và Google Penguin.

Google Passage Ranking

Google bây giờ có thể Index được 1 phần của trang, cụ thể là từng đoạn văn trong 1 trang, thay vì tất cả nội dung trên trang.

Key moment

Theo Dany Sullivant, việc sử dụng AI giúp Google phát hiện được những từ khóa chính xác trong ngữ cảnh của video ở những khoảnh khắc nhật định. Điều này giúp người dùng tiết kiệm nhiều thời gian hơn cho việc tìm kiếm thông tin.

Những nguyên nhân website bị dính Google Panda

Nếu website của bạn bị hiện tượng Traffic giảm đột ngột thì hãy xem xét có thể website của bạn đang bị thuật toán Google Panda áp dụng, sau đây là những nguyên nhân dẫn đến website bị dính Google Panda:

1. Nội dung mỏng, thông tin ít (Thin content)

Thin content (hay còn gọi là nội dung mỏng) ở đây bạn có thể hiểu theo cả nghĩa đen lẫn nghĩa bóng: Content ngắn và chất lượng content thấp!

Các dấu hiệu thường thấy

  • Bài viết chỉ đăng tiêu đề, ảnh và vài ba câu
  • Nội dung copy của người khác
  • Nội dung không hữu ích với người dùng
  • Nội dung không liên quan đến lĩnh vực của website vào các chủ đề, bài viết đăng không đồng nhất chủ đề

panda - SEO tổng thể website

2. Trùng lặp nội dung (Duplicate content)

Nội dung copy thường xuất hiện ở nhiều website trên Internet.

Vì bạn không biết phải ghi gì, miêu tả như thế nào cho bài viết của bạn. Từ đó bạn buộc phải sao chép nội dung bài viết của người khác được lấy từ nhiều nguồn Internet ở nhiều nơi.

Duplicate content cũng xảy ra ngay trên chính website của bạn khi bạn có nhiều trang chứa cùng một nội dung. Hoặc có rất ít sự biến đổi trong nội dung giữa các trang.

Những nội dung sẽ bị trùng lặp gồm:

  • Nội dung trong các trang
  • Trùng lặp thẻ Meta Title, Meta Description
  • Trùng lặp H1, H2
  • Trùng lặp code HTML
  • Trùng lặp giao diện
  • Trùng lặp khung design mặc định của website

Lưu ý: Google định nghĩa content là toàn bộ code HTML của website, các bọ Google sẽ quét nội dung thông qua các thẻ HTML

Khi cào (crawl) dữ liệu website thì Google bot sẽ cào code html từ trên xuống dưới, từ trái sang phải.

Khung design mặc định của website giống nhau mỗi trang cũng được tính là trùng lặp. HTML của bạn phải unique 51% thì website mới an toàn. Nếu 1 bài của bạn chỉ cỡ 300 – 400 chữ mà khung design cố định của website lớn thì chắc chắn website bạn bị trùng lặp.

3. Nội dung có chất lượng thấp

Các website cung cấp ít giá trị hoặc nội dung chất lượng thấp cho người đọc vì thiếu thông tin chuyên sâu.

Nội dung content kém chất lượng như:

  • Bài đăng mô tả vắn tắt, qua loa
  • Không đủ câu, đủ ý, đủ nghĩa, đủ từ
  • Không phân tích chuyên sâu, ít có sự đào sâu nghiên cứu.
  • Nội dung không đem lại giá trị cho người dùng.
  • Ngôn ngữ sử dụng trong bài viết không rõ ràng, khó hiểu,….

googlepanda content - SEO tổng thể website

4. Website thiếu Authority/ không có độ tin tưởng cao

Nội dung được tạo ra bởi các nguồn không được xác minh về Entity. Thiếu thẩm quyền (authority), thiếu độ tin cậy (trust) cho người dùng. Điều đó sẽ làm webiste của bạn bị Google Panda loại bỏ ngay lập tức.

5. Content farming

Content farming là thuật ngữ dùng để ám chỉ các website spam nội dung, thu thập và copy content của các web khác, sau đó bị nhồi nhét rất nhiều từ khóa và tối ưu SEO tốt hơn so với web gốc.

Các web sử dụng content farming này đều hướng tới mục đích tăng thứ hạng từ khóa trên công cụ tìm kiếm nhiều hơn là tập trung cung cấp giá trị cho người đọc.

Google panda farm - SEO tổng thể website

6. Website có quá nhiều nội dung quảng cáo

Website chủ yếu đặt nhiều banner quảng cáo với rất ít nội dung thực sự cung cấp giá trị cho người đọc. Hầu hết các web này được tạo ra để kiếm tiền từ việc đặt banner quảng cáo, ít nội dung.

7. Lỗi Schema

Google đưa ra quy luật rõ ràng về vấn đề Schema như sau:

Nếu bạn khai gì trên schema thì người dùng phải thấy y chang như vậy trên website của bạn.

Ví dụ: bạn làm schema review và khai rằng website đang có 100 lượt review trên website, đồng thời website được đánh giá 5 sao,… thì lẽ dĩ nhiên, tất cả thông số ấy phải hiển thị chính xác trên trang web bạn đang quản lý. Nếu các thông tin này sai lệch hay nói cách khác là schema bạn làm sai với quy luật của Google; đến lúc nào đó Google scan qua và thu thập đủ dữ liệu về bạn, nó sẽ tiến hành phạt bạn ngay.

8. Trộn nội dung (Spin content)

Spin content (trộn nội dung) lại với nhau để cho ra những bài viết mới.

Bài viết mới có thể cùng ý nghĩa với bài viết gốc nhưng khác về mặt câu chữ hoặc cũng có thể mang ý nghĩa khác hoàn toàn so bài viết gốc.

Tuy nhiên, hình thức Spin Content tạo ra những nội dung này, đã được Google xem như là nội dung rác.

Google liên tục cập nhật nhiều thuật toán nhằm xóa bỏ những nội dung rác này. Đặc biệt nhất là dùng thuật toán Google Panda để xóa bỏ nó.

spin content - SEO tổng thể website

9. Keyword cannibalization

Keyword Cannibalization là từ khóa cạnh tranh lẫn nhau, hiện tượng khi bạn vô tình hay có chủ ý tạo lập nên nhiều bài viết cùng nói về một chủ đề hay cùng tối ưu một số từ khóa cụ thể.

Dẫn đến các URL này dù đều được hiển thị trên công cụ tìm kiếm, nhưng kết quả cuối cùng là không có trang nào lên vị trí top 10.

Google Panda khi vào xem xét website, nó sẽ ưu tiên quan sát những trang được tối ưu duy nhất.

Nếu nó vào scan một ngàn trang và thấy tất cả các trang đều tối ưu theo:

  • Các chủ đề bài viết khác nhau
  • Bộ từ khóa riêng biệt

Thì Google sẽ dễ dàng nhận diện và cho bạn lên đúng URL hơn.

Note: Cách kiểm tra Keyword Cannibalization:

Sử dụng công cụ Screaming Frog hoặc search google theo cú pháp site:domain + keyword seo.

10. Quảng cáo quá nhiều

Chắc chắn những nhà quản lý website rất muốn thu hút nhiều thương hiệu quảng cáo trên site của mình. Thế nhưng với thuật toán Google Panda thì quảng cáo được giới hạn lại nhằm mục đích nâng cao trải nghiệm cho người dùng. Có thể thấy được giữ tỷ lệ quảng cáo vừa đủ không chỉ tốt với thuật toán Google Panda mà còn giúp website của bạn tạo ấn tượng tốt trong quá trình trải nghiệm đọc trên website.

Vì vậy, bạn biết rằng, quảng cáo hoàn toàn ổn, nhưng nếu lạm dụng quá mức thì nó sẽ đem đến cảm giác phiền hà với độc giả của bạn về trải nghiệm đọc trên website. Tỷ lệ quảng cáo lành mạnh sẽ khiến độc giả của bạn sẽ yêu thích và giới thiệu trang web của bạn hơn những trang web có quảng cáo lộn xộn, và bằng cách đó sẽ gián tiếp nâng cao độ tin cậy và quyền hạn của trang web của bạn. Chính vì vậy hãy hiểu Google Panda sao cho đúng cách để có thể tạo được lợi thế với thuật toán mới này của Google

Nhận biết và theo dõi cập nhật Google Panda

Khi website của bạn có lượng Organic traffic giảm dần theo thời gian thì đây là dấu hiệu website của bạn đang bị thuật toán Google Panda áp đặt. Ở khoảng thời gian đầu giảm traffic, có thể bạn thấy nó không ảnh hưởng gì nhiều, tuy nhiên, qua 1 hay 2 tháng bạn sẽ nhận ra ngay độ giảm sút traffic ngày càng mạnh mẽ, trầm trọng. Nó kéo theo hàng loạt ảnh hưởng tiêu cực khác mà Google Panda mang đến cho website của bạn.

Nếu website bạn gặp tình trạng trùng lặp nội dung với số lượng ít thì Panda sẽ không phạt liền. Mà chờ đến khi mức trùng lặp lên đến 20%-30% mới kéo hẳn traffic xuống.

Thuật toán Google Panda vô cùng máy móc và phức tạp, nó phức tạp đến nỗi nó chỉ cập nhật thứ hạng của các website mỗi 30 ngày một lần. Hay nói cách dễ hiểu hơn, nếu như sau khi bạn đọc bài này và bạn làm một số thay đổi phù hợp, rồi ngày mai bạn được Google crawl dữ liệu và đánh chỉ mục, thì mãi đến 30 ngày sau bạn mới thấy được các kết quả chính xác của sự thay đổi đó (tăng hạng hoặc rớt thứ hạng). Chính vì vậy nhận biết và theo dõi những cập nhật của Google Panda là điều cần thiết và nên làm để có thể hiểu rõ được về thuật toán này.

Hướng dẫn cách khôi phục website bị Panda phạt

Để khôi phục website bị Google Panda phạt thì bước đầu tiên quản trị web cần cải thiện chất lượng nội dung trên website vì các bản cập nhật của Google Panda chủ yếu dựa trên chất lượng nội dung của trang web, dưới đây là 1 số kỹ thuật để bạn khác phục Panda.

Google Panda - SEO tổng thể website

Bước 1: Kiểm tra lại toàn bộ content

Google Panda hoạt động để hạn chế các nội dung rác, nội dung Copy và Website kém nổi bật trên kết quả tìm kiếm Google vì vậy chúng ta cần rà soát lại toàn bộ website xem nội dung nào kém chất lượng hoặc trùng lặp thì chúng ta cần liệt kê hết ra file excel sau đó thực hiện theo bước thứ 2. Để website không bị ảnh hưởng bởi thuật toán Panda, những kiến thức cơ bản về SEO Onpage bạn cần cải thiện và sử dụng thường xuyên

Bước 2: Chặn bằng thẻ Noindex và sử dụng canonical

Những trang bị trùng lặp nội dung hoặc nội dung yếu hãy sử dụng Noindex để Google không tiến hành index nữa. Tiếp theo bạn có thể sử dụng canonical áp dụng cho toàn website. Tìm hiểu thêm: Canonical URL là gì? Cách tối Canonical trong SEO tại đây

Bước 3: Tiến hành xóa bỏ và cải thiện nội dung

Những nội dung kém chất lượng hoặc trùng lặp bạn cần tiến hành 2 việc sau:

  • Bổ sung thêm nội dung chất lượng hơn bao gồm cả văn bản và hình ảnh, nếu có được video trong bài viết nữa thì tuyệt vời
  • Xóa bỏ các trang chất lượng thấp này hoặc không cho phép các công cụ tìm kiếm truy cập vào các trang bằng thẻ Noindex như bước 2
  • Cải thiện các yếu tố trải nghiệm người dùng (UX) khác như cắt giảm banner quảng cáo vô nghĩa, form gây rối mắt…

Khi website được chăm chút nội dung tốt sẽ cải thiện số thời gian online của người dùng trên website(Time on Site), nội dung càng chất lượng thì càng giữ chân người dùng lâu hơn từ đó sẽ tăng lượng chuyển đổi với những khách hàng truy cập website

Dưới đây là 23 câu hỏi mà thuật toán dùng để phân loại trang:

  1. Bạn có tin tưởng những thông tin trong bài viết này?
  2. Bài viết này được viết bởi chuyên gia hay một người viết nghiệp dư?
  3. Trang web có những nội dung trùng lặp về các chủ đề giống với biến thể từ khóa nơi khác không?
  4. Bạn có thoải mái khi cung cấp thông tin thẻ ngân hàng của mình cho trang web không?
  5. Bài này có lỗi chính tả hay văn phong không?
  6. Bài viết có hữu ích cho tìm kiếm của bạn không?
  7. Bài viết có dẫn nguồn từ những thông tin chính chủ không?
  8. Trang có cung cấp giá trị đáng kể khi so sánh với trang khác trong cùng kết quả tìm kiếm không?
  9. Chất lượng nội dung nằm ở mức độ nào?
  10. Bài viết có mô tả 2 mặt của vấn đề không?
  11. Nội dung có đang được sản xuất hàng loạt và trải rộng trên một mạng lưới rộng lớn các trang web khiến các trang riêng lẻ không được quan tâm nhiều không?
  12. Bài viết đã được biên tập tốt chưa hay nó được xuất bản một cách cẩu thả, vội vàng?
  13. Đối với trang web về sức khỏe, bạn có tin tưởng những thông tin này không?
  14. Trang web này có phải là địa chỉ uy tín không?
  15. Bài viết có cung cấp đầy đủ và chi tiết về chủ đề không?
  16. Bài viết này có quá nhiều quảng cáo làm mất tập trung không?
  17. Bạn có mong đợi bài viết này trên tạp chí hay sách báo không?
  18. Bìa viết có ngắn gọn và chứa thông tin hữu ích không?
  19. Bạn có muốn chia sẻ bài viết này đến với bạn bè không?
  20. Bài viết có chi tiết không?
  21. Người dùng có phàn nàn khi họ xem qua các trang này không?
  22. Trang web có phải là doanh nghiệp được công nhận về chủ đề này không?
  23. Bài viết có chứa thông tin thú vị không?

Lời kết

Google Panda là thuật toán đánh vào nội dung kém chất lượng vì vậy cách tốt nhất để website không dính vào thuật toán Panda là cần cập nhật nội dung cho website thật chất lượng ngay từ đầu.

Thuật toán Panda có thể xử phạt trên tất cả website dù đang phát triển trên cả mặt Onpage & Offpage. Vì vậy cách tốt nhất để tránh Google Panda là hãy phát triển thương hiệu cho riêng bạn. Cùng đó là xây dựng một trang web của bạn trở thành một nguồn thông tin đáng tin cậy. Với nội dung tuyệt vời, mang lại giá trị cho người đọc.

5/5 - (2 bình chọn)

Nguyễn Văn Thiệu

"Hơn 13 năm chuyên tâm nghiên cứu trong lĩnh vực thiết kế trang web, Marketing cho website trên mạng internet, Chúng tôi thấu hiểu mọi vấn đề khi doanh nghiệp cần phát triển website trên mạng và có giải pháp giúp trang web của Quý khách phát triển toàn diện và bền vững."