Những điều lầm tưởng và sự thật về hoạt động thu thập dữ liệu

Posted on SEO, Chia sẻ 38 lượt xem

Đây là những lầm tưởng khi làm SEO mà nhiều người hay mắc phải và Google đã trả lời rất rõ như sau

Tôi có thể nén sơ đồ trang web để tăng ngân sách thu thập dữ liệu.

  • Không. Google vẫn phải tìm nạp sơ đồ trang web đã nén từ máy chủ, do đó bạn không giúp chúng tôi tiết kiệm được nhiều thời gian hay nỗ lực khi gửi sơ đồ trang web đã nén.

Google ưu tiên nội dung mới, vì vậy tôi nên liên tục thay đổi trang của mình

  • Nội dung được xếp hạng theo chất lượng, bất kể thời gian. Hãy tạo và cập nhật nội dung nếu bạn thấy cần, nhưng việc cố tình làm mới các trang bằng cách thực hiện các thay đổi không quan trọng và cập nhật ngày tháng của trang sẽ không có tác dụng gì.

Google ưu tiên nội dung cũ (vì có nhiều giá trị) hơn là nội dung mới

  • Sai: Mức độ hữu ích của trang sẽ không thay đổi dù trang đó mới hay cũ.

Google ưu tiên các URL đơn thuần và không thu thập dữ liệu các tham số truy vấn

Các trang web nhỏ không được Google thu thập dữ liệu thường xuyên như các trang web lớn

  • Sai: Nếu trang web có nội dung quan trọng và thay đổi thường xuyên, thì chúng tôi sẽ thu thập dữ liệu trang web đó thường xuyên, bất kể kích thước.

Nội dung của bạn càng gần trang chủ thì Google càng thấy nội dung đó quan trọng

  • Đúng một phần: Trang chủ của trang web thường là trang quan trọng nhất trên trang web. Do đó, những trang được liên kết trực tiếp tới trang chủ có thể được coi trọng hơn và được thu thập dữ liệu thường xuyên hơn. Tuy nhiên, điều này không có nghĩa là những trang như vậy sẽ có xếp hạng cao hơn các trang khác trên trang web của bạn.

Trang của bạn tải và kết xuất càng nhanh, thì Google có thể thu thập dữ liệu càng nhiều nội dung

  • Đúng… vì tài nguyên của chúng tôi bị giới hạn về cả thời gian và số lượng bot thu thập dữ liệu. Trong một khoảng thời gian nhất định, bạn phân phát cho chúng tôi càng nhiều trang thì chúng tôi có thể thu thập dữ liệu càng nhiều trang hơn. Tuy nhiên, chúng tôi có thể dành nhiều thời gian để thu thập dữ liệu trang web có thông tin quan trọng hơn, ngay cả khi các trang đó mất nhiều thời gian hơn. Việc bạn tăng tốc độ của trang để hỗ trợ người dùng sẽ quan trọng hơn là chỉ tăng tốc độ của trang để tăng mức độ thu thập dữ liệu. Bạn có thể giúp Google thu thập dữ liệu bằng một cách đơn giản hơn, đó là cung cấp đúng nội dung cần thu thập thay vì để Google thu thập dữ liệu toàn bộ nội dung.
  • Hãy lưu ý rằng việc thu thập dữ liệu trang web bao gồm cả việc truy xuất và kết xuất nội dung. Thời gian dành cho việc kết xuất trang quan trọng không kém so với thời gian dành cho việc yêu cầu trang. Vì vậy, việc tăng tốc độ kết xuất cho các trang của bạn cũng sẽ làm tăng tốc độ thu thập dữ liệu.

Việc tạo phiên bản URL mới là một cách hữu hiệu để khuyến khích Google quay lại thu thập dữ liệu trên các trang của tôi

  • Đúng một phần: Bạn có thể thành công khi tạo thêm phiên bản URL cho trang của mình để khuyến khích Google sớm thu thập dữ liệu trở lại. Tuy nhiên, việc này thường không cần thiết và sẽ làm lãng phí tài nguyên thu thập dữ liệu nếu trang đó không thực sự thay đổi. Nhìn chung, sơ đồ trang web có giá trị <lastmod> là cách tốt nhất để cho Google biết đâu là nội dung được cập nhật. Nếu bạn muốn tạo thêm phiên bản URL để thông báo nội dung mới, bạn chỉ nên thay đổi URL khi nội dung trên trang có thay đổi quan trọng.

Tốc độ trang web và các lỗi ảnh hưởng đến ngân sách thu thập dữ liệu của tôi

  • Đúng: Việc cải thiện tốc độ trang web sẽ cải thiện trải nghiệm người dùng, đồng thời làm tăng tốc độ thu thập dữ liệu. Đối với Googlebot, một trang web nhanh báo hiệu một máy chủ hoạt động tốt, nhờ đó giúp Googlebot thu thập được nhiều nội dung hơn trên cùng một số lượng kết nối. Mặt khác, một lượng lớn các mã kết quả HTTP 5xx (lỗi máy chủ) hoặc lỗi kết nối hết thời gian chờ sẽ báo hiệu điều ngược lại và làm quá trình thu thập dữ liệu chậm lại.
  • Chúng tôi khuyên bạn nên chú ý đến báo cáo Số liệu thống kê thu thập dữ liệu trong Search Console và hạn chế số lỗi máy chủ.

Quá trình thu thập dữ liệu là một yếu tố xếp hạng

  • Sai: Việc cải thiện tốc độ thu thập dữ liệu không nhất thiết sẽ dẫn đến vị trí tốt hơn trong kết quả Tìm kiếm. Google sử dụng nhiều tín hiệu để xếp hạng kết quả. Mặc dù Google cần thu thập dữ liệu để đưa một trang vào kết quả tìm kiếm, nhưng hoạt động này không phải là tín hiệu xếp hạng.

URL thay thế và nội dung dạng nhúng cũng được tính vào ngân sách thu thập dữ liệu

  • Đúng: Nhìn chung, mọi URL mà Googlebot thu thập dữ liệu đều sẽ được tính vào ngân sách thu thập dữ liệu của trang web. Các URL thay thế, như AMP hoặc hreflang, và cả nội dung dạng nhúng, như CSS và JavaScript, bao gồm cả các lần tìm nạp XHR, đều có thể cần thu thập dữ liệu và sẽ làm tiêu tốn ngân sách thu thập dữ liệu của trang web.

Tôi có thể kiểm soát Googlebot bằng lệnh “crawl-delay”

  • Sai: Googlebot không xử lý lệnh robots.txt “crawl-delay” phi tiêu chuẩn.

Lệnh nofollow có ảnh hưởng đến ngân sách thu thập dữ liệu

  • Đúng một phần: Mọi URL được thu thập dữ liệu đều sẽ ảnh hưởng đến ngân sách thu thập dữ liệu. Vì vậy, ngay cả khi trang của bạn đánh dấu một URL là nofollow, Google vẫn sẽ thu thập dữ liệu URL đó nếu một trang khác trên trang web của bạn (hay bất kỳ trang nào khác trên web) không gắn nhãn nofollow cho URL.

Nguồn: Trung tâm tiềm kiếm Google.

Nguyễn Văn Thiệu

"Trong suốt hơn 13 năm cung cấp dịch vụ website và SEO tôi nhận ra rằng để website bán được hàng và có được khách hàng thường xuyên thì trang web đó cần được chăm sóc một cách công phu từ nội dung, hình ảnh, tốc độ tải trang,.v.v..giống như việc chúng ta hít thở hàng ngày vậy"

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *