Bài viết Câu hỏi About RongvangIT
profile Pic
0
0

Đăng ngày:

 

Sửa ngày:

61 Lượt xem

Cách sử dụng Robots.txt để Cho phép hoặc Từ chối Tất cả accecss

SEORobots.txt

Cùng tìm hiểu về cách sử dụng robots.txt để ứng dụng trong SEO nhé.

Robots.txt là gì

Tệp robots.txt là một tệp nằm trên tên miền gốc của bạn.

Đó là một tệp văn bản đơn giản, mục đích chính của nó là thông báo cho các web crawler và robot biết những tệp và thư mục nào họ nên tránh xa.

Các robot của công cụ tìm kiếm là các chương trình ghé thăm trang web của bạn và theo dõi các liên kết trên đó để tìm hiểu về các trang của bạn. Một ví dụ là trình crawler web của Google, được gọi là Googlebot.

Thường, bot sẽ kiểm tra tệp robots.txt trước khi ghé thăm trang web của bạn. Họ làm điều này để xem họ có được phép quét trang web và có những thứ họ nên tránh.

Tệp robots.txt nên được đặt trong thư mục cấp cao nhất của tên miền của bạn, ví dụ: example.com/robots.txt.

Cách tốt nhất để chỉnh sửa nó là đăng nhập vào máy chủ web của bạn thông qua một ứng dụng FTP miễn phí như FileZilla, sau đó chỉnh sửa tệp với một trình soạn thảo văn bản như Notepad (Windows) hoặc TextEdit (Mac).

Nếu bạn không biết cách đăng nhập vào máy chủ của mình qua FTP, hãy liên hệ với công ty lưu trữ web của bạn để yêu cầu hướng dẫn.

Một số plugin, như Yoast SEO, cũng cho phép bạn chỉnh sửa tệp robots.txt từ bên trong bảng điều khiển WordPress của bạn.

Cách từ chối tất cả bằng robots.txt

Nếu bạn muốn chỉ đạo tất cả các robot tránh xa trang web của bạn, thì đây là mã bạn nên đặt trong tệp robots.txt của bạn để từ chối tất cả:

User-agent: *
Disallow: /

Phần “User-agent: *” có nghĩa rằng nó áp dụng cho tất cả các robot. Phần “Disallow: /“ có nghĩa rằng nó áp dụng cho toàn bộ trang web của bạn.

Hiệu quả, điều này sẽ thông báo cho tất cả các robot và web crawler rằng họ không được phép truy cập hoặc quét trang web của bạn.

Quan trọng: Từ chối tất cả robot trên một trang web thực tế có thể dẫn đến việc trang web của bạn bị loại khỏi các công cụ tìm kiếm và có thể gây mất lưu lượng và doanh thu. Chỉ sử dụng điều này nếu bạn biết bạn đang làm gì!

Cách cho phép tất cả

Robots.txt hoạt động chủ yếu bằng cách loại trừ. Bạn loại trừ các tệp và thư mục mà bạn không muốn được truy cập, mọi thứ khác được coi là được phép.

Nếu bạn muốn cho phép robot quét toàn bộ trang web của bạn, bạn có thể đơn giản để có một tệp trống hoặc không có tệp nào.

Hoặc bạn có thể đặt mã sau vào tệp robots.txt để cho phép tất cả:

User-agent: *
Disallow:

Điều này được hiểu là không từ chối gì cả, vì vậy thực tế mọi thứ đều được cho phép.

Cách từ chối các tệp và thư mục cụ thể

Bạn có thể sử dụng lệnh “Disallow:” để chặn các tệp và thư mục cụ thể.

Bạn đơn giản đặt một dòng riêng cho mỗi tệp hoặc thư mục bạn muốn từ chối.

Dưới đây là một ví dụ:

User-agent: *
Disallow: /topsy/
Disallow: /crets/
Disallow: /hidden/file.html

Trong trường hợp này, mọi thứ được phép, trừ hai thư mục con và tệp duy nhất.

Cách từ chối các robot cụ thể

Nếu bạn chỉ muốn chặn một robot cụ thể khỏi việc quét, bạn thực hiện như sau:

User-agent: Bingbot
Disallow: /

User-agent: *
Disallow:

Điều này sẽ chặn bot trình tìm kiếm của Bing khỏi việc quét trang web của bạn, nhưng các bot khác sẽ được phép quét mọi thứ.

Bạn có thể làm tương tự với Googlebot bằng cách sử dụng “User-agent: Googlebot”.

Bạn cũng có thể chặn các robot cụ thể khỏi việc truy cập các tệp và thư mục cụ thể.

Một tệp robots.txt tốt cho WordPress

Mã sau đây là điều tôi đang sử dụng trong tệp robots.txt của tôi. Đây là cài đặt mặc định tốt cho WordPress.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://rongvangit.com/sitemap.xml

Tệp robots.txt này cho biết cho các bot rằng họ có thể quét tất cả mọi thứ trừ thư mục /wp-admin/. Tuy nhiên, họ được phép quét một tệp trong thư mục /wp-admin/ gọi là admin-ajax.php.

Lý do của cài đặt này là Google Search Console trước đây báo cáo lỗi nếu nó không thể quét tệp admin-ajax.php.

Googlebot là robot duy nhất hiểu “Allow:” - nó được sử dụng để cho phép việc quét của một tệp cụ thể bên trong một thư mục bị từ chối.

Bạn cũng có thể sử dụng dòng “Sitemap:” để cho biết cho các bot nơi tìm thấy bản đồ trang XML của bạn. Bản đồ trang này nên chứa danh sách tất cả các trang trên trang web của bạn, giúp các trình quét web dễ dàng tìm thấy chúng.

Khi nên sử dụng noindex thay vì robots

Nếu bạn muốn chặn toàn bộ trang web hoặc các trang cụ thể khỏi hiển thị trong các công cụ tìm kiếm như Google, thì robots.txt không phải là cách tốt nhất để làm điều đó.

Các công cụ tìm kiếm vẫn có thể lập chỉ mục các tệp bị từ chối bởi robots, chỉ là họ sẽ không hiển thị một số dữ liệu meta hữu ích.

Thay vào đó, mô tả trong kết quả tìm kiếm sẽ nói “Không có mô tả cho kết quả này vì robots.txt của trang web này.”
スクリーンショット 2023-10-27 11.51.08.png

Nếu bạn ẩn một tệp hoặc thư mục bằng robots.txt, nhưng sau đó có người liên kết đến nó, Google rất có thể sẽ hiển thị nó trong kết quả tìm kiếm ngoại trừ mô tả.

Trong những trường hợp như vậy, nên sử dụng thẻ noindex để chặn công cụ tìm kiếm khỏi hiển thị nó trong kết quả tìm kiếm.

Trong WordPress, nếu bạn vào Cài đặt -> Đọc và kiểm tra “Ngăn các công cụ tìm kiếm đánh dấu vào trang này” thì thẻ noindex sẽ được thêm vào tất cả các trang của bạn.

Nó có dạng:

<meta name='robots' content='noindex,follow' />

Bạn cũng có thể sử dụng một plugin SEO miễn phí như Yoast hoặc The SEO Framework để noindex các bài viết, trang hoặc danh mục cụ thể trên trang web của bạn.

Trong hầu hết các trường hợp, noindex là lựa chọn tốt hơn để chặn việc lập chỉ mục hơn robots.txt.

Khi nên chặn toàn bộ trang web của bạn

Trong một số trường hợp, bạn có thể muốn chặn toàn bộ trang web của bạn khỏi việc truy cập, cả bởi các bot và con người.

Đặt mật khẩu cho trang web của bạn là cách tốt nhất để làm điều này. Điều này có thể được thực hiện bằng một plugin WordPress miễn phí được gọi là Password Protected.

Thông tin quan trọng về tệp robots.txt

Hãy nhớ rằng các robot có thể bỏ qua tệp robots.txt của bạn, đặc biệt là các bot lạm dụng như những người điều hành bởi các hacker tìm kiếm lỗ hổng bảo mật.

Ngoài ra, nếu bạn đang cố che giấu một thư mục từ trang web của bạn, việc chỉ đơn giản đưa nó vào tệp robots.txt có thể không phải là một cách thông minh.

Bất kỳ ai cũng có thể xem tệp robots.txt nếu họ nhập nó vào trình duyệt của họ và có thể tìm hiểu những gì bạn đang cố che giấu.

Thực tế, bạn có thể xem tệp robots.txt của một số trang web phổ biến để xem cách tệp robots.txt của họ được thiết lập. Chỉ cần thử thêm /robots.txt vào URL trang chủ của các trang web yêu thích của bạn.

Nếu bạn muốn đảm bảo rằng tệp robots.txt của bạn hoạt động, bạn có thể sử dụng Google Search Console để kiểm tra nó. Đây là hướng dẫn.

Tổng kết

Tệp robots.txt cho biết cho các robot và trình quét web nên và không nên quét.

Việc sử dụng nó có thể hữu ích để chặn một số khu vực của trang web của bạn hoặc ngăn các bot cụ thể khỏi quét trang web của bạn.

Nếu bạn sẽ chỉnh sửa tệp robots.txt của mình, hãy cẩn thận vì một sai lầm nhỏ có thể có hậu quả tai hại.

Ví dụ, nếu bạn đặt sai một dấu gạch chéo thì có thể chặn tất cả các robot và thực tế là loại bỏ toàn bộ lưu lượng tìm kiếm của bạn cho đến khi nó được sửa lại.

Tôi đã làm việc với một trang web lớn trước đây đã một lần đặt “Disallow: /“ vào tệp robots.txt thời gian thực của họ. Họ đã mất một lượng lớn lưu lượng và doanh thu do sai lầm nhỏ này. Tệp robots.txt rất mạnh, vì vậy hãy xử lý cẩn thận bạn nhé.

Bình luận

Bài viết chưa có bình luận. Hãy trở thành người bình luận đầu tiên!
Sign up for free and join this conversation.
Sign Up
If you already have a RongvangIT account Login
Danh sách thư mục
Tại sao không đăng ký và nhận được nhiều hơn từ RồngVàngIT ?

Bạn cần đăng nhập để sử dụng chức năng này, cùng hàng loạt các chức năng tuyệt vời khác của RồngVàngIT !

  1. 1. Bạn sẽ nhận được các bài viết phù hợp bằng chức năng theo dõi tag và người dùng.
  2. 2. Bạn có thể đọc lại các thông tin hữu ích bằng chức năng lưu trữ nội dung.
  3. 3. Chia sẻ kiến thức, đặt câu hỏi và ghi lại quá trình trưởng thành của mình cùng RồngVàngIT !
Tạo tài khoản Đăng nhập
profile Pic