Trong SEO có rất nhiều trường hợp bài viết đã được publish như mãi vẫn chưa được công cụ tìm kiếm lập chỉ mục và xếp hạng. Một trong những nguyên nhân có thể là bài đăng bị chặn trong tệp robots.txt. Vậy Robots.txt là gì? Cùng SEO Mini Task tìm hiểu ngay sau đây.
Robots.txt là gì?
Robots.txt là một tệp tin được sử dụng để điều khiển quá trình crawl (thăm dò) của các robot hay web crawler khi truy cập vào một trang web. Tệp tin này có thể được đặt tại thư mục gốc của một trang web và chứa những hướng dẫn cho các robot về những phần của trang web nào họ được phép hoặc không được phép truy cập.
Ví dụ, nếu bạn không muốn các công cụ tìm kiếm truy cập vào các trang chứa dữ liệu cá nhân của người dùng, bạn có thể chỉ định các đường dẫn này trong tệp robots.txt và cho biết chúng không được phép truy cập. Tệp tin robots.txt được sử dụng rộng rãi trong công nghệ SEO để kiểm soát quá trình crawl của các công cụ tìm kiếm và tăng cường hiệu quả của chiến dịch tối ưu hóa công cụ tìm kiếm (SEO).
Tại sao mỗi website cần phải có robots.txt
Việc tạo tệp robots.txt cho trang web giúp bạn kiểm soát việc truy cập của các bot đến các khu vực nhất định trên trang web. Tuy nhiên, nếu bạn không có kiến thức về loại tệp này có thể vô tình làm cho Googlebot không thể index trang web của bạn, điều này rất nguy hiểm. Không thể phủ nhận rằng, việc tạo tệp robots.txt vẫn rất hữu ích vì có nhiều lý do sau đây:
- Xử lý các nội dung trùng lặp (duplicate content) trên website (bạn có thể sử dụng thẻ noindex hoặc canonical để thay thế).
- Giữ các phần chỉ định của website ở chế độ riêng tư, không publish trên Google.
- Giúp các trang kết quả tìm kiếm nội bộ không xuất hiện trên trang kết quả tìm kiếm của Google.
- Khai báo chính xác vị trí của sitemap.
- Ngăn các công cụ của Google index một số tệp nhất định trên trang web của bạn (như hình ảnh, PDF,...).
- Sử dụng lệnh Crawl-delay để cài đặt thời gian, điều này sẽ giúp ngăn chặn máy chủ của bạn bị quá tải khi các bot tải nhiều nội dung cùng một lúc.
Nếu bạn không muốn ngăn chặn các bots tìm kiếm thu thập dữ liệu từ trang web của bạn, bạn hoàn toàn không cần tạo tệp robots.txt.
Robots.txt hoạt động như thế nào?
Công việc của các công cụ tìm kiếm bao gồm hai nhiệm vụ chính là "crawl" (hay còn gọi là "phân tích") và "index" (còn gọi là lập chỉ mục) nội dung trên các trang web để đáp ứng nhu cầu tìm kiếm của người dùng. Để phân tích được nội dung của website, các công cụ sẽ theo dõi các liên kết từ trang này đến trang khác và thu thập thông tin thông qua hàng tỷ trang web khác nhau. Quá trình phân tích này còn được gọi là "spidering".
Khi một con bot của công cụ tìm kiếm như Google đến một trang web, nó sẽ tìm kiếm tệp "robots.txt" trên trang đó trước khi tiến hành phân tích nội dung. Tệp robots.txt sẽ chứa các thông tin về cách các công cụ tìm kiếm nên thu thập dữ liệu của trang web đó. Nếu tệp robots.txt tồn tại, các con bot sẽ đọc tệp này trước khi bắt đầu phân tích nội dung.
Trong tệp robots.txt, người quản trị trang web có thể cung cấp các chỉ thị cụ thể cho các bot về cách phân tích nội dung của trang web đó. Ví dụ, người quản trị có thể chỉ định các phần của trang web không được phép phân tích hoặc cài đặt thời gian chờ trước khi phân tích để tránh quá tải máy chủ. Nếu không có tệp robots.txt hoặc nó không chứa các chỉ thị, các con bot sẽ tiếp tục phân tích nội dung trên trang web đó mà không có các hướng dẫn cụ thể.
Vị trí của file robots.txt nằm ở đâu?
File robots.txt thường được đặt trong thư mục gốc của website. Điều này cho phép các công cụ tìm kiếm tìm thấy file này một cách dễ dàng khi truy cập vào trang web của bạn. Nếu website của bạn được quản lý bởi một hệ thống quản lý nội dung (CMS) như Wordpress, file robots.txt thường nằm trong thư mục gốc của CMS này.
Bạn có thể tìm thấy file robots.txt qua đường dẫn: https://exaple.com/robots.txt (lưu ý, thay https://exaple.com/ bằng đường dẫn website của bạn)
Các cú pháp sử dụng trong file robots.txt
File robots.txt sử dụng các cú pháp riêng để hướng dẫn các trình thu thập dữ liệu web về cách truy cập và thu thập dữ liệu từ website. Dưới đây là các cú pháp phổ biến trong file robots.txt:
- User-agent: là phần tên của trình thu thập dữ liệu web, ví dụ như Googlebot, Bingbot, hay Baiduspider.
- Disallow: được sử dụng để thông báo cho trình thu thập dữ liệu rằng không được thu thập bất kỳ dữ liệu nào từ các URL cụ thể. Mỗi URL chỉ được sử dụng trên một dòng Disallow.
- Allow: chỉ áp dụng cho trình thu thập dữ liệu Googlebot, được sử dụng để thông báo cho Googlebot biết rằng nó có thể truy cập một trang hoặc thư mục con, mặc dù có thể các trang hoặc thư mục con đó không được phép.
- Crawl-delay: thông báo cho trình thu thập dữ liệu biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng Googlebot không thừa nhận lệnh này và tốc độ thu thập dữ liệu được cài đặt trong Google Search Console.
- Sitemap: được sử dụng để cung cấp vị trí của các tệp sitemap XML liên kết với URL. Lưu ý rằng lệnh này chỉ được hỗ trợ bởi các công cụ tìm kiếm như Google, Ask, Bing và Yahoo.
Ngoài ra, file robots.txt còn sử dụng tính năng Pattern-Matching để bao quát một loạt các tùy chọn của URL. Ví dụ, ký tự dấu hoa thị (*) được sử dụng để đại diện cho bất kỳ chuỗi kí tự nào, trong khi ký hiệu đô la ($) được sử dụng để khớp với phần cuối của URL.
Cách tạo và cập nhật tệp robots.txt
Có nhiều cách để tạo tệp robots.txt chuẩn, trong đó có 2 cách mà seoer thường sử dụng là tạo và upload thủ công lên hosting hoặc sử dụng các plugin tạo tự động từ wordpress.
1. Tạo tệp robots.txt thủ công:
Chi tiết các bước tạo file thủ công. Lưu ý, nếu bạn không biết upload tệp này lên vị trí nào. Vui lòng tạo tickets cho supports hỗ trợ tại nơi bạn thuê hosting và yêu cầu cập nhật file lên thư mục gốc của website. Bất cứ đơn vị cho thuê hosting nào cũng sẽ sẵn sàng hỗ trợ bạn.
- Bước 1: Tạo tệp robots.txt trên trang web của bạn. Bạn có thể tạo tệp này bằng bất kỳ trình soạn thảo văn bản nào, như Notepad, Sublime Text, hoặc bất kỳ trình soạn thảo văn bản nào khác.
- Bước 2: Thêm các quy tắc cho các robot tìm kiếm mà bạn muốn chặn hoặc cho phép truy cập trang web của bạn vào tệp robots.txt. Đảm bảo rằng các cú pháp được sử dụng đúng theo chuẩn của robots.txt.
- Bước 3: Lưu tệp robots.txt trong thư mục gốc của trang web của bạn. Điều này cho phép các robot tìm kiếm tìm thấy và đọc tệp robots.txt để biết quy tắc truy cập trang web của bạn.
- Bước 4: Cập nhật tệp robots.txt khi bạn muốn thay đổi các quy tắc truy cập của robot tìm kiếm đối với trang web của bạn. Điều này có thể được thực hiện bằng cách sửa đổi tệp robots.txt và lưu lại các thay đổi.
Bạn tiến hành kiểm tra xem tệp đã hoạt động hay chưa. Nếu chưa kiểm tra lại cú pháp và vị trí đặt tệp robots.txt xem đã đúng chưa.
2. Tạo tệp robots.txt tự động bằng các plugin wordpress:
Ở bài viết này, SEO Mini Task sẽ hướng dẫn bạn cách tạo file robots.txt thông qua 2 plugin seo chính hiện nay là Rank Math Seo và Yoast Seo.
- Chỉnh sửa file robots.txt thông qua Rank Math Seo
Bạn hoàn toàn có thể chỉnh sửa và lưu file robots.txt ngay trên website của mình với một vài bước đơn giản thông qua rank math seo.
Đầu tiên, cần đảm bảo rằng bạn đã cài đặt Rank Math Seo phiên bản mới nhất tại đây!
Đăng nhập vào trình quản trị của website. Click chọn Rank Math -> Chọn General Setting -> chọn tiếp Edit robots.txt
Tiếp theo, nếu trên hosting đã có sẵn file robots.txt thì bạn sẽ nhận được thông báo "robots.txt is not writable" tức là lúc này bạn phải cập nhật theo cách thủ công. Nếu không có thông báo trên, bạn có thể thoải mái edit. Lưu ý nhớ ấn Save Changes để thay đổi có hiệu lực nhé.
- Chỉnh sửa file robots.txt bằng Yoast Seo
Bạn phải cài đặt Plugin Yoast Seo bản mới nhất tại đây!
Ở trình điều khiển tay trái của website chọn Yoast Seo -> Chọn Tools
Tiếp theo Click chọn File Editor
File robots.txt chuẩn như thế nào?
Để tạo một file robots.txt chuẩn, bạn chỉ cần tạo một tệp tin văn bản đơn giản và đặt tên là robots.txt, sau đó đặt tệp tin này vào thư mục gốc (root) của trang web của bạn. Tuy nhiên, để tạo một file robots.txt chuẩn đầy đủ, bạn cần phải hiểu và sử dụng các cú pháp và chỉ thị đúng cách.
Ví dụ về một file robots.txt chuẩn:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /feed/
Disallow: /trackback/
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Trong đoạn mã trên, User-agent là chỉ thị cho biết tên của robot mà bạn muốn chỉ định các chỉ thị. Ký tự dấu sao (*) được sử dụng để áp dụng cho tất cả các robots. Chỉ thị Disallow được sử dụng để chỉ định những trang mà robots không nên truy cập, trong đó /wp-admin/ là thư mục quản trị của Wordpress, /wp-includes/ là thư mục chứa các file core của Wordpress, /wp-content/plugins/ và /wp-content/themes/ là thư mục chứa các plugins và themes được cài đặt trên Wordpress. Disallow cũng được sử dụng để chặn các trang như /wp-login.php, /wp-register.php, /xmlrpc.php, /feed/ và /trackback/. Cuối cùng, chỉ thị Sitemap được sử dụng để chỉ định URL của sitemap của trang web, trong đó https://www.example.com/sitemap.xml là đường dẫn đến sitemap.
Tham khảo thêm một số mẫu robots.txt dưới đây:
1. Cho phép tất cả các bot truy cập toàn bộ trang web:User-agent: *
Disallow:
2. Chặn toàn bộ trang web cho tất cả các bot:
User-agent: *
2. Chặn toàn bộ trang web cho tất cả các bot:
User-agent: *
Disallow: /
3. Chặn toàn bộ trang web cho bot của Google:
User-agent: Googlebot
3. Chặn toàn bộ trang web cho bot của Google:
User-agent: Googlebot
Disallow: /
4. Chặn toàn bộ trang web cho bot của Bing:
User-agent: Bingbot
4. Chặn toàn bộ trang web cho bot của Bing:
User-agent: Bingbot
Disallow: /
5. Chặn một số thư mục cụ thể cho tất cả các bot:
User-agent: *
5. Chặn một số thư mục cụ thể cho tất cả các bot:
User-agent: *
Disallow: /admin/
Disallow: /private/
Lưu ý rằng đây chỉ là một số ví dụ và các quy tắc trong file robots.txt có thể khác nhau tùy theo nhu cầu của từng trang web.
Cách kiểm tra website có file robots.txt hay chưa?
Kiểm tra xem một website đã có file robots hay chưa là một bước quan trọng trong Seo Technical. Để kiểm tra xem một trang web có file robots.txt hay không, bạn có thể làm theo các bước sau:1. Truy cập vào trang web muốn kiểm tra
2. Gõ "/robots.txt" vào cuối địa chỉ URL của trang web đó (ví dụ: www.example.com/robots.txt)
3. Nếu xuất hiện nội dung file robots.txt trên trang, điều đó chứng tỏ trang web đó có file robots.txt.
Ngoài ra, bạn cũng có thể sử dụng các công cụ kiểm tra robots.txt trực tuyến để kiểm tra nhanh chóng và dễ dàng hơn. Một số công cụ này bao gồm:
2. Gõ "/robots.txt" vào cuối địa chỉ URL của trang web đó (ví dụ: www.example.com/robots.txt)
3. Nếu xuất hiện nội dung file robots.txt trên trang, điều đó chứng tỏ trang web đó có file robots.txt.
Ngoài ra, bạn cũng có thể sử dụng các công cụ kiểm tra robots.txt trực tuyến để kiểm tra nhanh chóng và dễ dàng hơn. Một số công cụ này bao gồm:
- Google Search Console: công cụ này cho phép bạn kiểm tra xem trang web của bạn có file robots.txt hay không, cũng như kiểm tra xem các lỗi liên quan đến file này.
- Robots.txt Checker: đây là một công cụ trực tuyến miễn phí để kiểm tra xem trang web của bạn có file robots.txt hay không, cũng như kiểm tra xem các lỗi liên quan đến file này.
- Robot Test Tool: công cụ này cũng cho phép bạn kiểm tra xem trang web của bạn có file robots.txt hay không, cùng với đó là kiểm tra xem các lỗi liên quan đến file này.
Các hạn chế của file robots.txt
Mặc dù bạn đã có các quy tắc bên trọng tệp robots tuy nhiên đây không phải là tệp toàn năng. Dưới đây là một số lỗi thông dụng của robots.txt
- Một số công cụ tìm kiếm không hỗ trợ quy tắc tệp robots.txt. Để đảm bảo an toàn cho dữ liệu, tốt nhất là bạn nên đặt mật khẩu cho các tệp riêng tư trên máy chủ.
- Mỗi trình crawl dữ liệu có một cú pháp phân tích riêng: Các công cụ tìm kiếm uy tín thường tuân theo quy chuẩn của các lệnh trong tệp robots.txt. Tuy nhiên, một số công cụ tìm kiếm không thể hiểu được câu lệnh trong tệp robots.txt. Vì vậy, các nhà phát triển web cần phải nắm rõ cú pháp của từng công cụ thu thập dữ liệu trên trang web.
- Google vẫn lập chỉ mục nếu có trang website liên kết tới trang bị chặn: Vì vậy, nếu nội dung của URL đó không quan trọng, bạn nên xóa nó khỏi trang web để đảm bảo an toàn cho dữ liệu. Bởi vì nội dung trong URL đó vẫn có thể xuất hiện khi người dùng tìm kiếm chúng trên Google.
Lưu ý khi sử dụng tệp robots.txt
Việc chỉ định các lệnh cho từng User-agent có thể không cần thiết bởi vì hầu hết các User-agent đều là từ một công cụ tìm kiếm và thường tuân theo quy tắc chung.Không nên sử dụng file robots.txt để chặn các thông tin riêng tư của người dùng vì Googlebot sẽ bỏ qua các lệnh trong tệp robots.txt, làm giảm khả năng bảo mật.
Để đảm bảo an toàn cho dữ liệu của website, cách tốt nhất là sử dụng mật khẩu riêng cho các tệp hoặc URL mà bạn không muốn truy cập.
Cần lưu ý rằng việc sử dụng các lệnh robots.txt có thể không hiệu quả như mong đợi và không nên lạm dụng chúng.
Câu hỏi thường gặp về file robots.txt
Dưới đây là một số câu hỏi về tệp robots.txt
1. Làm thế nào để tạo một tệp robots.txt?
Bạn có thể tạo tệp robots.txt bằng cách sử dụng trình soạn thảo văn bản như Notepad, hoặc sử dụng các công cụ tạo robots.txt trực tuyến miễn phí. Nếu bạn sử dụng hệ thống quản lý nội dung (CMS) như WordPress, có thể sử dụng các plugin để tạo tệp robots.txt một cách tự động.
2. Làm thế nào để kiểm tra xem trang web của mình có tệp robots.txt hay không?
Bạn có thể truy cập vào URL của tệp robots.txt trên trang web của bạn (ví dụ: example.com/robots.txt) để kiểm tra xem nó có tồn tại hay không. Nếu bạn không thể truy cập được tệp này, có thể truy cập vào công cụ Google Search Console để kiểm tra xem trang web của bạn có bị chặn bởi tệp robots.txt hay không.
3. Tôi có thể sử dụng tệp robots.txt để chặn các trang web của đối thủ cạnh tranh không?
Không. Tệp robots.txt đặt trên thư mục gốc của website vì vậy bạn không có quyền truy cập và chỉnh sửa tệp này trên website đối thủ.
Tổng kết:
Vậy là SEO Mini Task đã giải thích cho bạn hiểu robots.txt là gì? Hướng dẫn cách tạo file robots.txt để định hướng thu thập dữ liệu cho các công cụ tìm kiếm. Nếu thấy hữu ích, đừng quên chia sẻ bài viết này nhé.
0 Nhận xét