File Robots.txt là gì? Cách tạo File Robot.txt chuẩn nhất?

File Robots.txt là gì là một trong những tệp đơn giản nhất trên bất kỳ trang web nào, nhưng nó cũng là một trong những tệp khó hiểu nhất.

Nhưng nó rất quan trọng trong kế hoạch SEO và chiến lược SEO của bạn.

Chỉ một chữ cái không đúng chỗ có thể làm hỏng kế hoạch SEO của bạn và ngăn các công cụ tìm kiếm truy cập nội dung quan trọng trên tất cả các trang web của bạn.

Đây là lý do tại sao việc định cấu hình sai tệp robots.txt rất phổ biến, ngay cả đối với các chuyên gia SEO có kinh nghiệm. Vậy làm sao để có file robots.txt chuẩn cho wordpress và cách tạo file robots.txt cho wordpress.

File Robots.txt là gì react nativeFile Robots.txt là gì hybrid
File Robots.txt là gì

Để hiểu rõ hơn, hãy cùng VLINK xem qua bài viết này nhé.

File Robots.txt là gì?

File Robots.txt là gì là một tệp văn bản mà quản trị viên web tạo ra để hướng dẫn Google Bugs (Googlebot), Bing hiểu và thu thập dữ liệu trang web của bạn.

Không chỉ vậy, ngoài việc thu thập dữ liệu và lập chỉ mục nội dung trên website, quản trị viên web có thể sử dụng File robot.txt để chặn những thông tin không cần thiết trên website của mình.

Tệp robots.txt trông như thế nào?

Đây là 2 dạng File robot cơ bản.

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/
# Group 2
User-agent: *
Allow: /
Sitemap: https://www.vlink.asia/sitemap.xml

Giải thích thuật ngữ trong File Robot.txt

User-agent (tác nhân người dùng): Phần này là tên của trình thu thập dữ liệu, cho phép vào website để thu thập dữ liệu

Disallow:

Lệnh được sử dụng để yêu cầu tác nhân người dùng không thu thập thông tin URL cụ thể. Mỗi URL chỉ được phép có một dòng “Disalow”.

Ví dụ: nếu bạn muốn chặn tất cả các công cụ tìm kiếm truy cập vào blog và tất cả các bài đăng trên blog của mình, thì tệp robots.txt của bạn có thể trông giống như sau:

User-agent: *
Disallow: /blog

Allow (Only applicable for Googlebot)

Lệnh cho Googlebot biết nó có thể truy cập một trang hoặc thư mục con trên trang web. Mặc dù trang web mẹ hoặc các thư mục con của nó có thể không được phép.

Ví dụ: nếu bạn muốn ngăn các công cụ tìm kiếm truy cập vào từng bài đăng trên blog của mình ngoại trừ một bài đăng, tệp robots.txt của bạn có thể trông giống như sau:

User-agent: *
Disallow: /blog
Allow: /blog/allowed-post

Trong ví dụ này, các công cụ tìm kiếm có thể truy cập /blog/allowed-post. Nhưng họ không thể truy cập:

/blog/another-post
/blog/yet-another-post
/blog/download-me.pdf

Sitemap

Sử dụng chỉ thị này để chỉ định vị trí của (các) sơ đồ trang web cho các công cụ tìm kiếm. Nếu bạn không quen với sơ đồ trang web, chúng thường bao gồm các trang mà bạn muốn công cụ tìm kiếm thu thập thông tin và lập chỉ mục.

Dưới đây là ví dụ về tệp robots.txt sử dụng lệnh sơ đồ trang web:

User-agent: *
Disallow: /blog/
Allow: /blog/post-title/
Sitemap: https://www.domain.com/sitemap.xml

Việc thêm sơ đồ trang web trong tệp robots.txt quan trọng như thế nào? Nếu bạn gửi thông qua Search Console, điều đó hơi thừa đối với Google.

Tuy nhiên, nó cho các công cụ tìm kiếm khác như Bing biết nơi tìm sơ đồ trang web của bạn, vì vậy đây vẫn là một phương pháp hay.

Lưu ý rằng bạn không cần lặp lại chỉ thị sơ đồ trang web nhiều lần cho mỗi tác nhân người dùng (User-agent).

Ví dụ:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/post-title/
User-agent: Bingbot
Disallow: /services/
Sitemap: https://www.domain.com/sitemap.xml

Google hỗ trợ chỉ thị sơ đồ trang web, cũng như Ask, Bing và Yahoo.

Các lệnh không được hỗ trợ trong File Robot.txt

Dưới đây là các lệnh không còn được Google hỗ trợ nữa — một số lệnh như sau:

Crawl-delay

Trước đây, bạn có thể sử dụng lệnh này để chỉ định độ trễ thu thập thông tin trên website.  Ví dụ: nếu bạn muốn Googlebot đợi 5 giây sau mỗi hành động thu thập thông tin, bạn sẽ đặt độ trễ thu thập thông tin thành 5 như sau:

User-agent: Googlebot
Crawl-delay: 5

Google không còn hỗ trợ chỉ thị này, nhưng Bing và Yandex thì có.

Tuy nhiên, lời khuyên của chúng tôi dành cho bạn là: hãy cẩn thận với lệnh này, đặc biệt nếu bạn có một trang web lớn.

Nếu bạn đặt độ trễ thu thập thông tin thành 5 giây, bạn đang hạn chế bot thu thập thông tin ở mức tối đa 17.280 URL mỗi ngày.

Điều đó không hữu ích lắm nếu bạn có hàng triệu trang, nhưng nó có thể tiết kiệm băng thông nếu bạn có một trang nhỏ.

Noindex

Chỉ thị này chưa bao giờ được Google hỗ trợ chính thức. Tuy nhiên, một số người cho rằng Google đã có một số “mã xử lý các quy tắc không được hỗ trợ và chưa được xuất bản (chẳng hạn như noindex)”. Vì vậy, nếu bạn muốn ngăn Google lập chỉ mục tất cả các bài đăng trên blog của mình, bạn có thể sử dụng lệnh sau:

User-agent: Googlebot
Noindex: /blog/

Tuy nhiên, vào ngày 1 tháng 9 năm 2019, Google đã nói rõ rằng chỉ thị này không được hỗ trợ .

Nofollow

Đây là một chỉ thị khác mà Google chưa bao giờ chính thức hỗ trợ và được sử dụng để hướng dẫn các công cụ tìm kiếm không theo liên kết trên các trang và tệp.

Ví dụ: nếu bạn muốn ngăn Google theo dõi tất cả các liên kết trên blog của mình, bạn có thể sử dụng lệnh sau:

User-agent: Googlebot
Nofollow: / blog /

Google đã thông báo rằng chỉ thị này chính thức không được hỗ trợ vào ngày 1 tháng 9 năm 2019

Nếu bạn muốn yêu cầu Google không theo các liên kết cụ thể trên một trang, hãy sử dụng thuộc tính liên kết rel = “nofollow”.

File Robot.txt có tác dụng gì với Website

Có một “tệp robots.txt” không quan trọng đối với nhiều trang web, đặc biệt là những trang web nhỏ.

Nó cho phép bạn kiểm soát nhiều hơn những nơi mà các công cụ tìm kiếm có thể và không thể truy cập vào trang web của bạn và điều đó có thể trợ giúp những việc như:

  • Ngăn chặn việc thu thập các nội dung trùng lặp;
  • Giữ các phần của trang web ở chế độ riêng tư (ví dụ: trang web dàn dựng của bạn);
  • Ngăn chặn việc thu thập thông tin các trang kết quả tìm kiếm nội bộ;
  • Bảo vệ quá tải máy chủ;
  • Ngăn Google lãng phí “ngân sách thu thập thông tin”;
  • Ngăn hình ảnh, video và tệp tài nguyên xuất hiện trong kết quả tìm kiếm của Google;

Lưu ý: Mặc dù Google thường không lập chỉ mục các trang web bị chặn trong robots.txt, nhưng điều đó không đảm bảo rằng nó không xuất hiện trên công cụ tìm kiếm.

SEO là gì? Cách SEO giúp tăng chuyển đổi bền vững

Cách tìm tệp robots.txt của bạn

Để tìm file robot.txt của bạn, bạn chỉ cần mở trình duyệt web lên. Sau đó gõ domain.com/robots.txt. Nếu bạn thấy thứ gì đó như thế này, thì bạn có tệp robots.txt:

Cách tạo File Robots.txt cho WordPress

Nếu bạn không phải là một lập trình viên thực sự, việc tạo tệp robots.txt là rất khó. Cần phải can thiệp rất nhiều nhưng hiện nay WordPress đã rất phổ biến.

Vì vậy Cách tạo File Robots.txt cho WordPress cũng trở nên dễ dàng hơn trước rất nhiều. Vui lòng xem hướng dẫn sau.

Tạo file robots.txt với Rank Math SEO

Đầu tiên các bạn truy cập vào Dasboard » Rank Math SEO » General Settings » Edit robots.txt

Tạo file robots.txt với Rank Math SEO cross platformTạo file robots.txt với Rank Math SEO hybrid app

Tạo file robots.txt bằng Yoast SEO

Nếu bạn đang sử dụng Yoast SEO thì nó có sẵn tính năng tạo file robots.txt cho bạn. Bạn có thể tạo và chỉnh sửa trực tiếp từ khu vực admin.

Đơn giản đi đến menu SEO » Tools và chọn File Editor

Tạo file robots.txt bằng Yoast SEO pluginTạo file robots.txt bằng Yoast SEO plugin

Nếu bạn sử dụng giao diện tiếng Việt:

Ngay sau đó Yoast SEO sẽ hiển thị file robots.txt bạn đã có.

Nếu không có file robots.txt. Yoast SEO sẽ tạo giúp bạn bằng bấm vào nút dưới đây.

Mặc định thì file robots.txt được Yoast SEO tạo có cấu trúc như sau.

User-agent: *
Disallow: /

Lưu ý: Khi bạn tạo File Robots.txt cho WordPress, nếu bạn không biết cách chỉnh sửa trong File function.php. Vì vậy, hãy cài đặt Plugin Rank Math Seo hoặc Yoast Seo để tạo File Robot.txt này.

Tạo file robots.txt bằng cách thủ công sử dụng FTP

Với phương pháp này bạn cần sử dụng FTP client để chỉnh sửa file trên VPS hoặc nếu bạn dùng Hosting có Cpanel có thể vào File Manager để chỉnh sửa.

Truy cập vào thư mục chính trên WordPress bằng FTP và edit trực tiếp như dưới đây.

Nếu bạn không thấy file robots.txt nào, hãy tạo bằng cách chuột phải và creat new file.

File robots.txt đơn giản chỉ là một file text bạn có thể download nó về edit bằng notepad, notepad++ hoặc phần mềm tương tự, save lại và upload lên lại hosting là được.

Các phương pháp hay nhất về File Robots.txt

Có rất nhiều sai lầm khi tạo File Robot.txt, sau đây là một số lời khuyên dành cho những ai chưa có kinh nghiệm.

Sử dụng một dòng mới cho mỗi chỉ thị

Mỗi chỉ thị nên nằm trên một dòng mới. Nếu không, nó sẽ gây nhầm lẫn cho các công cụ tìm kiếm.

Robot.txt xấu:

User-agent: * Disallow: /directory/ Disallow: /another-directory/

Robot.txt Good:

User-agent: *
Disallow: /directory/
Disallow: /another-directory/

Sử dụng ký tự đại diện để đơn giản hóa hướng dẫn

Bạn không chỉ có thể sử dụng các ký tự đại diện (*) để áp dụng các lệnh cho tất cả các tác nhân người dùng (User-agent) mà còn để khớp các mẫu URL khi khai báo các lệnh.

Ví dụ: nếu bạn muốn ngăn các công cụ tìm kiếm truy cập vào các URL danh mục sản phẩm được tham số hóa trên trang web của mình, bạn có thể liệt kê chúng như sau:

User-agent: *
Disallow: /products/t-shirts?
Disallow: /products/hoodies?
Disallow: /products/jackets?

Nhưng điều đó không hiệu quả lắm. Sẽ tốt hơn nếu đơn giản hóa mọi thứ bằng một ký tự đại diện như sau:

User-agent: *
Disallow: /products/*?

Ví dụ này chặn các công cụ tìm kiếm thu thập thông tin tất cả các URL trong thư mục con / product / có chứa dấu chấm hỏi. Nói cách khác, mọi URL danh mục sản phẩm được tham số hóa.

Sử dụng “$” để chỉ định phần cuối của URL

Nếu bạn muốn ngăn các công cụ tìm kiếm truy cập vào tất cả các tệp.pdf trên trang web của mình, File robots.txt của bạn có thể trông giống như sau:

User-agent: *
Disallow: /*.pdf$

Trong ví dụ này, công cụ tìm kiếm không thể truy cập bất kỳ URL nào kết thúc bằng .pdf. Điều đó có nghĩa là họ không thể truy cập /file.pdf, nhưng họ có thể truy cập /file.pdf?id=68937586 vì điều đó không kết thúc bằng “.pdf”.

Sử dụng tính cụ thể để tránh các lỗi không cố ý

Việc không cung cấp hướng dẫn cụ thể khi thiết lập có thể ảnh hưởng nghiêm trọng đến SEO của bạn. Ví dụ: giả sử rằng bạn có một trang web đa ngôn ngữ và bạn đang làm việc trên một phiên bản tiếng Đức sẽ có sẵn trong thư mục con / de /.

Bạn chưa định cấu hình nó hoạt động, vì vậy bạn không muốn Google lập chỉ mục nó.

Tệp robots.txt bên dưới sẽ ngăn các công cụ tìm kiếm truy cập vào thư mục con đó và mọi thứ trong đó:

User-agent: *
Disallow: /de

Nhưng nó cũng sẽ ngăn các công cụ tìm kiếm thu thập thông tin của bất kỳ trang hoặc tệp nào bắt đầu bằng  /de.

Ví dụ:

/designer-dresses/

/delivery-information.html

/depeche-mode/t-shirts/

/definitely-not-for-public-viewing.pdf

Trong trường hợp này, giải pháp rất đơn giản: thêm một dấu gạch chéo.

User-agent: *
Disallow: /de/

File Robot.txt mẫu các bạn tham khảo

Không giới hạn cho các Bot

User-agent: *
Disallow:

Chặn tất cả các bot

User-agent: *
Disallow: /

Chặn bot index thư mục con

User-agent: *
Disallow: /folder/

Chặn một thư mục con cho tất cả các bot

User-agent: *
Disallow: / folder /
Allow: /folder/page.html

Chặn một tệp cho tất cả các bot

User-agent: *
Disallow: /this-is-a-file.pdf

Chặn một loại tệp ( PDF ) cho tất cả các bot

User-agent: *
Disallow: /*.pdf$

Chặn tất cả các URL bị Google index ký tự lạ

User-agent: Googlebot
Disallow: /*?

Cách kiểm tra tệp robots.txt của bạn để tìm lỗi

Để thực hiện việc này, hãy thường xuyên kiểm tra các vấn đề liên quan đến robots.txt trong báo cáo “Mức độ liên quan” trong Search Console. Dưới đây là một số lỗi bạn có thể gặp, ý nghĩa của chúng và cách bạn có thể sửa chúng.

Lưu ý: Dán URL vào công cụ URL kiểm tra của Google trong Search Console. Nếu tệp bị chặn bởi robots.txt, bạn sẽ thấy một cái gì đó như sau:

ứng dụng

Gửi URL bị chặn bởi Robot.txt

ngôn ngữweb app

Điều này có nghĩa là ít nhất một trong các URL trong (các) sơ đồ trang web đã gửi của bạn bị robots.txt chặn. Nếu bạn đã tạo đúng sơ đồ trang web của mình nhưng vẫn bị bot của Google chặn, hãy xem lại trang nào bị ảnh hưởng, sau đó điều chỉnh tệp robots.txt của bạn cho phù hợp để xóa chặn cho trang đó.

Bạn có thể sử dụng trình kiểm tra robots.txt của Google để xem chỉ thị nào đang chặn nội dung. Sau đó tìm cách khắc phục

Đã lập chỉ mục, mặc dù bị chặn bởi robots.txt

di động

Điều này có nghĩa là một số nội dung bị robots.txt chặn vẫn được lập chỉ mục trong Google.

Vậy làm thế nào để khắc phục tình trạng này? Xóa khối thu thập thông tin và thay vào đó sử dụng mã <meta name = “robots” content = “noindex” /> để ngăn Google lập chỉ mục.

File Robots.txt là gì là một tập tin đơn giản nhưng mạnh mẽ và nó có tác dụng rất lớn đối với SEO đặc biệt là dịch vụ SEO. Nếu biết cách tận dụng và khai thác tốt thì thứ hạng từ khóa của bạn chắc chắn sẽ vượt ngoài mong đợi

Xem thêm các thông tin mới nhất tại: https://tuhocmarketingonline.info/

Trả lời

Email của bạn sẽ không được hiển thị công khai.