Bạn đang ở Kỹ Thuật MarketingKIẾN THỨC SEO> Bài viết

Robots.txt là gì ? cách sử dụng robots.txt



1.Robots.txt là gì ?

  • Theo hiểu biết nông cạn của tôi thì file robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác .nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm(SE) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.
  • robots.txt có thể quy định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không?

Ví dụ:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

chú giải :

  • User-agent: * : cho phép tất cả các loại bot
  • Disallow: /wp-admin/  : chặn thư mục wp-admin và tất cả những gì nằm trong thư mục wp-admin

robots txt2 Robots.txt là gì ? cách sử dụng robots.txt

 

2.Hướng dẫn sử dụng Robots.txt

a.Khóa toàn bộ website không cho bot đánh chỉ mục

User-agent: *
Disallow:
/

==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE

b.Không cho phép bot truy cập vào thư mục nào mà mình không muốn

Lấy lại ví dụ trên :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includes

c.Chặn 1 trang

Disallow: /lien-he.html

d.Loại bỏ 1 hình từ  Google Images

User-agent: Googlebot-Image
Disallow: /images/hinh.png

e.Chặn một bot nào đó

User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /wp-admin/

Disallow: /wp-includes/

==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác  được truy cập tất cả trừ thư mục “wp-admin ” và "wp-includes"

User-agent: SpamBot
Disallow: /admin/
Disallow: /includes/
Disallow: /config/config.php

User-agent: *
Disallow: /admin/
Disallow: /includes/

==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”.

f.sử dụng đồng thời “Allow” và “Disallow” cùng nhau

User-agent: Googlebot
Disallow: /vidu/
Allow: /vidu/demo-thoi-nha.html

== > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục "vidu"  .Nhưng chỉ có thể truy cập được file "demo-thoi-nha.html"

User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: /

== > Chặn không cho Googlebot truy cập vào tài nguyên trên website, nhưng lại cho phép Googlebot-Mobile truy cập vào tài nguyên trên website bạn

3.Nên tránh những sai sót sau

khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót

- Phân biệt chữ hoa chữ thường.

- Không được viết dư, thiếu khoảng trắng.

- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.

- Mỗi một câu lệnh nên viết trên 1 dòng.

Đó là tất cả những gì mà kiến thức nông cạn của tôi biết về robots.txt , nếu bạn nào cảm thấy thiếu hay sai sót chổ nào xin để lại vài lời

Đã có 12 bình luận về bài viết, trong đó có 12 bình luận của khách và 0 bình luận của thành viên

  1. SEOandSEOer.Com : 2012-08-1116:59:16  -49 Trả lời Trả lời

    Cảm ơn bạn nhé,bài viết hay

  2. trcnam : 2012-08-1923:23:35  -48 Trả lời Trả lời

    Các bạn có biết cách edit lại file robots.txt mặc định của web thiết kế trên nền Ucoz.com không? Chỉ mình với chứ nó mà như thế này:

    User-agent: *
    Disallow: /

    Thì chặn hết rồi còn gì? :sad:

  3. Áo lớp : 2012-09-1413:02:47  -47 Trả lời Trả lời

    Bài viết đúng thứ mình đang tim kiếm, cảm ơn Kỹ thuật Marketing :)

  4. Người Bạc Liêu : 2012-09-2014:51:02  -46 Trả lời Trả lời

    Bài viết rất chi tiết! Thanks! :cool:

  5. xem phim online : 2012-10-2411:55:29  -45 Trả lời Trả lời

    mình mới tìm hiểu về wp,robotit thì mình cũng đã tìm hiểu rồi nhưng thực sựu thì cũng chưa biết cách làm tối ưu nhất. cảm ơn KTM

  6. Bài viết cũng khá hay! Có vài điều được học ở bài viết của PRO! Nhưng mình có một thắc mắc là nếu mình muốn chặn các link khác bên ngoài diễn đàn trừ những link có liên kết nội trong diễn đàn mình thì sao vậy PRO! Nếu theo cách thủ công chặn từng link một khi khai báo trong robots.txt thì quả thật là rất nhiều vì nguồn tham khảo mình cũng rất phong phú! Ví dụ cụ thể: mình muốn tất cả các link trong forum con bị chặn hết trừ những liên kết có domain là của mình abc.com chẳng hạn! PRO giúp em qua email nha! Cảm ơn PRO trước!

  7. Lắp mạng FPT : 2013-01-2913:50:15  -43 Trả lời Trả lời

    Cho mình hỏi mọi người tí:Vào mục nào để sử dụng robots.txt nhỉ?.vì mình mời học làm seo nên còn nhiều điều chưa biết,các bạn chỉ giúp mình với.

  8. hanoi transfer service : 2013-04-2122:10:07  -42 Trả lời Trả lời

    Mình dùng robots.txt để chặn backlink xấu được không admin.? check bằng công cụ ahreft.com thấy backlink xâu nhiều quá. mình đang chặn bằng robots.txt và chờ kết quả :) .site của mình http://hanoitransferservice.com/robots.txt mọi người check jum nha

  9. best slim usa : 2013-05-1612:31:08  -41 Trả lời Trả lời

    xin hỏi anh là muốn chặn một link out từ site của mình ra site khác sử dụng file robots.txt có được ko vậy?

  10. chuatrinh02 : 2013-05-2518:40:04  -40 Trả lời Trả lời

    đang tìm hiểu cái này, thanks nhiều, mời mọi người có nhu cầu trao đổi, liên kết,add logo, banner miễn phí thì vào logoweb.vn

  11. game di dong : 2013-07-1009:46:50  -39 Trả lời Trả lời

    kythuatmarketing.cơm cho em hỏi là mình có thể dùng file robots.txt này để chắn các liên kết xấu tới website mình được không và cách để làm là như thế nào ạ
    Xin cảm ơn anh

Bạn đọc bình luận

Ảnh đại diện?