Search engine hay còn gọi là máy tìm kiếm là một trang Web cho phép người dùng tìm kiếm nội dung số của các trang Web trên Internet.
Thường kỳ, máy tìm kiếm sẽ dò quyét nội dung tất cả các trang Web trên Internet và cập nhật nội dung văn bản text vào cơ sở dữ liệu khổng lồ của mình mà người dùng có thể khai thác sau đó. Để làm việc này các máy tìm kiếm thường gửi các Web crawler, web spider hay web robot (ví dụ googlebot của Google - Yahoo slurp của Yahoo) đến các trang cần đánh chỉ số. Các bọ tìm kiếm này sẽ truy cập phân tích và gửi nội dung về các máy tìm kiếm.
Máy tìm kiếm sắp xếp các trang Web dựa vào nội dung HTML của trang. Việc này khác với các thư mục Web truyền thống mà những người kiểm duyệt sắp đặt trong các mục riêng biệt với tên site và miêu tả đi kèm.
Các công cụ tìm kiếm chính là giao diện Web tương tác với người dùng của các máy tìm kiếm. Có thể kể đến một số công cụ tìm kiếm phổ biến sau :
· Live Search của Microsofts
· Ask Search
Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của họ. Đây là một trong những vấn đề chính trong thủ thuật SEO, thủ thuật tối ưu hóa website cho công cụ tìm kiếm (search engine optimization) nhằm giúp cho bọ tìm kiếm dễ dàng đánh chỉ số nội dung trang web.
Tuy nhiên, trong vài trường hợp thì webmaster lại không muốn đăng tải một số thông tin nhất định lên máy tìm kiếm. Trong trường hợp này họ sẽ sử dụng tệp tin loại trừ robots.txt (Robots Exclusion Protocol - REP) để hướng dẫn “bọ” tìm kiếm tiếp cận tài nguyên trên toàn website hay các phần quan trọng. Trong trường hợp từng trang đơn lẻ thì các webmaster sẽ sử dụng thẻ META tags.
Quay trở lại với chuẩn REP vừa nói ở trên, Robots Exclusion Protocol xuất hiện trong những năm 90 và sớm trở thành một trong những chuẩn giúp webmaster chỉ định các thành phần của trang web mà họ muốn đăng tải lên máy tìm kiếm và các thành phần họ muốn giữ kín. Ngày nay, Robots Exclusion Protocol đã trở lên hết sức phổ biến và được sử dụng rộng rài nhờ tính đơn giản và hiệu quả trong việc liên lạc với các máy tìm kiếm. Điểm mạnh của nó còn nằm ở khả năng tùy biến cao thích ứng với World Wide Web. Chuẩn này được ứng dụng cho hầu hết các máy tìm kiếm và các “bọ” tìm kiếm và tất cả các website lớn nhỏ, không kể qui mô.
Trong tài liệu này, chúng ta sẽ cũng phân tích cách thức ứng dụng Robots Exclusion Protocol (REP). Chúng tôi sẽ giới thiệu các qui ước chung sử dụng bởi cả 3 ông lớn Google, Yahoo và Microsoft mới được công bố gần đây.
Qui ước chung của Google, Yahoo và Microsoft
Danh sách các tính năng chủ yếu sau của Robots Exclusion Protocol được ứng dụng bởi cả Google, Microsoft và Yahoo. Với mỗi tính năng, bạn sẽ hiểu được ý nghĩa và cách sử dụng.
Mỗi qui ước được ứng dụng cho tất cả các “bọ” tìm kiếm hay các “bọ” tìm kiếm đặt biệt được chỉ định bởi User-Agent (Xem thêm các bài viết liên quan về robots.txt).
Qui ước robots.txt
Qui ước robots.txt cho Google, Yahoo và Microsoft
robots.txt Directives
|
||
Qui ước
|
Ý nghĩa
|
Ứng dụng SEO
|
Disallow
|
“No Crawl” page : Yêu cầu “bọ” tìm kiếm không được đánh chỉ số tài nguyên. Tuy nhiên tệp tin robots.txt vẫn cần được đánh chỉ số để tìm được các chỉ định, các trang web bị cấm sẽ không được quyét. |
“Không quét” các tài nguyên trên một trang. Qui ước này ngầm cấm các “bọ” tìm kiếm tiếp cận các đường dẫn đến một số tài nguyên đặc biệt trên một trang Web. |
Allow
|
Yêu cầu các “bọ” tìm kiếm đánh chỉ số một số trang nhất định trên website của bạn. Bạn có thể sử dụng kết hợp với Disallow. |
Đặc biệt hữu ích khi sử dụng cùng Disallow, khi mà một phần lớn các tài nguyên bị cấm trừ một phần nhỏ trong đó. |
$ - Wildcard
|
Yêu cầu “bọ” tìm kiếm xác định mọi thứ từ cuối đường dẫn URL - một phần quan trọng các thư mục mà không phải chỉ định từng trang một. |
“No Crawl” files : Không đánh chỉ số các files với qui luật nhất định. Ví dụ các tệp tin với thành phần đuôi mở rộng nhất định, như PDF chẳng hạn. |
* - Wildcard
|
Yêu cầu “bọ” tìm kiếm xác định tập hợp ký tự.
|
“No Crawl” URLs : Kiểm tra đường dẫn URL với qui luật nhất định. Ví dụ cấm các đường dẫn với URLs chứ các session id hoặc các tham biến phụ. |
Sitemap
|
Yêu cầu “bọ” tìm kiếm tìm tệp tin sitemap của website.
|
Trỏ tới vị trí đặt sitemap XML hay các luồng tin RSS.
|
Qui ước HTML META tag
Các qui ước chung cho cả 3 đại gia tìm kiếm Google, Yahoo và Microsoft:
Qui ước META tags cho Google, Yahoo và Microsoft
HTML META Directives
|
||
Qui ước
|
Ý nghĩa
|
Ứng dụng SEO
|
NOINDEX META tag
|
“Bọ” tìm kiếm không đánh chỉ số trang liên quan.
|
Không cho phép đánh chỉ số trang chỉ định. Ngoài ra, nó còn rút trang đó khỏi danh mục nếu chưa được đánh chỉ số. |
NOFOLLOW META tag
|
“Bọ” tìm kiếm không được theo đường dẫn URL nằm trong nội dung trang chỉ định. |
Giúp chống lại nạn spam các trang cho phép viết bài hòng tăng liên kết. Thẻ nofollow báo cho “bọ” tìm kiếm biết bạn bỏ qua các liên kết trỏ đến các trang bên ngoài trong nội dung trang chứa thẻ META tags nofollow. |
NOSNIPPET META tag
|
Yêu cầu “bọ” tìm kiếm không hiển thị snippets trong kết quả tìm kiếm đối với trang này. |
Loại bỏ phần mô tả snippet ra khỏi trang kết quả tìm kiếm.
|
NOARCHIVE META tag
|
Cấm không cho “bọ” tìm kiếm được hiển thị bản sao trang web trong bộ nhớ “cache” đối với trang sử dụng thẻ này. |
Không cho phép người dùng xem phiên bản copy chứ trong bộ nhớ của máy tìm kiếm. |
NOODP META tag
|
Yêu cầu máy tìm kiếm không được sử dụng tiêu đề (title) và snippets từ các danh bạ Web - Open Directory Project cho trang được chỉ định. |
không sử dụng ODP - Open Directory Project, tiêu đề và phần mô tả snippets trong kết quả tìm kiếm cho trang này. |
Các qui ước trên được áp dụng cho các loại tài nguyên khác nhau trên Website. Chúng có thể được đặt trong một trang HTML hay với HTTP header cho các trang không có nội dung là HTML, ví dụ các tệp tin PDF, Video, ect. (X-Robots-Tag).
Một số qui ước REP khác
Các qui ước trên đều được sử dụng cho Microsofts, Google và Yahoo. Tuy nhiên chúng không được áp dụng cho tất cả các máy tìm kiếm khác. Ngoài ra, còn có một số qui ước được Google sử dụng nhưng lại không được các máy tìm khác hỗ trợ:
UNAVAILABLE_AFTER META tag
Thông báo cho “bọ” tìm kiếm thời hạn của trang. Ví dụ ngày mà trang đó không còn có hiệu lực và sẽ không xuất hiện trong kết quả tìm kiếm.
NOIMAGEINDEX META tag
Yêu cầu “bọ” tìm kiếm không quét các files ảnh trong trang được chỉ định và hiển thị trong kết quả tìm kiếm.
NOTRANSLATE META tag
Yêu cầu “bọ” tìm kiếm không được dịch nội dung của trang sang một ngôn ngữ khác trong kết quả tìm kiếm.
Robots và Search Engine Optimization
Ngoài những ứng dụng đã nhắc ở phần trên thì lợi ích của robots trong quảng bá web rất là lớn. Đặc biệt phải kể đến ứng dụng của REP trong việc tối ưu hóa Website cho công cụ tìm kiếm (Search Engine Optimization).
Lấy ví dụ một Blog, thì việc thông tin có thể được truy cập và hiển thị qua nhiều đường dẫn khác nhau làm phát sinh nhiều nội dung trùng lặp (Duplicate Content) (qua category, tags, archive, RSS). Bạn có thể loại trừ các nội dung trong phần tags, archive hay RSS bằng cách ứng dụng Robots. Nếu sử dụng robots.txt, bạn có thể sử dụng lệnh sau trong blog WordPress của bạn.
User-agent: *
Disallow: */trackback*
Disallow: /wp-*
Disallow: */feed*
Disallow: /20*
Disallow: /page/
Allow: /
Ngoài ra bạn có thể dùng thẻ META tag.
Ngoài ra, bạn có thể sử dụng dòng lệch sitemap để giúp “bọ” tìm kiếm tiếp cận với cấu trúc, nội dung mới của trang Web bằng việc thêm đường dẫn Sitemap XML và Feed RSS trong file robots.txt. Ví dụ:
Sitemap: http://domain.com/indexsitemap_invm.xml.gz
Sitemap: http://domain.com/index.php?act=rssout&id=3
Sitemap: http://domain.com/index.php?act=rssout&id=8