Rất nhiều Webmaster đã ngạc nhiên là máy tìm kiếm Google biết nhiều điều về Website của bạn hơn là bạn tưởng tượng : Đôi khi bạn tìm thấy các trang Web trong chỉ mục của Google dù không có một liên kết nào trỏ tới trang đó, hoặc đôi khi bạn lại không thể nào tìm thấy những trang mà trước đó chưa bao giờ Google tiếp cận.
Nhiều thảo luận xoay quanh vấn đề này, đặc biệt trong diễn đàn Webmaster Word, xuất
phát từ lý thuyết hoạt động của máy tìm kiếm và các quan sát thực tế, chúng ta có thể tổng hợp lại 15 cách chung sau mà Google có thể phát hiện ra Website của bạn :
Các liên kết “Dofollow” (Cho phép bọ tìm kiếm lần theo các liên kết này) từ liên kết bên trong và bên ngoài trỏ tới một trang;
Liên tưởng liên kết, ví dụ nếu tồn tại trang web có dạng đường dẫn “site.com/?product=1″ thì rất có thể cũng tồn tại “site.com/?product=2″;
Các liên kết bên trong forms:
Matt Cutts đã từng khẳng định rằng các liên kết nằm trong form có thể phân bổ thứ hạng PageRank. Google thường gán các liên kết ảo cho các form này và tìm kiếm thông tin thông qua các đường dẫn ảo của form bởi thế các đường dẫn ảo này được liên kết tới sơ đồ Website trong thuật toán của Google.
Các liên kết được nhắp chọn trên trình duyệt sử dụng Google Toolbar hoặc kích hoạt hiển thị chỉ số thứ hạng PageRank, công cụ sẽ gửi thông tin truy vấn về máy chủ Google;
Khi bạn dán các đường dẫn URL và trong ô tìm kiếm của Google. Bạn sẽ rất ngạc nhiên nếu biết rằng một số lượng rất lớn người dùng sử dụng ô tìm kiếm của Google để được chuyển đến địa chỉ Web thay vì dán thẳng vào thanh địa chỉ của trình duyêt.
Liên kết tới Website của bạn chứa trong liên kết trực tiếp hình ảnh (image hotlinking) từ các Website khác chẳng hạn;
Các Website khác liên kết tới các tệp tin CSS hay javascript trên Website của bạn;
Các liên kết trong email mà máy tìm kiếm có thể truy cập (ví dụ Gmail);
Các địa chỉ URL xuất hiện trong đồ họa hay phim ảnh Video;
Đường dẫn URL xuất hiện trong các phần bình luận của mã nguồn HTML, bên trong phần tiêu đề, thẻ meta hoặc các thành phần phụ (thẻ alt, tên, id, v.v.) hoặc các thẻ phụ khác của mã nguồn HTML;
Các liên kết trong các tệp tin flash.
Các URL không liên kết (dạng văn bản không có nhắp chọn để chuyển đến địa chỉ URL hiển thị);
Liên kết xuất hiện trong các tài liệu khác trang Web; ví dụ các tài liệu .doc, .pdf, .txt v.v.
Các liên kết trong các phần mềm hay tiện ích của Google như gadgets, widgers
Các liên kết quảng cáo (Adwords/Yahoo) hoặc các dịch vụ bản đồ địa điểm.
Bạn có thể bổ xung thêm các cách thức mà bạn nghĩ Google có thể tiếp cận với Website của bạn không ?