Tin tức
Khái niệm seo (search engine optimization) - tối ưu hoá kết quả tìm kiếm
05/08/2008
  1. Tối ưu hoá kết quả tìm kiếm là gì
Tối ưu kết quả tìm kiếm có nghĩa là nâng thứ hạng website của bạn trong kết quả tìm kiếm mà các công cụ tìm kiếm nổi tiếng như google, yahoo, msn… trả lại khi người dùng gõ từ khóa tìm kiếm. SEO có thể được coi là một tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm.Vấn đề cơ bản của việc tối ưu kết quả tìm kiếm là những từ khóa liên quan mà những khách hàng tiềm năng quan tâm. Có một website là mới chỉ hoàn thành xong 20% công việc, 80% công việc còn lại là duy trì và tối ưu website về nội dung và thứ hạng.
Ví dụ: khi có người dùng gõ từ khóa “kinh tế” tại công cụ tìm kiếm google, Google sẽ trả lại danh sách những trang web có nội dung liên quan đến kinh tế theo đánh giá chất lượng của Google từ cao xuống thấp. Những trang web hiển thị trong top 10 là những trang web có chất lượng thông tin về “Kinh tế” tốt nhất và đáng tin cậy nhất.
Phương thức đánh giá chất lượng các website liên quan đến từ khóa tìm kiếm của người dùng được các công cụ tìm kiếm như Google dựa trên một số tiêu chí:
1.                  Lượng thông tin liên quan đến từ khóa có phong phú hay không.
2.                  Thời gian tồn tại của website đó đã được bao lâu
3.                  Thông tin của website có được cập nhật thường xuyên hay không
4.                  Lượng người dùng truy cập vào website
5.                  Có được nhiều website có uy tín khác liên kết trỏ đường đẫn tới hay không
6.                  Tốc độ và sự ổn định của trang web đến đâu
7.                  Cấu trúc trang web có theo đúng chuẩn và dễ dàng cho công cụ tìm kiếm truy vấn hay không…
 
Một số thuật ngữ liên quan:
 
SEO – Search Engine Optimization:  tối ưu hoá bộ máy tìm kiếm, = "tối ưu hoá website"
Trafic: lưu lượng truy cập đến trang web
Rank: chỉ số thứ hạng của trang, tương đối giống Index.
Google, Yahoo: tên hai bộ máy tim kiếm lớn.
Link: liên kết đến trang hoặc ra ngoài trang.
Webmaster(WM) : người quản trị trang, cũng có thể chính là người chủ sở hữu trang.
Bot: một loại chương trình nhỏ của các công cụ tìm kiếm (như Google, Yahoo…) hoạt động tự động với mục đích  thu thập, phân tích dữ liệu.
Internet Directory: Đây là các thư mục internet giống như kiểu Trang Vàng của Việt Nam. Những thư mục này chứa đựng rất nhiều website theo từng danh mục, từng chủ đề các nhau. Khác với các Cỗ máy tìm kiếm - các thư mục internet không hoạt động tự động mà thường do người quản trị cập nhật thông tin thông qua bản đăng ký của các chủ website gửi đến. Nếu website của bạn có mặt tại nhiều thư mục internet thì ranking, pagerank và cả vị trí trên các search engine cũng cao hơn.
SEM: Search Engine Marketing. Đây mới chính là cái mà các nhà quản trị website và người kinh doanh online nhắm đến. SEM chính là tổng hợp của tất cả các công đoạn nêu trên, gồm: tối ưu hóa website, đăng ký website vào hệ thống tìm kiếm và các thư mục internet, đặt liên kết với các site khác (trong đó bao gồm cả việc mua liên kết bằng cách đặt logo, banner quảng cáo) và nhiều việc làm khác nữa nhằm giúp website trở nên thân thiện hơn với các cỗ máy tìm kiếm để thứ hạng các từ khóa trong website ngày càng được cải thiện, website có nhiều người truy cập hơn

PageRank: Chỉ số PageRank của một website không chỉ phụ thuộc vào số liên kết ngược (BackLink) tới website đó (số website mà trên đó có liên kết tới trang đang xét), mà còn dựa vào mức độ quan trọng của các liên kết ngược đó.

PageRank™ là một thương hiệu của Google, được phát triển ở Đại học Stanford bởi Larry Page (Page-Rank) và Sergey Brin - 2 người đồng sáng lập Google.
Google Logo
Chỉ số PageRank có giá trị từ 1 tới 10 (giống như thang điểm).
Chỉ số PageRank của một website không chỉ phụ thuộc vào số liên kết ngược (BackLink) tới website đó (số website mà trên đó có liên kết tới trang đang xét), mà còn dựa vào mức độ quan trọng của các liên kết ngược đó.
Google PageRankNói một cách khác, chỉ số PageRank của một website là kết quả bầu chọn của tất cả các trang web khác trên toàn thế giới cho website đó về mức độ quan trọng của trang. Mỗi liên kết ngược là 1 phiếu bầu. Các phiếu bầu này có mức độ ảnh hưởng khác nhau, sự khác nhau đó phụ thuộc vào chất lượng (hay tính quan trọng) của mỗi trang đặt liên kết ngược. Website nào có chỉ số PageRank cao thì chứng tỏ đó là website chất lượng cao và quan trọng (High-quality, Important). Vì vậy, khi tìm kiếm, Google sẽ ưu tiên cho các site có PageRank cao. Tất nhiên khi tìm kiếm, không phải cứ website quan trọng nào cũng hiện ra ở trang đầu. Kết quả còn phụ thuộc vào việc bạn muốn tìm kiếm cái gì. Chính vì điều đó mà Google đã kết hợp PageRank với công nghệ tìm kiếm văn bản phức tạp để tìm ra và sắp xếp những trang có nội dung liên quan. Google kiểm tra số lần mà từ khóa xuất hiện trên trang và xem xét tất cả các khía cạnh khác về nội dung của trang (và cả nội dung của các trang liên kết tới nó) để xác định kết quả tìm kiếm tốt nhất cho người dùng.

Chỉ số Alexa Rank:  đo lường mức độ phổ biến của website. Alexa.com thuộc quyền sở hữu của Amazon.com.
Giá trị của Alexa Rank chạy từ 1 đến một số mà con số này là tổng số website hiện có trong cơ sở dữ liệu của Alexa (nếu website nào có giá trị Alexa Rank bằng 0, nghĩa là website đó chưa có trong cơ sở dữ liệu của Alexa).
Chỉ số Alexa Ranking xếp thứ hạng các website được truy cập thường xuyên, được thống kê dựa trên những người dùng cài đặt thanh công cụ Alexa Toolbar, một tiện ích giúp người dùng lướt web, nhất là người mới sử dụng, được dễ dàng và đa dạng hơn.
Xếp hạng Alexa Ranking
Khi vào một website, thanh công cụ Alexa này sẽ hiển thị thứ hạng Ranking của website đó, đồng thời liệt kê các website có nội dung và mức độ phổ biến tương đồng. Giá trị thứ hạng của Alexa được biểu thị giống như xếp thứ học kỳ của học sinh phổ thông, tức là giá trị càng thấp thì mức độ phổ biến càng cao. Khi có 1 người nào đó ghé thăm trang web, nó sẽ ghi nhận lần ghé thăm cho website tương ứng bằng cách cộng thêm 1 cho số lần webiste đó được xem (Alexa gọi đó là "reach"); nhiều lần ghé thăm một website trên cùng một địa chỉ IP trong ngày thì cũng chỉ được tính như 1 lần ghé thăm. Alexa cũng thống kê số trang con được người dùng xem (Alexa gọi là "page views"). Chỉ số thứ hạng Alexa được kết hợp từ 2 yếu tố trên là: số trang web người dùng xem (page views) và số người truy cập (reach). Việc kết hợp này là một ý tưởng rất sáng tạo, vì nó loại bỏ được khả năng tạo ra các truy vấn ảo bằng các chương trình tự động. Các số liệu "page piews" và "reach" sẽ được thống kê theo ngày và tính giá trị trung bình trong thời gian 3 tháng gần nhất, từ đó tính ra chỉ số Alexa. Các chỉ số này thường được cập nhật tự động để phản ánh xu hướng thay đổi theo chu kỳ 3 ngày một lần...

2. Search Engine là gì

Khi nói tới Search Engine, ta thường nghĩ ngay đến các dịch vụ nổi tiếng như Google Search, Yahoo! Search hay MSN Search.

Internet chứa hầu như tất cả những thông tin liên quan tới mọi lĩnh vực, mọi ngõ ngách trong cuộc sống. Nhưng nó rất rộng, rộng đến mức gần như không ai có thể kiểm soát được. Diện mạo của Internet lại thay đổi quá nhanh chóng và mạnh mẽ. Hạt nhân của Internet là Word Wide Web, với số lượng lên tới hàng chục tỉ trang, được lưu trữ trong hàng triệu server đặt khắp nơi trên toàn thế giới.
Có thể ví Internet như một biển dữ liệu khổng lồ, với muôn vàn những viên ngọc quí nằm giữa các hạt sạn. Trong đời sống hàng ngày, nhu cầu tìm kiếm thông tin đóng vai trò vô cùng to lớn, và một trong những vấn đề bức thiết nhất của công nghệ hiện nay là làm sao “đãi cát tìm vàng”, khai thác nguồn tài nguyên này một cách hợp lí, đem lại lợi ích tốt nhất cho con người.
Tìm kiếm thông tin trên mạng Internet quả thật là một thách thức lớn lao. Nó không giống như việc bới các hạt đỗ đen nằm lẫn lộn trong thùng gạo, bởi dữ liệu trên mạng Internet do con người đưa vào, chúng cũng có cấu trúc và tổ chức xác định (mặc dù thiếu tính nhất quán), trong khi đó thì các hạt đỗ đen lại nằm rải rác và lộn xộn, không có một vị trí hay qui luật nào. Tuy nhiên, bài toán tìm kiếm khó hơn bài toán nhặt đỗ đen rất nhiều. Muốn tìm tất cả các hạt đỗ đen, bạn đơn giản chỉ cần thiết kế một cái sàng hình cầu đủ lớn để có thể đổ cả thùng gạo vào đó, với những chiếc lỗ có kích thước phù hợp sao cho hạt gạo chui lọt còn hạt đỗ đen thì không, và quay đủ số vòng để tất cả các hạt gạo đều có cơ hội bay ra ngoài. Việc tìm kiếm thông tin trên Internet lại hoàn toàn khác. Có tới hàng chục tỉ trang Web tràn ngập trên mạng Internet (gấp nhiều lần số hạt gạo trong thùng), và vấn đề là làm sao đưa ra những gì ta muốn thu thập sao cho đồng thời thỏa mãn hai tiêu chí: Chính xác và nhanh chóng. Hơn thế nữa, người dùng cũng không đủ kiên nhẫn để ngồi duyệt qua tất cả các trang web chứa thông tin cần tìm (anh ta cũng không nhất thiết phải đếm từng hạt đỗ đen, tuy nhiên nếu xét trên tiêu chí dinh dưỡng thì đa phần những hạt đỗ đen đều giống nhau, do đó hạt nào cho vào nồi trước cũng không quan trọng). Trên thực tế, người dùng hiếm khi vào quá mười trang web kết quả, và vì thế, một yêu cầu khó khăn nữa cần giải quyết, đó là: những gì phù hợp nhất phải được đặt lên hàng đầu.
Trước đây, người ta thường chia dữ liệu cần lưu trữ làm nhiều mục, đến lượt các mục con này lại được chia nhỏ hơn. Người dùng tìm kiếm thông tin thông qua việc duyệt qua liên kết giữa các mục. Tuy nhiên, những chủ đề được nêu trong Internet đã rộng lớn đến nỗi sự phân chia này trở nên cực kì cồng kềnh và bất tiện. Ngày nay, hầu hết mọi người đều sử dụng Search Engine để tìm kiếm thông tin trên mạng Internet.
Đối với mỗi Search Engine (Google, Yahoo, MSN, v.v…), người dùng truy vấn tìm kiếm (hay nói đơn giản hơn là nhập vào một số từ khóa liên quan đến chủ đề cần tìm), và nhận được một danh sách các trang kết quả (thông thường là những trang web chứa các từ khóa cần tìm kiếm), được sắp xếp theo một tiêu chí nào đó. Những tiêu chí này đều nhằm mục đích “đưa ra kết quả phù hợp nhất với yêu cầu tìm kiếm”.

Trong bài này ta sẽ nghiên cứu về các Search Engine. Bài viết là một phần trong loạt bài có tựa đề: “Giới thiệu về hệ thống Google”. Mục đích của tôi nhằm:
* Nêu lên cấu trúc tổng quan của một Search Engine.
* Nghiên cứu chi tiết các thành phần của Search Engine.
* Giúp bạn có những kiến thức cơ bản để hiểu được cấu trúc phức tạp của hệ thống Google.
* Chuẩn bị nền tảng cho loạt bài viết hướng dẫn cách xây dựng một Search Engine.
Ban đầu, tôi chỉ định nêu ra các tư tưởng chủ đạo trong việc xây dựng cũng như nói sơ qua về cấu tạo và nguyên lý hoạt động của Search Engine. Tuy nhiên, trong quá trình nghiên cứu tài liệu, tôi đã thay đổi ý định, vì những lí do sau:
* Những kiến thức liên quan tới Search Engine rất rộng và tổng hợp, bao gồm thuật toán, cấu trúc dữ liệu, cơ sở dữ liệu, các hệ thống phân tán, tính toán song song, tổ chức file, data mining,v.v… cũng như những vấn đề có liên quan tới Toán học. Do đó, việc tìm hiểu Search Engine sẽ hứa hẹn rất nhiều điều thú vị, nếu chỉ đề cập sơ sài, ta sẽ bỏ qua một chủ đề hấp dẫn. Đây cũng là dịp để chúng ta cùng nhau kiểm tra cũng như cập nhật vốn kiến thức của mình (tôi cũng đã học được khá nhiều khi quyết định viết loạt bài này).
* Tôi nhận thấy nếu không đề cập chi tiết đến cấu tạo của một Search Engine, sẽ khó khăn khi tiếp cận hệ thống Google, vốn chứa đựng rất nhiều sự phức tạp.
* Tự xây dựng một Search Engine là một “thách thức” không nhỏ và rất đáng để xem xét. Tất nhiên sản phẩm của những sinh viên như chúng ta không có ý nghĩa gì khi so sánh với Google Search hay Yahoo! Search, và tất nhiên cũng mang rất ít giá trị về mặt thương mại cũng như thực tiễn (phải nói là không có thì đúng hơn). Nhưng đối với bản thân mỗi người học chúng ta thì giá trị học hỏi và kiến thức là rất to lớn, bởi như tôi đã nói ở trên, những mảng đề tài liên quan đến Search Engine là rất nhiều. Tôi coi bài viết này như nền tảng để bạn có thể hiểu cặn kẽ cấu tạo của Internet Search Engine. Tôi có ý định cùng các bạn thử viết một Search Engine với mục đích học tập sau này. Với tinh thần đó, tôi sẽ trình bày thật chi tiết tới mức có thể.
* Việc hiểu cấu trúc của Search Engine cũng giúp ích cho các bạn trong việc lập trình xây dựng các trang Web (mặc dù công việc đối với trang Web đơn giản hơn nhiều).
* Trong giáo trình công nghệ thông tin cũng như khoa học máy tính ở các trường đại học Việt Nam hiện nay không có môn học về Information Retrieval. Việc tìm hiểu Search Engine cũng cho ta một số kiến thức về lĩnh vực này. Hơn nữa, đây là cơ hội rất tốt để thực hành các tri thức ta đã thu thập được trong những năm học đại học.
Vì những lí do trên, tôi sẽ trình bày bài viết theo tư tưởng như sau:
* Phần một sẽ đưa ra cái nhìn chung về Search Engine. Bạn đọc không có đủ thời gian cũng như không muốn đi quá sâu vào chi tiết cũng có thể hiểu cấu trúc tổng quan nhất của một Search Engine. Những thông tin trình bày ở đây là đủ để bạn có thể chuyển sang phần sau của loạt bài viết: “Tìm hiểu về hệ thống Google”.
* Từ phần hai trở đi, chúng ta sẽ đi sâu vào phân tích các thành phần của một Internet Search Engine. Nội dung những phần này vừa nhằm mục đích nghiên cứu kĩ lưỡng từng bộ phận cấu thành một Search Engine, vừa đưa ra những gợi ý liên quan đến cài đặt, tạo tiền đề cho việc tự viết một Search Engine sau này.
 
2. Vì sao cần tối ưu hoá kết quả tìm kiếm
Khi bạn thiết lập một trang web, điều bạn mong mỏi đó là càng nhiều người biết và ghé thăm trang web của bạn càng tốt để nhằm quảng bá hình ảnh, thương hiệu hoặc thông tin. Một khi trang web của bạn đã có lượng người ghé thăm một cách trung thành, thường xuyên và đông đảo nó sẽ mang lại cho bạn nhiều thuận lợi trong kinh doanh và công việc. Những thuận lợi sẽ gia tăng tương ứng với số lượng người truy cập vào website của bạn. Khi website của công ty được nhiều người biết đến sẽ mang lại một số lợi ích như sau:
-   Quảng bá thương hiệu và hình ảnh về công ty, cửa hàng một cách rộng rãi
-   Đưa những sản phẩm và dịch vụ đến được với những người sử dụng có tri thức
-   Gia tăng vị thế cũng như chất lượng sản phẩm của công ty
-   Giảm thiểu tối đa chi phí quảng bá, thuê showroom giới thiệu sản phẩm, phí bảo trì, nhân công…
-   Mọi người có thể tìm hiểu về công ty, sản phẩm của bạn bất cứ thời gian nào, tại bất cứ đâu
-   Tìm kiếm được những khách hàng tiềm năng trung thành
Ngoài ra, khi trang web của bạn đã được tối ưu, nó hiện lên trong top kết quả trả lại tương ứng với từ khóa người dùng gõ vào (ví dụ: nếu website của bạn về hàng thủ công mỹ nghệ, nếu bạn tối ưu cho từ “thủ công mỹ nghệ”, trang web của bạn sẽ lọt vào top 10 kết quả trả lại của google, yahoo khi có người dùng gõ từ khóa này nhằm tìm kiếm thông tin về mặt hàng thủ công mỹ nghệ). Bạn sẽ có được những lợi ích sau mà bạn không có được khi quảng cáo bằng hình thức khác (đăng quảng cáo trên báo chí, truyền hình, radio, tờ rơi hoặc internet)
  1. Những người dùng tìm kiếm theo nội dung chính là những khách hàng hoặc người sử dụng trung thành. Vì sản phẩm, thông tin trên trang web của bạn chính là những thứ họ cần, họ đang tìm kiếm và quan tâm, nên họ sẽ đặc biệt lưu tâm đến những gì thể hiện trên website của bạn.
  2. Nhóm người dùng quan tâm đến sản phẩm, dịch vụ của công ty bạn sẽ ngày càng đông đảo và gia tăng theo xu hướng của thị trường cũng như mật độ người sử dụng internet
  3. Vị thế về hình ảnh, sản phẩm hoặc thông tin trên website của bạn sẽ luôn được củng cố và thăng tiến  trên bảng xếp dạng đánh giá mức độ tin tưởng của các công cụ tìm kiếm. Việc này đồng nghĩa với việc khách hàng sẽ tin tưởng và sử dụng sản phẩm, dịch vụ của công ty bạn nhiều hơn. Mức độ tăng trưởng ổn đinh của lượng khác hàng trung thành sẽ ngày một tốt hơn
  4. Và điều quan trọng nhất là số tiền chi phí quảng bá sẽ giảm thiểu đáng kể mà mang lại lợi ích tối đa vì bạn nhắm vào lượng khách hàng quan tâm đến sản phẩm của bạn
Tóm lại, SEO có thể coi như là một kỹ thuật, một bí quyết thực sự đối với mỗi người quản trị, xây dựng website hay đơn thuần là người làm trong lĩnh vực truyền thông.
Hiện nay, có một số cách thức quan trọng sau để nâng cao hiệu quả tìm kiếm của các công cụ tìm kiếm:
  • Title: sử dụng title của website là vấn đề quan trọng nhất liên quan mật thiết đến công cụ tìm kiếm trỏ tới. Do đó nên sử dụng title là chính từ khoá và không nên sử dụng title dài quá.
  • Từ khoá: Nên sử dụng từ khóa bằng thẻ meta để các công cụ tìm kiếm trỏ tới.
  • URL: Không nên sử dụng các ký tự đặc biệt (%, $, ~, ...) trong URL của website. Việc này làm các công cụ tìm kiếm có thể dễ dàng hơn trong việc nhận biết và thu thập thông tin của các máy tìm kiếm.
  • Dung lượng: Dung lượng của website không được nặng quá, website càng nhẹ (khoảng 65k) sẽ sử dụng tốt hơn cho việc lưu trữ thông tin và quét thông tin của máy tìm kiếm.
  • Khai báo thông tin và từ khóa với các máy tìm kiếm
  • Sử dụng việc trao đổi link với các website khác
Đưa website vào danh bạ của các website, danh bạ của các website nổi tiếng và cần thiết nhất là đưa vào hệ thống www.dmoz.org, www.yahoo.com
Ý kiến bạn đọc