2012년 6월 21일 목요일

검색엔진의 구조를 이해하는것이 검색최적화를 위한 첫걸음


검색 엔진의 기본 구조



SEO(검색엔진최적화)를 위해서는, 검색 엔진 의 기본 구조를 이해할 필요가 있습니다.
검색 엔진의 기본적인 구조는 하기와 같으며, 각각 분업하여 작업을 실시하고 있습니다.


1) 크롤링
2) 인덱스
3) 검색  (인풋 -> 아웃풋)

1.  탐색 (페이지 정보 수집)

 1.  탐색 (페이지 정보 수집) 



  크롤러(로봇,스파이더) 라는 프로그램이 인터넷 사이트를 순회 하고 각 사이트의 페이지 정보를 수집합니다. 수집한 페이지 정보는 임시 저장소 데이터베이스(인덱서)에 등록됩니다. 인터넷에 엄청난 양의 페이지가 존재합니다. 검색결과 정보로 다양성 과 신선함(완전성 및 최신성)을 유지하기 위해서는 다량의 크롤이 필요하고 효율적으로 크롤링 하는 기술이 각 검색 엔진의 중요한 노하우 중 하나입니다.  완전성 및 최신성을 얻기 위해 유용한 사이트는 자주 순회 를 할 필요가 있습니다. 그러나 사이트의 부하를 고려한 적절한 액세스 제어가 필요합니다. 단일 서버에서 여러 사이트가 운용되고있는 것도 많아, 액세스 제어 사이트 ( 도메인 ) 단위가 아닌 서버 ( IP 주소 ) 단위로 이루어집니다 것이 바람직합니다.


 2. 인덱스 (데이터 베이스화)  




  인덱서 라는 프로그램이 임시 저장소 데이터베이스를 참조하여 해당 페이지의 각종 정보 ( URL 중요한 키워드 , 링크 , 크기, 날짜 등)를 정리하여 색인 데이터베이스라는 검색할 때 참조하는 데이터베이스에 등록합니다. 그 때, 페이지 정보는 캐시 데이터베이스에 등록됩니다. 인덱스 데이터베이스는 데이터베이스 유지 관리 프로그램이 정상적으로 유사한 페이지를 삭제하거나 저장된에서 시간 경과에 따라 변화하는 정보 업데이트, 기타 유지 관리 작업을 수행합니다. 검색 처리 즉시 검색 결과 를 표시하기 위해 실제 검색 시에 실시 스코어링 작업 (순위)는 최소가되도록 설계되었습니다. 그래서 중요한 것이 인덱스의 정보 정리(이 부분이 검색엔진의 핵심)입니다. 이 배열 방법이 각 검색 엔진 의 중요한 노하우입니다.



 3. 검색 (검색 요청-input-에 대한 대응-output)   




    검색 화면에서 사용자가 원하는 키워드로 검색했을 때, 인덱스 데이터베이스를 참조하여 검색어 를 전제로 하여 채점한 후 그 점수 순서대로 페이지 정보를 나열합니다. 그때, 그 페이지에 해당하는 캐시의 URL 을 부기함으로써 캐시 데이터베이스를 볼 수있는 구조로 되어 있습니다.
    *** 색인과 검색의 양쪽에서 행하는 스코어링에 관한 구조를 따라 알고리즘 이라고합니다. 알고리즘은 검색어 에 해당하는 페이지 목록의 순서를 결정합니다. 알고리즘의 품질이 나쁘면 목록 결과를 이용자의 요구에 부합하지 않는 것이되어, 검색 정확도가 나쁜 검색 엔진으로 등급이 떨어지게 됩니다. 알고리즘(순위결정알고리즘)은 검색 엔진 에서 가장 중요한 사양입니다.


알아본 바와 같이 검색엔진은 검색결과를 내보내기위해 상기와 같은 방법으로 크롤링-인덱싱-검색출력 의 영역으로 나위어 일을 하고 있다.
크롤링은 링크를 타고 다는다는 부분이 핵심이며
인덱싱은 키워드로 인덱싱 된다는 부분이 핵심 입니다.
검색에서 출력되기 위해서는 먼저, 자사의 사이트가 잘 크롤링 되어 인덱싱 되어 있어야 비로소 검색이 됩니다.


이 부분에 있어 근본적으로 사이트 제작이 잘 되어야 크롤링이 잘 되는 것도 참고로 알아두면 유익할 것입니다.

Ryuhyonhee


댓글 없음:

댓글 쓰기