검색 엔진 작동 : 검색 엔진 작동의 일반 원칙. 검색 엔진 작동 방식-스 니펫, 역 검색 알고리즘, 페이지 인덱싱 및 Yandex 작동 방식 검색 엔진 작동 방식

안녕하세요, 내 SEO 블로그 독자 여러분 ... 이 기사는 yandex 검색 엔진의 작동 원리 사이트 순위를 매기는 데 사용하는 기술과 알고리즘, 사용자에 대한 응답을 준비하기 위해 수행하는 작업 많은 사람들은이 러시아 검색의 주력이 Runet의 분위기를 조성하고, 유라시아에서 가장 큰 데이터베이스를 소유하고 있으며, 10 억 페이지 이상의 콘텐츠에서 작동하며, 모든 질문에 대한 답을 알고 있다는 것을 알고 있습니다. 2012 년 8 월 Liveinternet 데이터에 따르면 Yandex의 러시아 점유율은 60.5 %입니다. 포털의 월간 시청자 수는 4,890 만 명입니다. 그러나 우리 블로거에게 가장 중요한 것은 검색 엔진이 요청을받는 방법, 요청을 처리하는 방법 및 어떤 종류의 결과를 얻는 지입니다. 한편으로는이 정보를 알고 이해하면 모든 Yandex 리소스를 사용하는 것이 더 쉽고 다른 한편으로는 블로그를 홍보하는 것이 더 쉽습니다. 따라서 나는 Runet에서 최고의 검색 엔진의 가장 중요한 기술을 나와 함께 볼 것을 제안합니다.

인터넷 사용자가 처음으로 정보 검색 엔진을 사용하고 싶을 때 "검색은 어떻게 이루어 집니까?"라는 질문이있을 수 있습니다. 그러나 그가 그것을 받으면 종종이 질문이 다른 질문으로 바뀝니다. "왜 그렇게 빨리?" 실제로 컴퓨터에서 파일을 검색하는 데 20 초가 걸리지 만 전 세계 컴퓨터 네트워크 전체에서 쿼리 결과가 1 초 안에 나타나는 이유는 무엇입니까? 가장 흥미로운 점은 처음 두 개의 질문 (검색이 발생하는 방식과 1 초가되는 이유)이 하나의 답변에 포함될 수 있다는 것입니다. 검색 엔진은 사용자의 요청에 대해 미리 준비했습니다.

다른 검색 엔진과 마찬가지로 Yandex의 작동 방식을 이해하기 위해 전화 번호부로 비유를 그려 봅시다. 전화 번호를 찾으려면 가입자의 성을 알아야하며이 경우 모든 검색은 디렉토리의 모든 페이지가 연속적인 알파벳 색인이기 때문에 최대 1 분이 걸립니다. 그러나 전화 번호가 번호 자체로 정렬되는 다른 옵션에 따라 검색이 진행되었다고 상상해보십시오. 오랜 시간 동안 끌리는 그러한 검색 후에는 구도자의 눈앞에있는 숫자가 매우 오랫동안 서있을 것입니다. 🙂

따라서 검색 엔진은 인터넷의 모든 정보를 편리한 형식으로 저장합니다. 그리고 가장 중요한 것은이 모든 데이터가 방문자가 요청을 가지고 도착하기 전에 미리 그녀의 디렉토리에 저장된다는 것입니다. 즉, Yandex에게 질문을하면 이미 답을 알고 있습니다. 그리고 곧 우리에게줍니다. 그러나이 두 번째 단계에는 여러 가지 중요한 프로세스가 포함되어 있으며 이제 자세히 살펴 보겠습니다.

인터넷 인덱싱

Yandex ru는 인터넷에서 도달 할 수있는 모든 정보를 수집합니다. 특수 장비의 도움으로 시각적 매개 변수로 이미지를 포함한 모든 콘텐츠를 볼 수 있습니다. 이러한 수집에는 검색 엔진이 사용되며 데이터 수집 및 준비 프로세스를 인덱싱이라고합니다. 이러한 기계의 기본은 검색 로봇이라고도하는 컴퓨터 시스템입니다. 인덱싱 된 사이트를 정기적으로 크롤링하고 새 콘텐츠를 확인하며 인터넷에서 삭제 된 페이지를 검색합니다. 그러한 페이지가 더 이상 존재하지 않거나 인덱싱에서 닫힌 것을 감지하면 검색에서 제거합니다.

검색 로봇은 새 사이트를 어떻게 찾습니까? 첫째, 다른 사이트의 링크 덕분입니다. 이미 인덱싱 된 사이트에서 새 웹 리소스에 대한 링크가 배치되면 다음에 두 번째 사이트를 방문 할 때 로봇도 첫 번째 사이트를 방문하기 때문입니다. 둘째, Yandex 검색 엔진 웹 마스터에는 "addurilka"라는 멋진 서비스가 있습니다 (영어로 된 문구에서 -addurl-주소 추가). 여기에 새 사이트의 주소를 입력 할 수 있으며 잠시 후 검색 로봇이 방문합니다. 셋째, 특별 프로그램 "Yandex.Bar"의 도움으로 그것을 사용하는 사용자의 방문을 추적합니다. 따라서 사람이 새로운 웹 리소스에 도달하면 곧 로봇이 나타납니다.

모든 페이지가 검색으로 이동합니까? 매일 수백만 페이지의 색인이 생성됩니다. 그중에는 고유 한 콘텐츠에서 쓰레기에 이르기까지 다양한 정보를 포함 할 수있는 다양한 품질의 페이지가 있습니다. 또한 통계에 따르면 인터넷에는 훨씬 더 많은 쓰레기가 있습니다. 검색 로봇은 특별한 알고리즘을 사용하여 각 문서를 분석합니다. 그는 유용한 정보가 있는지, 사용자의 요청에 응답 할 수 있는지 여부를 결정합니다. 그렇지 않은 경우 이러한 페이지는 "우주 비행사"로 간주되지 않으며, 그렇다면 검색에 포함됩니다.

로봇이 페이지를 방문하여 유용성을 확인하면 검색 엔진 저장소에 나타납니다. 다음은 자동 센터의 마스터가 나사에 대해 말했듯이 매우 기본에 대한 문서 분석입니다. 페이지에서 html 마크 업이 지워지고 깨끗한 텍스트가 전체 인벤토리를 거치며 각 단어의 위치가 계산됩니다. 이러한 분해 된 형식에서 페이지는 숫자와 문자가있는 테이블로 바뀌며 그렇지 않으면 인덱스라고합니다. 이제이 페이지를 포함하는 웹 리소스에 어떤 일이 발생하더라도 마지막 복사본은 항상 검색에 포함됩니다. 사이트가 더 이상 존재하지 않더라도 문서의 사본은 얼마 동안 인터넷에 저장됩니다.

문서 유형, 인코딩, 언어에 대한 데이터와 함께 각 색인이 복사본과 함께 구성됩니다. 검색 기반 ... 주기적으로 업데이트되므로 검색 엔진 사용자의 요청이 처리되는 특수 서버에 있습니다.

인덱싱 프로세스는 얼마나 자주 발생합니까? 이것은 주로 사이트 유형에 따라 다릅니다. 첫 번째 유형의 웹 리소스는 페이지의 내용을 자주 변경합니다. 즉, 검색 로봇이 매번 이러한 페이지를 방문하면 매번 다른 콘텐츠를 포함합니다. 다음에 그 사이트에서 아무것도 찾을 수 없으므로 이러한 사이트는 색인에 포함되지 않습니다. 두 번째 유형의 사이트는 다운로드 할 문서에 대한 링크가 주기적으로 추가되는 페이지에 데이터웨어 하우스입니다. 이러한 사이트의 내용은 일반적으로 변경되지 않으므로 로봇은 매우 드물게 방문합니다. 다른 사이트는 콘텐츠 업데이트 빈도에 따라 다릅니다. 내 말은, 사이트에 새로운 콘텐츠가 더 빨리 나타날수록 검색 로봇이 더 자주 등장합니다. 그리고 우선 순위는 가장 중요한 웹 리소스에 부여됩니다 (예를 들어 뉴스 사이트는 블로그보다 훨씬 더 중요합니다).

인덱싱을 사용하면 검색 엔진의 첫 번째 기능을 수행하여 인터넷의 새 페이지에 대한 정보를 수집 할 수 있습니다. 그러나 Yandex에는 이미 준비된 검색 기반에서 사용자의 요청에 대한 답변을 검색하는 두 번째 기능도 있습니다.

Yandex가 응답을 준비 중입니다.

요청을 처리하고 관련 응답을 발행하는 프로세스는 컴퓨터 시스템 "Metaseoisk" ... 그녀의 작업을 위해 먼저 모든 입력 정보를 수집합니다. 즉, 요청이 발생한 지역, 해당 클래스, 요청에 오류가 있는지 등입니다. 이러한 처리 후 메타 검색은 데이터베이스에 동일한 매개 변수가있는 동일한 쿼리가 정확히 포함되어 있는지 확인합니다. 대답이 예이면 시스템은 이전에 저장 한 결과를 사용자에게 표시합니다. 이러한 질문이 데이터베이스에없는 경우 메타 검색은 색인 데이터를 포함하는 검색 데이터베이스를 처리합니다.

그리고 이것은 놀라운 일들이 일어나는 곳입니다. 검색 로봇에 의해 처리되는 전체 인터넷을 저장하는 하나의 초강력 컴퓨터가 있다고 상상해보십시오. 사용자가 요청을 설정하고 요청과 관련된 모든 문서에 대한 검색이 메모리 셀에서 시작됩니다. 답을 찾았고 모두가 행복합니다. 그러나 본문에 동일한 단어를 포함하는 쿼리가 많은 경우 다른 경우를 살펴 보겠습니다. 시스템은 매번 동일한 메모리 셀을 통과해야하므로 데이터 처리 시간이 여러 번 늘어날 수 있습니다. 따라서 시간이 증가하여 사용자를 잃을 수 있습니다. 그는 다른 검색 엔진에 도움을 요청할 것입니다.

이러한 지연을 방지하기 위해 사이트 인덱스의 모든 복사본이 서로 다른 컴퓨터에 배포됩니다. 요청을 보낸 후 메타 검색은 해당 서버에 텍스트 조각을 찾도록 지시합니다. 그 후, 이러한 컴퓨터의 모든 데이터는 중앙 컴퓨터로 반환되고 얻은 모든 결과를 결합하여 사용자에게 상위 10 개의 베스트 답변을 제공합니다. 이 기술을 사용하면 돌 하나를 가진 두 마리의 새가 한 번에 죽습니다. 검색 시간이 여러 번 감소하고 (순식간에 답변을 얻음) 사이트 증가로 인해 정보가 복제됩니다 (갑작스런 데이터 손실이 발생하지 않음). 고장). 중복 정보가있는 컴퓨터 자체가 데이터 센터를 구성합니다. 이것은 서버가있는 방입니다.

검색 엔진 사용자가 질의를 요청하면 100 건 중 20 건이 모호한 목표입니다. 예를 들어 그가 검색 줄에 "나폴레옹"이라는 단어를 쓰면 케이크 조리법이나 위대한 사령관의 전기 등 그가 어떤 대답을 기대하는지는 아직 알 수 없습니다. 또는 "그림 형제"라는 문구-동화, 영화, 음악 그룹. 이러한 가능한 목표 팬을 특정 답변으로 좁히기 위해 Yandex에는 특별한 기술이 있습니다. 스펙트럼... 검색 통계를 사용하는 사용자의 요구를 고려합니다. 방문자가 Yandex에서 묻는 모든 질문 중에서 Spectrum은 다양한 개체 (사람 이름, 책 제목, 자동차 모델 등)를 강조 표시합니다. 이러한 개체는 특정 범주로 나뉩니다. 현재 60 개 이상의 카테고리가 있습니다. 이들의 도움으로 검색 엔진은 기본적으로 사용자 쿼리에서 단어의 다른 의미를 갖습니다. 흥미롭게도 이러한 카테고리는 주기적으로 확인되며 (분석은 일주일에 두 번 발생) Yandex가 제시된 질문에 더 정확하게 답변 할 수 있도록합니다.

Spectrum 기술을 기반으로 Yandex는 대화 프롬프트를 구성했습니다. 사용자가 모호한 검색어를 입력하는 검색 창 아래에 표시됩니다. 이 선은 질문 개체가 속할 수있는 범주를 반영합니다. 추가 검색 결과는 사용자가 선택한 카테고리에 따라 다릅니다.

Yandex 검색 엔진의 모든 사용자 중 15 ~ 30 %는 지역 정보 (그들이 살고있는 지역의 데이터) 만 받기를 원합니다. 예를 들어, 귀하의 도시에있는 영화관의 새로운 영화에 대한 정보 따라서 이러한 요청에 대한 응답은 지역마다 달라야합니다. 이와 관련하여 Yandex는 기술을 사용합니다. 지역을 기준으로 검색 ... 예를 들어 Oktyabr 영화관에서 영화 레퍼토리를 찾고있는 주민들은 다음 답변을받을 수 있습니다.

그러나 이것은 Stavropol 주민들이 동일한 요청에 대해 받게 될 결과입니다.

사용자의 지역은 주로 그의 IP 주소에 의해 결정됩니다. 여러 공급자가 한 번에 여러 지역에서 작업 할 수 있으므로 사용자의 IP 주소를 변경하기 때문에이 데이터가 정확하지 않은 경우가 있습니다. 원칙적으로 이런 일이 발생하면 검색 엔진의 설정에서 쉽게 지역을 변경할 수 있습니다. 결과 페이지의 오른쪽 상단에 나열됩니다. 변경할 수 있습니다.

검색 엔진 Yandex ru-응답 결과

Metasearch가 답변을 준비하면 Yandex 검색 엔진이 결과 페이지에 답변을 표시해야합니다. 각각에 대한 정보가 거의없는 발견 된 문서에 대한 링크 목록입니다. 결과를 발행하는 기술의 임무는 사용자에게 가능한 한 가장 관련성이 높은 답변을 제공하는 것입니다. 이러한 링크에 대한 템플릿은 다음과 같습니다.

이 형식의 결과를 더 자세히 고려해 봅시다. 에 대한 검색 결과 제목 Yandex는 종종 페이지 제목의 제목을 사용합니다 (최적화 프로그램이 제목 태그에 작성하는 내용). 여기에 없으면 기사 또는 게시물 제목의 단어가 여기에 표시됩니다. 표제 텍스트가 크면 검색 엔진은이 필드에 주어진 쿼리와 가장 관련있는 조각을 넣습니다.

매우 드물지만 헤더가 요청 내용과 일치하지 않는 경우가 발생합니다. 이 경우 Yandex는 기사 또는 게시물의 텍스트를 사용하여 검색 결과의 제목을 구성합니다. 그는 확실히 쿼리 단어를 가질 것입니다.

에 대한 단편 검색 엔진은 페이지의 모든 텍스트를 사용합니다. 요청에 대한 응답이있는 모든 조각을 선택한 다음 가장 관련성이 높은 조각을 선택하고 문서에 대한 링크를 양식 필드에 삽입합니다. 이 접근 방식 덕분에 유능한 옵티마이 저는 스 니펫을보고 다시 만들 수있어 링크의 매력을 향상시킬 수 있습니다.

사용자 요청에 대한 결과를 더 잘 인식하기 위해 헤더는 텍스트의 링크로 형식이 지정됩니다 (밑줄이있는 파란색으로 강조 표시됨). 웹 리소스의 매력과 인식을 위해 작은 회사 사이트 아이콘 인 파비콘이 추가되었습니다. 제목 앞의 첫 번째 줄에있는 텍스트 왼쪽에 나타납니다. 응답의 요청에 포함 된 모든 단어는 읽기 쉽도록 굵게 표시됩니다.

최근 Yandex 검색 엔진은 사용자가 자신의 답변을 더욱 빠르고 정확하게 찾을 수 있도록 다양한 정보를 스 니펫에 추가했습니다. 예를 들어 사용자가 요청에 조직의 이름을 쓰면 Yandex는 스 니펫에 주소, 연락처 전화 번호 및 지리적지도의 위치에 대한 링크를 추가합니다. 검색 엔진이 사용자에 대한 답변이있는 문서가있는 사이트의 구조를 잘 알고 있다면 확실히 보여줄 것입니다. 또한 Yandex는 이러한 웹 리소스의 가장 많이 방문한 페이지를 스 니펫에 즉시 추가 할 수 있으므로 원하는 경우 방문자가 필요한 섹션으로 즉시 이동하여 시간을 절약 할 수 있습니다.

온라인 상점의 제품 가격, 별 형태의 호텔 또는 레스토랑 등급, 검색 문서의 개체에 대한 다양한 숫자가 포함 된 기타 흥미로운 정보가 포함 된 스 니펫이 있습니다. 이러한 정보의 임무는 사용자가 관심을 갖는 주제 또는 개체에 대한 전체 데이터 목록을 제공하는 것입니다.

일반적으로 이미 다양한 예제가 포함 된 답변 페이지는 다음과 같습니다.

순위 및 평가자

Yandex의 임무는 가능한 모든 답변을 검색 할뿐만 아니라 가장 적합한 (관련성있는) 답변을 선택하는 것입니다. 결국 사용자는 Yandex가 검색 결과로 제공하는 모든 링크를 뒤지지 않을 것입니다. 검색 결과를 구성하는 프로세스를 순위 ... 즉, 제안 된 답변의 질을 결정하는 것은 순위입니다.

Yandex가 관련 페이지를 결정하는 규칙이 있습니다.

결과 페이지의 순위 강등은 검색 품질을 저하시키는 사이트를 기다립니다. 일반적으로 소유자가 검색 엔진을 속이려고하는 웹 리소스입니다. 예를 들어 무의미하거나 보이지 않는 텍스트가 포함 된 페이지가있는 사이트입니다. 물론 검색 로봇에서는 볼 수 있고 이해할 수 있지만이 문서를 읽는 방문자에게는 볼 수 없습니다. 또는 SERP의 링크를 클릭 할 때 사용자를 완전히 다른 사이트로 즉시 이전하는 사이트.
선정적인 콘텐츠가 포함 된 사이트는 결과에 나타나지 않거나 순위가 크게 감소합니다. 이는 종종 그러한 웹 리소스가 공격적인 프로모션 방법을 사용하기 때문입니다.
바이러스에 감염된 사이트는 검색 결과에서 축소되지 않으며 검색 결과에서 제외되지 않습니다.이 경우 사용자에게 특수 아이콘을 사용하여 위험에 대한 알림이 표시됩니다. 이는 Yandex가 검색 엔진 방문자의 요청에 따라 이러한 웹 리소스에 중요한 문서가 포함될 수 있다고 가정하기 때문입니다.

예를 들어 Yandex가 검색어 "apple"에 대한 사이트 순위를 매기는 방법은 다음과 같습니다.

순위 요소 외에도 Yandex는 검색 엔진 사용자가 가장 적절하다고 생각하는 쿼리 및 답변이 포함 된 특수 샘플을 사용합니다. 현재로서는 어떤 기계도 그러한 샘플을 만들 수 없습니다. 이것은 인간의 특권입니다. Yandex에서는 이러한 전문가를 평가자 ... 그들의 임무는 모든 검색 문서를 완전히 분석하고 주어진 쿼리에 대한 응답을 평가하는 것입니다. 그들은 베스트 답변을 선택하고 특별한 훈련 샘플을 만듭니다. 여기에서 검색 엔진은 관련 페이지와 해당 속성 간의 관계를 확인합니다. 이 정보를 통해 Yandex는 각 요청에 대해 최적의 순위 공식을 선택할 수 있습니다. 이러한 공식을 구성하는 방법을 Matrixnet이라고합니다. 이 시스템의 장점은 과적 합에 대한 내성이있어 불필요한 추정 및 패턴의 수를 늘리지 않고도 많은 순위 요소를 고려할 수 있다는 것입니다.

내 게시물이 끝나면 Yandex 검색 엔진이 작업 과정에서 수집 한 흥미로운 통계를 보여 드리고자합니다.

1. 러시아와 러시아 도시에서 개인 이름의 인기 (2012 년 3 월 블로거 및 소셜 미디어 계정에서 가져온 데이터).

2. 다양한 유형의 관심사를 가진 통계.

Yandex 검색 엔진 작동 방식에 대한 내 게시물이 완료되었습니다.

1863 년, 위대한 작가 Jules Verne은 20 세기에 그의 다음 책인 파리를 만들었습니다. 그 안에서 그는 지하철, 자동차, 전기 의자, 컴퓨터, 심지어 인터넷까지 자세히 설명했습니다. 그러나 출판사는이 책의 인쇄를 거부했고 1989 년 Jules Verne의 증손자가이 책을 발견 할 때까지 120 년이 넘게 보관되었습니다. 이 책은 1994 년에 출판되었습니다.

검색 엔진 또는 단순히 "검색 엔진"은 사용자의 요청에 따라 인터넷 페이지를 검색하는 엔진입니다. 세계에서 가장 유명한 검색 엔진은 Google이고 러시아에서 가장 인기있는 검색 엔진은 Yandex이며 가장 오래된 검색 엔진 중 하나는 Yahoo입니다. 검색 엔진의 아키텍처를 구별 할 수 있습니다. 검색 엔진 -일련의 소프트웨어 모듈로 표현되는 시스템의 핵심 데이터베이스 또는 인덱스검색 엔진에 알려진 모든 인터넷 리소스에 대한 정보를 저장합니다. 및 진입 점 사용자를 시스템에 연결합니다 (www.google.com, www.yandex.ru, ru.yahoo.com 등). 이 모든 것은 정보 시스템의 고전적인 3 계층 아키텍처에 해당합니다. 사용자 인터페이스, 비즈니스 로직이 있으며,이 경우 검색 알고리즘 및 데이터베이스 구현으로 표시됩니다.

인터넷 검색의 특이성

언뜻보기에 인터넷 검색은 처리에서 데이터베이스로 또는 파일을 찾는 작업과 같은 일반적인 정보 검색과 크게 다르지 않습니다. 인터넷의 첫 번째 검색 엔진 개발자는 그렇게 생각했지만 시간이 지남에 따라 그들이 잘못되었음을 깨달았습니다 ...

인터넷 검색과 일반적인 검색의 첫 번째 차이점은 동일한 데이터베이스에 대한 검색 알고리즘이 검색 엔진과 쿼리 작성자가 해당 구조를 미리 알고 있다고 가정한다는 것입니다. 인터넷에서는 명백한 이유로 그렇지 않습니다. 인터넷 페이지는 디렉토리 구조를 형성하지 않지만 검색 알고리즘에도 영향을 미치는 네트워크이며 인터넷 리소스에 게시되는 데이터 형식은 누구도 제어하지 않습니다.

첫 번째 결과 중 하나 인 두 번째 차이점은 쿼리가 매개 변수 값 집합 (검색 기준)이 아니라 사람이 자연어로 작성한 텍스트로 표시된다는 것입니다. 따라서 검색을 시작하기 전에 요청자가 원하는 것이 무엇인지 정확히 이해해야합니다. 다른 사람이 이해하는 것이 아니라 컴퓨터를위한 것입니다.

세 번째 차이점은 덜 분명하지만 덜 근본적인 것은 아닙니다. 카탈로그 나 데이터베이스에서 모든 요소는 동일합니다. 인터넷에서 경쟁이 벌어지고 있으며 결과적으로 "신뢰할 수있는 정보 제공자"와 소스로의 구분은 "정보 쓰레기"상태에 가깝습니다. 이것이 사람들이 리소스를 분류하는 방법이며 검색 엔진도 여기에 적용됩니다.

그리고 마지막으로 검색 영역이 수십억 페이지, 각각 수 킬로바이트 이상임을 추가해야합니다. 매일 약 천만 페이지가 추가되고 같은 수의 페이지가 업데이트됩니다. 이 모든 것은 다양한 디지털 형식으로 제공됩니다. 안타깝게도 인터넷 검색 서비스 시장의 선두 주자들이 사용할 수있는 최신 기술과 리소스조차도이 모든 종류를 "즉석에서"완전하게 처리 할 수 \u200b\u200b없습니다.

검색 엔진의 구성 요소

우선, 인터넷에서 검색 엔진의 작업과 다양한 종류의 카탈로그 및 데이터베이스에서 검색하는 다른 정보 시스템의 작업 간의 가장 중요한 차이점을 하나 더 깨닫는 것이 중요합니다. 인터넷 검색 엔진은 요청 시점에 인터넷에있는 정보 중에서 정보를 찾지 않고 자체 정보 저장소 (인덱스라고하는 데이터베이스)를 기반으로 응답을 형성하려고합니다. 여기에는 알고있는 모든 항목에 대한 서류가 저장됩니다. 주기적으로 업데이트합니다. 즉, 검색 엔진은 원본에서 작동하지 않고 유효한 검색 값 범위의 투영으로 작동합니다. 인터넷의 모든 최근 변경 사항은 해당 페이지가 완료된 후에 만 \u200b\u200b검색 결과에 반영 될 수 있습니다. 인덱싱 -검색 엔진 색인에 추가되었습니다. 따라서 첫 번째 근사치의 검색 엔진은 검색 엔진, 데이터베이스 또는 색인 (인덱스) 및 시스템의 진입 점으로 구성됩니다.

이제 검색 엔진의 구성 요소에 대해 간략히 설명합니다.

거미 또는 거미 (거미). 인터넷 리소스 페이지를 다운로드하는 애플리케이션입니다. 스파이더는 어느 곳에서나 "크롤링"하지 않습니다. 일반 인터넷 브라우저와 동일한 방식으로 페이지의 콘텐츠를 요청하여 서버에 HTTP 요청을 보내고 응답을받습니다. 페이지 콘텐츠가 다운로드되면 아래에 설명 된 인덱서 및 크롤러로 전송됩니다.

인덱서. 인덱서는 다운로드 한 페이지의 콘텐츠에 대한 초기 분석을 수행하고 주요 부분 (페이지 제목, 설명, 링크, 제목 등)을 강조 표시하고이 모든 것을 검색 데이터베이스의 섹션으로 분해하여 검색 엔진 인덱스에 배치합니다. . 이 과정을 인터넷 리소스 인덱싱, 따라서 서브 시스템 자체의 이름입니다. 초기 분석 결과에 따라 색인 작성자는 페이지가 일반적으로 색인에 포함되기에 "불 가치"하다고 결정할 수도 있습니다. 이 결정의 이유는 다를 수 있습니다. 페이지에 제목이 없거나 이미 색인에있는 다른 페이지의 정확한 사본이거나 법으로 금지 된 리소스에 대한 링크가 포함되어 있습니다.

무한 궤도. 이 "동물"은 스파이더가 다운로드 한 페이지에서 사용 가능한 링크를 "크롤링"하도록 설계되었습니다. 크롤러는 현재 페이지에서 사이트의 다른 섹션 또는 외부 인터넷 리소스 페이지로 이어지는 경로를 분석하고 World Wide Web의 스레드를 통과하는 스파이더의 추가 순서를 결정합니다. 검색 엔진의 새 페이지를 찾아 스파이더로 전송하는 것은 크롤러입니다. 크롤러의 작업은 너비와 깊이의 그래프를 검색하는 알고리즘을 기반으로합니다.

결과 처리 및 발행을위한 하위 시스템 (검색 엔진 및 결과 엔진). 모든 검색 엔진에서 가장 중요한 부분입니다. 개발자는 영업 비밀이기 때문에이 하위 시스템의 알고리즘을 엄격한 기밀로 유지합니다. 사용자 요청에 대한 검색 엔진 응답의 적절성을 담당하는 것은 검색 엔진의이 부분입니다. 여기에는 두 가지 주요 구성 요소가 있습니다.
- 순위 하위 시스템. 범위 -특정 요청과의 관련성에 따른 인터넷 사이트 페이지입니다. 페이지 관련성 -이것은 차례로 페이지 콘텐츠가 요청의 의미에 해당하는 정도이며 검색 엔진은 엄청난 수의 매개 변수를 기반으로이 값을 독립적으로 결정합니다. 순위는 검색 엔진 "인공 지능"에서 가장 신비스럽고 논란이 많은 부분입니다. 페이지의 구조 및 콘텐츠 (콘텐츠)와 함께 페이지의 순위는 다음의 영향을받습니다. 다른 사이트에서이 페이지로 연결되는 링크의 수와 품질; 사이트 자체 도메인의 나이; 페이지를 보는 사용자의 행동 특성 및 기타 여러 요인.
- 결과 발행을위한 서브 시스템. 이 하위 시스템의 작업에는 사용자 쿼리의 해석, 인덱스에 대한 구조화 된 쿼리 언어로의 번역, 검색 결과 페이지 형성이 포함됩니다. 쿼리 텍스트 자체를 구문 분석하는 것 외에도 검색 엔진은 다음 사항도 고려할 수 있습니다.
  - 컨텍스트 요청에 의해 형성 사용자의 이전 요청의 의미에 따라... 예를 들어 사용자가 자동차 관련 사이트를 자주 방문하는 경우 "Volga"또는 "Oka"라는 단어로 질문을 받으면 해당 브랜드의 자동차에 대한 정보를 받고 싶어 할 것입니다. 같은 이름의 러시아인이 강으로 흘러 들어갑니다. 그것은이라고 맞춤 검색다른 사용자에 대한 동일한 요청의 결과가 크게 다를 때.
  - 사용자 환경 설정그녀 (검색 엔진)가 "추측"할 수 있다는 사실, 사용자가 선택한 링크를 분석하여 검색 결과 페이지에서. 이것은 요청의 컨텍스트를 조정하는 또 다른 방법입니다. 사용자는 자신의 행동으로 컴퓨터에 정확히 찾고자하는 것을 알려줍니다. 일반적으로 검색 엔진은 검색어와 관련이 있지만 매우 다른 삶의 영역과 관련된 검색 결과에 페이지를 추가하려고합니다. 사용자가 영화에 관심이있어서 새 영화 발표가있는 페이지에 대한 링크를 자주 선택한다고 가정 해 보겠습니다. 이러한 페이지가 원래 검색어와 관련이없는 경우에도 마찬가지입니다. 다음 요청에 대한 응답을 생성 할 때 시스템은 영화에 대한 설명이있는 페이지에 우선권을 부여 할 수 있으며 제목에는 요청 텍스트의 단어가 포함됩니다.
  - 부위이는 현지 공급 업체의 상품 및 서비스 구매와 관련된 상업적 문의를 처리 할 때 매우 중요합니다. 판매 및 할인에 관심이 있고 모스크바에있는 경우 요청 텍스트에 명시 적으로 명시하지 않는 한 상트 페테르부르크에서이 주제에 대한 어떤 프로모션이 진행되는지 전혀 관심이 없을 가능성이 큽니다. 우선 모스크바에서의 판매에 대한 정보가 검색 결과에 나타나야합니다. 따라서 최신 검색 엔진은 쿼리를 지리적 의존 과 지리적 독립... 대부분의 경우 검색 엔진이 귀하의 요청이 지역에 따라 달라진다고 판단하면 지역 속성을 자동으로 추가하여 귀하의 인터넷 공급자에 대한 정보에서 결정을 시도합니다.
  - 시각... 검색 엔진은 페이지에 설명 된 이벤트가 발생한시기를 분석해야하는 경우가 있습니다. 결국, 정보는 지속적으로 구식이되고 있으며 사용자는 먼저 최신 뉴스, 현재 예측 및 아직 종료되지 않았거나 앞으로 올 이벤트에 대한 발표에 대한 모든 링크가 필요합니다. 페이지의 관련성은 시간에 따라 다르며 쿼리가 실행되는 순간에 페이지를 일치 시키려면 검색 엔진의 상당한 지능이 필요합니다.
  다음으로 검색 엔진은 가장 가까운 의미를 검색합니다. 주요 요청 색인에서 링크를 관련성 내림차순으로 정렬하여 결과를 생성합니다. 색인의 각 키워드에는 관련 페이지에 대한 별도의 순위가 있습니다. 모든 문자와 숫자 조합에 대해 시스템은 새로운 키 요청을 시작하지만 특정 사용자 요청의 빈도 분석을 기반으로합니다. 검색 엔진은 사용자가 원하는 경우 검색 결과에서 다른 키워드의 순위를 섞을 수도 있습니다.

검색 엔진의 일반 원칙

인터넷 검색 서비스는 매우 수익성이 높은 사업이라는 것을 이해해야합니다. 수익의 주요 부분은 문맥 광고 수입이기 때문에 Google 및 Yandex와 같은 회사의 생활 방식에 대해 자세히 설명 할 필요가 없습니다. 그리고 인터넷 검색은 매우 수익성이 높은 사업이기 때문에 그러한 기업 간의 경쟁은 매우 심각합니다. 인터넷 검색 시장에서 경쟁력을 결정하는 요인은 무엇입니까? 대답은 검색 엔진 결과의 품질입니다. 높을수록 시스템이 더 많은 신규 사용자를 보유하고이 문제의 페이지에 게재되는 문맥 광고의 가치가 더 높다는 것은 논리적입니다. 검색 엔진 개발자는 일반적으로 스팸이라고하는 모든 종류의 정보 쓰레기에서 검색 결과의 결과를 "정리"하기 위해 많은 노력을 기울입니다. 이 작업이 수행되는 방법에 대한 자세한 내용은 별도의 기사에서 설명하고, 여기에서는 위의 모든 사항에 대한 결론 형식으로 공식화 된 검색 엔진 동작의 일반 원칙을 제공합니다.

스파이더와 크롤러로 대표되는 검색 엔진은 관련없는 정보가 아래에 평가되기 때문에 기존 페이지에 대한 새로운 업데이트와 업데이트가 있는지 인터넷을 지속적으로 검색합니다.

새 페이지가 색인에 지속적으로 나타나기 때문에 검색 엔진은 주요 쿼리와의 관련성에 따라 주기적으로 리소스 순위를 업데이트합니다. 이 프로세스를 SERP 업데이트라고합니다.

월드 와이드 웹에 게시되는 엄청난 양의 정보와 검색 엔진 자체의 제한된 리소스로 인해 검색 엔진은 항상 필요한만큼만 다운로드하려고합니다. 그 무기고에는 색인 단계에서 이미 불필요한 것을 차단하거나 검색 결과 업데이트의 결과로 색인에서 스팸을 던지는 모든 종류의 필터가 있습니다.

쿼리를 분석 할 때 최신 검색 엔진은 쿼리 자체의 텍스트뿐만 아니라 그 환경도 고려하려고합니다. 앞에서 언급 한 사용자의 컨텍스트와 선호도, 쿼리 시간, 지역 및 훨씬 더.

특정 페이지의 관련성은 내부 매개 변수 (구조, 콘텐츠)뿐만 아니라 다른 사이트에서 페이지로 연결되는 링크 및 페이지를 볼 때 사용자 행동과 같은 외부 매개 변수의 영향을받습니다.

검색 엔진은 지속적으로 개선되고 있습니다. 검색 엔진 (인간을위한)의 이상적인 작업은 인덱싱 및 순위 지정에 관한 모든 결정이 인간 활동의 모든 분야와 영역에서 많은 전문가로 구성된위원회에 의해 내려진 경우에만 가능합니다. 이것은 비현실적이기 때문에 그러한 커미션은 전문가 시스템, 휴리스틱 검색 알고리즘 및 기타 인공 지능 요소로 대체됩니다. 아마도 이러한 모든 하위 시스템의 작업은 인터넷의 공용 도메인에서 사용할 수있는 모든 데이터를 절대적으로 처리 할 수 \u200b\u200b있다면 더 적절한 결과를 제공 할 수 있지만 실제로는 불가능합니다. 불완전한 인공 지능과 제한된 리소스는 검색 결과가 항상 사용자에게 만족 스럽지는 않지만 시간이 지나면이 모든 것이 치유 될 수있는 두 가지 주요 이유입니다. 오늘날 제 생각에는 가장 유명하고 큰 검색 엔진의 작업이 사용자의 요구와 기대를 완전히 충족시킵니다.

독자 여러분 안녕하세요!

현재 세계 인터넷 공간에는 많은 검색 엔진이 있습니다. 그들 각각은 사이트 색인 및 순위 지정에 대한 자체 알고리즘을 가지고 있지만 일반적으로 검색 엔진의 작동 원리는 매우 유사합니다.

경쟁이 급증하는 환경에서 검색 엔진이 어떻게 작동하는지에 대한 지식은 상업용뿐만 아니라 정보 제공 사이트와 블로그를 홍보 할 때 중요한 이점입니다. 이 지식은 웹 사이트 최적화를위한 효과적인 전략을 구축하는 데 도움이되며, 적은 노력으로 승격 된 쿼리 그룹에 대한 TOP 결과를 얻을 수 있습니다.

검색 엔진의 작동 원리

옵티 마이저 작업의 요점은 승격 된 페이지를 검색 알고리즘으로 "조정"하여 이러한 페이지가 특정 쿼리에 대해 높은 위치에 도달하도록 돕는 것입니다. 그러나 사이트 또는 블로그 최적화 작업을 시작하기 전에 최적화 프로그램이 수행 한 작업에 어떻게 반응 할 수 있는지 이해하기 위해 검색 엔진 작업의 특성을 최소한 피상적으로 이해해야합니다.

물론 검색 결과 형성에 대한 자세한 내용은 검색 엔진이 공개하지 않는 정보입니다. 그러나 올바른 노력을 위해 검색 엔진이 작동하는 주요 원칙을 이해하는 것으로 충분합니다.

정보 검색 방법

오늘날 검색 엔진에서 사용하는 두 가지 주요 방법은 정보 검색 방식이 다릅니다.

직접 검색 알고리즘검색 엔진 데이터베이스에 저장된 각 문서를 키 구문 (사용자 요청)과 일치시키는 작업은 필요한 모든 정보를 찾을 수있는 상당히 안정적인 방법입니다. 이 방법의 단점은 큰 데이터 세트에서 검색 할 때 답을 찾는 데 필요한 시간이 상당히 길다는 것입니다.
역 인덱스 알고리즘, 핵심 문구가 존재하는 문서 목록과 비교할 때 수천만 페이지와 수억 페이지를 포함하는 데이터베이스와 상호 작용할 때 편리합니다. 이 방법을 사용하면 모든 문서가 아닌 사이트 페이지에 포함 된 단어 목록을 포함하는 특수 파일에서만 검색이 수행됩니다. 이러한 목록의 각 단어에는 해당 단어가 발생하는 위치의 좌표 및 기타 매개 변수가 표시됩니다. 오늘날 Yandex 및 Google과 같은 잘 알려진 검색 엔진의 작업에 사용되는 방법입니다.

사용자가 브라우저의 검색 창에 액세스 할 때 검색은 인터넷에서 직접 수행되는 것이 아니라 검색 엔진 (사이트 페이지)에 의해 처리되는 정보 블록을 포함하는 미리 수집되고 저장된 현재 관련 데이터베이스에서 수행된다는 점에 유의해야합니다. . 역 색인 작업으로 정확한 검색 결과의 빠른 형성이 가능합니다.

검색 엔진에 의해 페이지의 텍스트 콘텐츠 (직접 색인)도 저장되고 요청에 가장 적합한 텍스트 조각에서 스 니펫 자동 생성에 사용됩니다.

순위의 수학적 모델

검색 속도를 높이고 사용자의 요청에 가장 잘 맞는 문제를 생성하는 프로세스를 단순화하기 위해 특정 수학적 모델이 사용됩니다. 이 수학적 모델의 임무는 역 인덱스의 현재 데이터베이스에서 필요한 페이지를 찾고, 쿼리 준수 정도를 평가하고, 관련성 내림차순으로 배포하는 것입니다.

페이지에서 올바른 문구를 찾는 것만으로는 충분하지 않습니다. 검색 엔진에 의해 결정되면 사용자 요청과 관련된 문서의 가중치 계산이 적용됩니다. 각 요청에 대해이 매개 변수는 분석 된 페이지에서의 사용 빈도 및 검색 엔진 데이터베이스의 다른 문서에서 동일한 단어가 발견되는 빈도를 반영하는 계수를 기반으로 계산됩니다. 이 두 값의 곱은 문서의 무게에 해당합니다.

물론, 제시된 알고리즘은 검색 엔진이 계산에 사용되는 여러 추가 계수를 처분 할 수 있기 때문에 매우 단순하지만 의미는 이것으로부터 변경되지 않습니다. 문서에서 사용자 요청의 개별 단어가 자주 발생할수록 후자의 가중치가 높아집니다. 이 경우 요청마다 다른 특정 제한을 초과하면 페이지의 텍스트 콘텐츠가 스팸으로 간주됩니다.

기본 검색 엔진 기능

기존의 모든 검색 시스템은 정보 검색, 인덱싱, 질적 평가, 정확한 순위 및 검색 결과 형성과 같은 몇 가지 중요한 기능을 수행하도록 설계되었습니다. 검색 엔진의 주요 임무는 사용자가 찾고있는 정보, 특정 요청에 대한 가장 정확한 답변을 제공하는 것입니다.

대부분의 사용자는 인터넷 검색 엔진의 작동 방식에 대해 전혀 모르고 "올바른"검색 (예 : 검색 팁)에 대해 사용자를 교육 할 기회가 매우 제한되어 있기 때문에 개발자는 검색 자체를 개선해야합니다. 후자는 검색 엔진의 작동 원리와 알고리즘의 생성을 의미하며, 검색 쿼리가 "올바르게"작성되었는지에 관계없이 필요한 정보를 찾을 수 있습니다.

스캐닝

이는 이미 인덱싱 된 문서의 변경 사항을 추적하고 사용자 요청에 대한 검색 결과에 표시 될 수있는 새 페이지를 검색합니다. 검색 엔진은 스파이더 또는 검색 로봇이라는 특수 프로그램을 사용하여 인터넷상의 리소스를 검색합니다.

검색 봇은 자동으로 인터넷 리소스를 검색하고 데이터를 수집합니다. 사이트를 처음 방문하고 검색 데이터베이스에 포함시킨 후 로봇은 콘텐츠의 변경 사항을 추적하고 기록하기 위해 주기적으로이 사이트를 방문하기 시작합니다.

인터넷상의 개발 자원이 많고 매일 새로운 사이트가 나타나기 때문에 설명 된 프로세스는 1 분 동안 멈추지 않습니다. 인터넷에서 검색 엔진을 작동하는이 원칙을 사용하면 네트워크에서 사용할 수있는 사이트와 해당 콘텐츠에 대한 최신 정보를 항상 가질 수 있습니다.

검색 로봇의 주요 임무는 새로운 데이터를 검색하고 추가 처리를 위해 검색 엔진으로 전송하는 것입니다.

인덱싱

검색 엔진은 데이터베이스에 표시된 사이트, 즉 색인화 된 사이트에서만 데이터를 찾을 수 있습니다. 이 단계에서 검색 엔진은 찾은 정보를 데이터베이스에 입력해야하는지 여부와 입력해야하는 경우 어느 섹션에 입력해야하는지 결정해야합니다. 이 프로세스도 자동입니다.

Google은 웹에서 사용할 수있는 거의 모든 정보에 대해 색인을 생성하는 반면 Yandex는 콘텐츠 색인 생성에 더 빨리 접근하지 않고 더 선택적으로 접근합니다. 러시아 인터넷의 두 검색 거물은 사용자의 이익을 위해 작동하지만 검색 엔진 Google과 Yandex의 일반 원칙은 각 시스템을 구성하는 고유 한 소프트웨어 솔루션을 기반으로하기 때문에 다소 다릅니다.

검색 엔진의 일반적인 요점은 모든 새 리소스를 인덱싱하는 프로세스가 시스템에 알려진 사이트에서 새 콘텐츠를 인덱싱하는 것보다 시간이 더 오래 걸린다는 것입니다. 검색 엔진에서 신뢰도가 높은 사이트에 나타나는 정보는 거의 즉시 색인에 포함됩니다.

범위

순위는 색인화 된 데이터의 중요성을 검색 엔진 알고리즘에 의해 평가하고이 검색 엔진에 내재 된 요소에 따라 정렬합니다. 수신 된 정보는 사용자 쿼리의 전체 스펙트럼에 대한 검색 결과를 생성하기 위해 처리됩니다. 위의 검색 결과에 표시되는 정보와 아래에 표시되는 정보는 선택한 검색 엔진과 해당 알고리즘의 작동 방식에 따라 전적으로 결정됩니다.

검색 엔진 데이터베이스의 사이트는 제목 및 쿼리 그룹으로 구분됩니다. 각 요청 그룹에 대해 추가 조정이 필요한 예비 문제가 생성됩니다. 대부분의 사이트의 위치는 문제가 업데이트 될 때마다 변경됩니다 (매일 Google에서 발생하는 순위 업데이트, Yandex 검색에서 며칠마다).

문제의 질을위한 투쟁의 조수로서의 사람

현실은 현재 Yandex 및 Google과 같은 가장 진보 된 검색 엔진조차도 허용 된 품질 표준을 충족하는 SERP를 생성하기 위해 여전히 인간의 도움이 필요합니다. 검색 알고리즘이 충분히 수행되지 않는 경우 다양한 기준에 따라 페이지 콘텐츠를 평가하여 결과를 수동으로 조정합니다.

검색 엔진의 중재자 (평가자)와 같은 다른 국가의 특수 교육을받은 대규모 군대가 매일 웹 사이트 페이지의 사용자 요청 준수 여부를 확인하고 스팸 및 금지 된 콘텐츠 (텍스트 , 이미지, 동영상). 평가자의 작업을 통해 발행물을 더 깨끗하게 만들고자가 학습 검색 알고리즘의 추가 개발에 기여할 수 있습니다.

결론

인터넷의 발전과 콘텐츠 표현의 표준 및 형식의 점진적인 변화에 따라 검색 접근 방식이 변화하고 정보 색인 및 순위 지정 프로세스가 개선되고 사용되는 알고리즘이 개선되고 새로운 순위 요소가 나타납니다. 이 모든 것이 검색 엔진이 가장 고품질의 적절한 검색 결과를 생성하도록 허용하지만 동시에 웹 사이트 프로모션에 관련된 웹 마스터 및 전문가의 삶을 복잡하게 만듭니다.

이 기사의 의견에서 나는 Yandex 또는 Google과 같은 러시아 인터넷의 주요 검색 엔진 중 어느 것이 더 잘 작동하는지, 사용자에게 더 나은 검색을 제공하고 그 이유에 대해 말할 것을 제안합니다.

그들은 가장 중요한 주요 인터넷 서비스 중 하나입니다.

수십억 명의 인터넷 사용자가 검색 엔진을 사용하여 필요한 정보를 찾습니다.

검색 엔진이란 무엇입니까?

검색 엔진은 특수 알고리즘을 사용하여 다양한 사이트에 대한 방대한 양의 정보, 각 페이지의 콘텐츠에 대한 정보를 처리하는 소프트웨어 및 하드웨어 복합체입니다.

일반 방문자의 관점에서 볼 때 검색 엔진은 많은 정보를 포함하고 모든 사용자 쿼리에 응답하는 스마트 사이트입니다.

다른 국가에서 인터넷 사용자는 다른 검색 엔진을 사용합니다. 영어를 사용하는 인터넷 부문에서 가장 인기있는 검색 엔진은 Google입니다.

Runet의 검색 엔진

러시아에서는 사용자의 절반 이상이 Yandex 검색 엔진을 선호하며 Google이 쿼리의 약 35 %를 차지합니다. 나머지 사용자는 Rambler, Mail.ru, Nigma 및 기타 서비스를 사용합니다.

우크라이나에서는 약 60 %의 사용자가 Google을 사용하는 반면 Yandex는 처리 된 요청의 25 % 이상을 차지합니다.

따라서 Runet에서 사이트를 홍보 할 때 전문가는 Yandex 및 Google 검색 엔진에 중점을 두어 사이트를 홍보하려고합니다.

검색 엔진 작업

방문자의 질문에 가능한 한 정확하게 답변하기 위해 검색 엔진은 다음 작업을 수행해야합니다.

다양한 사이트의 다양한 페이지에 대한 정보를 빠르고 효율적으로 수집합니다.
이러한 페이지에 대한 정보를 처리하고 해당 페이지에 해당하는 요청을 결정합니다.
사용자 요청에 대한 응답으로 검색 결과를 생성하고 발행합니다.

검색 엔진의 구성 요소

검색 엔진은 다음과 같은 주요 블록으로 구성된 복잡한 소프트웨어 패키지입니다.

데이터 수집.
인덱싱.
계산.
범위.

이 구분은 조건부입니다. 다른 검색 엔진의 작업이 서로 다소 다르기 때문입니다.

1. 데이터 수집

이 단계에서 작업은 새 문서를 찾고 방문 및 스캔 계획을 세우는 것입니다.

웹 마스터는 추가 기능에 페이지 주소를 배치하거나 소셜 네트워크에서 페이지의 발표를 유도하여 새로운 자료의 출현에 대해 검색 엔진에 알려야합니다.

개인적으로는 후자의 방법을 사용하는데 이것으로 충분하다고 생각합니다.

논평. 새로운 웹 사이트 페이지의 색인 생성 속도에 대해 소셜 네트워크에 공지 사항을 게시하는 효과에 대해 조금 이야기하겠습니다.

text.ru 서비스를 사용하여 내 사이트 페이지의 텍스트 고유성을 제어하고 수정합니다.

그는 고유성을 정 성적으로 확인하고 수정하여 사이트 페이지에 고유성 배너를 배치 할 수 있도록합니다.

그러나 때때로이 서비스에는 처리를위한 긴 대기열이 있습니다. 고유성 검사를 기다리지 않고 사이트에 글을 올린 후 소셜 네트워크에 보냈을 때 몇 가지 사례가있었습니다.

고유성 검사가 약 1 시간 이상 지연된 경우 고유성 백분율은 항상 0 %였습니다. 이는 배치 후 1 시간 이내에 페이지가 이미 색인화되어 검색 엔진 데이터베이스에 입력되었음을 의미합니다.

2. 인덱싱

검색 엔진은 새로운 웹 페이지에서 데이터를 수집하여 데이터베이스에 저장합니다. 동시에 색인이 형성됩니다. 즉, 필요한 경우이 페이지에 대한 데이터에 빠르게 액세스 할 수있는 키입니다.

3. 계산

데이터베이스에 들어가면 우리 사이트의 페이지는 다양한 매개 변수와 지표를 계산하는 단계를 거칩니다.

검색 엔진 알고리즘 자체의 개발자를 제외하고는 이러한 지표 중 몇 개와 정확히 계산되는 방법은 아무도 할 수 없습니다.

4. 순위

그런 다음 계산 된 매개 변수 및 지표를 기반으로 특정 요청에 대한 페이지의 관련성이 결정되고이 페이지의 순위가 수행됩니다.

이는 이러한 쿼리에 대한 검색 결과 페이지를 빠르고 고품질로 구성하는 데 중요합니다.

검색 엔진은 사용자 쿼리에 대한 응답을 형성하고 검색 결과 페이지 형식으로 결과를 생성합니다.

페이지 데이터 처리, 지표 형성 및 순위 지정 방법을위한 알고리즘이 지속적으로 개선되고 있다는 점에 유의해야합니다. 순위 우선 순위가 변경되고 있습니다.
검색 엔진은 요청의 성격, 특정 사용자의 관심사, 거주지, 나이, 성별, 습관, 성향을 고려하여 가능한 한 정확하게 사용자 요청에 응답하기 위해 노력합니다.

우리 시대에 가장 인기있는 웹 서비스는 검색 엔진입니다. 최초의 인터넷 사용자의 대표자가 네트워크에서 새로운 항목을 관찰 할 수 있었던 시대가 지났기 때문에 여기서 모든 것을 이해할 수 있습니다.

너무 많은 정보가 나타나고 축적되어 사람이 필요한 정보를 정확히 찾는 것이 매우 어려워졌습니다. 일반 사용자가 정보를 검색해야하는데 어디서 정보를 검색해야하는지 모르겠다면 인터넷 검색이 어떻게 될지 상상해보십시오. 수동 검색으로 많은 정보를 찾을 수 없기 때문에 어디에 있는지 이해하지 마십시오.

검색 엔진은 무엇입니까?

사용자가 필요한 정보가있을 수있는 사이트를 이미 알고 있으면 좋지만 그렇지 않으면 어떻게해야합니까? 인터넷에서 필요한 정보를 찾는 사람의 삶을 편하게 만들기 위해 검색 엔진 또는 단순히 검색 엔진이 발명되었습니다. 검색 엔진은 하나의 매우 중요한 기능을 수행합니다.이 기능이 없으면 인터넷이 우리가 보는 데 익숙한 것과 같지 않을 것입니다. 웹에서 정보를 검색하는 것입니다.

검색 시스템 -이것은 특별한 웹 사이트 또는 다른 방식으로 사용자의 요청에 따라 주어진 검색어에 응답하는 사이트 인 페이지에 대한 하이퍼 링크를 제공하는 사이트입니다.

좀 더 정확하게 말하면 소프트웨어 및 하드웨어 기능 세트와 사용자와의 상호 작용을위한 웹 인터페이스 덕분에 인터넷에서 정보 검색이 수행됩니다.

검색 엔진과의 인간 상호 작용을 위해 웹 인터페이스, 즉 눈에 잘 띄고 이해할 수있는 쉘이 만들어졌습니다. 이러한 검색 엔진 개발자의 접근 방식을 통해 많은 사람들이 쉽게 찾을 수 있습니다. 일반적으로 검색 엔진을 사용하여 검색이 수행되는 것은 인터넷에 있지만 FTP 서버, World Wide Web의 특정 유형의 상품 또는 뉴스 정보 또는 기타 검색 방향에 대한 검색 엔진도 있습니다.

검색은 사이트의 텍스트 콘텐츠뿐만 아니라 사람이 검색 할 수있는 다른 유형의 정보 (이미지, 비디오, 사운드 파일 등)에서도 수행 할 수 있습니다.

검색 엔진은 어떻게 검색합니까?

웹 사이트를 검색하는 것과 마찬가지로 인터넷 자체에서 검색하는 것은 브라우저 인 인터넷 브라우저를 사용하여 가능합니다. 사용자가 검색 창에 요청을 설정 한 후에 만 \u200b\u200b검색 자체가 직접 수행됩니다.

모든 검색 엔진에는 전체 검색 엔진의 기반이되는 소프트웨어 부분이 포함되어 있으며이를 검색 엔진이라고합니다. 이것은 정보 검색 기능을 제공하는 소프트웨어 패키지입니다. 검색 엔진, 검색 쿼리를 구성하고 검색 창에 입력 한 사람과 접촉하면 검색 엔진은 검색 결과 목록이있는 페이지를 생성합니다. 검색 엔진의 의견으로는 가장 관련성이 높은 페이지가 여기에 있습니다.

검색 관련성-사용자의 요청과 가장 관련이있는 자료를 찾고 SERP에 하이퍼 링크를 배치하여 다른 것보다 더 정확한 결과를 얻습니다. 결과 자체의 분포를 사이트 순위라고합니다.

그렇다면 검색 엔진은 발행을 위해 자료를 어떻게 준비하고 검색 엔진 자체가 정보를 어떻게 검색합니까? 네트워크상의 정보 수집은 각 검색 엔진에 고유 한 로봇 또는 다른 방식으로 크롤러 또는 스파이더와 같은 여러 다른 동의어를 가진 봇에 의해 촉진되며 검색 시스템 자체는 다음과 같이 나눌 수 있습니다. 세 단계 :

검색 엔진 작업의 첫 번째 단계는 글로벌 네트워크의 사이트를 크롤링하고 자체 서버에서 웹 페이지 사본을 수집하는 것입니다. 이로 인해 아직 처리되지 않은 엄청난 양의 검색 결과에 대한 부적절한 정보가 형성됩니다.

검색 엔진 작업의 두 번째 단계는 사이트에서 이전에받은 정보를 첫 번째 단계에서 정렬하는 것입니다. 이러한 정렬이 수행되어 사용자가 실제로 검색 엔진에서 기대하는 매우 높은 품질의 검색을 최소한의 시간에 선호합니다. 이 단계를 인덱싱이라고하는데, 이는 페이지가 이미 배달 준비가되었으며 현재베이스가 인덱스로 간주됨을 의미합니다.

클라이언트로부터 요청을받은 후 요청에 지정된 키 또는 근처 키워드를 사용하여 검색 결과를 결정하는 세 번째 단계입니다. 이를 통해 요청 및 후속 발급에 가장 적합한 정보를 쉽게 선택할 수 있습니다. 정보가 많기 때문에 검색 엔진은 알고리즘에 따라 순위를 매 깁니다.
최고의 검색 엔진은 사용자의 요청에 가장 정확하게 응답하는 자료를 제공 할 수있는 것으로 간주됩니다. 그러나 여기에서도 사이트 홍보에 관심이있는 사람들의 영향을받은 결과가있을 수 있습니다. 이러한 사이트는 항상 그런 것은 아니지만 검색 결과에 자주 표시되지만 오래 가지는 않습니다.

이미 많은 지역에서 세계적인 리더가 확인되었지만 검색 엔진은 계속해서 양질의 검색을 개발하고 있습니다. 더 나은 검색을 제공할수록 더 많은 사람들이 사용할 수 있습니다.

검색 엔진을 사용하는 방법?

검색 엔진이란 무엇이며 어떻게 작동하는지는 이미 명확하지만 올바르게 사용하는 방법은 무엇입니까? 대부분의 사이트에는 항상 검색 창이 있으며 그 옆에는 찾기 또는 검색 버튼이 있습니다. 검색 창에 쿼리를 입력 한 후 검색 버튼을 누르거나 키보드의 Enter 키를 누르면 몇 초 안에 쿼리 결과가 다음과 같은 형식으로 표시됩니다. 목록.

그러나 검색 쿼리에 대한 올바른 답변을 얻는 것이 항상 가능한 것은 아닙니다. 원하는 검색이 힘들지 않게 검색 쿼리를 올바르게 작성하고 아래에 설명 된 권장 사항을 따라야합니다.

검색어를 올바르게 작성합니다.

다음은 검색 엔진 사용에 대한 몇 가지 팁입니다. 검색 엔진에서 정보를 검색 할 때 몇 가지 트릭과 규칙을 따르면 원하는 결과를 훨씬 더 빠르게 얻을 수 있습니다. 다음 지침을 따르십시오.

유능한 단어 철자는 원하는 정보 개체와 일치하는 최대 수를 보장합니다 (현대 검색 엔진은 이미 철자 오류를 수정하는 방법을 배웠지 만이 조언을 무시해서는 안됩니다).
검색어에 동의어를 사용하면 더 넓은 검색 범위를 포괄 할 수 있습니다.
때로는 쿼리 텍스트에서 단어를 변경하면 더 많은 결과를 가져올 수 있으며 쿼리를 다시 구성 할 수 있습니다.
쿼리에 특수성을 가져오고 검색의 주요 본질을 정의해야하는 구문의 정확한 발생을 사용합니다.
키워드로 실험하십시오. 키워드와 구문을 사용하면 요점을 정의하는 데 도움이 될 수 있으며 검색 엔진은 더 관련성있는 결과를 반환합니다.

따라서 검색 엔진은 관심있는 정보를 찾을 수있는 기회 일 뿐이며 일반적으로 완전히 무료로 사용하고, 무언가를 배우고, 무언가를 이해하거나, 자신에게 맞는 결론을 도출 할 수 있습니다. 많은 사람들은 텍스트를 입력 할 필요가없고 요청을 발음하기 만하면되고 여기에 입력 장치가 마이크 인 음성 검색 없이는 더 이상 자신의 삶을 상상할 수 없습니다. 이 모든 것은 인터넷에서 검색 기술의 끊임없는 발전과 그 필요성을 증명합니다.