Organisation de la recherche d'informations pédagogiques sur Internet. Principes d'organisation et de recherche d'informations sur Internet

Rechercher des informations dans réseau mondial L'Internet: informations générales

Basés sur le principe d'organisation et d'utilisation, les outils de recherche peuvent être divisés en :

Catalogues . Les annuaires sont des répertoires contenant des listes d'adresses Internet, regroupées selon certains critères. En règle générale, ils sont regroupés par sujet (science, art, actualité, etc.), où chaque sujet se divise en plusieurs sous-niveaux. Quelques répertoires de recherche :

Nom

Oh !

www.au.ru

Atrus (enregistrement requis)

www.atrus.ru

Liste.ru

www.list.ru

Constellation

www.stars.ru

Escargot

www.ulitka.ru

Ivan Suzanine

www.susanin.ru

Moteurs de recherche voitures . Pour la recherche détaillée des documents, des systèmes de recherche spécialisés – des moteurs de recherche – sont utilisés. Lorsqu'une demande est reçue d'un utilisateur, le moteur de recherche produit une liste de documents correspondant à la tâche de recherche. Les documents trouvés sont classés en fonction de la localisation des mots-clés (dans le titre, au début du texte, dans les premiers paragraphes) et de la fréquence de leur apparition dans le texte. L'utilisation de différents moteurs de recherche produit des résultats différents. Les moteurs de recherche les plus courants :

Nom

je indice

www. Yandex. ru

UN port

www.aport.ru

R. Ambler

www.rambler.ru

g angle

www.google.ru

M eil

www. mail.ru

je xo

www.yahoo.com

UN ltavista

www.altavista.com

Une requête de recherche peut comprendre un ou plusieurs mots et contenir divers signes de ponctuation. Quant au cas, en général, le cas de l'écriture de mots et d'opérateurs de rechercheça n'a pas d'importance , c'est-à-dire que les mots « abstract », « Abstract », abstract, « ABSTRACT » et « ReferAt » seront perçus de la même manière. Cela s'applique pleinement à l'alphabet latin. Alors, "Ouies" et "oui", et même "oui", "oui" et "OUI" - ils sont tous identiques pour la recherche.

Travaux pratiques"Recherche d'informations sur Internet"

Cacher l'arôme dans les bourgeons,

Le lilas est en fleurs.

Mai fleurit, ce qui veut dire

Aujourd'hui, c'est un jour férié : le 1er mai !

Sauvegarder poème:

Recherche photos de vacances :
Consultez les résultats de la recherche situé sur 1 page. Allez à la page 2 : faites défiler la molette de la souris pour arriver en bas de la fenêtre du navigateur et cliquezL KM sur le lien de la page2 .
Sélectionner la photo que vous aimez et cliquez dessusL KM.

Dans une nouvelle fenêtre, vous verrez la même image, seulement agrandie. À droite se trouveront des informations sur la taille de l'image et les sites sur lesquels elle se trouve.

Copiez l'image :

Cliquez surP. KM de la photo ;
choisis une équipeCopier l'image ;
fermez la fenêtre du navigateur en cliquant sur le boutonFermer .

Insérer une image se documenter:

va à la fenêtre éditeur de texte(il devrait y avoir un poème de félicitations) ;
Ancrez le curseur en un clicL KM après le dernier caractère du poème (c'est! ) et appuyez sur la toucheEntrer pour déplacer le curseur sur une nouvelle ligne ;
Cliquez surP. KM ;
dans le menu local sélectionnez la commandeInsérer .

Enregistrez le document dans votre dossier personnel sous le nomFélicitations à *** de *** . Au lieu du premier ***, tapez le nom de la personne à qui les félicitations seront envoyées ; Au lieu du deuxième ***, tapez votre nom. Par exemple,Félicitations pour Anastasia d'Olga . Fermez votre programme d'édition de texte.

Lancez votre navigateur Google Chrome
.

Accédez à votre boîte aux lettres sur le portailmail . ru

Dans le menu principal de messagerie (en haut de la fenêtre), sélectionnez la commandeÉcrire .

Remplissez les champs obligatoires :

Sélectionnez un boutonEnvoyer (il est situé en haut et en bas de la fenêtre du navigateur).
Fermez la fenêtre de votre navigateur.
Éteignez votre ordinateur.

Exercice 1

Exercice : Découvrez le nom du plus grand lac d'eau douce du monde.

Pour un travail optimal et rapide avec les moteurs de recherche, il existe certaines règles de rédaction des requêtes. Une liste détaillée d'un serveur de recherche spécifique peut, en règle générale, être trouvée sur le serveur lui-même à l'aide des liens Aide, Astuce, Règles de requête, etc.

Organisez une recherche et remplissez le tableau avec les résultats de la recherche :

Question

Résultats de recherche (nombre de pages)

Yandex . ru

randonneur . ru

google.ru

mail .ru

un port . ru

Comment retrouver une personne sur Internet à partir d’une photo ?

Comment s'inscrire sur le site VKontakte ?

Comment supprimer les yeux rouges ?

Fermez votre navigateur (quittez le programme).

Exercice 2

Exercice : trouverbiographie du ministre de l'Éducation de la Fédération de Russie A.A. Fursenko en utilisant un moteur de rechercheg Google. r toi

Exercice 3

Rechercher des œuvres littéraires sur Internet

Attention! Pour afficher le format des livresFacebook2, vous avez besoin d'un programme spécial ("lecteur"). Par exemple,AlReader .

Recherche d'informations sur Internet

Recherche d'informations sur Internet

Pour rechercher des informations couramment utilisé trois façons(Voir Fig.1). D'abord dont - recherche par adresse. Il est utilisé lorsque l'utilisateur connaît l'adresse d'une ressource d'information contenant les informations dont il a besoin. Lors de l'organisation d'une recherche d'informations par adresse (la forme de l'adresse - IP, domaine ou URL - dans ce cas n'a pas d'importance), l'utilisateur doit simplement saisir l'adresse de la ressource dans le champ approprié du navigateur - un programme conçu pour donner accès aux ressources du réseau.

Riz. 1. Modalités de recherche d'informations dans les bases de données hypertextes

Deuxième- effectuer une recherche à l'aide de la navigation par hyperliens. Lors de l'utilisation de ce type de cas de recherche, l'utilisateur doit d'abord accéder au serveur associé à la base de données correspondante. Vous pouvez ensuite retrouver le document à l'aide d'hyperliens. Évidemment, cette méthode est pratique lorsque l'adresse de la ressource est inconnue de l'utilisateur. Les portails Web sont destinés à être utilisés comme point de départ pour la recherche lors de la mise en œuvre de cette méthode - des serveurs qui fournissent un accès direct à un certain ensemble de serveurs, y compris ceux qui y sont installés. ressources d'information, ainsi que des applications Web qui implémentent des services Web correspondant à l'objectif du portail. Les serveurs accessibles via le portail peuvent appartenir à un système spécifique (par exemple, d'entreprise) ou divers systèmes et être spécialement sélectionnés en fonction de la nature, des caractéristiques thématiques ou autres des documents et données contenus sur leurs sites Internet. Généralement, les portails combinent diverses fonctions afin de fidéliser le client le plus longtemps possible. Le service dominant du portail est le service bureau d'aide: recherche, catégories, indices financiers, informations météo, etc. Si les sites Web sont dans la plupart des cas des collections de pages Web statiques, alors les portails sont des collections logiciel et des informations pré-non structurées que ces outils transforment en données structurées à la demande d'utilisateurs spécifiques.

Troisième La méthode de recherche implique l'utilisation de serveurs de recherche Internet. Les serveurs de recherche sont des ordinateurs hôtes dédiés qui hébergent des bases de données de ressources Internet. Interface utilisateur un tel serveur dispose d'un champ pour saisir des mots-clés décrivant le sujet qui intéresse l'utilisateur (voir Fig. 2).

Figure 2. Vue de la fenêtre du serveur de recherche Yandex

Le serveur perçoit ces mots comme une demande d'information, selon laquelle il recherche des ressources et présente à l'utilisateur une liste de documents trouvés. Évidemment, lors de la mise en œuvre de cette méthode, des erreurs de type 1 (manque de cible) et de type 2 (bruit d'information) sont possibles. Il convient de mentionner qu'il existe deux groupes de serveurs de recherche : les moteurs de recherche et les catalogues thématiques. Leur différence est due à la méthode de création puis de réapprovisionnement de la base de données des ressources Internet, qui ce serveur réalise recherche d'information. Ainsi, les moteurs de recherche incluent programme spécial- robot de recherche. Il surveille en permanence le réseau, collecte des informations auprès de les pages Web, les indexe et enregistre leur image de recherche dans sa base de données. Dans les catalogues thématiques, une base de données de documents Internet est créée « manuellement » par des éditeurs spécialisés. Puisqu'il n'existe pas d'administration unifiée sur Internet, ses ressources d'information évoluent constamment. De nouveaux documents peuvent y apparaître et des documents existants peuvent disparaître. La fréquence de mise à jour des informations dans les documents des différents sites est différente : pour certains c'est plusieurs fois par heure, pour certains c'est une fois par jour, jour, mois, etc. Il est donc très important de comprendre que lors de l'utilisation des informations moteurs de recherche Pour trouver des informations sur Internet, la recherche s'effectue non pas sur l'espace réel des documents Internet, mais dans un modèle dont le contenu peut différer sensiblement du contenu Internet réel au moment de la recherche. Sur la base de la couverture des ressources indexées, les moteurs de recherche peuvent être divisés en deux groupes : internationaux et russes. Les premiers indexent consécutivement tous les documents publiés sur Internet. Ces derniers indexent des ressources situées dans des zones de domaine à prédominance de la langue russe. La liste des systèmes les plus populaires est donnée dans le tableau. 1.

Tableau 1. Moteurs de recherche les plus populaires

International	russe parlant
Google	Yandex (44,4% de Runet)
Yahoo!	Rambler (10,6% de Runet)
Bing	Mail.ru (7,3% de Runet)
MSN	Nigma (0,5% de Runet)
AltaVista	Gogo.ru (0,3% de Runet)
Demander	Port (0,2% de Runet)

Remarque : Runet est la partie russe d'Internet, comprenant des domaines portant les noms ru et RF.

Il est nécessaire de mentionner qu'il existe une catégorie spéciale de serveurs de recherche : les métamoteurs de recherche. Leur différence fondamentale avec les moteurs de recherche et les catalogues thématiques est qu'ils ne disposent pas de leur propre base de données d'index et, par conséquent, dès réception d'une demande de l'utilisateur, ils la redirigent vers plusieurs serveurs de recherche à la fois (voir Fig. 3).

Riz. 3. Schéma de fonctionnement du système de métarecherche

Opportunité utilisation simultanée plusieurs serveurs de recherche pour une requête sont avantage évident métamoteurs de recherche. Actuellement, le système Metabot.ru, dont l'interface est illustrée à la figure 1, est largement utilisé. 4. Ce système vous permet d'utiliser des serveurs de recherche internationaux et russes pour rechercher des ressources.

Le problème de la recherche sur le World Wide Web n’est pas qu’il y a peu d’informations, mais qu’il y en a beaucoup. La recherche d'informations sur Internet est la pierre angulaire travail efficace en ligne. La possession de compétences de recherche rend Internet utile à l'utilisateur aussi bien pendant son travail que pendant ses loisirs.
Pour organiser des recherches sur Internet, il existe des services spécialisés appelés moteurs de recherche.

Moteurs de recherche.

Les moteurs de recherche sont des systèmes logiciels et matériels dotés d’une interface Web qui permettent de rechercher des informations sur Internet.
La plupart des moteurs de recherche recherchent des informations sur des sites Web World Wide Web, mais il existe également des systèmes capables de rechercher des fichiers sur des serveurs FTP, des produits dans des magasins en ligne et des informations dans les groupes de discussion Usenet. Pour rechercher des informations à l'aide d'un moteur de recherche, l'utilisateur formule une requête de recherche. A la demande de l'utilisateur, le moteur de recherche génère une page de résultats de recherche. Tel Résultats de recherche peut combiner différents types de fichiers, par exemple : des pages Web, des images, des fichiers audio. Certains moteurs de recherche récupèrent également des données à partir de bases de données et de répertoires de ressources sur Internet.
Le but d’un moteur de recherche est de trouver des documents contenant soit des mots-clés, soit des mots liés d’une manière ou d’une autre à des mots-clés. Le moteur de recherche est d'autant meilleur qu'il renvoie davantage de documents pertinents par rapport à la requête de l'utilisateur. Les résultats de recherche peuvent s’aggraver en raison de la nature des algorithmes. Par exemple, lorsqu'on lui demande des animaux de compagnie, le serveur de recherche Yandex (voir plus d'informations ci-dessous) fournit plus de 14 000 000 de liens vers des pages contenant les informations dont il pense avoir besoin. Cependant, tout ne se passe pas si bien : lorsque vous visitez certaines pages trouvées, il s'avère que les informations que vous recherchez ne sont pas suffisantes, voire inexistantes.
Pour effectuer une recherche avec une efficacité maximale, vous devez savoir comment fonctionnent les serveurs de recherche et formuler correctement une demande de recherche d'informations.

Comment fonctionnent les moteurs de recherche

Les moteurs de recherche fonctionnent en stockant des informations sur de nombreuses pages Web à partir desquelles ils récupèrent Pages HTML. Les principaux composants d'un système de recherche : robot de recherche, indexeur, moteur de recherche. Généralement, les systèmes fonctionnent par étapes. Tout d’abord, le robot de recherche reçoit le contenu, puis il visualise le contenu des sites Web. Ce n'est qu'alors que l'indexeur génère un index consultable. Un indexeur est un module qui analyse une page, après l'avoir découpée en plusieurs parties, à l'aide de ses propres algorithmes lexicaux et morphologiques.
Le travail de la plupart des moteurs de recherche modernes est basé sur l'index de citation, qui est calculé par l'indexeur à la suite de l'analyse des liens vers page actuelleà partir d'autres pages Internet. Plus il y en a, plus l'indice de citation de la page analysée est élevé, plus cette page sera affichée haut dans les résultats de recherche et plus la page sera présentée haut dans la liste des ressources trouvées.

Règles de construction des requêtes de recherche

Comme déjà indiqué, il existe de nombreux serveurs de recherche sur Internet, nationaux et étrangers.
Serveurs de recherche russes : Yandex (www.yandex.ru) ; Rambler (www.rambler.ru); Aport (www.aport.ru) et Gogo (www.gogo.ru).

Serveurs de recherche étrangers : Google ( www.google.com); Altavista (www.altavista.com) et Yahoo! (www.yahoo.com).
Les serveurs russes sont mieux adaptés à la recherche en russe, les serveurs étrangers sont mieux adaptés à la recherche dans une langue étrangère, bien que Google fasse un bon travail de recherche dans de nombreuses langues. Malgré les affirmations de nombreux propriétaires de moteurs de recherche selon lesquelles les requêtes peuvent être rédigées pratiquement dans le langage que les gens utilisent pour communiquer entre eux, c'est loin d'être le cas. Grâce à l’introduction de nouvelles technologies linguistiques, les moteurs de recherche sont devenus bien mieux à même de comprendre l’utilisateur. Les moteurs de recherche recherchent désormais non seulement le mot demandé, mais également ses formes, ce qui rend les résultats de recherche plus précis. Par exemple, si la requête de recherche contient le mot intelligent, alors ses résultats contiendront non seulement ce mot, mais également ses dérivés : intelligent, intelligent, ainsi que intelligence et même intelligence. Naturellement, les pages contenant des formes de mots ne figureront pas parmi les premiers résultats de recherche, mais des éléments d'intelligence artificielle sont évidents. Il est utile de prendre ce fait en compte lors de la construction Requêtes de recherche.
Rappelons que les moteurs de recherche ne prennent pas en compte la casse des caractères lors du traitement d'une requête, et il n'est pas du tout nécessaire d'utiliser des signes de ponctuation dans les requêtes de recherche, puisqu'ils sont également ignorés par les serveurs de recherche. Cependant, lors de la construction de requêtes avancées complexes, dont les résultats de recherche sont généralement beaucoup plus proches des attentes, la ponctuation traditionnelle est utilisée. La plupart des moteurs de recherche peuvent gérer les fautes de frappe. Si le serveur de recherche pense qu'il y a une erreur ou une faute de frappe dans un mot, il vous en avertira avec la même phrase : Peut-être cherchiez-vous….

Mots pour interroger le serveur de recherche

Il existe une expression « Une machine doit fonctionner, une personne doit penser », et elle est dite à propos d'une telle situation. La tâche de l'utilisateur lors de la rédaction d'une requête de recherche est de mettre en évidence des mots-clés, la tâche du serveur de recherche est la meilleure façon traiter la demande saisie. Regardons un exemple illustrant erreurs typiques utilisateurs novices lors de leurs recherches sur Internet. Le moteur de recherche n’a renvoyé aucun résultat utile pour la requête « Des énigmes sur les instruments de musique ». Ensuite, l'utilisateur décide de corriger la requête en y ajoutant et en écrivant : « Des énigmes pour les enfants sur les instruments de musique » - les résultats de la recherche se sont avérés encore pires que les précédents. Pour cet exemple Une bonne solution consistait à rechercher le mot-clé « énigmes ». Il existe de nombreux sites de ce type sur Internet, et en accédant au site lui-même et en cherchant un peu dans ses sections, vous pouvez facilement trouver les informations qui vous intéressent. Formulons quelques règles pour écrire des requêtes :

choisir uniquement les mots-clés les plus importants liés au sujet considéré ;
il ne devrait pas y avoir trop de mots, mais pas trop peu ;
Si les résultats de la recherche ne sont pas satisfaisants, utilisez des conditions « plus douces » pour la demande ou essayez de chercher dans un autre moteur de recherche, car Les mécanismes des moteurs de recherche ne sont pas les mêmes, les résultats peuvent donc également varier.

Recherche Avancée

Pour permettre des recherches plus efficaces sur Internet, les moteurs de recherche offrent des capacités de recherche avancées ainsi que des recherches utilisant un langage de requête. Recherche avancée - la possibilité de rechercher en utilisant de nombreux paramètres différents. A cet effet, les moteurs de recherche proposent pages individuelles, sur lequel vous pouvez définir de tels paramètres. Les principes de la recherche avancée sont similaires pour la plupart des moteurs de recherche.
Considérons des options de recherche supplémentaires en utilisant les exemples des moteurs de recherche Yandex et Google, car Yandex est le serveur de recherche le plus populaire sur Internet en langue russe et Google est le plus moteur de recherche populaire dans le monde. Lors d'une recherche sur Internet, Yandex a été l'un des premiers à prendre en compte la morphologie de la langue russe, c'est-à-dire à utiliser différentes formes du mot, comme indiqué ci-dessus. En accédant au site Web www.yandex.ru, l'utilisateur peut saisir une requête et recevoir immédiatement les résultats de la recherche, ou vous pouvez utiliser le lien Recherche avancée à l'aide de l'icône et accéder à la page correspondante (voir la figure ci-dessous), où vous pouvez affiner les paramètres de recherche.

Page de recherche avancée Yandex

Considérons des fonctionnalités supplémentaires qui peuvent être utilisées sur la page de recherche avancée : indiquez votre propre localisation (Moscou), indiquez sous quelle forme les informations doivent être présentées (Type de fichier), la période pendant laquelle nous recherchons des informations (par jour, par 2 semaines, par mois, De ..Avant), dans quelle langue les informations doivent être présentées (russe, anglais Plus), et vous pouvez également préciser l'URL du site, etc.
Le choix (Exactement comme dans la requête) est indiqué au moteur de recherche afin que la morphologie des mots recherchés ne change pas, mais recherche uniquement la forme du mot qui est précisé.

Langage de requête

Langage de requête - un système de commande qui vous permet de modifier les paramètres de requête à partir de la chaîne de recherche principale à l'aide de équipes spéciales. Concentré sur utilisateurs expérimentés.
Le langage de requête étant assez complexe et volumineux, nous ne présenterons que ses principales structures susceptibles d'être les plus demandées par les utilisateurs. Certaines commandes du langage de requête Yandex sont présentées dans le tableau.

Opérateur		Description	Syntaxe	Exemple de demande
		Recherchez des documents contenant nécessairement un mot en surbrillance. Il est acceptable d'utiliser plusieurs opérateurs + dans une seule requête.	"mot 1 + mot 2"	On trouvera des documents contenant nécessairement les mots « boulevard » et « Moscou » et pouvant contenir le mot « Sholokhov ».
		Recherche par citation. Recherchez des documents contenant des mots de requête dans une séquence et une forme données.	"mot 1 mot 2... mot N"	Des documents contenant cette citation seront trouvés.
	Recherche par citation avec mot(s) manquant(s). Un opérateur * correspond à un mot manquant. Attention! Ne peut être utilisé que dans le cadre de l'opérateur.		"mot 1 * mot 2 ... mot N " L'opérateur est séparé par des espaces.	Les documents contenant la citation donnée, y compris le mot manquant, seront trouvés. Les documents contenant la citation donnée, y compris les mots manquants, seront trouvés.

La structure complète du langage de requête Yandex peut être trouvée sur la page d'aide (http://help.yandex.ru/search/?id=481939). La langue des requêtes de recherche dans Google diffère de celle de Yandex, bien qu'il existe certains points communs. Considérez quelques-unes des commandes de base de ce langage en étudiant le tableau (voir ci-dessous)

Complètement avec la structure de la langue Requêtes Google peut être trouvé sur la page d'aide :

4.5.1. Moteurs de recherche Internet traditionnels

Pour rechercher des informations, des services externes spéciaux sont utilisés - des serveurs de recherche : moteurs de recherche et annuaires.

Les moteurs de recherche sont des serveurs qui accumulent automatiquement des informations sur le contenu des sites, à l'aide de programmes robotiques spéciaux.

Les informations destinées aux serveurs d'annuaire sont sélectionnées par des personnes. Contrairement aux moteurs de recherche, les informations contenues dans les annuaires sont structurées de manière plus précise et sous une forme hiérarchique verticale.

Les moteurs de recherche et les annuaires sont des services externes ou, comme on les appelle aussi, des systèmes autonomes. Une caractéristique des systèmes autonomes est que le cycle de travail avec l'information s'effectue entièrement directement sur ce système, en commençant par l'obtention d'informations à partir de la source primaire et en terminant par la fourniture d'un service de recherche à l'utilisateur final.

Les moteurs de recherche automatisés couvrent un plus grand volume d’informations, leurs informations sont mises à jour plus souvent et sont donc plus pertinentes. Cependant, les informations sur de tels serveurs sont mal structurées, car évaluer le contenu d'un site particulier est une tâche difficile à formaliser. Le plus souvent, le programme robot sélectionne les documents uniquement en fonction de la présence des mots recherchés dans le texte du document. Un exemple de moteur de recherche est AltaVista (http://www.altavista.com).

Dans les catalogues, toutes les informations ont une structure hiérarchique verticale claire. De plus, cette structure est construite sur la base contenu sémantique. C'est l'intérêt principal des annuaires traités par les gens : on ne trouve pas beaucoup de sites contenant ces mots-clés, mais de nombreux sites consacrés à ce sujet. Un exemple d'annuaire est le serveur Yahoo (http://www.yahoo.com).

Les annuaires WWW contenant un grand nombre d’entrées hébergent souvent des moteurs de recherche locaux sur leurs pages. Mis en œuvre sous la forme de modèles traditionnels, qui ne diffèrent pas beaucoup des modèles basés sur des index automatiques.

Tant pour les moteurs de recherche que pour les annuaires, un certain principe de sélection des informations est établi. Ce principe est inscrit soit dans les algorithmes des moteurs de recherche, soit dans la réglementation du travail des personnes (pour les annuaires). Selon l'endroit et le type d'informations accumulées, deux caractéristiques des systèmes autonomes sont évaluées : l'échelle spatiale et la spécialisation.

L'échelle spatiale vise à limiter le nombre de sources primaires d'information à une certaine limite finie. Par exemple, un moteur de recherche peut être créé au sein d’un seul site. La recherche peut être limitée à un seul domaine géographique (par exemple, ru). De tels systèmes sont appelés régionaux.

Il existe de nombreux serveurs de recherche qui n'ont pas de telles restrictions. On les appelle des systèmes globaux de recherche d’informations.

Les caractéristiques de l'approche régionale peuvent également être présentes dans systèmes mondiaux. Ainsi, le système Lycos (http://www.lycos.com) trie les résultats de recherche en fonction de la région d'où provient la demande.

Les serveurs de recherche les plus populaires sont tellement chargés qu'il est nécessaire de créer des « miroirs ». Les miroirs doivent contenir Copie exacte moteur de recherche principal et garantir un service rapide aux demandes provenant d'une certaine zone géographique.

Lorsque vous accédez à un moteur de recherche particulier, vous devez réfléchir aux services qu'il fournit. Par exemple, dans le moteur de recherche national Yandex (http://www.yandex.ru), une recherche a été introduite non seulement par pages, mais également par serveurs. L'essence de cette méthode est que les mots-clés ne sont pas recherchés pour toutes les pages, mais uniquement par leurs titres (ce qui est contenu dans le HTML entre les balises "titre"). L'entreprise étrangère AltaVista dispose d'un service Real Names distinct, qui contient une liste de toutes les pages enregistrées des entreprises et des organisations.

Le prochain service important est la spécialisation en recherche. Aujourd'hui, Internet est un référentiel différents types information. Ainsi, la recherche d’informations peut également être formalisée. Vous pouvez rechercher exclusivement images graphiques

, vous pouvez - des enregistrements multimédia au format MP3, etc. De nombreux moteurs de recherche vous permettent de préciser le type d’informations que vous recherchez. De plus, il existe des serveurs spécialisés dans la recherche d'informations d'un type strictement spécifique. FTPSearch (http://ftpsearch.lycos.com) est spécialisé exclusivement dans la recherche de fichiers. Il indexe toutes sortes de serveurs FTP pour les fichiers qui s'y trouvent. La recherche s'effectue directement par le nom du fichier souhaité. De même, MP3Search (http://mp3.box.sk) est spécialisé dans la recherche exclusivement de fichiers MP3. Un de plus point important est le langage de requête utilisé par un système particulier. Plus ce langage est complexe, plus réglage fin une recherche est possible à effectuer. Actuellement, il n’existe pas de langage de requête unifié pour les moteurs de recherche. Le développement d'un tel langage permettrait d'intégrer différents services de recherche dans un seul super système de recherche. Le projet SESP a été lancé en février 1999 ( Moteur de recherche

Standards Project), qui implique 15 des plus grands moteurs de recherche Internet. La tâche du projet est de normaliser le travail des services de recherche (des documents à ce sujet peuvent être trouvés sur http://www.searchenginewatch.com).

4.5.2. Métamoteurs de recherche Une autre direction prometteuse dans le développement des services de recherche en ligne est l'utilisation de métamoteurs de recherche. Le cœur des métamoteurs de recherche est l’interface entre l’utilisateur et divers moteurs de recherche. Le métamoteur de recherche n'est pas conçu pour indexer et accumuler des informations. son but est recherche pure

Le métasystème permet, selon les souhaits de l'utilisateur, de limiter sa recherche à certains serveurs de recherche, de vérifier l'existence de ressources pointées par les résultats de recherche, d'effectuer des recherches affinées dans les résultats de recherche, etc. Les métamoteurs de recherche sont souvent appelés clients des moteurs de recherche.

Un exemple de système de métarecherche est le développement national de « DISCo Seeker » par la société « DISCo » (http://www.disco.ru).

La principale caractéristique de la nouvelle génération de systèmes de métarecherche est la combinaison de serveurs de recherche de diverses spécialisations. Vous pouvez rechercher différents types d'informations dans une seule application. Lors du traitement d'une demande de recherche, la connexion avec plus de 100 moteurs de recherche (y compris spécialisés) est autorisée. Les résultats de la recherche sont ensuite traités : les liens qui dupliquent ceux déjà trouvés sont exclus par le système ; La disponibilité des adresses reçues est vérifiée. Il est possible de configurer le travail avec les serveurs de recherche (vous pouvez sélectionner les serveurs avec lesquels le système fonctionnera, préciser le nombre maximum de liens reçus de chaque serveur, etc.).

Cependant, même dans le cas de l'utilisation de métamoteurs de recherche, vous ne pouvez pas vous passer de connaissances sur les serveurs de recherche traditionnels - ils servent de base à toute recherche.

Le problème de la recherche et des moyens de son organisation

Des volumes d'informations énormes et en constante augmentation disponibles sur Internet, incl. opérationnel, rend le problème de la recherche des informations nécessaires très pertinent et complexe. La rapidité de recherche des informations nécessaires détermine dans une large mesure le professionnalisme de l’internaute. Il convient de dire que pour automatiser cette tâche, divers systèmes de recherche, tant étrangers que nationaux, qui sont des pages Web, ont été développés. type spécial. Dans le même temps, malgré la disponibilité de nombreux outils d'automatisation de la recherche, cette tâche reste assez laborieuse, nécessitant de l'utilisateur une certaine expérience, intuition et connaissance de la terminologie utilisée dans son domaine.

Une estimation publiée dans Nature le 8 juillet 1999 évalue le nombre de pages Web indexées publiquement à 800 millions. Un an plus tard, l'auteur de l'étude (Steve Lawrence du NEC Research Institute) estimait que ce nombre avait presque doublé pour atteindre 1,5 milliard. les meilleurs moteurs de recherche n’indexent pas plus d’une page sur six. Cela vaut la peine de dire, pour extraire informations utiles depuis Internet, vous devez savoir où et comment effectuer une recherche.

L'outil de recherche d'Internet Explorer facilite l'accès aux outils de recherche sans avoir à connaître les adresses des moteurs de recherche. Dans ce cas, mieux vaut contacter directement les moteurs de recherche en chargeant la page correspondante.

Sur la base de la méthode d'organisation de la recherche et des capacités fournies, tous les outils de recherche peuvent être divisés dans les groupes suivants :

catalogues et bases de données spécialisées;

moteurs de recherche;

métamoteurs de recherche.

Catalogues et bases de données

Les catalogues sur le WWW sont similaires aux catalogues systématiques des bibliothèques. La recherche dans l'annuaire consiste en un déplacement séquentiel à travers une liste hiérarchique de liens appelés titres ou catégories. La première page du catalogue contient des liens vers des sujets majeurs, tels que la culture et l'art ; La médecine et la santé; Société et politique ; Affaires et économie ; Divertissement, etc. En cliquant avec la souris sur un lien (catégorie) donné, vous ouvrez une page contenant des liens détaillant le sujet (catégorie) sélectionné. En descendant dans les catégories de détail, vous pouvez trouver une page avec les informations nécessaires. Sur chaque page qui s'ouvre lors d'un déplacement dans le catalogue d'une manière ou d'une autre, l'ordre des sous-catégories consultées est indiqué, par exemple, Monde des Affaires : Finance : Analytics, etc.

Tous les catalogues sont créés et tenus à jour manuellement par des spécialistes, de la même manière que les bibliographes compilent et maintiennent les catalogues de bibliothèques. Il est pertinent de noter que la description du document est effectuée soit par les compilateurs du catalogue, soit par l'auteur. Grâce à cela, le contenu des pages incluses dans le catalogue est le plus adéquat à la catégorie dans laquelle elles sont classées. Mais, compte tenu de la rapidité de réapprovisionnement et d'évolution des informations sur Internet, la méthode « manuelle » de tenue des catalogues ne permet pas de refléter adéquatement l'état réel des ressources Internet sur ce sujet.

Moteurs de recherche

(moteurs de recherche, serveurs de recherche, robots de recherche)

Il existe des dizaines de grands sites Web et des milliers de petits sites Web spécialisés conçus pour les recherches sur Internet. Les outils de recherche du ϶ᴛᴏème groupe permettront à l'utilisateur, selon certaines règles, de formuler les exigences relatives aux informations dont il a besoin (en utilisant un langage de requête pour créer une requête. Après cela, le moteur de recherche parcourt automatiquement les documents sur les sites). il contrôle (indexé) et sélectionne ceux d'entre eux qui « de l'avis » du serveur de recherche répondent aux exigences formulées par l'utilisateur (en rapport avec la demande). Les nœuds de recherche peuvent utiliser leurs propres index Internet, constamment mis à jour par des programmes spéciaux appelés spiders. examine le Web, vérifie chaque lien sur une page donnée, puis sur les pages auxquelles les liens sont adressés, etc., et informe son propriétaire des informations sur toutes les pages pour une indexation ultérieure.

À la suite de la recherche, une ou plusieurs pages sont créées contenant des liens vers des documents pertinents pour la demande (pages Web). Il convient de préciser que pour chaque lien, la date de création du document, son volume, le degré de pertinence. à la demande, et des fragments de texte caractérisant le contenu du document sont généralement également indiqués. Cliquer sur un tel lien vous permet de charger la page qui vous intéresse. Dans le cas d'un très grand nombre de documents trouvés, vous pouvez clarifier la demande et répéter la recherche avec elle, mais uniquement parmi les pages sélectionnées (une telle recherche est appelée différemment selon les machines, mais généralement ϶ᴛᴏ - recherche dans les documents trouvés) Dans un certain nombre de moteurs de recherche, vous pouvez utiliser une certaine méthode pour modifier le lien vers la page dont le contenu correspond le mieux à vos besoins et répéter la recherche en demandant de rechercher des pages similaires.

L’avantage de la recherche automatisée réside essentiellement dans le fait qu’elle permet de visualiser de très gros volumes d’informations disponibles sur Internet. ce moment. Dans le même temps, la complexité d'une description précise de la demande qui reflète adéquatement vos besoins d'information, ainsi que la complexité encore plus grande de la tâche de détermination automatique du degré de pages consultées pour votre demande, conduisent au fait que le nombre Le nombre de pages sélectionnées « lors de la première visite » est traditionnellement soit très petit, soit excessivement grand. En général, une recherche utilisant un moteur de recherche est un processus itératif (multi-passes), à la suite duquel la forme de la demande s'affine progressivement.

Métamoteurs de recherche

Comme indiqué ci-dessus, tout moteur de recherche analyse un certain ensemble de serveurs et sélectionne les documents selon ses propres critères. Par conséquent, une recherche avec différents systèmes utilisant les mêmes mots-clés donne des résultats différents. Cela a conduit à l'idée de créer des systèmes dits de métarecherche (ou multirecherche), qui ne recherchent rien eux-mêmes, mais se tournent vers plusieurs moteurs de recherche pour obtenir de l'aide à la fois. Notez que chacun des métamoteurs possède son propre langage de requête. Le système traduit une requête formulée dans son langage dans les langages de requête utilisés par chaque moteur de recherche. Ensuite, les résultats de recherche de tous les systèmes sont combinés et présentés sous une forme claire. Naturellement, la recherche à l’aide des métamoteurs prend plus de temps que celle des moteurs de recherche conventionnels.

Examen des moteurs de recherche les plus populaires

Il existe un grand nombre de moteurs de recherche sur Internet, et chaque utilisateur se concentre sur celui auquel il est habitué ou que ses collègues lui ont conseillé d'utiliser. Utilisons une brève description des moteurs de recherche les plus populaires, donnée sur l'un des sites.

1. Google (www.google.com) Le moteur de recherche le plus rapide et le plus puissant. Plus de 1,3 milliard de pages ont été indexées (dont un peu plus de 700 millions sont entièrement indexées, pour le reste, seuls l'adresse et le texte du lien sont connus). Il recherche normalement en utilisant des ressources en langue russe (bien sûr, sans formes de mots). , il est possible de sélectionner la langue de l'interface. Vous pouvez inclure/exclure les résultats de sites et/ou domaines spécifiques. Contrairement à la plupart des moteurs de recherche, Google évalue la popularité d’une ressource par le nombre de liens y menant depuis d’autres pages. Il existe une recherche thématique - recherches Apple Macintosh, BSD UNIX, Linux, gouvernement américain et universités - recherche dans les ressources des principales institutions scientifiques et éducatives.

2. Yandex (www.yandex.ru) Le meilleur des moteurs de recherche nationaux. Indexe principalement les ressources en langue russe, alors que ses capacités ne sont pas inférieures à celles des systèmes étrangers. La recherche peut être effectuée de manière exacte ou sous n'importe quelle forme de mot, avec une limitation de date, en indiquant le site ou son sous-répertoire. Vous pouvez effectuer une recherche sur la base de ce que l'on appelle l'index des citations, rechercher des images, des scripts, des applets ; définir la langue du document. Les liens nécessaires se trouvent traditionnellement dans les dix premiers résultats. Il existe une version « allégée » (avec un minimum d'éléments de conception) sur http://www.ya.ru.

3. AltaVista (www.altavista.com) fournit grande expansion critères de recherche : dans la Recherche Avancée, il y a un choix de période, qui inclut la date de création ou de modification de la ressource, la prise en charge de 25 langues ; il est possible de renvoyer un résultat par site (réduit la recherche sans sacrifier la qualité). La recherche puissante dispose d'un ensemble standard de fonctionnalités. Jusqu'à récemment, AV était un portail important, mais pour des raisons financières (entre autres), il réduisait considérablement le nombre de services.

4. Yahoo! (www.yahoo.com) Il est important de noter qu'il s'agit de l'un des premiers moteurs de recherche sur Internet. En plus de l'ensemble standard de fonctions, il vous permet de sélectionner des ressources par date (4 ans, 1, 3, 6 mois, semaine, 1, 3 jours) Prend en charge la possibilité de spécifier le signe "*" au lieu de n'importe quelle séquence de personnages dans mots clés. Sur Yahoo! un large catalogue structuré de catégories a été constitué d'abord, la recherche s'y effectue, puis dans ses propres archives, puis à l'aide. Systèmes Google. La recherche par catégories donne de bons résultats - il n'y en a pas beaucoup et ils sont très bons.

5. Lycos (www.lycos.com) Récemment - l'un des systèmes les plus populaires. Dans le même temps, il n'offre aucune capacité particulière - « ET » « OU », recherche d'expressions, présence/absence obligatoire d'un mot ; dans les fonctionnalités avancées - recherche par titre, URL, nom d'hôte et/ou nom de domaine ; 25 langues, dont le russe - en un mot, l'ensemble des langues « généralement acceptées ». Vous pouvez spécifier le type de contenu de la ressource : auto, livres, ftp, téléchargement, actualités, etc. Évidemment, la popularité de Lycos est une conséquence de l’ampleur de ce grand projet.

6. Rambler (www.rambler.ru) Jusqu'à récemment, le moteur de recherche russe le plus célèbre. La recherche avancée ne vous permet pas de rechercher des expressions, mais recherche normale Jusqu’en février de cette année, les résultats étaient rarement acceptables. Depuis février, le système utilise un mécanisme de recherche amélioré, la conception a changé, mais en termes de qualité, Rambler ne se compare toujours pas à Yandex et Aport (selon l'auteur qui analyse les moteurs de recherche, le site contient un catalogue d'évaluation des ressources). Rambler Top 100, l'une des sources reconnues d'informations statistiques sur les projets Internet.

7. Aport (www.aport.ru) Un autre bon serveur de recherche russe. La recherche s'effectue par texte (uniquement sous toutes les formes de mots) et par URL, à l'aide d'opérateurs logiques et de l'opérateur "..." (les mots vides dans la phrase sont cependant toujours ignorés), par date et dans des champs individuels (titre , description, etc. ), les métacaractères * et ! La présentation des résultats de recherche est la mieux conçue par rapport aux autres moteurs de recherche russes. La conception de la page principale, clairement surchargée d’informations, soulève quelques doutes. Il existe une version légèrement « plus simple » sur http://aport.ru.

Comment choisir un moteur de recherche

Lors d'une recherche sur Internet, deux éléments sont importants : l'exhaustivité (rien n'a été perdu) et l'exactitude (rien de superflu n'a été trouvé). Habituellement, tout est appelé en un seul mot - pertinence, c'est-à-dire la réponse à la question.

1. Couverture et profondeur

Par couverture, nous entendons le volume de la base de données du moteur de recherche, qui est mesuré par trois indicateurs : le volume total d'informations indexées, le nombre de serveurs uniques et le nombre de documents uniques. Par profondeur, nous entendons s'il existe une limite sur le nombre de pages ou sur la profondeur d'imbrication des répertoires sur un serveur.

Comment vérifier : Certaines machines écrivent des statistiques de robot sur un site Web. Mais vous pouvez le vérifier vous-même - vous devez définir plusieurs requêtes de recherche composées d'un seul mot (pour exclure l'influence du langage de requête, y compris différentes interprétations de l'espace), et en même temps examiner les statistiques des résultats produits par la machine - généralement au début de la liste indique combien de documents ont été trouvés. En plus du fait que les mots doivent provenir de domaines différents, il est également bon de prendre des mots de poids différents - rare, « moyen » et « lourd » (fréquence), et de comparer la quantité trouvée. Les mots lourds, en particulier, testent le texte intégral (indexation de tous les mots d'un document) d'un moteur de recherche.

Il est plus difficile de vérifier la profondeur de l'exploration du robot - pour cela, vous devez prendre certains sites, par exemple, avec une structure d'archives ramifiée, et vérifier si les documents sont indexés, qui ne peuvent être atteints, par exemple, qu'en 6 clics. sur les liens.

2. Vitesse de crawl et pertinence des liens

La vitesse d'exploration du Web indique la rapidité avec laquelle une ressource nouvellement ajoutée est indexée et la rapidité avec laquelle les informations de la base de données sont mises à jour. N'oubliez pas qu'un indicateur important de la qualité d'un moteur de recherche (son robot) sera non seulement la conquête de nouveaux territoires, mais aussi le suivi de l'état de ceux déjà parcourus. Les serveurs disparaissent et resteront, les pages qui s'y trouvent sont mises à jour. Les liens qu'un moteur de recherche produit dans la liste de ce qu'il a trouvé doivent, d'une part, exister et, d'autre part, leur contenu doit correspondre à la requête.

Comment vérifier : des informations objectives peuvent être obtenues en analysant les journaux du serveur : un robot de moteur de recherche est généralement présenté par le nom de sa machine (ou similaire), afin que vous puissiez voir à quelle fréquence il visite le serveur, combien de pages il consulte, etc. . Malheureusement, généralement seul le journal de son site est disponible pour étude, la méthode expérimentale demeure donc.

Pour déterminer la vitesse d'exploration, vous devez créer une page de texte quelque part, l'ajouter aux moteurs de recherche et voir à quelle vitesse elle commence à apparaître. Ou modifiez une page existante. Il faut dire que pour déterminer la pertinence des liens, vérifiez les documents au moins sur la première page de la liste trouvée pour plusieurs requêtes. Message Pas trouvé indique que le document n'existe plus.

3. Qualité de la recherche (indicateur subjectif)

Il convient de dire que chaque moteur de recherche dispose d'un algorithme pour trier les résultats de recherche. Plus le document dont vous avez besoin se trouve en haut de la liste, meilleure est sa pertinence.

Comment vérifier : Uniquement par expérience. Il est recommandé d'effectuer des requêtes de différentes longueurs à des fins de comparaison. Vous pouvez également utiliser le langage de requête, tandis que ceux qui hésitent à lire la description peuvent utiliser la page de requête étendue (« recherche avancée » dans Aport et Yandex, « requête détaillée » dans Rambler - options de traduction en russe « recherche avancée »)

Outre la pertinence, il existe des caractéristiques utilisateur importantes.

4. Vitesse de recherche

Si un moteur de recherche répond lentement, travailler avec lui est inefficace. Il convient d'ajouter que la vitesse visible par l'utilisateur dépend non seulement du moteur de recherche lui-même, mais également des canaux Internet.

Comment vérifier : Par expérience - vous devez rechercher des requêtes de différentes longueurs, différentes<тяжести>mots et à différents moments de la journée (la charge des serveurs est très inégale tout au long de la journée, le pic se situe vers trois-quatre heures de l'après-midi)

5. Capacités de recherche (travail avec le langage du document, le langage de requête)

Un autre point de comparaison est de savoir quoi exactement et comment le moteur de recherche entre dans l'index. Il faut dire qu'un moteur de recherche en texte intégral indexe tous les mots du texte visible par l'utilisateur. La présence de morphologie permet de retrouver les mots recherchés dans toutes les déclinaisons ou conjugaisons. En plus de cela, dans Langage HTML il existe des balises qui peuvent également être traitées par un moteur de recherche (rubriques, liens, légendes d'images, etc.)

Presque toutes les machines disposent d'un langage de requête sous la forme d'opérateurs logiques standards (AND, OR, NOT). Certaines personnes savent rechercher des expressions ou des mots à une distance donnée, ce qui est souvent important pour obtenir un résultat raisonnable. Une option supplémentaire consistera à effectuer une recherche dans les zones du document - titres, liens, mots-clés (META KEYWORDS), etc. Fonctionnalité supplémentaire langage de requête - une requête en langage naturel qui ne nécessite aucune connaissance des opérateurs.

Comment vérifier : Habituellement, ces informations sont publiées sur le serveur du moteur de recherche (dans l'Aide). Notez qu'il est néanmoins recommandé de vérifier sur des demandes réelles, car parfois ce qui est souhaité est présenté comme la réalité.

6. Commodités supplémentaires

Ce sont des fonctionnalités supplémentaires que le moteur de recherche offre aux utilisateurs. Cela inclut toutes sortes d'options de recherche (pages spécialisées, recherche de documents similaires, limitation de la zone de recherche), ainsi qu'une liste des serveurs trouvés, ainsi qu'une recherche par date et serveur, et interface conviviale moteur de recherche et la possibilité de le personnaliser.

Comment vérifier : les informations peuvent être partiellement publiées sur le serveur du moteur de recherche, mais il est préférable d'essayer de travailler vous-même avec ces fonctionnalités.

Il est clair que cette analyse prendra du temps. De plus, les moteurs de recherche, comme l’ensemble d’Internet, ne restent pas immobiles. Dans le même temps, étant donné que la recherche d'informations est l'une des composantes importantes de la technologie informatique, elle doit faire l'objet d'une attention suffisante - du moins pas moins que la capacité de travailler sur un réseau local.

Une enquête a été menée sur Yandex.ru : pourquoi Internet est nécessaire et ce qui y manque (http://www.yandex.ru/polling/9.html) Par ordre décroissant, les données de l'enquête ont été réparties comme suit : Internet est utilisé comme ouvrage de référence (23, 76%), comme outil de recherche (15,45%), comme divertissement (14,15%), et seulement en quatrième position se trouve une source d'information (12,32%). réussissent toujours, et 73 % réussissent souvent information nécessaire. Et Internet manque : d'informations, d'une bonne recherche et d'un bon ordre (y compris : ordre, structure, structure, structure, structure, ainsi que système, systématisation, systématisation, systématisation et systématisation)

RÉPONDEZ AUX QUESTIONS:

Nommez quelles méthodes d'organisation des recherches existent sur Internet ?

Comment les informations sont-elles recherchées dans les catalogues et les bases de données ?

Comment les informations sont-elles saisies dans les catalogues et les bases de données ?

Que sont les moteurs de recherche sur Internet ?

Comment se constitue une base de données d’informations dans les moteurs de recherche ?

Où commence la recherche d’informations dans les moteurs de recherche ?

Qu'est-ce qu'une demande ?

Comment les informations sont-elles recherchées dans les moteurs de recherche ?

Qu'entendez-vous par pertinence par rapport à une requête ?

Que faire en cas de découverte d'un très grand nombre de documents lors d'une recherche plus approfondie ?

Que sont les métamoteurs de recherche ?

Quelle est la différence fondamentale entre les métamoteurs de recherche et les moteurs de recherche classiques ?

Parmi les systèmes suivants, lesquels seront des métamoteurs :

Quels sont les moteurs de recherche nationaux les plus populaires ?

Quels sont les moteurs de recherche étrangers les plus populaires ?

Quels sont les deux éléments importants lors de la recherche d’informations sur Internet ?

Quelles caractéristiques déterminent l’efficacité des moteurs de recherche lors de la recherche d’informations sur Internet ?

Conditions d'utilisation:
Droits intellectuels sur le matériel - Informations réseaux informatiques- Borissov N.A., Lukin A.A. appartiennent à son auteur. Ce manuel/livre est publié uniquement à des fins d'information sans implication dans la circulation commerciale. Toutes les informations (y compris le « Thème 3. Recherche d'informations sur INTERNET ») sont collectées à partir de sources ouvertes ou ajoutées gratuitement par les utilisateurs.
Pour une utilisation complète des informations publiées, l'administration du projet du site recommande fortement d'acheter le livre/manuel Information Computer Networks - Borisov N.A., Lukin A.A. dans n'importe quelle boutique en ligne.

Bloc d'étiquettes : Réseaux informatiques d'information - Borisov N.A., Lukin A.A., 2015. Thème 3. Recherche d'informations sur INTERNET.