Les moteurs de recherche – Informatique Minute

Internet est en grande partie désorganisé et les informations sur ses pages Web sont de qualité très différente, y compris des informations industrielles, des répertoires nationaux, des sélections de guides de recherche et des collections de documents individuels. Les moteurs de recherche comme Google essaient de déterminer les pages Web fiables en les pondérant ou en les positionnant en fonction du nombre d’autres pages Web qui y font référence, en identifiant les « autorités » que de nombreuses pages Web recommandent, et également en identifiant les « hubs » qui font référence à de nombreux pages. Ces techniques peuvent fonctionner correctement, mais le consommateur doit toujours s’entraîner à choisir les combinaisons appropriées de termes de recherche. La recherche d’une banque peut renvoyer des centaines d’innombrables pages (« appels »), dont beaucoup proviennent d’institutions bancaires commerciales. La recherche d’une banque de flux peut néanmoins renvoyer plus de 10 millions de pages, dont certaines proviennent d’institutions bancaires avec rivière dans le titre. Seules d’autres améliorations telles que l’institution financière des cours d’eau et les riverains réduisent le nombre de grèves à des milliers et des milliers de pages Web, dont les plus importantes concernent de loin les rivières ainsi que leurs institutions bancaires. Les moteurs de recherche utilisent des robots, des applications qui explorent Internet en utilisant des hyperliens hypertextes de page en page Web, enregistrant tout sur une page Web (appelée mise en cache) ou des zones d’une page Web, ainsi qu’un moyen exclusif de marquer le contenu pour être capable de développer des indices pondérés. Les sites Web comportent souvent leurs propres étiquettes sur les pages Web, qui ne sont généralement vues que par les robots d’exploration, afin d’améliorer le complément entre les requêtes et leurs sites. Les abus de l’étiquetage volontaire peuvent fausser les résultats des moteurs de recherche s’ils ne sont pas pris en compte lors de la conception d’un moteur de recherche. De même, une personne doit savoir si un moteur de recherche Internet spécifique vend des mots-clés aux enchères en ligne, en particulier si les sites qui ont payé pour un placement préférentiel ne sont généralement pas signalés séparément. Même les moteurs de recherche de base les plus importants comme Google, tels que Google, Yahoo!, Baidu et Bing, ne peuvent pas maintenir la prolifération des pages Web, et chacun laisse de grandes parties découvertes. lien de site Web, un lien entre des éléments d’information connexes par des connexions électroniques afin de permettre à une personne un accès rapide entre eux. L’hypertexte, un lien hypertexte impliquant un contenu textuel, est une fonctionnalité de certaines applications qui permettent à l’utilisateur de médias de masse électroniques de sélectionner n’importe quoi dans le texte et de recevoir plus d’informations concernant ce terme, comme une description ou des recommandations connexes à l’intérieur du contenu textuel. Dans l’article « baleine » d’une encyclopédie numérique, par exemple, un lien hypertexte dans la référence à la baleine bleue permet à votre lecteur d’accéder à l’article sur cette variété en cliquant simplement sur les mots « baleine bleue » avec une souris. . Le lien vers le site Web est généralement indiqué en mettant en évidence le mot ou l’expression pertinent dans le contenu textuel avec une police ou une couleur différente. Les hyperliens peuvent également relier le contenu textuel à des photos, des images ou des séquences de dessins animés. Les backlinks entre différentes parties d’un document ou entre différents documents créent un cadre de branchement ou de réseau qui peut accueillir des sauts directs et sans intermédiaire vers des bits d’informations connexes. La structure arborescente des informations hyperliées contraste avec le cadre linéaire d’une encyclopédie imprimée ou d’un thésaurus, par exemple, dans lequel les éléments ne peuvent être physiquement atteints qu’au moyen d’une séquence statique et linéaire d’éléments classés par ordre alphabétique. Les backlinks sont, en un sens, des références croisées qui permettent un accès immédiat à leur focalisation sur des éléments d’information. Ce type d’hyperliens est plus efficace lorsqu’il est utilisé sur un large éventail d’informations structurées en de nombreux éléments associés plus petits et lorsque l’utilisateur ne demande qu’une petite partie d’informations à tout moment. Les hyperliens ont déjà été utilisés avec le plus de succès par les sites Web. Pour prendre en charge cette masse de données sans précédent, les moteurs de recherche ont construit 11 centres de données dans le monde, tous contenant plusieurs centaines de milliers de serveurs Web (essentiellement des ordinateurs multiprocesseurs et des disques durs installés dans des racks exclusivement construits). Les systèmes informatiques interconnectés de Google sont probablement au nombre de plusieurs millions. Le centre de la procédure de Google, néanmoins, est construit autour de trois bits exclusifs de code informatique : Google File Program (GFS), Bigtable et MapReduce. GFS gère le stockage des données en « morceaux » sur plusieurs appareils ; Bigtable est le programme de source de données de l’entreprise ; et MapReduce est utilisé par Google pour créer des données de niveau supérieur (par exemple, constituer un répertoire de pages Web contenant les mots « Chicago », « théâtre » et « participatif »).