Google alcanza el billón de páginas indexadas PDF Imprimir Correo electrónico
Escrito por Leonardo De Seta   
Domingo 27 de Julio de 2008 17:35

Google G LogoEn una entrada reciente en el Blog Oficial de Google, ingenieros del buscador explican con orgullo que Google alcanzó por primer vez un billón de URLs únicas indexadas (¿cuántos ceros son eso? Un billón = 1,000,000,000,000).

Lo sabíamos desde hace tiempo: la web es grande. El primer índice de Google en 1998 ya tenía 26 millones de páginas, y para el 2000 el índice habia alcanzado los mil millones de páginas. En los últimos 8 años fuimos viendo muchos números acerca de cuánto contenido hay ahí afuera. Recientemente, incluso nuestros ingenieros de búsquedas se sorprendieron al ver realmente cuán grande es la web en estos días. Nuestros sistemas que procesan links de la web para encontrar nuevo contenido alcanzaron un nuevo hito: 1 billón (como en 1,000,000,000,000) de URLs únicas en la web al mismo tiempo!.

¿Cómo encontramos todas estas páginas? Comenzamos con un set de páginas iniciales bien conectadas y seguimos cada uno de sus links a nuevas páginas. Luego seguimos los links en estas nuevas páginas hacia más páginas, y así, hasta que tenmos un enorme listado de links. De hecho, encontramos más de 1 trillón de links individuales, pero no todos ellos llevan a páginas web únicas. Muchas páginas tienen muchos URLs con exactamente el mismo contenido, o URLs que son copias auto-generadas entre si. Incluso luego de quitar estos duplicados exactos, vimos que teníamos un trillón de URLs únicas, y el número de páginas web individuales ahí afuera está creciendo al ritmo de varios billones de páginas por día.

Entonces, ¿cuántas páginas únicas realmente tiene la web? No lo sabemos; no tenemos tiempo para mirarlas a todos! :-) Estrictamente hablando, el número de páginas es infinito: por ejemplo, los calendarios web pueden tener un link al "día siguiente:, y podríamos seguir estos links indefinidamente, y cada vez encontraríamos una "nueva" página. Obviamente no estamos haciendo eso, ya que sería de muy poco beneficio. Pero este ejemplo ilustra que el tamaño de la web depende de tu definición de "página útil", y no hay una respuesta exacta.

No indexamos todas las páginas de este trilón; muchas de ellas son similares entre si, o representan contenido auto-generado similar al del ejemplo del calendario que no es de mucha ayuda para las búsquedas. Pero estamos orgullosos de tener el índice de motor de búsqueda más completo, y nuestro objetivo ha sido siempre el indexar todos los datos del mundo.

Para poder manejar todo este volumen de información, nuestros sistemas han avanzando mucho desde nuestro primer grupo de datos que Google procesó para responder consultas. En aquel entonces haciamos todo en tareas batch: una estación de trabajo se encargaba de procesar el grafo de PageRank de las 26 millones de páginas en un par de horas, y este grupo de páginas era utilizado como índice de Google por un tiempo fijo. Hoy en día, Google está bajando información de la web en forma continua, recolectando información de páginas actualizadas y re-procesando todo el grafo de links de la web varias veces por día. El grafo de un trillón de URLs es similar a un mapa con un trillón de intersecciones. Por lo tanto, muchas veces por día realizamos el equivalente computacional a explorar por completo cada intersección de un mapa de calles de los Estados Unidos. Excepto que sería un mapa 50.000 veces más grande que el Estados Unidos, con 50.000 veces más calles e intersecciones.

Como pueden ver, nuestra infraestructura distribuida le permite a las aplicaciones recorrer de manera eficiente este grafo de links con muchos trillones de conexiones, o ordenar rápidamente petabytes de información, sólo para preparse a responder la pregunta más importante: tu próxima consulta en Google.

 

Traducido de We knew the web was big..., del Official Google Blog.

Comentarios
Añadir nuevo Buscar
+/-
Escribir comentario
Nombre:
Email:
 
Título:
Código UBB:
[b] [i] [u] [url] [quote] [code] [img] 
 
 
:angry::0:confused::cheer:B):evil::silly::dry::lol::kiss::D:pinch::(:shock:
:X:side::):P:unsure::woohoo::huh::whistle:;):s:!::?::idea::arrow:
 
Oscar  - Billón! No trillón! :0   |152.81.12.xxx |2008-07-28 01:26:07
Billón! No trillón!
Sebastián  - eso es un Billón   |62.97.65.xxx |2008-07-28 01:31:11
Hola, gracias por la noticia, me la ha pasado un amigo... solo agregar que el número que aparece en el post es un BILLÓN ... un trillón es un 1 seguido de 18 ceros... 1.000.000.000.000.000.000...

Nuevamente gracias por la noticia.
Santiago  - ¿Podrías confeccionar mi nómina?   |77.224.179.xxx |2008-07-28 01:42:31
Para aprender inglés lo primero que hay que sabes es Español y así traducir lo que ves en inglés.
Paco  - Numerito y enlace   |84.79.151.xxx |2008-07-28 02:37:30
No es cuestión solamente de traducción, sino que ¡el número está escrito con todas las cifras! Por tanto sólo hay que leer el número, que no está en inglés. El problema ahora es que la palabra trillón aparece en el título y en la URL del post, con lo que no se puede modificar so pena de romper los enlaces a él que ya existen
leito   |Publisher |2008-07-28 04:39:28
avatar Pequeño dilema, así que decidí dejar correcta la nota (reemplazar trillón por billón), pero manteniendo el enlace viejo.

¡Gracias a todos por hacerme notar la mejora!

Lo más gracioso, antes de traducir fui explicitamente a buscar la traducción correcta de trillón al castellano... la encontré... fui a comer algo... y lo traduje mal después
cbalvarez   |Author |2008-07-28 06:15:51
Billón en español es millón de millones.
(10^12). De la RAE:
billón.

(Del fr. billion, de bi, por bis, y la t. de millón).

1. m. Mat. Un millón de millones, que se expresa por la unidad seguida de doce ceros.


Billon en inglés es mil millones (10^9)

Está bien traducida así.
Gustavo Díaz  - Millardo   |200.122.222.xxx |2008-07-28 07:39:53
Al parecer existen dos escalas.
Un BILLÓN en ingles equivaldría a un MILLARDO en español, de aquí tanta confusión.
la ventaja es que por desgracia nunca tendré tanta plata en mi cuenta bancaria como para preocuparme por esas notaciones!!
http://es.wikipedia.org/wiki/Millardo
furia   |Author |2008-07-28 10:26:34
avatar Carlos tiene razón, bah, en realidad la RAE..

Un uno seguido de doce ceros en castellano es billón. Y en inglés también!!!...
El problema es que los yanquis, que siempre les gusta cambiar todo y tener todo distinto (millas, libras, galones, etc.), le llaman billón (bueno, ellos le dicen billion) a los mil millones (un uno y nueve ceros).

Como supondrán los yanquis le dicen trillón (trillion) al billón en español (y en correcto inglés de las islas).
Pero ya los Estados Unidos están llevando al mundo angloparlante a usar estas palabras como las usan ellos.

La forma de decirlo en español es mas coherente con la representación matemática arábiga posicional decimal que usamos con los números.

http://www.wordreference.com/es/transla tion.asp?tranword=trillion

http://www.wordreferen ce.com/es/translation.asp?tranword=billion
cbalvarez   |Author |2008-07-28 10:39:22
Erudición, claridad, inteligencia y algo de viejo carcamán.

No esperaba menos de vuesa merced. :-)
furia   |Author |2008-07-28 10:58:00
avatar Gracias Carlos.
Con respecto a tu último adjetivo porque te crees que algunos me dicen furia...

Hablando de esto, suponía que con este nick me preservaba más en el anonimato, veo que no...
cbalvarez   |Author |2008-07-29 08:32:02
Nada te mantiene en el anonimato, nada.

3.26 Copyright (C) 2008 Compojoom.com / Copyright (C) 2007 Alain Georgette / Copyright (C) 2006 Frantisek Hliva. All rights reserved."

 

El albañil

ladrillosAnécdotas tragi-cómicas en Sistemas (y casi reales) ¡Leer más!

Últimos comentarios