"El 90% de la información que nos llega es 'spam'"
El problema del spam obliga a Technorati a excluir hasta un 90% de las páginas de la información que ofrecen a sus clientes
Madrid
Cosas de la globalización. El ingeniero español Héctor García, el autor del blog Kirai.net, trabaja para Technorati.jp, la delegación en Japón del mayor buscador de blogs, creado originalmente en EE UU. Antes pasó por el laboratorio europeo sobre tecnologías nucleares, el CERN, con sede en Ginebra (Suiza), pero es en Japón donde este blogger de éxito ha encontrado su hueco. Aprovechando su primera visita a España en dos años, con motivo del congreso OjoBuscador, charlamos con él sobre su empresa, las bitácoras y el posible desarrollo futuro de los buscadores.
Más información
- DoubleClick lanza un servicio de subastas para webs y anunciantes
- 'Habitaquo', un reto para expertos en llamar la atención
- El dominio .eu, entre los 10 más utilizados del mundo
- Los beneficios de Yahoo caen un 11% en el primer trimestre de 2007
- Yahoo! celebra el Día de la Tierra con un nuevo portal solidario
Héctor decidió trasladarse a Tokio hace dos años, pues era la oferta "más atractiva y novedosa" de todas las que le llegaron tras su paso por Ginebra y una estancia anterior en Japón gracias a una beca. "Suponía desplazarse a vivir a uno de los mayores centros tecnológicos del mundo. En Tokio hay más de 3.000 empresas de tecnología, de las que más de la mitad son empresas de Internet y la mayoría se concentran en un área llamada Sibuya. Allí fue donde un joven llamado Joi Ito [en la actualidad una de las figuras de la blogosfera] montó el primer servidor de Internet de Japón en 1994. Junto a un amigo fundó Digital Garage, que en la actualidad controla más de 50 empresas de Internet. Una de ellas es Technorati.jp".
¿Qué diferencia a Technorati de las herramientas de búsqueda tradicionales?
El tiempo que transcurre entre que un blog publica un contenido hasta que lo muestra Technorati es mucho menor que en los buscadores tradicionales, y además ahora estamos intentando ordenar la información por criterios adicionales al temporal, tener en cuenta la relevancia o autoridad de quien escribe. Para determinar la relevancia ahora sólo contamos los enlaces que un blog ha recibido en los últimos seis meses, con lo que logramos un poco más de dinamismo, y evitamos que páginas 'dinosaurio' no aparezcan siempre en lo más alto de nuestros listados. También queremos relacionar contenidos diferentes al texto, formatos como las imágenes, los podcasts o el vídeo.
¿Qué usos puede darse a este buscador de blogs?
Technorati puede resultar útil para alguien que requiera información sobre un acontecimiento de forma casi instantánea, para quien por ejemplo ha estado en una fiesta y quiere ver a las pocas horas las fotos que otros publicaron sobre ellas. También es útil para seguimiento de producto, para conocer las reacciones de los espectadores ante una película recién estrenada. Para los departamentos de marketing es una herramienta valiosa, pues se puede conocer en poco tiempo la opinión de los consumidores.
¿Cuántos blogs españoles hay entre los más populares de Technorati?
Creo que en la actualidad que hay en el Top 100 dos páginas españolas, Microsiervos y el blog de Javi Moya. Últimamente están entrando en los listados de lo más popular muchas páginas chinas, también hay una docena de webs japonesas, un par en árabe? Hace unos años todo lo que veías eran páginas en inglés pero en los últimos meses empieza a verse movimiento.
Los blogs han llegado ya al mundo corporativo y a los grandes medios de comunicación, ¿los valora igual Technorati que los que pueda realizar cualquier internauta anónimo?
El valor que tiene cada página es el mismo, siempre que sea un blog, el que la página se publique bajo el dominio de Internet de una empresa famosa no hace que para Technorati esa web tenga más relevancia.
El spam es ya uno de los grandes desafíos de la Red. Los blogs se utilizan a menudo para spamear a los buscadores y lograr mejores posiciones en sus listas de resultados. ¿Cómo afrontar ese problema?
En buscadores, el uso de páginas que contribuyen a mejorar el posicionamiento se desarrolla a partir de la introducción de los algoritmos de búsqueda. Antes, a mediados de los años noventa, los buscadores eran herramientas que obtenían información de bases de datos que se alimentaban manualmente, había personas que revisaban las webs y las clasificaban. Cuando aparece Google se imponen los sistemas que funcionan como este buscador, con un programa que recorre automáticamente la red, saltando de enlace a enlace, funcionando como un virus para recoger toda la información posible. Esto se convierte en una oportunidad para quienes distribuyen información no solicitada.
En las bases de datos de los buscadores hay más páginas dedicadas al spam de las que un usuario puede imaginar, en ocasiones puede alcanzar el 95%. En Technorati también sufrimos este problema, porque nuestro sistema también es automático. Nosotros decimos que en Internet hay unos 70 millones de blogs, pues dejamos fuera otros 1.000 millones de blogs que consideramos spam. Cuando nos dimos cuenta del volumen del problema, decidimos no incluir ciegamente cualquier página que nos comunicara una actualización, tenemos un montón de filtros y criterios para evitar el spam, incluso a una persona que sólo se dedica a revisar blogs sospechosos. Es un problema bastante gordo que está haciendo mucho daño, sobre todo, a las pequeñas empresas de Internet. Aún así, los spammers no son tontos, y son capaces de innovar para saltarse nuestras protecciones, son muy imaginativos.
El uso cada vez mayor de formatos como el vídeo o el sonido en Internet es otro reto para los buscadores. ¿Qué desarrollos interesantes hay en este campo?
En mi opinión quien más sabe sobre ese tema es Microsoft, que lleva investigando el tema desde los años 70 y principios de los 80. Antes de llegar a Technorati.jp, yo trabajé en tecnologías de reconocimiento de voz durante ocho meses, en un laboratorio en el que también había gente de Microsoft. Los avances logrados con estas tecnologías hace 30 años realmente fueron revolucionarios, pero no se han superado, existía entonces un límite tecnológico que ahora se trata de saltar ahora mediante la mejora de los algoritmos de reconocimiento, y cualquier desarrollo cuesta muchísimo trabajo. Actualmente la máquina puede ser capaz de lograr reconocer hasta un 95% de tus palabras, y aunque eso parezca casi perfecto implica ciertos problemas de entendimiento: de cada cien palabras que dices el ordenador no entiende o malinterpreta dos. Por eso hay que crear sistemas modulares, con unidades de comprensión gramatical que compensen los fallos, Microsoft ha avanzado mucho, pero desde el punto de vista de un ingeniero puedo decirte que es una tecnología muy difícil de perfeccionar.
¿Qué es la web semántica y cómo puede ayudar a desarrollar mejores buscadores?
Yo siempre digo que la web semántica supone pasar el marrón a los demás, a los usuarios y creadores de contenidos. Actualmente, Internet es un desastre en cuanto a organización de la información, y los buscadores no hemos sido capaces de clasificarla, técnicamente hablando cada uno actúa por su cuenta y pocos creadores de páginas las marcan con herramientas que describan sus contenidos. Los buscadores acudimos a ellas y recopilamos información, palabras clave, enlaces, etc, pero sin tener mucha información real sobre el contenido. La web semántica pide a los creadores de contenidos que los marquen especificando de qué va cada página, con sistemas que luego se pueden leer automáticamente. Es una forma de pasarles la pelota a ellos y a quienes desarrollan herramientas para la creación de páginas, pero luego el trabajo volverá a los buscadores, que tendrían que ser capaces de leer toda esa información.
- <a name="despiece1"></a>Un exitoso buscador que quiere ser medio