Tutorial de posicionamiento web, parte 3: Optimización de una web [Todo sobre el robots.txt, sitemap, error 404, indexación, código limpio, barreras de rastreo y alta en buscadores] para SEO


Larga ha sido la espera pero aquí esta, la tercera entrega del tutorial de posicionamiento web!. En esta ocasión hablare de aspectos básicos para optimizar una web de cara a posicionarla en los principales motores de búsqueda. Entre otros, se abarcarán temas como el robots.txt, el sitemap, los errores 404, la indexación de páginas, y las pautas básicas para escribir un código limpio y “amigo” de buscadores. Trataré como siempre de empezar desde cero, para que todo el mundo pueda acercarse a la taquilla y comprar un billete de este tren.

1.- Optimización de una web para posicionarla en buscadores: ¿Que es la optimización? ¿Como optimizar una web?

Bien, en primer lugar dejemos claro que es la optimización. En pasadas entregas ya expliqué aspectos básicos sobre el codigo xhtml especifico para SEO a incluir en una página web. Partiendo de la base que hemos asimilado estos conceptos ( y sino, echadle un ojo a la parte I y II de este tutorial) seguiremos con nuevos trucos orientados a la eliminación de barreras. En pocas palabras, se lo vamos a poner “a huevo” a los buscadores.

En definitiva, optimizar una pagina para posicionarla, significa eliminar todas las barreras de rastreo, y ponerle las cosas fáciles al buscador. Nada mas.

Y dato importante: La optimización de una web tiene dos objetivos claros. Al contrario de lo que se pueda pensar, no solamente consiguiendo que los buscadores nos indexen, habremos alcanzado el éxito. Ademas de ello, lo apropiado sería que el robot rastree todo el site, indexando no solo unas pocas páginas, sino la totalidad de ellas. Seguid leyendo y se os aclararán las ideas.

 

2.- Indexación de nuestra página web en los buscadores mas importantes

 

Rápidamente aclaro que es la indexación. Es tan sencillo como que un buscador, pongamos de ejemplo al todopoderoso google, incluya en su enorme base de datos a nuestra web. Si ésta no estuviera en dicha base de datos, por muchos intentos de búsqueda que hagamos en google, no habrá ni rastro de nuestro site en la página de resultados. Y si no estas en los buscadores, no existes. Es mas, sobretodo en España, si no estas en google, eres invisible.

Atención, ahora viene un “spoiler”: Lo mejor para que un buscador indexe nuestra web, es que webs que ya estén indexadas en dicho buscador nos hayan enlazado. Parece un trabalenguas pero en realidad, es una verdad enorme. Ciertos buscadores tienen un formulario de registro de webs, estilo google, y otros no lo tienen. En ambos casos, conseguid enlaces de otras páginas, y la mitad del trabajo estará echo. Para empezar no esta de mas conseguir algún enlace pactado, o un intercambio de links. Seria una especie de “Eh, google, aquí estoy yo, mírame!”

Sobra decir que el intercambio de enlaces como tal (yo te enlazo a ti y tu me enlazas a mi) no sirve de mucho. Solo al principio, y poco mas. Ya desarrollaremos este aspecto mas adelante.

Queda mencionar varios puntos importantes sobre la indexación. Lo común es que al principio los buscadores nos indexen solamente la primera página y vaya añadiendo mas en sucesivas visitas al site. Esta acción se denomina rerastreo, y será crucial no solo para posicionar bien nuestra página, sino para mantenerla en las posiciones destacadas. Profundicemos un poco en este aspecto.

 

2.1.- Re-rastreo. Factores  que influyen en la frecuencia de re-rastreo. Actualización de contenidos. Trucos para “pseudoactualización”.

 

Hay muchos factores que influyen en dicha acción, llevada a cabo por las arañas de los buscadores. Los mas importantes tienen que ver con la relevancia que tienen nuestras páginas, y sobre todo, la velocidad de actualización de dichas páginas. A mayor velocidad de actualización, mas a menudo nos visitaran estas amigables arácnidas. Y esto, amigos, significa que nuestro site irá viento en popa. Para ello, el mejor consejo es actualizar cada poco tiempo el site, y no mantenerlo estático hasta el fin de los días.

Y ahora viene un párrafo completamente subjetivo, basado en mi experiencia personal. Resulta que lo mas típico en casos de empresas pequeñas o medianas cuyas páginas no se actualizan todos los días, la frecuencia de rastreo se verá afectada de manera seria. Se de primera mano que para evitar que las arañas dejen en el olvido nuestros poco actualizados sites, lo óptimo es inventarnos algún “truco”. Hoy en día existen muchos, citaré los mas conocidos: El uso de foros, blogs, módulos de twitter, etc. De esta manera, nuestra web no actualizada al menos cambiará a menudo, pareciendo estarlo, y obligando así a los motores de búsqueda a entrar mas a menudo a “husmear”.

Este último punto es lo que he querido llamar “pseudoactualización”. No es ningún tipo de trampa o engaño, ya que si lo hacemos de buena fe, nuestra web tendrá nuevos contenidos que aportan algo a internet, bien sea noticias de última hora mediante mensajes cortos de twitter, o con contenidos aportados por otros usuarios en un foro. Por lo tanto no es merecedor de penalización por parte de ningún buscador. Y no se me ocurre ni una sola razón para desaconsejar el uso de estas herramientas que, para mas inri, son completamente gratuitas. Eso si, realmente no son actualizaciones, ya que una actualización como tal supondría un cambio en alguna de las secciones de nuestro site, como por ejemplo la típica sección de noticias, o una sección específica de un catálogo on-line de productos.

 

2.2.- Barreras de rastreo: Qué son, Cuáles son, y como evitarlas.

Las barreras de rastreo es todo aquello que pone trabas a los buscadores para que nos indexen en sus bases de datos. Citaré las más comunes:

-> Los enlaces que no estén programados en XHTML. es decir, todo enlace o menú de enlaces que este programado en Action Script o Flash. Esto es básico: Que a nadie se le ocurra hacer un menú en flash o en Js y piense que un robot podrá seguirlo. Las arañas prácticamente sólo interpretan código XHTML, por lo que les será imposible seguir esos enlaces, y dejara todas las páginas de destino de dichos enlaces sin indexar.

NOTA: Los enlaces insertados en imágenes, son igualmente una barrera para rastreadores. No es nada aconsejable hacer un menú de navegación con imágenes, por muy bonito que quede.

-> Igualmente todo texto dentro de una película flash es irreconocible a día de hoy por un rastreador. No pongáis nada importante en películas flash si queréis posicionar.

-> Los formularios, indiferentemente del lenguaje en el que esten programados, ya que las paginas de resultado que emiten necesitan necesariamente que se rellenen unos campos.  Los robots son listos, pero no llegan hasta tanto.

–> Applets de Java. El buscador pasará de largo todo este tipo de contenidos.

–> Cualquier tipo de fallo en la programación de la web: Etiquetas sin cerrar o incompletas, capas superpuestas, etc. Yo recomiendo debuggear y testar todas las páginas antes incluyo de meterlas en un validador de código on-line, ya que es una primera criba crucial que muchos navegadores web obviarán a posteriori. La mayoría de los citados navegadores están tan bien programados, que cuando encuentran un fallo de programación, lo solventan, y parecerá que ese error nunca existió.

ACLARACIÓN: Si queréis hacer páginas espectaculares e indexables, haceros expertos en XHTML + CSS. Se pueden hacer verdaderas maravillas, y con JavaScript de la mano pueden crearse sites dinámicos, y comparables en espectacularidad a los basados en flash. Como ejemplo, la web de un amigo de Zaragoza, Javier Ril, cuya web es toda una lección de buenas costumbres: http://www.ril.es

De todos modos, hay formas de incluir películas flash en nuestra web, como logotipos en movimiento o contenidos de imágenes, galerías… sin que afecte al posicionamiento. Lo básico es que todas y cada una de nuestras páginas web que componen el “site” sean accesibles al menos una vez a partir de un enlace XHTML (<a href=….>)

 

3.- Robots.txt. Qué es, para que sirve y ejemplos de uso.

 

Como su propio nombre indica, el robots.txt es un archivo de texto. Se ubica en la raíz del directorio (la carpeta superior, donde están todas las demás carpetas y archivos). Ejemplo: http://www.gruasantonio.com/robots.txt

Las arañas de los buscadores están programadas para buscar este archivo, ya que contiene información específica para ellas. Entre otras cosas, se incluirán en este archivo parámetros como que páginas y directorios no deben ser indexadas en el buscador (como medida de seguridad o para evitar indexar páginas poco útiles),  y también la ubicación del archivo sitemap, que como se verá mas adelante, está programado en XML.

El robots.txt no influye de ninguna manera en la indexación de un site, y si alguno no dispusiera de este elemento, el buscador simplemente pasaría de largo este punto asumiendo que no hay ningun tipo de restricción de indexación.

Como curiosidad, decir que en ocasiones una periodicidad de re-rastreo excesiva podría general excesivo tráfico y ocasionar problemas de navegación a nuestros usuarios. En ese caso,  es en este mismo archivo donde deberemos especificar que no deseamos una frecuencia de rastreo tan elevada. Pero cuidado! un uso indevido de esta herramienta podría ocasionar un feedback de indiferencia por parte del rastreador hacia nuestro site. Hay que saber bien lo que se hace.

 

4.- SiteMap. Qué es un sitemap, para qué sirve, y ejemplos de uso.

 

Un sitemap (en castellano, mapa del sitio web) no es mas que un listado de todas las páginas que componen nuestro site. Sirve cualquier formato, como los típicos html donde se listan, ordenadas por niveles, todas las páginas que componen la web. Se trata de seguir una especie de jerarquía o árbol de niveles, y que tienen dos principales destinatarios: Las arañas y los usuarios. Las primeras se servirán de esta ayuda para indexar correctamente todas las páginas de nuestro site, ya que sin un sitemap se corre el peligro de que el bot se “canse” antes de haber recorrido todos los enlaces, y se marche sin conocer todo nuestro sitio. Los segundos, los usuarios, agradecerán en gran medida esta herramienta, que les hara mas amable y usable la web.

Cómo no, Google creo un protocolo para que los programadores web estandarizaran sus sitemaps. Actualmente un sitemap se programa en formato XML que es un lenguaje de etiquetas extremadamente sencillo de aprender.  Es la herramienta básica que todo SEO debe dominar, ya que no solo google lo usara, sino que también lo harán otros buscadores como MSN, Yahoo y Ask.com.

Esta costumbre es especialmente útil cuando decidamos incluir algún tipo de menú en nuestra web que no este programado en XHTML.

Además de la lista de paginas que componen el site, en un sitemap se incluirán mas parámetros como la frecuencia de actualización, la fecha de la última actualización, la importancia de cada pagina….etc.

Un recurso importante para desarrollar sitemaps: La página www.xml-sitemaps.com general automáticamente un fichero xml con toda la información necesaria, lista para copiar y pegar, o incluso descargar. Para empezar no esta nada mal, ya habrá tiempo de aprender a modificar manualmente el fichero.

 

5.- Página 404 (error)

 

Quién no se ha encontrado alguna vez con una dichosa página de error 404 “página no encontrada”? Seguramente alguien que no tenga ordenador, o que no viva en este mundo. El resto las hemos sufrido.

Un inconveniente de estas páginas que salen por defecto, es que son siempre la misma, pudiendo inducir a error, o cansando a los visitantes hasta el punto de que decidan abandonar nuestro sitio. Una opción altamente recomendable es personalizarnos nuestras propias páginas de error (si, es posible hacerlo) de tal manera que sigan la misma linea estética de todo el site, y que ofrezcan algún tipo de alternativa para el usuario: El menú principal, un enlace hacia otra página, un buscador para realizar otra búsqueda, sugerir una búsqueda…

Ejemplo: Imaginemos que estamos buscando un artículo en ebay difícil de encontrar, y que cuando le demos al botón buscar nos salga esto:

Muchos nos extrañaríamos y saldríamos pitando de ebay. Pero como todos sabemos, lo que realmente pasa es que el buscador de la página nos indica que no hay ningún artículo relacionado con esa búsqueda, y a menudo nos ofrecen búsquedas similares. Perfecto, no?

La mala noticia es que existen bastantes mas tipos de errores, y que se debería contemplar personalizar todos ellos, o al menos los mas importantes. No es indispensable al principio, pero si aconsejable.

 

6.- BONUS TAG: Consejos para eliminar barreras de rastreo en el dominio o URL de nuestro site.

 

–> Si nuestra web esta disponible en varios idiomas, lo mas correcto sería que cada uno de los idiomas tuviera un dominio con diferente extensión. Por ejemplo, si nuestra web en castellano fuese http://www.gruasantonio.es,  para el idioma francés debería ser http://www.gruasantonio.fr. Si esto no fuera posible, lo segundo mejor sería algo del estilo “www.sp.gruasantonio.com” y “www.fr.gruasantonio.com.

–> En el caso de páginas programadas en algún lenguaje ejecutado en servidor, como php o asp, lo correcto es que la url que se genera sea lo mas limpia posible. No es adecuado que aparezcan infinidad de variables como “http://miweb.com/news/new1?var1=var2&cod3 … y bla bla bla.

 

Si el servidor en el que alojamos nuestro site esta montado en apache, tenemos un mod llamado “mod_rewrite” que sirve para hacer mas sencillas las urls generadas por lenguajes de este tipo. No profundizaré demasiado en este aspecto, ya que es bastante avanzado y requiere mas conocimientos para ser asimilado. Lo dejaremos para el final, de momento que os suene el fichero “.htaccess” por si queréis investigar por vuestra cuenta.

Bueno, pues hasta aquí la tercera entrega. Nótese que cada vez se va complicando un poquito mas el tema, ya que nadie dijo que ser un experto SEO fuera fácil ni rápido. Pero estoy seguro que con paciencia, y constancia, estos tutoriales pondrán la primera piedra en vuestro camino al éxito. Os recomiendo que investiguéis y profundicéis en los temas tratados, que la red es muy grande y siempre hay cosas nuevas que aprender.

Solo queda emplazaros a la cuarta entrega.

Actualización: Aquí os dejo las siguientes entregas del tutorial de posicionamiento en buscadores desde cero:

-> Tutorial de Posicionamiento web SEO, parte 2

-> Tutorial de Posicionamiento en buscadores, parte 3

 

Anuncios

7 comentarios en “Tutorial de posicionamiento web, parte 3: Optimización de una web [Todo sobre el robots.txt, sitemap, error 404, indexación, código limpio, barreras de rastreo y alta en buscadores] para SEO

  1. Buenas,
    Se agradece que alguien tenga esta iniciativa tuya y comparta sus conocimientos con el resto de los mortales que desconocemos como posicionar nuestra web.
    A lo mejor puedes ayudarme con una duda…:
    Quiero poner una sección de news en la home de mi web y enlazar las noticias en el blog, es decir, que hagan click en la noticia y la vean desarollada en el blog. ¿Es esto útil para darle movimiento a mi web en el sentido de actualizar contenidos para el robot de google, aunque sea a través del blog, o estoy perdiendo el tiempo si ese es mi objetivo?
    Muchas gracias y enhorabuena por este blog.
    Oscar

  2. Hola Oscar, gracias por tu apoyo. Aunque no tengo todo el tiempo que desearía para actualizar el blog, pretendo que sea un foro de intercambio de conocimiento gratuito.

    Con respecto a tu duda, te contesto. Un blog es bastante fácil de posicionar. Sólo hay que seguir unos consejos: Crear material propio e interesante, actualizar con frecuencia y utilizar los metatags. Los robots premiarán eso.

    En tu caso, el home enlaza al blog, pero no por ello se debe tratar como una única web. Digamos que, aunque las dos sean tuyas y estén enlazadas, se han de tratar como dos webs diferentes que se posicionan de dos formas diferentes. El hecho de enlazar tu home al blog le vendrá bien al blog (enlaces entrantes), pero al home no le afectará demasiado en cuanto al posicionamiento.

    Mi consejo es que en vez de enlaces simples, pegues trozos de las noticias en el home que contengan las keywords (ahí esta la clave para posicionar el home, en las keywords) para las que quieres posicionar tu home. Y en el típico “leer mas” coloques el enlace a la noticia del blog.

    Y ya si en vez de “leer mas” como texto ancla utilizas diversas cosas (ej: “leer mas sobre posicionamiento” – “seguir leyendo sobre como reservar un dominio”…) el blog se verá más premiado incluso.

    salu2

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s