MJCACHÓN

Screaming Frog: utilidades para SEO

Tutoriales de Screaming Frog hay muchísimos a golpe de una simple búsqueda de Google, no voy a comentar qué es un crawler ni cómo instalarlo, sin embargo, quería escribir un post que hablase de usos concretos y de utilidades que nos brinda esta potente herramienta (en su versión ilimitada, de pago).
¡Vamos allá!

¿Cuántas URLs tiene mi web?

“He revisado la indexación de la web y tiene 23000 urls indexadas….”

¿Y eso es mucho? ¿Poco? ¿Está bien?

Pues tendríamos que hacernos 2 preguntas:

  1. Cuántas páginas (urls) tiene la web en total
  2. Cuántas de esas, son optimizables para SEO, o son “posicionables” en base a nuestro producto, servicio, contenido, propuesta de valor….

Con Screaming Frog, podemos hacer este análisis, omitiendo algunos aspectos en la configuración previa, vamos al menú y tuneamos la configuración:

Menu configuracion screaming frog

 

configuracion screaming frog

En cualquier caso, aunque no hagamos uso de esta configuración, tenemos como alternativa filtrar las urls totales rastreadas, y seleccionar únicamente las que sean HTML.

Con la nueva versión, existe un panel derecho muy visual, en el que podemos revisar el reparto de tipologías de contenidos y filtrar desde ahí

filtros screaming frog

Lo que vemos aquí, es un sitio con un alto componente de imágenes, por lo que podría ser un buen aspecto estratégico a tener en cuenta y pulir, asociado a las páginas (html) objetivas para posicionarse en Google.

Volviendo a la pregunta del principio, si contamos con algo más de 200 urls html y otras tantas de imágenes, si tuviéramos todas ellas indexadas, con la cifra de 23000 urls indexadas, ya estaríamos en disposición de pensar que tenemos un problema que debemos investigar.

 

¿He puesto bien el código de Analytics?

Hay muchas otras formas de saber si está bien instalado el código de Analytics o si existen grietas o errores en la implementación del código, no obstante, podemos usar screaming para chequear que el código está presente en todas las páginas que queremos seguir.

En caso de proyectos que arrancan o acaban de empezar, a veces no hay conciencia de la importancia de empezar marcando bien todas las páginas que componen el site. El precio que se paga por esto es muy alto: estadísticas y datos que no se corresponden con la realidad.

Y la consecuencia muy dramática: la toma de decisiones basada en datos inconsistentes es un suicidio potencial. O como mínimo, mucha confusión y situaciones de incomprensión:

“Últimamente recibo muchas más llamadas de clientes, pero no sé cómo, porque no tenemos apenas tráfico”

Podemos utilizar un filtro customizado en Screaming Frog para rastrear en qué páginas está colocado el código, desde “configuración”, “custom”:

Custom Filter Screaming Frog

Y ahora podemos añadir el código de Analytics al filtro, con “contains”, para que chequee las urls donde SI está el código. Obviamente, también se puede hacer a la inversa, analizando con el filtro “does not contain”…

codigo analytics screaming frog

Estos filtros, como podéis observar, nos dan pie para búsquedas de mucho tipo:

  1. Buscar en qué urls tenemos plugins sociales
  2. Buscar en qué urls tenemos marcado de Schema: “contains: itemtype=http://schema.org”
  3. Buscar si tenemos urls hackeadas: “contains: viagra”
  4. Buscar enlaces absolutos o relativos: “contains: <href=http://www” | “contains: <href=www”
  5. Buscar nuestras keywords “top” y ver qué urls existen de contenido, para ver posibles optimizaciones: linkado interno, canibalización, etc.
  6. Buscar si existen páginas usando iframes: “contains:<iframe”

Bonus: una herramienta web interesante para buscar en código fuente de otras páginas http://nerdydata.com/ 

¿Tengo taaantos errores 404 en GWT? ¿De verdad?

Como falla un pelín la parte de errores 404 de Google Webmaster Tools, podemos hacer uso de Screaming Frog, para descargar los errores que nos marca GWT, pulir duplicados, y subirlos a Screaming Frog en modo lista, para chequear sus status code.

Es importante resaltar que debemos guardar la colección de urls que vayamos a analizar, en un fichero TXT, después nos vamos a “Mode”, y elegimos “List”.

modo list screaming frog

Seleccionamos el fichero desde nuestro equipo y Screaming Frog ya “lee” el contenido del documento de texto, antes de empezar a rastrear todas las urls contenidas.

fichero txt screaming frog

A partir de aquí, comenzará a rastrear las 675 rutas que hemos añadido a través del fichero txt.

chequear multiples urls screaming frog

En este caso, ya estaríamos en disposición de saber qué respuesta ofrecen las urls que hemos obtenido de la sección de errores de GWT.

Otras situaciones en las que podemos aprovechar esta funcionalidad:

  1. Seguimiento de una migración: analizar las urls de partida para chequear redirecciones.
  2. Chequear listados de backinks, para saber si están vivos o muertos
  3. Chequear nuestra lista de sitios potentes que NO nos enlazan de vuelta, combinando el modo lista y el custom filter, “does not contains:mjcachon.es”
  4. Revisar que todas las urls de campañas PPC, responden 200 y no estamos mandando tráfico a urls rotas.

 

¿Cómo hago un primer diagnóstico SEO rápido?

Podemos hacer varias cosas, rastreamos el sitio web que queramos, y después, a revisar distintos aspectos antes de quejarnos porque nos cae el tráfico :

Status de principales etiquetas

Una vez rastreado el site, aquí tenemos 2 opciones:

  1. Report Crawl Overviewcrawl overview screaming frogPosteriormente, lo que se obtiene es un fichero CSV, con información resumen del crawleo efectuado por Screaming, donde podremos observar códigos de status, tipología de contenidos, y el estado de las principales etiquetas (títulos, descripciones, h1,…)csv crawl overview
  2. Overview del panel derecho

Es la misma información, pero se recoge en el panel derecho y ofrece gráficos dinámicos para ver la distribución de las distintas facetas analizadas

 

panel overview screaming frog

 

Desplegando la flecha, se muestran los porcentajes en los que se duplican títulos o los ALT text de imágenes que no existen, por ejemplo.

Ojo, disclaimer obligatorio: no te quedes con la cifra de “0,1% de títulos duplicados” como un aspecto positivo necesariamente, es decir, quizás no estén bien optimizados o bien creados los títulos, a pesar del hecho positivo de no estar duplicándolos

¿Hay contenido? ¿Mucho? ¿Poco? ¿Nada?

Tenemos la columna “Word Count”, que nos indicará el número de palabras que tiene cada url.

De un vistazo rápido podemos hacernos una rápida idea de situación respecto a los contenidos, principalmente enfocado a que todas aquellas páginas en las que no existe contenido de texto, puede tener más dificultades para que Google la asocie a unas determinadas palabras clave.

word count screaming frog

Directivas: “noindex” y “canonical”

Otro aspecto que podemos revisar de manera bastante rápida, es chequear qué páginas están marcadas con la etiqueta “robots noindex”, para confirmar que no está incluida en páginas incorrectas.

Del mismo modo, las etiquetas “canonical” nos darán pistas sobre posibles problemas de duplicado de contenidos o de indexación selectiva.

En ambos casos, si seleccionamos la etiqueta que queramos revisar, en el panel derecho, nos filtrará la información en el panel central. Toda la información es susceptible de exportar, por lo tanto, a la medida de nuestras necesidades.

directivas screaming frog

Otras etiquetas de interés:

  1. Paginados: rel next rel prev, previenen de duplicidades en listados que van paginando.
  2. Nofollow: para indicarle a Googlebot que no siga determinadas navegaciones por el site.

 

Comprobar velocidad de carga

Una vez finalizado el rastreo del sitio, podemos irnos a la pestaña “Response Codes”, y veremos una columna llamada “Response Time”.

Esta información ya nos dará pistas, antes de analizar a fondo lo relativo a rendimiento, si tenemos problemas de carga o algo reseñable.

response times screaming frog

 

En principio, para empezar, con estos tips, nos podría valer :)

 

Recursos útiles para Screaming Frog

1) Descarga de Screaming Frog

Opciones para distintos entornos, todos contentos

http://www.screamingfrog.co.uk/seo-spider/#download

2) Guía Oficial de Screaming Frog

Guía disponible en la página de la herramienta y otras de FAQs

http://www.screamingfrog.co.uk/seo-spider/user-guide/

3) Completísima Guía de SeerInteractive

Muchas casuísticas, aunque faltan cosas de las últimas versiones de la herramienta, es altamente recomendable.

http://www.seerinteractive.com/blog/screaming-frog-guide

4) Usar Screaming en Google Cloud

Para los más pro

http://www.filiwiese.com/running-screaming-frog-on-google-cloud/

5) Gdocs para analizar “Páginas No Indexadas”

https://docs.google.com/a/mjcachon.es/spreadsheet/ccc?key=0Aim8AmgfOwzDdE1FSUpzYU1jS0ZncDFGNUxOMzhrdlE&usp=sharing#gid=8

6) Template Excel para analizar datos de Screaming Frog

http://www.lunametrics.com/blog/2014/05/23/screaming-frog-data-analysis-excel-spreadsheet/

7) Incrementar la memoria de Screaming Frog

Para rastrear sitios grandes, lo vas a necesitar

http://www.screamingfrog.co.uk/seo-spider/user-guide/general/#6

http://www.craigaddyman.com/how-to-increase-memory-allocation-for-screaming-frog/

8) Combinar Advanced Web Ranking con Screaming Frog

http://builtvisible.com/combining-awr-and-screaming-frog-to-spot-quick-wins/

9) Cómo programar Screaming Frog

http://www.screamingfrog.co.uk/how-to-schedule-a-crawl/

Compartir es lo más...Tweet about this on TwitterShare on Facebook0Share on LinkedIn41Share on Google+32Buffer this page

  17 comments for “Screaming Frog: utilidades para SEO

  1. 18 agosto, 2014 at 13:23

    Muy interesante y útil. Gracias por la explicación paso a paso.

  2. paco
    31 agosto, 2014 at 14:19

    Gracias gracias y mil gracias!

    Hechaba en falta un articulo asi… la verdad es que ahora no tengo tantas dudas de este pedazo de herramienta!

    Por otro lado, hablaras en alguna entrada de como modificar los errores?? Que pasos debemos seguir si mejor desde la propia herramienta, si desde WBT o por el contrario si es mejor desde nuestro WP en casa de Blog o si es tienda online prestashop… o desarrollo propio como es mi caso en el que se complica mas el asunto de cambiar cosas…

    saludos!

    • MJ
      29 noviembre, 2014 at 21:32

      No entiendo bien a qué te refieres, si quieres escríbeme un email y lo comentamos!

  3. judit
    21 mayo, 2015 at 20:38

    Hola buenas!!
    Muchas gracias por el post!!
    Estoy usando la herramienta y me aparece un status forbiden 403. ¿Cömo puedo solucionarlo? se te ocurre algo?
    Gracias!!!

    • 21 septiembre, 2015 at 16:07

      Hola Judit, el 403 sale porque la ip no está autorizada para ver esa url.
      Quizás estás intentando entrar en una web en pruebas, que solo permite acceso a ips concretas, o mediante user y contraseña, por ejemplo….

  4. Jose
    20 enero, 2016 at 1:55

    Aunque el post se que tiene un tiempo, no he querido dejar pasar la oportunidad de dejarte un comentario y agradecerte el haberme resuelto una duda en la parte de URL, muy simple ahora que lo veo pero, que no terminaba de quedarme claro.

    Si me permites la consulta y habiendo encontrado la respuesta al principio del post, mi duda es con un prestashop que me está dando algunos dolores de cabeza al tener 400 páginas de Html según Screaming, 850 en el estado de indexación de WMT y algo más de 2000 según site: pero no estoy seguro de cual es el dato que me ha de valer, (entiendo que el de Screaming frog) para en caso de, ir desindexando todo lo un no tiene que estar y controlar que se añadan nuevas páginas.

    Un a vez más muchas gracias por lo útil de este post, y del blog en general que estoy leyéndome de cabo a rato.

    • 20 enero, 2016 at 11:04

      Hola José,

      Debes tener cuenta 2 matices:

      1. ¿Sabes cuáles de tus páginas tienen interés SEO?
      2. Depende como esté la estructura y el enlazado interno, un crawler puede llegar a un contenido para rastrear y posteriormente indexar o no, en función de las instrucciones que encuentre para ello. Hay una configuración para centrar el rastreo en las “páginas indexables”:

      Configuration >> Spider >> Advanced >> “Respect Noindex”
      Configuration >> Spider >> Advanced >> “Respect Canonical”

      De este modo, el crawleo efectuaría el rastreo de las páginas indexables para Google y te valdría como dato para comparar.

      Lo que ocurre es que si la estrategia de noindex y canonical no es correcta, estarás comparando números de como está ahora, pero no de la situación óptima.
      También afectan otros aspectos como urls con parámetros, por ejemplo, que te pueden inflar la indexación, o si tienes subdominios…

      No es lo mismo:

      site:dominio.com
      site:www.dominio.com

      Y en un crawleo que hagas con Screaming, tampoco 😉

      Si necesitas algo más de detalle, escribe un formulario por la web y comentamos más ampliamente :)

      • Jose
        20 enero, 2016 at 15:04

        Muchas gracias por la respueta Maria José,

        Me has aclarado muchísimo más si cabe con tu respuesta. Ya te digo que no hay mucha información al respecto por la web, al menos no en castellano. Y sé que para ti será una obviedad, pero creo que una indexación limpia y controlada es parte fundamental.

        En este caso, la web no tiene una buena estragia de noindex y canonicals ya que están indexadas páginas como el carrito de compra, aviso legal, etc… Pero no conseguía controlar y conocer del todo el número real de páginas con interés SEO para, progresivamente ir desindexando el resto hasta conseguir tenerlo todo optimizado y controlado.

        Una vez más gracias por el articulo y por tu amabilidad con la respuesta.

        He aqui a partir de ahora una visita recurrente. 😉

    • 20 enero, 2016 at 15:06

      Me alegro que te haya servido, insisto que si tienes alguna duda más allá, comentamos por email sin problema :)
      Gracias por pasarte por nuestro blog!!

  5. Victor
    14 abril, 2016 at 0:32

    Tengo una pregunta,

    Como podría extraer la Url + etiqueta titulo + Alt de una imagen “”

    Utilizo Screamingflog –> Custom

    y me gustaría poder sacar esa información utilizando Xpath o Csspath …

    Podéis ayudarme?

  6. LUIS MIGUEL
    1 junio, 2016 at 11:47

    Hola,

    Queria saber como puedo ver en screming frog el alt que tienen las imagenes. Veo que hay campos de H1, title, etc que estan vacios, pero no veo el ALT

    Gracias

    • 24 agosto, 2016 at 18:15

      Tiene dos formas.

      En el panel central, una vez has acabado el crawleo, sección “Images” y puedes usar el filtro para elegir la info que quieras del Alt y descargar.

      La opción 2 es en Bulk Export > Images

      Saludos

  7. Otto
    12 agosto, 2016 at 9:31

    Buen artículo, muchas gracias

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Información de contacto

C/ Gran Vía 69, 9º, ático exterior centro
28013 Madrid
Telf.: 914 34 75 81