Lembre-se de quem desembarcou em SEO, a utilidade de um rastreador: é um programa (serviço on-line, ou "bot") que é solicitado a procurar um link do site do link para reunir todos os dados utilizáveis ​​em SEO (título, meta, tamanho, número de links de saída, profundidade, etc.). Há uma infinidade de serviços gratuitos "tudo incluído", onde é melhor não ter ouriços-do-mar nos bolsos. De qualquer forma, um rastreador é essencial se você quiser analisar um site.

Techno e lado do preço, existem dois eixos:

  1. As soluções de desktop que são aplicações tradicionais instaladas em sua estação de trabalho (Screaming Frog é uma delas),
  2. Soluções Online às vezes referidas como "nuvem" ou "Saas" (Software como Serviço).

 Tipos de rastreadores "width =" 640 "height =" 272 "class =" tamanho do alinhador-grande wp-image-1843 "/> </p>
<p> <em> Screaming Frog SEO Spider </em> é certamente a estrela dos rastreadores de mesa. Feito por SEO para SEO, é muito popular na comunidade graças à sua relação qualidade / preço incomparável. <br /> <img src= A RAM: melhor há!

 RAM "width =" 640 "height =" 157 "class =" tamanho do alinhador-grande wp-image-1844 "/> <br /> Quanto maior a escala do site de rastreamento, mais será necessário de RAM para armazenar dados Se você executar Screaming Frog em um laptop com menos de 4GB de RAM, seu rastreamento provavelmente irá parar em cerca de 40.000 URLs Se sua máquina tiver mais de 4GB de RAM, será necessário para fazer alguns ajustes, mas tenha a certeza, é muito simples. </p>
<h3><span id= 64 bits, de outra forma, nada

Para explorar mais de 4GB de RAM, seu ambiente deve ser "cheio de 64 bits". Especificamente, seu sistema operacional (especialmente o Windows) deve estar na versão de 64 bits. Mas isso não é tudo, Screaming Frog também terá que correr com uma versão de tempo de execução Java de 64 bits se você quiser que seu rastreador favorito não fique anoréxico! Não se preocupe, no Windows, uma instalação de 64 bits pode muito bem coabitar com uma versão de 32 bits. Mas para aproveitar ao máximo sua RAM, há um último hack para fazer …

Configurando o arquivo ScreamingFrogSEOSpider.l4j.ini

Agora você deve definir Screaming Frog para definir a memória alocada. No diretório de instalação, edite o arquivo ScreamingFrogSEOSpider.l4j.ini: se você tiver, por exemplo, 16GB de RAM, colocar -Xmx12g história para não asfixiar seu sistema operacional. Atenção, por padrão, o valor básico é fixado ao raz das margaridas, ou seja, 512mo de RAM!

Agora que seus slots de memória estão sendo executados em dc e a RAM está configurada para pequenas cebolas, ainda há muitas alavancas para aumentar a capacidade do Screaming Frog e torná-lo um excesso de dados. Você pode até considerar sites em torno de um milhão de URLs! Agora devemos afinar SF.

Filtrar URLs úteis e desnecessários

Recursos desnecessários

Um URL não significa necessariamente uma página HTML 😉 Eu quero dizer que qualquer outro recurso, como javascript, imagem, css, etc., não tem um ótimo interesse em SEO. Na verdade, se tentarmos economizar RAM, também evitemos carregar o buzin com URLs supérfluos! Não se engane: Não basta desmarcar tudo o que não é interessante para SEO (img, js, css etc) em Configuração > Aranha > Basic porque Screaming Frog ainda manterá os URLs desses recursos. Para fazer isso, você deve criar uma regra de exclusão da seguinte maneira:
No menu Configuartion > Exlude adicione as seguintes linhas (para serem adaptadas conforme necessário):
. *. jpg. *
. *. jpeg. *
. *. PNG. *
. *. GIF. *
. *. css. *
. *. js . *
. *. ZIP. *

Se você estiver acostumado a expressões regulares, você notará que eu não escolhi o formato. * Jpg $, porque às vezes a "imagem" dos URLs é configurada como parâmetros, como pode ser visto com o WordPress, por exemplo.

Ainda recomendo que você execute um primeiro rastreamento parcial, como 10 ou 20%, sem exclusões, para ver os recursos chamados. Às vezes, há scripts para exibir imagens como photo.php? Id = xxx, que não têm interesse em uma possível análise. Neste caso, uma regra de exclusão deve ser adicionada em Configuração > Excluir com (por exemplo). * Photo.php. *.

Ignore as páginas em noindex

Também pode sacrificar as páginas em noindex, através do menu configuração > Spider > Avançado verificando "Respeitar Noindex" . Se o volume é importante, ele alivia RAM e, especialmente, exporta em csv / xls.

Atenção aos efeitos de ponta com esta opção! Uma página de categoria que não teria motivos para indexar (conteúdo duplicado, etc.) tem muitos bons motivos para ter uma diretiva noindex. Mas se excluímos essas páginas do rastreador, será muito difícil encontrar as páginas que resultam! Além disso, noindex não está necessariamente associado com nofollow.

Aqui novamente, eu recomendo executar um rastreamento parcial para avaliar a tipologia das páginas de noindex. Se os scripts do estilo form.php ou basket.php são uma parte importante dos URLs no noindex, então será melhor excluí-los como mencionado anteriormente. Em qualquer caso, deve-se ter cuidado para impedir o menor possível a descoberta das páginas pelo rastreador (e os motores!).

Não siga os links no nofollow

Em geral, se um link tiver um atributo nofollow, significa que você não deseja ver a página de destino nos mecanismos de pesquisa. Pode-se assim, sem hesitação, desmarcar as opções relativas ao nofollow em Configuração > Spider > Basic . Ele também o aproxima da "visão do motor" (Googlebot). Depois de eu devo confessar que muitas vezes eu conheço editores que se associam sem qualquer distinção nobre e sem seguir as conseqüências que conhecemos. Por isso, às vezes é necessário fazer um rastreamento, obrigando SF a seguir a história do nofollow para ver se há URLs deixados para trás.

Respeito pelos robots.txt

Como o nofollow mencionado acima, também podemos pedir ao Screaming Frog que siga as instruções do robots.txt. Em alguns projetos, o volume de URLs submetidos a desativar é por vezes considerável. Tome cuidado para desmarcar "Mostrar URLs internos bloqueados por Robots.txt" em Configuração > Spider > Basic igualmente para ] "Ignore Robots.txt" . Eu ainda lembro que esse conselho é especialmente bom para iluminar a RAM, mas que esse tipo de opção pode tornar-se mais inegável nos tempos normais.

Limitando a profundidade de URLs

Sacrilégio que ideia! Um rastreamento só é válido se estiver completo! Você vai me dizer …
Certamente! Especialmente durante uma auditoria se queremos mostrar ao cliente que suas páginas no nível 6 e + não drenam nenhum tráfego orgânico, devemos colhê-los. Exceto que ainda existem casos em que podemos aplicar esta restrição: Trabalhei repetidamente em projetos "colander" que geraram URLs de loop infinito, sendo Drupal meu vencedor neste registro. Então, conserte (rapidamente) o problema ou defina um menu limite Configuração > Spider > Limite . Além disso, nos aproximamos de uma certa "visão do motor" porque depois de um tempo, os robôs de indexação detectam os loops infinitos (armadilha de aranha) e param de rastejar.

Esta lógica também pode ser adaptada à opção "Limitar número de strings de consulta", ou seja, os parâmetros de URLs que se acumulam sem fim. Em sites com uma arquitetura de URL mal estruturada, é melhor estabelecer um limite, especialmente quando ele começa em um loop infinito.

Evite a integração do Google Analytics e Search Console

Desde as versões 4 e 5 de Screaming Frog, é possível recuperar os dados de GA e SC graças às APIs deste último. Esta combinação de dados é inquestionavelmente excelente e faltava muito em SF em relação aos seus concorrentes "Saas". Mas em sites com alta volumetria, aumenta de facto a massa de dados coletados. Meu conselho é fazer o impasse no rastreamento, mas recuperar / associar esses dados mais tarde, no Excel, por exemplo (veja meu tutorial sobre vlookup e o super combo do SEO).

Segmentação do site

Esta é uma ideia que faz sentido, mas não é inconsequente. Deste modo, percebemos vários rastreamentos de acordo com as distintas partes do site: subdomínio, blog, diretório etc. Na verdade, é uma solução de último recurso, para ver utopista. Se o site for tão grande quanto necessário segmentá-lo, todas as exportações, análises, cheques cruzados, associações, etc também serão particionadas. Pessoalmente, não posso funcionar assim. Preciso de uma visão geral para obter estatísticas confiáveis. Isso não me impede de identificar os diferentes temas / partes do site depois disso para extrair estatísticas segmentadas.
Quando há vários milhões de páginas, já aconteceu comigo, então eu estou indo para Soluções Saas como a Deepcrawl, por exemplo. Mas acho muito menos flexível (e mais caro) do que o SF + Excel combo. Cada coisa dele depois de tudo.

Tenha cuidado com os recursos do servidor web.

Mesmo que seja um pouco fora do tópico, seja indulgente com o servidor do site que você vai rastejar, especialmente se for um abismo para URLs! Se você não limitar o número de URLs rastreados por segundo, você arrisca-se a enfatizá-la, ou até colocá-la de joelhos. Prefira a noite rasteja e corte em Configuração > Velocidade .

Relocating Screaming Frog to the Cloud

 Serviços em nuvem "width =" 640 "height =" 307 "class =" tamanho do alinhador-grande wp-image-1845 "/> <br /> A manobra pode parecer interessante: usando o poder da nuvem para fazer para executar o Screaming Frog Amazon, na medida em que Google oferece alavancar máquinas virtuais "escaláveis" na teoria, permitindo que a SF engolisse qualquer tipo de projeto. A este respeito, aconselho você a ler este artigo muito detalhado (EN) que explica em detalhes como proceder com a instalação <br /> Se você quiser o meu ponto de vista, esta não é uma opção para mim. O custo e a hora de configurar me encoraja a recorrer ferramentas em Saas como Botify ou Deepcrawl .. Pergunta do hábito também! </p>
</div>
</pre>
<div class=

Rastejando um site em larga escala com Screaming Frog
Avalie nosso site

Você vai gostar