O algoritmo RankBrain realmente melhora as buscas no Google?

1467
0
Share:
google-brain-data2-ss-1920

Estudo: O RankBrain realmente melhora os resultados de busca?

O Google fez um grande barulho em outubro de 2015, quando foi anunciada a existência de um novo algoritmo de classificação que eles chamam de RankBrain. A notícia foi divulgada em um artigo no Bloomberg. O Google fez alguns comentários muito limitados sobre o que é, e teve pouco a dizer desde então.

Por essa razão, nós nos propusemos a fazer um estudo para ver qual impacto o RankBrain teve realmente, e tentar aprender mais sobre como ele funciona. Note que não podemos provar que tudo o que encontramos foi resultado do RankBrain, mas acredito que pelo menos algumas das mudanças documentadas estão abaixo.

Clique aqui para ir direto aos resultados! (Incluso um infográfico compartilhável)

Exemplos de outros usos de “Machine Learning” pelo Google

 O RankBrain é um algoritmo de máquina de aprendizagem que aprende ao longo do tempo as diferentes maneiras que os seres humanos se expressam. Em seguida, ele pré-processa consultas do Google, e traduz em uma forma que o algoritmo de busca do Google regular possa entender.

Há muitos outros usos para a máquina de aprendizagem, mas dois exemplos podem ajudar a compreender alguns dos tipos de coisas que a máquina de aprendizagem pode fazer. Uma utilização é a do Google News, como você pode ver aqui:

google-news-unsupervised-learning

Na imagem acima, a parte que eu circulei em vermelho é o lugar onde eles mostram histórias diretamente relacionadas. O Google usa um algoritmo “máquina de aprendizagem sem supervisão” para encontrar essas histórias relacionadas. Basicamente, o algoritmo é capaz de detectar um grau elevado de similaridade e, com base nisso, sabe-se que esses dois artigos são sobre o mesmo tema.

O segundo exemplo é um que eu aprendi quando entrevistei Peter Norvig, do Google, em 2011. Ele compartilhou comigo a história sobre como eles constroem o Google Tradutor.

Basicamente, eles tentaram no início construir o produto usando uma abordagem mais manual, mas que acabaram não funcionando bem. Alguns dos problemas incluídos é que a maioria das línguas têm muitas exceções, portanto, uma abordagem baseada em regras foi muito problemática e, além disso, a língua está em constante evolução.

Em vez disso, eles usaram uma abordagem da máquina de aprendizagem que é muito mais dinâmica, e pode lidar com muito mais tipos de problemas complicados, tais como as traduções entre as línguas. Em vez disso, eles alavancaram os milhões de exemplos de traduções do mundo real para construir o produto.

site-in-many-languages

Alguns conceitos de processamento de linguagem muito básicos

O que é interessante sobre o diálogo com Pedro Norvig é que ele contém alguns insights sobre o problema com o caminho que o processamento da linguagem tem feito nos algoritmos tradicionais do Google. O que foi percebido é que manter as regras em tradução de línguas era muito complexo. Acontece que, este é o caso no processamento de consulta tradicional do Google.

Por exemplo, considere o exemplo das “stop words”. Elas são “algumas palavras extremamente comuns que parecem ser de pouco valor para ajudar a selecionar os documentos correspondentes a necessidade do usuário, que são excluídas do vocabulário inteiramente.” Em outras palavras, quando o Google encontrava uma palavra como “o” em uma consulta ou em uma página da web, ele simplesmente ignorava.

Essa parece ser uma boa regra, como “o” simplesmente não parece ser tão importante para o conteúdo de uma frase. No entanto, considere a consulta “The Office” (O Escritório):

the-office

Como você pode ver, esta consulta pode ser feita para perguntar sobre um programa de TV. Historicamente, este é um exemplo de algo que exigiria uma regra de exceção manual para resolver. Desde que o programa foi ao ar pela primeira vez em 2005, a regra não foi necessária antes disso, mas de repente uma necessidade teria vindo logo que a série começou. Um exemplo mais recente seria o novo app “Fixed”, que foi apenas financiado nesta temporada de Shark Tank.

 

Um algoritmo como RankBrain deve ser capaz de ver as relações automaticamente, sem necessidade de qualquer ajuste manual. Seria capaz de fazer isso, fazendo observações semelhantes a estas:

  1. Às vezes a frase é mostrada no meio de uma frase como “The Office” (ambas as palavras em maiúsculas, o que não é um caso de uso normal para estas palavras).
  2. Às vezes a frase é usada em conjunto com palavras como “TV”, “hora do show”, “episódio.”

 

Esses são apenas alguns exemplos óbvios de padrões que podem ser notados. Outra consulta interessante a considerar é “coach” (treinador):

coach

Quando ouço essa palavra, tendo a pensar em um treinador de esportes por padrão. No entanto, algumas das vezes isso pode significar o seguinte:

coach-web-page

 

Para isso, um algoritmo de máquina de aprendizagem pode notar a sua utilização no meio de uma frase como “Coach”, ou a sua utilização na proximidade de “sacolas”, “bolsas”, “couro”, “a moda das mulheres”, etc.

É aí que o RankBrain entra em jogo. Uma das citações notáveis do vídeo incluído no artigo da Bloomberg foi: “ (Rankbrain) linguagem interpretada, interpreta suas consultas, de uma forma que tem alguns instintos e a habilidade de adivinhar das pessoas”. Em termos soltos, tem uma maior capacidade dinâmica de se adaptar às novas circunstâncias de como a linguagem evolui ao longo do tempo.

Diálogos que tive com um porta-voz do Google

Logo após a notícia, eu conversei um pouco com alguém dentro do Google. Aqui está o que aconteceu:

Eric: Você pode me falar se há um plano de curto prazo para expandir o uso de RankBrain? Isso é, no artigo do Bloomberg, parece que você indica que isso está começando a ser usado em uma “fração muito grande”. É a intenção ampliar essa grande fração em curto prazo?

Porta-Voz do Google: Nós não temos algo muito mais específico para compartilhar, mas nós vamos continuar testando novos modelos de máquinas de aprendizagem e abordagens e quando tivermos aprimorado na qualidade das buscas nós vamos cuidadosamente coloca-los em prática. (Esses tipos sinais geralmente não são restritos a uma porção específica de consultas; é mais sobre como os efeitos são visíveis mais para algumas pesquisas do que para outras.)

Eric: O exemplo no artigo do Bloomberg (o predador de consultas) era bastante interessante, como parece capturar a noção de uma consulta onde é difícil determinar a intenção. É realmente difícil para os seres humanos analisar isso.

Houve também toda a discussão de consultas que o Google nunca viu antes.

Isso parece sugerir que o RankBrain está adicionando recursos ao analisar consultas em linguagem natural e, em particular, aqueles que são mais longos e complexos na formulação.

Isso é uma interpretação razoável do que o RankBrain se concentra em fazer?

Porta-voz do Google: Sim, isso é justo, embora não “analise” no sentido tradicional NLP [Processamento de Língua Natural] (separando sujeito, verbo, etc.), mas no geral sim.

Eric: Certo, analisar provavelmente não é a palavra certa. Mais como ter uma melhor compreensão das complexidades globais e relações de língua, provavelmente baseado na aprendizagem profunda da análise de sua aplicação em toda a web?

Porta-voz do Google: Sim, ser capaz de representar sequências de texto em um espaço de alta-dimensão e “ver” como eles se relacionam entre si.

O que é o alto Espaço Dimensional?

Em princípio, imagine que você vai analisar todo o Inglês em toda a web (note que RankBrain já está operando em todas as línguas). Você começa por tornar todas as palavras conhecidas e convertê-las em um índice numérico. Então, talvez a palavra “Office” é atribuída ao número 345.675, e a palavra “office” é atribuída ao 345.674. Este passo é levado para a facilidade de fins de processamento.

Daí você começa a olhar e descobrir quais relações estas palavras têm com outras palavras em toda a web. Você pode considerar coisas como estas:

 

word-relationships

Observe que o gráfico acima é uma simplificação importante do nível em que isso acontece. Os tipos de relações que podem ser determinadas desta forma podem ser bastante complexos, pois eles precisam ser capazes de detectar cenários como uma famosa treinadora, que é muitas vezes é chamada de “Coach” (treinadora) e ela está indo para uma festa com uma bolsa de couro da empresa Coach, e um artigo sobre ela faz uma declaração de moda.

Exemplo consultas fornecidas pelo Google RankBrain 

Tenho ouvido falar de dois tipos até agora. Um deles é a partir do artigo original do Bloomberg:

consumer-at-top-of-food-chain

Observe que eu adicionei em roxo algumas notas que mostram o caminho que a consulta pode ser perguntada mais comumente. Aqui está um que eu aprendi com Gary Illyes, na recente Keynote Virtual que eu fiz com ele:

super-mario-without-walkthrough

Gary tinha isso a dizer sobre a consulta:

ex. (como ter 100% de pontos no Super Mario “sem” usar um tutorial)

“Nossos antigos analisadores de consulta realmente ignoraram o ‘without’ (sem). O RankBrain fez um trabalho incrível de pegar isso e instruir os nossos sistemas de recuperação para obter os resultados corretos. ”

Nosso estudo sobre RankBrain

Será que o RankBrain realmente melhora a qualidade dos resultados de pesquisa? Será que ele cumpre a sua missão de devolver melhores resultados para tipos de consultas anteriormente difíceis de lidar para algoritmo de busca do Google?

Na Stone Temple Consulting, mantemos um banco de dados de 1,4 milhão de resultados de consultas, como resultado dos estudos que temos feito nas rich answers do Google. Como parte disso, mantemos um completo snapshot dos resultados.

Por sorte, nós fizemos um snapshot no final de junho/ início de julho, assim que o Google começou a rodar o RankBrain (a “data base”). Nós fomos através de um conjunto de consulta para determinar se poderíamos encontrar algumas consultas que o Google não entendia na linha de base definida que eles parecem entender hoje.

 

Depois de analisar todas, encontramos 163 consultas que se enquadram nos seguintes critérios:

1 – Os resultados da pesquisa mostrados indicaram que o Google não entendeu a consulta na data base

2 – Há, na verdade, um conjunto razoável de resultados que o Google deve ser capaz de encontrar para a consulta

Este último ponto é importante, pois não é razoável criticar o Google por não entender uma pergunta para a qual não há resultados decentes. Veja este exemplo:

bad-user-query

 

A consulta não é bem posta pelo usuário, por isso é difícil obter uma grande resposta. Além disso, encontramos consultas onde a questão do usuário foi realmente fácil de entender, mas para as quais não há realmente nenhum resultado bom para ser encontrado, tanto quanto pudemos determinar. Nós também excluímos esses resultados do estudo.

 

O Resultado!

Então aqui está o que encontramos no total:

rankbrain-study-results

Das consultas que encontramos onde o Google não pode entender na data base, eles melhoraram os resultados em 54,6% das vezes. Isso é um resultado muito forte.

Aqui está um exemplo interessante:

example-of-an-improved-query

 

Na data base temos resultados com arquivos em PDF sobre o porquê que a resistência iraquiana à invasão de coalizão estava tão fraca. Claramente, isso esta errado. Agora o Google entendeu que a ideia de que “weak” (fraco) provavelmente se refere a segurança, e mostra um resultado muito melhor na posição número um.

 

Eu também percebi nos resultados em categorias como segue:

study-category-breakdown

 

Isso traz algumas questões:

1 – O Google está usando o RankBrain para impactar a seleção de resultados de snippet?

2 – Poderia o RankBrain acionar a entrega de um mapa onde nenhum foi mostrado antes?

3 – É possível que o principal impacto de uma determinada consulta seria uma melhora nos resultados de snippet?

Estes são todos os cenários que vimos nos resultados que eu revisei. Minha aposta é que ele faz. Olhe para a citação de Gary Illyes acima: “… e instruímos os nossos sistemas de recuperação para obter os resultados corretos.” Isso soa para mim como que seriam utilizadas para qualquer um dos algoritmos do Google para recuperar resultados.

Por último, mas não menos importante, vamos olhar para algumas especificidades linguísticas. Aqui estão algumas das categorias de itens que vimos o Google melhorar:

categories-where-google-improved-1

As melhorias que vimos podem, ou não podem, terem vindas do RankBrain. É possível que outras mudanças do algoritmo possam ter levado algumas das melhorias. No entanto, sinto-me confortável em dizer que pelo menos algumas das mudanças que vimos foram relacionadas pelo RankBrain.

Resumo e Impacto sobre SEO

Previsivelmente, uma das perguntas mais comuns que eu começo fazendo é como o RankBrain terá impacto sobre SEO. Verdade seja dita, no momento, não há muito impacto. O RankBrain simplesmente faz um trabalho melhor de combinar as consultas dos usuários com suas páginas web, para que sem dúvida, você seja menos dependente de ter todas as palavras chave da consulta do usuário na sua página.

Além disso, você ainda precisa fazer uma pesquisa de palavra-chave para que possa entender como segmentar uma página em uma área de maior importância (e o que essa área de maior importância é). Existindo ou não motores de busca, compreender o idioma preferido da maioria dos usuários sempre fará sentido. Se você já não tiver feito (espero que tenha!), você pode aumentar sua ênfase no uso de linguagem verdadeiramente natural em suas páginas da web.

 

Os impactos reais do RankBrain são:

1 – Um aumento na qualidade da pesquisa em geral.

2 – Um aumento na confiança do Google de que eles podem usar uma maquina de aprendizado no core do algoritmo de pesquisa, o que, provavelmente, já levou mais desses projetos a serem lançados.

Artigo original em https://www.stonetemple.com/rankbrain-a-study-to-measure-its-impact/

As opiniões e informação contidas neste post não necessariamente refletem a opinião do Search News Brasil, mas sim do autor convidado citado abaixo.

Eric Enge

Eric Enge

Atualmente CEO da Stone Temple Consulting uma agência de Search Marketing e Social Midia com mais de 60 funcionários situada em Massachusetts nos EUA. Eric é um dos autores do livro The Art of SEO. Articulista dos sites Search Engine Land e MOZ e palestrante dos maiores evento de Search Marketing do mundo. (Os textos aqui reproduzidos foram feitos com a autorização de Eric)

Mais artigos - Website

Share:

Leave a reply

Não vá embora sem curtir nossa fanpage!

Receba as notícias mais quentes do mercado de Search Marketing e Facebook Ads.