Novidades

Como construir um rastreador web básico para puxar informações de um site (parte 1)





Crawlers, às vezes chamados raspadores, verificar automaticamente a Internet tentando recolher contexto e significado do conteúdo que eles encontram. A web não iria funcionar sem eles. Crawlers são a espinha dorsal dos motores de busca que, combinados com algoritmos inteligentes, exercitar-se a relevância de sua página para um determinado conjunto de palavras-chave.

O rastreador web Google irá introduzir o seu domínio e digitalizar todas as páginas do seu site, extraindo títulos de página, descrições, palavras-chave e links – em seguida, apresentar um relatório ao Google HQ e adicionar as informações para a sua enorme base de dados.

Hoje, eu gostaria de ensiná-lo a fazer o seu próprio rastreador básica – não aquele que varre toda a Internet, embora, mas aquele que é capaz de extrair todos os links de uma página da web.

Video: Tecnologia VIVO M2M para rastreamento GPRS e 3G/4G imagens online

Geralmente, você deve se certificar de que você tem permissão antes de raspagem sites aleatórios, como a maioria das pessoas consideram que é muito cinza área jurídica. Ainda assim, como eu digo, a web não iria funcionar sem este tipo de indexadores, por isso é importante você entender como eles funcionam e como eles são fáceis de fazer.

Para fazer um rastreador simples, nós estaremos usando a linguagem de programação mais comum da internet – PHP. Não se preocupe se você nunca programado em PHP – Eu vou tomar-lo através de cada passo e explicar o que cada parte faz. Vou assumir um conhecimento básico absoluta de HTML, porém, o suficiente para que você entenda como um link ou imagem é adicionada a um documento HTML.

Video: Rastreador Com Escuta Espião Para Carros e Motos

Antes de começar, você vai precisar de um servidor para executar PHP. Você tem um número de opções aqui:

  • Se você hospedar seu próprio blog usando o WordPress, você já tem um, então fazer o upload dos arquivos que você escreve via FTP e executá-los de lá. Matt nos mostrou alguns clientes FTP gratuito para Windows você poderia usar.
  • Se você não tem um servidor web, mas têm um PC velho sentado ao redor, então você pode seguir o tutorial de Dave aqui para ligar um PC antigo para um servidor web.
  • Apenas um computador? Não se preocupe – Jeffry nos mostrou como podemos executar um servidor local dentro do Windows ou Mac.

Começando

Nós estaremos usando uma classe auxiliar chamada simples HTML DOM. Baixe este arquivo zip, descompacte-o e fazer o upload do simple_html_dom.php arquivo contido no seu site em primeiro lugar (no mesmo diretório que você vai estar executando seus programas a partir). Ele contém funções que iremos utilizar para atravessar os elementos de uma página web com mais facilidade. Esse arquivo zip também contém código de exemplo de hoje.

Video: Rastreador Veicular SEM MENSALIDADE

Primeiro, vamos escrever um programa simples que irá verificar se o PHP está funcionando ou não. Também vamos importar o arquivo helper vamos usar mais tarde. Faça um novo arquivo em seu diretório web, e chamá-lo example1.php – o nome real não é importante, mas o .php final é. Copie e cole este código para ele:

? Lt; phpinclude_once ( `simple_html_dom.php`) – phpinfo () – gt;

Acessar o arquivo através de seu navegador de internet. Se tudo deu certo, você deve ver uma grande página de depuração aleatória e informações do servidor impresso como abaixo – tudo a partir da pequena linha de código! Não é realmente o que estamos procurando, mas pelo menos sabemos que tudo está funcionando.

As primeiras e últimas linhas simplesmente dizer ao servidor que vamos estar usando código PHP. Isto é importante porque nós podemos realmente incluir HTML padrão na página também, e ele irá processar apenas multa. A segunda linha puxa o ajudante DOM HTML simples que irá utilizar. o phpinfo () – linha é a que impresso tudo o que informações de depuração, mas você pode ir em frente e apagar isso agora. Note que em PHP, quaisquer comandos que temos deve ser terminado com dois pontos (). O erro mais comum de qualquer iniciante PHP é esquecer que pouco de pontuação.

Uma tarefa típica que o Google realiza é para puxar todos os links de uma página e ver quais sites eles estão endossando. Tente o seguinte código seguinte, em um novo arquivo, se quiser.


lt;? phpinclude_once ( `simple_html_dom.php`) –

$ Target_url = “http://tokyobit.com/”-
$ Html = new simple_html_dom () –
$ Html-gt; load_file ($ target_url) –
foreach ($ html-gt; find ( ‘a `) quanto $ link) {
echo $ link-gt; href “.
“-
}
?gt;

Você deve obter uma página cheia de URLs! Maravilhoso. A maioria deles será ligações internas, é claro. Em uma situação real, o Google iria ignorar as ligações internas e simplesmente olhar para o que outros sites que você está ligando, mas que está fora do escopo deste tutorial.

Se você estiver executando em seu próprio servidor, vá em frente e mudar o Alvo URL variável a sua própria página web ou qualquer outro site que você gostaria de examinar.

Esse código foi bastante um salto do último exemplo, então vamos passar em pseudo-código para certificar que você entendeu o que está acontecendo.

Incluir uma vez que o arquivo helper DOM HTML simples.

Defina o URL de destino como http://tokyobit.com.

Criar um novo objeto simples DOM HTML para armazenar a página de destino

Carregar a nossa URL de destino para esse objeto

Para cada link que encontramos na página de destino

– Imprima o atributo HREF

É isso por hoje, mas se você quiser um pouco de desafio – tentar modificar para o segundo exemplo para que em vez de procurar ligações ( elementos), que agarra imagens em vez (). Lembre o src atributo de uma imagem especifica o URL para essa imagem, não HREF.

Gostaria saber mais? Deixe-me saber nos comentários se você estiver interessado em ler uma parte 2, ou mesmo se você gostaria de um tutorial back-básico PHP (com solução de trabalhos de casa!) – e eu vou cavar um up na próxima vez para você. Eu adverti-lo embora – uma vez que você começar com programação em PHP, você vai começar a fazer planos para criar o próximo Facebook, e todos os desejos latentes para dominar o mundo em breve consumi-lo. Programar é divertido.

Gosta de dicas de futebol para investimento desportivo? Então visita agora mesmo Palpites Copa do Mundo e prepara-se para viver a emoção do maior campeonato do planeta.