Python BR

Aprenda tudo sobre a linguagem python e seus derivados!!!
 
InícioInício  FAQFAQ  BuscarBuscar  MembrosMembros  GruposGrupos  Registrar-seRegistrar-se  Conectar-se  

Compartilhe | 
 

 web crawler

Ir em baixo 
AutorMensagem
cnakano



Mensagens : 1
Data de inscrição : 03/01/2013

MensagemAssunto: web crawler   Qui Jan 03, 2013 9:47 pm

Olá,
Alguém poderia me ajudar em um projeto de crawler?
Consegui até aqui, mas estou errando em algum lugar:

import urllib
import sys
import re
import json

URL = 'Endereço web onde aparece um e-mail'

def captura_html(url):
html_data = urllib.urlopen(url).read()
return html_data

def extrai_status(html):
table = re.search(r'<html.*</html>', html, re.S)
if table:
trs = re.findall(r'<script>(.*?)</body>', table.group(), re.S)
else:
local = re.search(r'<a href="mailto:"(.*?)"itemprop=', st, re.S).group(1)#extrai o local
status = {'local': local}
# return status
def obter_rastreamento(codigo):
html_data = captura_html(URL)
status = extrai_status(html_data)
return status

if __name__ == '__main__':
codigo = sys.argv[0]
status = obter_rastreamento(codigo)
print 'E-mail: ', status

O resultado deverá ser assim:

E-mail: contato[editado]br

Espero que me ajudem.
Voltar ao Topo Ir em baixo
Ver perfil do usuário
 
web crawler
Voltar ao Topo 
Página 1 de 1

Permissão deste fórum:Você não pode responder aos tópicos neste fórum
Python BR :: Python e seus Derivados :: Python-
Ir para: