Python BR
Gostaria de reagir a esta mensagem? Crie uma conta em poucos cliques ou inicie sessão para continuar.
Python BR

Aprenda tudo sobre a linguagem python e seus derivados!!!
 
InícioInício  Últimas imagensÚltimas imagens  ProcurarProcurar  RegistarRegistar  Entrar  

 

 web crawler

Ir para baixo 
AutorMensagem
cnakano




Mensagens : 1
Data de inscrição : 03/01/2013

web crawler Empty
MensagemAssunto: web crawler   web crawler EmptyQui Jan 03, 2013 9:47 pm

Olá,
Alguém poderia me ajudar em um projeto de crawler?
Consegui até aqui, mas estou errando em algum lugar:

import urllib
import sys
import re
import json

URL = 'Endereço web onde aparece um e-mail'

def captura_html(url):
html_data = urllib.urlopen(url).read()
return html_data

def extrai_status(html):
table = re.search(r'<html.*</html>', html, re.S)
if table:
trs = re.findall(r'<script>(.*?)</body>', table.group(), re.S)
else:
local = re.search(r'<a href="mailto:"(.*?)"itemprop=', st, re.S).group(1)#extrai o local
status = {'local': local}
# return status
def obter_rastreamento(codigo):
html_data = captura_html(URL)
status = extrai_status(html_data)
return status

if __name__ == '__main__':
codigo = sys.argv[0]
status = obter_rastreamento(codigo)
print 'E-mail: ', status

O resultado deverá ser assim:

E-mail: contato[editado]br

Espero que me ajudem.
Ir para o topo Ir para baixo
 
web crawler
Ir para o topo 
Página 1 de 1

Permissões neste sub-fórumNão podes responder a tópicos
Python BR :: Python e seus Derivados :: Python-
Ir para: