Olá,
Alguém poderia me ajudar em um projeto de crawler?
Consegui até aqui, mas estou errando em algum lugar:
import urllib
import sys
import re
import json
URL = 'Endereço web onde aparece um e-mail'
def captura_html(url):
html_data = urllib.urlopen(url).read()
return html_data
def extrai_status(html):
table = re.search(r'<html.*</html>', html, re.S)
if table:
trs = re.findall(r'<script>(.*?)</body>', table.group(), re.S)
else:
local = re.search(r'<a href="mailto:"(.*?)"itemprop=', st, re.S).group(1)#extrai o local
status = {'local': local}
# return status
def obter_rastreamento(codigo):
html_data = captura_html(URL)
status = extrai_status(html_data)
return status
if __name__ == '__main__':
codigo = sys.argv[0]
status = obter_rastreamento(codigo)
print 'E-mail: ', status
O resultado deverá ser assim:
E-mail: contato[editado]br
Espero que me ajudem.