web crawler

Mensagens : 1 Data de inscrição : 03/01/2013

Olá,
Alguém poderia me ajudar em um projeto de crawler?
Consegui até aqui, mas estou errando em algum lugar:

import urllib
import sys
import re
import json

URL = 'Endereço web onde aparece um e-mail'

def captura_html(url):
html_data = urllib.urlopen(url).read()
return html_data

def extrai_status(html):
table = re.search(r'<html.*</html>', html, re.S)
if table:
trs = re.findall(r'<script>(.*?)</body>', table.group(), re.S)
else:
local = re.search(r'<a href="mailto:"(.*?)"itemprop=', st, re.S).group(1)#extrai o local
status = {'local': local}
# return status
def obter_rastreamento(codigo):
html_data = captura_html(URL)
status = extrai_status(html_data)
return status

if __name__ == '__main__':
codigo = sys.argv[0]
status = obter_rastreamento(codigo)
print 'E-mail: ', status

O resultado deverá ser assim:

E-mail: contato[editado]br

Espero que me ajudem.