Extrayendo artículos de la wikipedia 2

Ando trasteando sobre como extraer información de diferentes fuentes y ahora quiero descargarme artículos de la wikipedia.

Para descargarnos un artículo ejecutamos este script en python

#!/usr/bin/python

# El script es de http://www.rkblog.rk.edu.pl/w/p/25/
import sys

from httplib import HTTPConnection
from re import findall, DOTALL

def wiki(slug):
print(slug)
#connect to a wikipedia (mediawiki) site (Spanish)
conn = HTTPConnection("es.wikipedia.org")
#get page by slug
conn.request('GET', '/wiki/'+slug)
r = conn.getresponse()
if str(r.status) == '200':
#extract content
tags = findall( r'(.*?)', r.read().decode('utf-8'), DOTALL)
tags = tags[0].replace('href="/wiki', 'href="http://es.wikipedia.org/wiki').replace('href="/w/', 'href="http://es.wikipedia.org/w/')
conn.close()
return tags.encode('utf-8')

print wiki(sys.argv[1])

al que llamo desde este shell (por temas de usar siempre scripts shell.

#!/bin/bash
./wiki.py $1

Este script descarga artículos desde la versión en español de la wikipedia. En caso querer cambiar basta con modificar la url desde la que descarga.

2 thoughts on “Extrayendo artículos de la wikipedia

  1. Reply Humberto Dic 19,2008 3:34 am

    me encataria que me los explicaras de una forma mas detallada, agregame al msn.

  2. Reply aprendizdetodo Dic 19,2008 9:56 am

    Prometo detallarlo más…

Leave a Reply