2017-12-31

网络爬虫

爬取有规则的数据结构，主要运用的是requests库，想学scrapy来爬。
下一个目标是爬取教务系统的成绩。

学习的来源

正则表达式

贪婪模式下的匹配

if __name__ == '__main__':
    str = '<a> b <c>'
    pattern = re.compile('<.*>', re.S)
    items = re.findall(pattern, str)
    print(items)
    #结果是<a>　b <c>，会尽可能的匹配长的结果
``` 
### 非贪婪模式下的匹配
``` python
if __name__ == '__main__':
    str = '<a> b <c>'
    pattern = re.compile('<.*?>', re.S)
    items = re.findall(pattern, str)
    print(items)
    #结果是的<a>

爬取最简单的网页信息

import requests
import re
from requests.exceptions import RequestException
import json
def get_page(url):
    response = requests.get(url)
    try:
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None
def parse_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?<p class="name">.*?'
                         'data-val=.*?>(.*?)</a></p>.*?class="star">(.*?)</p>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            "rank": item[0],
            "name": item[1].strip(),
            "star": item[2].strip()[3:]
        }
def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_page(url)
    if html == None:
        print('haha\n')
    for item in parse_page(html):
        print(item)
        write_to_file(item)
def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False)+'\n')
        f.close()
if __name__ == "__main__":
    for i in range(10):
        main(i*10)

未解决的问题

本文标题:网络爬虫

文章作者:Babydragon

发布时间:2017-12-31, 23:26:42

最后更新:2018-03-23, 13:39:17

原始链接:http://baolintian.github.io/2017/12/31/网络爬虫/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。