说明

本项目的是将CCTV.com上的新闻联播历年的节目内容爬取到本地并解析。

抓取的思路为：

图1：

图2：

图3：

网页保存路径：

配置

pip install scrapy_splash
docker run -p 8050:8050 scrapinghub/splash

项目根目录执行:

cd xwlb/xwlb
scrapy crawl spider

本项目的spalsh和mongodb使用的都是本机地址。如果是其他机器需要进行配置。 splash:修改setting.py文件中的SPLASH_URL=your ip mongodb：修改```/etc/mongod.conf中的：

# network interfaces
net:
  port: 27017
  bindIp: 0.0.0.0