Sunsea's Blog

不积跬步无以至千里

94imm图片采集站的使用小技巧

首先感谢下saskeke大佬提供的优质网站程序,作为用户,简单的总结一下,自己个人的使用心得,不妥之处忘多多指教修改。

一、程序文件夹的简介

文件(夹)名 说明
crawler 图片爬虫文件夹

文件夹中以crawler开头的文件是爬虫

AutoPost.py自动发布本地图片的脚本文件

Compress.py图片压缩脚本文件

cache uwsgi运行后产生缓存目录
images 待补充
silumz settings.py所在目录
static 爬虫默认爬取的图片目录
templates 网站模板目录
manage.py 无管理功能的管理文件
readme 站点程序安装使用简要说明
requirements.txt 使用pip快速安装依赖的文件
silumz.sql 数据库模板文件
uwsgi.ini uwsgi启动配置文件
uwsgi.log uwsgi日志文件
uwsgi.pid uwsgi启动后对应的pid

二、数据库文件中表和字段的简要说明

表名 说明
images_image 网站中所有图片的索引

其中pageid字段对应images_page表中的id字段

images_page 网站中每一个图片帖子的索引

其中的typeid字段对应image_type表中的id字段

Tagid对应images_tag表中的id字段

images_tag 网站中所有标签索引,一个图片帖子可对应多个标签id
images_type 网站中所有分类索引,每增加减少一条记录都会在网站的右上角有所体现

三、爬虫使用的小技巧

在使用爬虫文件之前,首先应修改爬虫的数据库连接信息,如下图所示。

《94imm图片采集站的使用小技巧》

建议没修改爬一个网站建立一个独立的文件夹,方便爬取失败时删除文件,修改爬虫文件爬取文件的存储路径如下图所示

《94imm图片采集站的使用小技巧》

四、数据库使用的小技巧

git上提供的数据库默认的image_type表中是没有记录的,所以在运行uwsgi之前,应手动添加至少一条记录。

推荐使用phpmyadmin进行修改,命令行大佬除外。添加形式如下图。

《94imm图片采集站的使用小技巧》

关于数据库操作的一些小建议

1、数据库表第一次采集之前清空一下,恢复索引至初始;

2、在运行爬虫之前,先备份数据库,防止爬取失败,数据库和图片信息不完整,网站显示不正常。当爬取失败时,可直接恢复数据库,删除对应的图片文件夹,然后重新爬取。

五、其他常见问题

1、当访问网站出现502时,首先检查uwsgi程序是否正常运行,若未启动,启动程序即可;

2、若uwsgi程序启动后仍然502,可尝试重启nginx;

3、爬虫已经爬取了很多图片,为什么网站没有显示?原因在于uwsgi和nginx(如果有设置)的缓存。当爬取了新图片后,若要网站立即生效,可删除cache文件夹下的所有缓存文件,或者等待缓存过期。若删除cache文件夹下文件后仍然不生效,尝试重启nginx释放缓存。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注