链家网爬虫框架

该项目的GitHub地址为:jumper2014/lianjia-spider

mmjpg.com网站图片的爬取

今天依然无心学习,又爬了一个网站。这个网站爬取的难点在于难以获取每个套图的页数,尝试了很多种方法都不好用,最后用正则表达式进行提取,但是依然会产生一些我懒得处理的问题。这个网站的图片和最开始我爬的那个很多都是一样的。下面就开始介绍这个网站的爬取吧!

chongni8.com网站图片的爬取

今天终于会广州了哈,回想过去一个多星期感觉跟梦一样,每次回家都不能待太久,主要是回家之后学习效率就非常低。恰好今天有两部自己想看的电影上映,所以今天就一个人去南村的电影院连续看了两场电影——《西虹市首富》和《狄仁杰之四大天王》。两部电影都很棒,感觉很过瘾。然后晚上回来感觉还想爬爬图片,于是就捡起另外一个图片网站:http://www.chongni8.com/继续用Python爬了一下,思路和之前爬http://m.mzitu.com/的差不多。

m.mzitu.com网站爬虫的改进

下午闲着没事又把之前写的mzitu.com网站的Python爬虫程序改进了一下,顺便再复习一下Python。

暨南大学教务处排课选课表爬取

这段代码是寒假的时候写的,没想到现在还能运行,可以整理好教务处的排课选课列表然后做一些有趣的数据分析。

Python selenium 包自动登录教务处

本文中的Python脚本:JNU_login.py
这个是昨晚熬夜弄到凌晨四点搞出来的成果。虽然没有达到自己想要的自动选课效果,但是值得记录下来。似乎这个学期的自己几乎每周都有一两天是两三点之后睡觉了,着实需要注意一下了!

一个查询暨大宿舍账户余额的小程序

查询暨南大学宿舍电费的Python脚本:dorm_balance.py
今天正好开始选课了,不过因为我的课已经修完了,所以我这一次就不用选课了。于是我就想研究一下能不能设计一个自动选课的程序。研究了好久,最后意识到这个问题很复杂,还需要继续学习,不过在研究这个问题的过程中发现了Python的selenium包,这个包可以自动驱动浏览器进行一些操作然后获取数据。于是就想应该可以解决一个简单的问题——通过暨南大学能耗系统查询宿舍的账户余额。

数字暨大全校同学的成绩单爬取

终于走到了数字暨大,数字暨大上有提供查看同班其他同学成绩的功能,登陆之后进入服务中心即可看到:

m.mzitu.com爬取

该篇尺度较大,慎入!
之前最早用Stata爬过这个网址而且还完整地运行了一遍,大概下载到了10万张图片,昨天又尝试用Python写了一个程序爬取该网站的所有图片。

从暨大体育获取全体同学的身份信息

今天爬到了全校所有同学的基本信息,包括身份证号。然后我在看数据的时候无意中发现的开头为341225的一些人,毫无疑问啊,这个就是我们县的!而且应该就是我们学校的!于是心声感概选择了这个海报的图片做封面。
今天爬了暨大体育的网站:网址是这个:https://tzcs.jnu.edu.cn/ 。网站的登录用户名和密码都是学号(不用尝试我的了,我刚刚改了密码)。
这个网站可能最近被我丁文亮请求过于频繁崩溃掉。

微信推文图片的下载

本文分别使用了Stata和Python写了两个用于爬取微信推文页面中图片的程序。

如何爬到自己喜欢的歌手的所有歌曲啊!

  • 音乐收费的现象越来越普遍了,那么在这个到处收费的年代还有没有能够靠两只手获得自己想要的东西了呢?所以我常常觉得是有必要现在多储备一些音乐以备未来所有的音乐都收费而难以负担。今天介绍的这个流程就可以实现这个想法了!
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×

keyboard_arrow_up