观察知乎网部分用户“关注网络”

Standard

我们在数据的海洋中游荡,有效率的抓取想要的信息是十分有必要的,而很大部分的信息都存在于互联网上,怎么快速有效的获取到它们呢?人工去找?太落后啦,程序最擅长这种事了!

早就知道“网络爬虫”这种程序,它们能自动的访问一些网站并且能根据网站中的超链接再跳到其他网站,设计“网络爬虫”的目的大多是获取网站数据并下载下来供日后分析以及使用,比如某个网站上有很多很多你想要的图片,人工的去一个一个下载实在是太麻烦了。而写一个简单的“爬虫”程序,计算机就可以很快的自动把所有你想要的图片都下载下来,节省了大量的时间!

我一直在知乎上阅读各种问题和答案,可是我发现除了那种行业大V很快会走入你的视野外,你很难找到某个圈子中你觉得值得关注的人,如果知道知乎的数据的话那想找到这种人的难度就会减少,如何获取数据?写个爬虫吧。

在Github上面看到其他人写好的获取知乎数据的开源项目(我对其的扩展在这里)就直接拿来用啦,写个搜索就开始爬!首先从Chenyao-45(chenyao关注的用户主要是OIer,所以对于要爬规模较小的数据很合适!)首先先来20个人的互相关注关系(谁是业界出了名的一眼就能看出来:D)

zhihu1

颜色越深说明关注TA的人数越多,弧线指向谁就是谁被关注了,弧线越深、箭头越大说明是关注者名气越大,接下来增加数据规模——

 

 

zhihu2

 

可以看出vczh和王小川是当前数据规模圈子里最有名的两个(IT行业),而在这个圈子里面对“带三个表”的关注度远远没有在整个知乎的关注度高,这也是显然的:D

太过完美主义!

Standard

我的chrome浏览器常年会有固定标签页堆在最左边,这些网页是平常浏览和学习中碰到的有用的网页,固定在那里希望以后会将它们看看。但是由于累积的太快而看的太少,经常越堆越多以至于不得不一边选几个稍微没那么有用的关掉一边再加入新的。每次要关机的时候总会发现打开的满满的几十个标签页中有很多页面不舍得关掉而纠结好久。。

产生这个问题的原因是强迫症啊——比如今天:

看书看厌倦了想做点有意思的事情,于是开始学用Scrapy写网络爬虫,但是,因为我不太会用vim编辑器来写代码,于是就花时间去学,看了一些基本操作回来又想把vim配置的舒服好看些,于是又去Google vim别人已经配置好的代码,可我用终端下载文件需要翻墙,又去折腾在终端使用代理的问题,问题没有解决,只能通过一些麻烦的手段去将就,可是我就是不死心,依然花很多时间去搜索问题的解决办法,中间又去查网络证书的运行机制,可惜看维基百科没有看的太懂,又只好作罢。。。好不容易差不多了发现别人配置的vim需要另外的插件…回过头来scrapy还没怎么碰。

想把什么事情都干好,却又发现更多的不完美,到头来问题还是没怎么解决!