绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
一个Python小白如何快速完成爬虫
2020-06-23 16:04:51

很人或多或少都听说过python爬虫,但不知道如何通过python爬虫来爬取自己想要的内容,今天我就给大家说一个爬虫教程来实现自己次python爬虫。

环境搭建

既然用python,那么自然少不了语言环境。于是乎到官网下载了3.5版本的。安装完之后,随机选择了一个编辑器叫PyCharm,话说python编辑器还真挺多的。

建好项目,打开编辑器,直接开工。搜一个HTML解析工具,人家都做的那种,这事不要客气,直接拿来用-BeautifulSoup 。安装也很简单的。

发送请求

当然我也是不清楚python是怎么进行网络请求的,其中还有什么2.0和3.0的不同,通过各种百度,终还是写出了简单的一段请求代码。



数据解析

上文已经提到了,用到的是BeautifulSoup,好处就是不用自己写正则,只要根据他的语法来写就好了,在多次的测试之后终于完成了数据的解析。先上一段HTML。然后在对应下面的代码,也许看起来更轻松一些。



通过上文的HTML代码可以看到几点。首先每一条数据都在 div(class=”post_item”)下。然后 div(“post_item_body”)下有用户信息,标题,链接,简介等信息。逐一根据样式解析即可。代码如下:





上边一堆代码下来,着实会花费不少时间,边写边调试,再百度,不过还好终还是出来了。等数据都整理好之后,然后我把它保存到了txt文件里面,以供其他语言来处理。



上边呢,我取了一百页的数据,也就是大概2000条做测试。

成果验收

废了好大劲终于写完那些代码之后呢,就欣赏自己的成果了,像我这样的初学者,代码写的很渣,都是这参考一下,那参考一下,不过当你真正完成了,你就会有一种莫名的自豪感。

好啦~今天的分享到这里就结束了,如果需要更多的技术性文章,可以直接访问马哥教育官网!免责声明:图片和内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容!

分享好友

分享这个小栈给你的朋友们,一起进步吧。

人生苦短,不如学Python
创建时间:2020-06-18 16:48:21
Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • liuxuhui
    专家
戳我,来吐槽~