Python3爬虫开发存储数据的几种必知必会

python存储数据简述

        在实际开发过程中,会遇到数据存储的问题,我们需要针对不同的项目背景和开发需求采用不同的存储方式,从而满足项目开发需求和提高我们学习和工作效率。


1. txt文件存储

Python3爬虫开发存储数据的几种必知必会


2. csv文件

    csv(comma-separated values) -->逗号分隔值

    文件以纯文本形式存储表格数据(数字和文本),在windows下可以用excel打开,csv官方文档

Python3爬虫开发存储数据的几种必知必会

    【Tips】: 如果出现编码错误,可以在open方法中添加encoding参数, 如:encoding="utf-8"

    【tips】: 在windows中,打开文件需要在open方法中添加newline='', 因为window中换行符是:\n\r。


3.  json文件

    json(JavaScript Object Notation), 是一种轻量级的数据交换格式。json的内容格式跟python中的字典和列表很相似。

    JSON的官方文档

    Python3爬虫开发存储数据的几种必知必会

    【tips】ensure_ascii = False --> 使用dumps将列表序列化并且转换为unicode编码


4. Mysql数据库

    python3中可以使用pymysql模块,菜鸟教程python3操作mysql

    优点:可以存储大量的数据, 结构化数据。

    Python3爬虫开发存储数据的几种必知必会

  

5. Redis数据库

    redis是一个key-value存储的Nosql数据库

    优点: 高性能,可用于作分布式爬虫。redis中文教程python操作redis

Python3爬虫开发存储数据的几种必知必会


6. Mongodb数据库

    优点:和python的字典很吻合,便于使用分布式存储。pymongo官方文档

    Python3爬虫开发存储数据的几种必知必会