数据科学 | Python数据科学常用库

梯度增强算法是最流行的机器学习算法之一，它是建立一个不断改进的基本模型，即决策树。因此，为了快速、方便地实现这个方法而设计了专门库。就是说，我们认为 XGBoost、LightGBM 和 CatBoost 值得特别关注。它们都是解决常见问题的竞争者，并且使用方式几乎相同。这些库提供了高度优化的、可扩展的、快速的梯度增强实现，这使得它们在数据科学家和 Kaggle 竞争对手中非常流行，因为在这些算法的帮助下赢得了许多比赛。

Eli5

官网：https://eli5.readthedocs.io/en/latest/

通常情况下，机器学习模型预测的结果并不完全清楚，这正是 Eli5 帮助应对的挑战。它是一个用于可视化和调试机器学习模型并逐步跟踪算法工作的软件包，为 scikit-learn、XGBoost、LightGBM、lightning 和 sklearn-crfsuite 库提供支持，并为每个库执行不同的任务。

深度学习

TensorFlow

官网：https://www.tensorflow.org/

TensorFlow 是一个流行的深度学习和机器学习框架，由 Google Brain 开发。它提供了使用具有多个数据集的人工神经网络的能力。在最流行的 TensorFlow应用中有目标识别、语音识别等。在常规的 TensorFlow 上也有不同的 leyer-helper，如 tflearn、tf-slim、skflow 等。

数据科学 | Python数据科学常用库

PyTorch

官网：https://pytorch.org/

PyTorch 是一个大型框架，它允许使用 GPU 加速执行张量计算，创建动态计算图并自动计算梯度。在此之上，PyTorch 为解决与神经网络相关的应用程序提供了丰富的 API。该库基于 Torch，是用 C 实现的开源深度学习库。

数据科学 | Python数据科学常用库

Keras

官网：https://keras.io/

Keras 是一个用于处理神经网络的高级库，运行在 TensorFlow、Theano 之上，现在由于新版本的发布，还可以使用 CNTK 和 MxNet 作为后端。它简化了许多特定的任务，并且大大减少了单调代码的数量。然而，它可能不适合某些复杂的任务。

数据科学 | Python数据科学常用库

分布式深度学习

Dist-keras / elephas / spark-deep-learning

官网：http://joerihermans.com/work/distributed-keras/https://pypi.org/project/elephas/https://databricks.github.io/spark-deep-learning/site/index.html

随着越来越多的用例需要花费大量的精力和时间，深度学习问题变得越来越重要。然而，使用像 Apache Spark 这样的分布式计算系统，处理如此多的数据要容易得多，这再次扩展了深入学习的可能性。因此，dist-keras、elephas 和 spark-deep-learning 都在迅速流行和发展，而且很难挑出一个库，因为它们都是为解决共同的任务而设计的。这些包允许你在 Apache Spark 的帮助下直接训练基于 Keras 库的神经网络。Spark-deep-learning 还提供了使用 Python 神经网络创建管道的工具。

自然语言处理

NLTK

官网：https://www.nltk.org/

NLTK 是一组库，一个用于自然语言处理的完整平台。在 NLTK 的帮助下，你可以以各种方式处理和分析文本，对文本进行标记和标记，提取信息等。NLTK 也用于原型设计和建立研究系统。

数据科学 | Python数据科学常用库

SpaCy

官网：https://spacy.io/

SpaCy 是一个具有优秀示例、API 文档和演示应用程序的自然语言处理库。这个库是用 Cython 语言编写的，Cython 是 Python 的 C 扩展。它支持近 30 种语言，提供了简单的深度学习集成，保证了健壮性和高准确率。SpaCy 的另一个重要特性是专为整个文档处理设计的体系结构，无须将文档分解成短语。

数据科学 | Python数据科学常用库

Gensim

官网：https://radimrehurek.com/gensim/

Gensim 是一个用于健壮语义分析、主题建模和向量空间建模的 Python 库，构建在Numpy和Scipy之上。它提供了流行的NLP算法的实现，如 word2vec。尽管 gensim 有自己的 models.wrappers.fasttext实现，但 fasttext 库也可以用来高效学习词语表示。

数据科学 | Python数据科学常用库

数据采集

Scrapy

官网：https://scrapy.org/

Scrapy 是一个用来创建网络爬虫，扫描网页和收集结构化数据的库。此外，Scrapy 可以从 API 中提取数据。由于该库的可扩展性和可移植性，使得它用起来非常方便。

数据科学 | Python数据科学常用库

计算机视觉

OpenCV

OpenCV是一个C++库，用于实时处理计算机视觉方面的问题，涵盖了很多计算机视觉领域的模块。

OpenCV有两个Python接口，老版本的cv模块使用OpenCV内置的数据类型，新版本的cv2模块使用NumPy数组。

数据科学 | Python数据科学常用库

生物

BioPython

官网：http://www.biopython.org

Biopython工程是一个使用Python来开发计算分子生物学工具的国际团体。(http://www.python.org) Python是一种面向对象的、解释型的、灵活的语言，在计算机科学中日益流行。Python易学，语法明晰，并且能很容易的使用以C，C++或者FORTRAN编写的模块实现扩展。

Biopython为使用和研究生物信息学的开发者提供了一个在线的资源库，包括模块、脚本以及一些基于Python的软件的网站链接。一般来讲，Biopython致力于通过创造高质量的和可重复利用的模块及类，从而使得Python在生物信息学中的应用变得更加容易。Biopython的特点包括解析各种生物信息学格式的文件(BLAST， Clustalw， FASTA， Genbank...)，访问在线的服务器(NCBI，Expasy...)，常见和不那么常见程序的接口(Clustalw， DSSP，MSMS...)，标准的序列类，各种收集的模块，KD树数据结构等等，还有一些文档。

数据科学 | Python数据科学常用库

化学

RDKit

官网：http://www.rdkit.org

RDKit在2000-2006年期间在Rational Discovery开发和使用，用于构建吸收、分布、代谢、代谢、毒性和生物活性的预测模型。2006年6月Rational Discovery被关闭，但该工具包在BSD许可证下作为开源发布。目前，RDKit的开源开发由诺华积极贡献，其中包括诺华捐赠的源代码。

RDKit提供各种功能，如不同的化学I/O格式，包括SMILES/SMARTS，结构数据格式（SDF），Thor数据树（TDT），Sybyl线符号（SLN），Corina mol2和蛋白质数据库（PDB）。子结构搜索; 标准SMILES; 手性支持；化学转化；化学反应；分子序列化；相似性/多样性选择；二维药效团；分层子图/片段分析; Bemis和Murcko骨架；逆合成组合分析程序（RECAP）; 多分子最大共同亚结构；功能图；基于形状的相似性；基于RMSD的分子分子比对；基于形状的对齐；使用Open3-DALIGN算法的无监督分子-分子比对；与PyMOL进行3D可视化集成；功能组过滤；分子描述符库；相似图；机器学习等等

数据科学 | Python数据科学常用库

https://blog.csdn.net/weixin_34166847/article/details/89695804

https://www.cnblogs.com/renwoixng/p/11020663.html

数据科学 | Python数据科学常用库

核心库

IPython

NumPy

SciPy

Pandas

StatsModels

可视化

Matplotlib

Seaborn

Plotly

Bokeh

Pydot

机器学习

Scikit-learn

XGBoost / LightGBM / CatBoost

Eli5

深度学习

TensorFlow

PyTorch

Keras

分布式深度学习

Dist-keras / elephas / spark-deep-learning

自然语言处理

NLTK

SpaCy

Gensim

数据采集

Scrapy

计算机视觉

OpenCV

生物

BioPython

化学

RDKit

相关推荐