您的位置: 首页 > 文章 > 图像转文字技术实现原理

图像转文字技术实现原理

分类: 文章 • 2025-07-12 11:10:22

图像转文字的技术叫做image Caption。image caption的网络结构其实是基于encoder_decoder结构的。

Image caption将Decoder中的rnn网络换成了cnn网络，将decoder中的rnn网络换成了lstm网络。

网络结构如下图所示：

图像转文字技术实现原理

两个改进的方向：

1. 引入注意力机制

2. 引入高层语义模型