从视频中检测和分类文本

问题描述:

我正在尝试使用ICDAR2015数据集,这是从视频文件问题进行的文本检测和分类。我之前从事过静态图像上的文本检测和分类问题研究,但从未从事视频数据工作。从视频中检测和分类文本

是否有一些库/工具可以帮助我从视频中截取不同帧的图像? 谢谢。

只要视频未加密,根据您使用的平台,屏幕抓取帧的方式有很多。

鉴于你的问题域与域您的经验,OpenCV的一个开源计算机视觉库可能是一个很好的匹配:

的doucmention包括例子来捕捉视频帧:

例如形成上面的教程,从文件中读出的视频:

import numpy as np 
import cv2 

cap = cv2.VideoCapture('vtest.avi') 

while(cap.isOpened()): 
    ret, frame = cap.read() 

    //Do whatever work you want on the frame here - in this example 
    //from the tutorial the image is being converted from one colour 
    //space to another 
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) 

    //This displays the resulting frame - you may or may not not need 
    //this for your case 
    cv2.imshow('frame',gray) 
    if cv2.waitKey(1) & 0xFF == ord('q'): 
     break 

cap.release() 
cv2.destroyAllWindows()