从视频中检测和分类文本
问题描述:
我正在尝试使用ICDAR2015数据集,这是从视频文件问题进行的文本检测和分类。我之前从事过静态图像上的文本检测和分类问题研究,但从未从事视频数据工作。从视频中检测和分类文本
是否有一些库/工具可以帮助我从视频中截取不同帧的图像? 谢谢。
答
只要视频未加密,根据您使用的平台,屏幕抓取帧的方式有很多。
鉴于你的问题域与域您的经验,OpenCV的一个开源计算机视觉库可能是一个很好的匹配:
的doucmention包括例子来捕捉视频帧:
例如形成上面的教程,从文件中读出的视频:
import numpy as np
import cv2
cap = cv2.VideoCapture('vtest.avi')
while(cap.isOpened()):
ret, frame = cap.read()
//Do whatever work you want on the frame here - in this example
//from the tutorial the image is being converted from one colour
//space to another
gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
//This displays the resulting frame - you may or may not not need
//this for your case
cv2.imshow('frame',gray)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
cap.release()
cv2.destroyAllWindows()