作者Sheepforpart (Sheep)
看板DataScience
标题[问题] Tensorflow data pipeline 问题
时间Tue Feb 23 19:16:43 2021
作业系统: Google colab/ Mac
问题类别: DL
使用工具: Tensorflow 2.x
问题内容:
想请教一个实作 Tensorflow data pipeline 的问题,我已经研究了好几天
但还是没找到一个好方法
模型的功能是预测一张图片上哪些地方比较吸引人眼注意
但麻烦的是原始资料全都是影片,而且除了影片外,我们还要加入声音来训练
整体流程大约是这样:
1. 从影片中抽取几张 frame
2. 从影片中抽取对应的 audio, 并且做成 spectrogram
3. 上一个步骤中的 audio 也保留 wave
我目前查资料看起来 TFRecord 的功能好像很强,只是真的很复杂,不知道怎麽做到
上面的那些转换
另外有一个不是很理想的方法是,先把需要的 frames 和 audio 都先抽好存起来
如果是这个方法的话,我就只需要知道 Tensorflow 要如何同时喂进来自两个来源
的资料,这边的重点可能是 shuffle 之後次序依然要维持对应
这个方法不太理想是因为在实验完之後,真正使用的资料集非常大,没办法先抽好
麻烦大家给我一些建议了,谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 109.57.194.138 (丹麦)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1614079009.A.215.html
1F:推 supremexiii: 设定两个Input layer, 再用concatenate layer 02/25 14:20
2F:→ yoyololicon: 不熟TFRecord没法给什麽建议,不过应该只要处理好 02/25 16:56
3F:→ yoyololicon: 影片frame和audio的对应,spectrogram可以online从 02/25 16:56
4F:→ yoyololicon: audio转换而来 02/25 16:57
5F:推 imchou239: 建议以一只影片为单位, 数个单位组成 tfrecord 03/09 20:05
6F:→ imchou239: 一个单位包含该影片所有的frame, 以及整段的audio 03/09 20:07
7F:→ imchou239: audio 的存放比较tricky一点 03/09 20:07
8F:→ imchou239: 简单做法是可以预先以一个固定的频率解析audio存起来 03/09 20:08
9F:→ imchou239: 复杂的话是读取tfrecord的时候即时的解析 03/09 20:09
10F:→ imchou239: 不管是哪种, 读取的时候都是写一个parser 03/09 20:10
11F:推 imchou239: 用 tf.io.parse_single_example 读起来 03/09 20:14
12F:→ imchou239: 这样在影片长度比RAM小很多的时候还work 03/09 20:15
13F:→ imchou239: 影片容量太大就会有麻烦, 不想太复杂的话直接切段 03/09 20:16