TensorFlow读写数据

ゝ一纸荒年。 2021-09-18 12:30 387阅读 0赞

前言

只有光头才能变强。

文本已收录至我的GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3y

回顾前面:

  • 从零开始学TensorFlow【01-搭建环境、HelloWorld篇】
  • 什么是TensorFlow?

众所周知,要训练出一个模型,首先我们得有数据。我们第一个例子中,直接使用dataset的api去加载mnist的数据。(minst的数据要么我们是提前下载好,放在对应的目录上,要么就根据他给的url直接从网上下载)。

一般来说,我们使用TensorFlow是从TFRecord文件中读取数据的。

TFRecord 文件格式是一种面向记录的简单二进制格式,很多 TensorFlow 应用采用此格式来训练数据

所以,这篇文章来聊聊怎么读取TFRecord文件的数据。

一、入门对数据集的数据进行读和写

首先,我们来体验一下怎么造一个TFRecord文件,怎么从TFRecord文件中读取数据,遍历(消费)这些数据。

1.1 造一个TFRecord文件

现在,我们还没有TFRecord文件,我们可以自己简单写一个:

  1. def write_sample_to_tfrecord():
  2. gmv_values = np.arange(10)
  3. click_values = np.arange(10)
  4. label_values = np.arange(10)
  5. with tf.python_io.TFRecordWriter("/Users/zhongfucheng/data/fashin/demo.tfrecord", options=None) as writer:
  6. for _ in range(10):
  7. feature_internal = {
  8. "gmv": tf.train.Feature(float_list=tf.train.FloatList(value=[gmv_values[_]])),
  9. "click": tf.train.Feature(int64_list=tf.train.Int64List(value=[click_values[_]])),
  10. "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label_values[_]]))
  11. }
  12. features_extern = tf.train.Features(feature=feature_internal)
  13. # 使用tf.train.Example将features编码数据封装成特定的PB协议格式
  14. # example = tf.train.Example(features=tf.train.Features(feature=features_extern))
  15. example = tf.train.Example(features=features_extern)
  16. # 将example数据系列化为字符串
  17. example_str = example.SerializeToString()
  18. # 将系列化为字符串的example数据写入协议缓冲区
  19. writer.write(example_str)
  20. if __name__ == '__main__':
  21. write_sample_to_tfrecord()

我相信大家代码应该是能够看得懂的,其实就是分了几步:

  • 生成TFRecord Writer
  • tf.train.Feature生成协议信息
  • 使用tf.train.Example将features编码数据封装成特定的PB协议格式
  • 将example数据系列化为字符串
  • 将系列化为字符串的example数据写入协议缓冲区

参考资料:

  • https://zhuanlan.zhihu.com/p/31992460

ok,现在我们就有了一个TFRecord文件啦。

1.2 读取TFRecord文件

  • 其实就是通过tf.data.TFRecordDataset这个api来读取到TFRecord文件,生成处dataset对象
  • 对dataset进行处理(shape处理,格式处理…等等)
  • 使用迭代器对dataset进行消费(遍历)

demo代码如下:

  1. import tensorflow as tf
  2. def read_tensorflow_tfrecord_files():
  3. # 定义消费缓冲区协议的parser,作为dataset.map()方法中传入的lambda:
  4. def _parse_function(single_sample):
  5. features = {
  6. "gmv": tf.FixedLenFeature([1], tf.float32),
  7. "click": tf.FixedLenFeature([1], tf.int64), # ()或者[]没啥影响
  8. "label": tf.FixedLenFeature([1], tf.int64)
  9. }
  10. parsed_features = tf.parse_single_example(single_sample, features=features)
  11. # 对parsed 之后的值进行cast.
  12. gmv = tf.cast(parsed_features["gmv"], tf.float64)
  13. click = tf.cast(parsed_features["click"], tf.float64)
  14. label = tf.cast(parsed_features["label"], tf.float64)
  15. return gmv, click, label
  16. # 开始定义dataset以及解析tfrecord格式
  17. filenames = tf.placeholder(tf.string, shape=[None])
  18. # 定义dataset 和 一些列trasformation method
  19. dataset = tf.data.TFRecordDataset(filenames)
  20. parsed_dataset = dataset.map(_parse_function) # 消费缓冲区需要定义在dataset 的map 函数中
  21. batchd_dataset = parsed_dataset.batch(3)
  22. # 创建Iterator
  23. sample_iter = batchd_dataset.make_initializable_iterator()
  24. # 获取next_sample
  25. gmv, click, label = sample_iter.get_next()
  26. training_filenames = [
  27. "/Users/zhongfucheng/data/fashin/demo.tfrecord"]
  28. with tf.Session() as session:
  29. # 初始化带参数的Iterator
  30. session.run(sample_iter.initializer, feed_dict={ filenames: training_filenames})
  31. # 读取文件
  32. print(session.run(gmv))
  33. if __name__ == '__main__':
  34. read_tensorflow_tfrecord_files()

无意外的话,我们可以输出这样的结果:

  1. [[0.]
  2. [1.]
  3. [2.]]

ok,现在我们已经大概知道怎么写一个TFRecord文件,以及怎么读取TFRecord文件的数据,并且消费这些数据了。

二、epoch和batchSize术语解释

我在学习TensorFlow翻阅资料时,经常看到一些机器学习的术语,由于自己没啥机器学习的基础,所以很多时候看到一些专业名词就开始懵逼了。

2.1epoch

当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一个epoch

这可能使我们跟dataset.repeat()方法联系起来,这个方法可以使当前数据集重复一遍。比如说,原有的数据集是[1,2,3,4,5],如果我调用dataset.repeat(2)的话,那么我们的数据集就变成了[1,2,3,4,5],[1,2,3,4,5]

  • 所以会有个说法:假设原先的数据是一个epoch,使用repeat(5)就可以将之变成5个epoch

2.2batchSize

一般来说我们的数据集都是比较大的,无法一次性将整个数据集的数据喂进神经网络中,所以我们会将数据集分成好几个部分。每次喂多少条样本进神经网络,这个叫做batchSize。

在TensorFlow也提供了方法给我们设置:dataset.batch(),在API中是这样介绍batchSize的:

  1. representing the number of consecutive elements of this dataset to combine in a single batch

我们一般在每次训练之前,会将整个数据集的顺序打乱,提高我们模型训练的效果。这里我们用到的api是:dataset.shffle();

三、再来聊聊dataset

我从官网的介绍中截了一个dataset的方法图(部分):

dataset的方法图

dataset的功能主要有以下三种:

  • 创建dataset实例

    • 通过文件创建(比如TFRecord)
    • 通过内存创建
  • 对数据集的数据进行变换

    • 比如上面的batch(),常见的map(),flat_map(),zip(),repeat()等等
    • 文档中一般都有给出例子,跑一下一般就知道对应的意思了。
  • 创建迭代器,遍历数据集的数据

3.1 聊聊迭代器

迭代器可以分为四种:

  • 单次。对数据集进行一次迭代,不支持参数化
  • 可初始化迭代

    • 使用前需要进行初始化,支持传入参数。面向的是同一个DataSet
  • 可重新初始化:同一个Iterator从不同的DataSet中读取数据

    • DataSet的对象具有相同的结构,可以使用tf.data.Iterator.from_structure来进行初始化
    • 问题:每次 Iterator 切换时,数据都从头开始打印了
  • 可馈送(也是通过对象相同的结果来创建的迭代器)

    • 可让您在两个数据集之间切换的可馈送迭代器
    • 通过一个string handler来实现。
    • 可馈送的 Iterator 在不同的 Iterator 切换的时候,可以做到不从头开始

简单总结:

  • 1、 单次 Iterator ,它最简单,但无法重用,无法处理数据集参数化的要求。
  • 2、 可以初始化的 Iterator ,它可以满足 Dataset 重复加载数据,满足了参数化要求。
  • 3、可重新初始化的 Iterator,它可以对接不同的 Dataset,也就是可以从不同的 Dataset 中读取数据。
  • 4、可馈送的 Iterator,它可以通过 feeding 的方式,让程序在运行时候选择正确的 Iterator,它和可重新初始化的 Iterator 不同的地方就是它的数据在不同的 Iterator 切换时,可以做到不重头开始读取数据

string handler(可馈送的 Iterator)这种方式是最常使用的,我当时也写了一个Demo来使用了一下,代码如下:

  1. def read_tensorflow_tfrecord_files():
  2. # 开始定义dataset以及解析tfrecord格式.
  3. train_filenames = tf.placeholder(tf.string, shape=[None])
  4. vali_filenames = tf.placeholder(tf.string, shape=[None])
  5. # 加载train_dataset batch_inputs这个方法每个人都不一样的,这个方法我就不给了。
  6. train_dataset = batch_inputs([
  7. train_filenames], batch_size=5, type=False,
  8. num_epochs=2, num_preprocess_threads=3)
  9. # 加载validation_dataset batch_inputs这个方法每个人都不一样的,这个方法我就不给了。
  10. validation_dataset = batch_inputs([vali_filenames
  11. ], batch_size=5, type=False,
  12. num_epochs=2, num_preprocess_threads=3)
  13. # 创建出string_handler()的迭代器(通过相同数据结构的dataset来构建)
  14. handle = tf.placeholder(tf.string, shape=[])
  15. iterator = tf.data.Iterator.from_string_handle(
  16. handle, train_dataset.output_types, train_dataset.output_shapes)
  17. # 有了迭代器就可以调用next方法了。
  18. itemid = iterator.get_next()
  19. # 指定哪种具体的迭代器,有单次迭代的,有初始化的。
  20. training_iterator = train_dataset.make_initializable_iterator()
  21. validation_iterator = validation_dataset.make_initializable_iterator()
  22. # 定义出placeholder的值
  23. training_filenames = [
  24. "/Users/zhongfucheng/tfrecord_test/data01aa"]
  25. validation_filenames = ["/Users/zhongfucheng/tfrecord_validation/part-r-00766"]
  26. with tf.Session() as sess:
  27. # 初始化迭代器
  28. training_handle = sess.run(training_iterator.string_handle())
  29. validation_handle = sess.run(validation_iterator.string_handle())
  30. for _ in range(2):
  31. sess.run(training_iterator.initializer, feed_dict={ train_filenames: training_filenames})
  32. print("this is training iterator ----")
  33. for _ in range(5):
  34. print(sess.run(itemid, feed_dict={ handle: training_handle}))
  35. sess.run(validation_iterator.initializer,
  36. feed_dict={ vali_filenames: validation_filenames})
  37. print("this is validation iterator ")
  38. for _ in range(5):
  39. print(sess.run(itemid, feed_dict={ vali_filenames: validation_filenames, handle: validation_handle}))
  40. if __name__ == '__main__':
  41. read_tensorflow_tfrecord_files()

参考资料:

  • https://blog.csdn.net/briblue/article/details/80962728

3.2 dataset参考资料

在翻阅资料时,发现写得不错的一些博客:

  • https://www.jianshu.com/p/91803a119f18
  • https://irvingzhang0512.github.io/2018/04/19/tensorflow-api-2/
  • http://www.feiguyunai.com/index.php/2017/12/25/pyhtonai-ml-dataprocess-datasetapi/

最后

乐于输出干货的Java技术公众号:Java3y。公众号内有200多篇原创技术文章、海量视频资源、精美脑图,不妨来关注一下!

下一篇文章打算讲讲如何理解axis~

帅的人都关注了

觉得我的文章写得不错,不妨点一下

发表评论

表情:
评论列表 (有 0 条评论,387人围观)

还没有评论,来说两句吧...

相关阅读