用于R导入的阵列数据的最有效格式？

2018-06-13 10:29:05

我处于能够提前设置数据收集格式的令人羡慕的位置，而不是被交给一些疯狂的格式，并且不得不为此而挣扎。我想确保以最小化头痛的方式设置它，但我不熟悉导入多维数组，因此我想要输入。它也似乎是其他人可能从中获得一些利用的思想练习。

我正在编译大量数据摘要（500+），每个实验有23个单一数据值，另外两个矢量在100到1500个数据值之间变化（这两个向量的长度总是匹配每个样本的长度，但它们的长度对于每个样品是不同的）。我必须将所有这些存储在我目前正在构建的Excel工作表中。我想以一种有效地将这些数据存储到R数组中的方式进行设置。

我假设长度不同的较长尺寸的最终长度（1500）和最后一批NA最终将不在Excel中追踪不整齐的数据。

我目前的计划是将这些数据以长形式存储在Excel中，数据标签位于第一列（dim1，dim2，...）以及每个后续列（a，b，c ...）中的数据摘要，因为这节省了大部分空间。以较小的维数为例（7个单值，2个长度为1500的向量），数据在Excel中将如下所示：

     a b c...
dim1 2 5 7...
dim2 3 6 8...
dim3 6 8 2 ...
dim4 5 6 1... 
dim5 6 2 1...
dim6 0 3 8...
dim7 8 5 4...
dim8 1 1 1...
dim8 2 2 2 ...
... continued x1500
dim9 4 4 4...
dim9 5 5 5 ...
...continued x1500

我可以轻松导入它，使用最左边的列来确定长阵列的尺寸？我没有看到使用Reshape2的简单方法，但也许我错过了一些东西。或者，我是否需要将数据放在配对的列中？

我不清楚这种格式是否是组织这些数据以便导入多维数组的最有效方式，或者是否有更好的方法。最终会有大量的样本，所以我现在想通过这个想法来进行思考，而不是稍后再做斗争。

什么是最无痛的方式来导入...或者，是否有更有效的方法来设置它以便于导入？

嗯..我想不出你会不得不使用melt 。如果你保持当前的格式，并为'昏暗'列添加标题，那么你应该能够很容易地处理这些数据。

如果您确实将数据转换为“模糊”，我认为这会使事情变得更加困难。

知道变量类型a，b，c等可能会很好。是为了做出更好的评估。

链接地址: http://www.djcxy.com/p/38323.html

上一篇: Most efficient format for array data for R import?

下一篇: Read multiple excel spreadsheets into R using readxl and correct variable types