匹茲堡大学
比较考古学
数据库

数据文件:技术说明

比较考古学数据库试图将不同项目的数据集以一个相对统一的格式呈现出来,同时认识到考古学需要面对极其多样的数据,而且考古学家通常会用许多不同的形式来整理数据。这经常看起来是一件麻烦的事儿,但却不能简单地通过制定法则来消除。一方面,考古记录的本质因地域的不同而不同,只对一个地区有所了解的考古学家对此是无法意识的到。这种变化需要不同的田野工作方式以及不同的整理数据集的方式。即使在完全相同的情况下,研究目的不同的考古学家也会以不同的方式采集和呈现数据。什么是有效的数据组织方式,会由不同分析软件(当然,这些软件会迅速变化)所需要的不同结构而决定。假如这些还不够,考古学家各自有其坚持不变的特殊偏好,来抗拒别人对“最优方法”的判断。为了解读马歇尔·萨林斯(Marshall Sahlins)关于酋长权威性的叙述(就如同“标准制定委员会”制定的一个词一样),考古学家们按照他们各自想要的方式组织数据。鉴于这种情形,比较考古学数据库并未对不同数据集的数据文件进行过多的“标准化(standardization)”处理。一些数据集含有完全独特的元素,对此我们尽力以一些创新的方式展示,利用了在线数字化和直观的组织方式,以避免单独的解释。此外,至少是对于一些反复出现的元素,我们尽可能地采用一致的处理方式。我们选择了一些标准的文件格式,主要是因为它们可以导入到特别多的分析软件中,并且在未来有可能被持续地作为标准格式而广泛使用。对于元数据(metadata),我们也尽量将其以一种一致(以至于令我们担心有可能过于详细)的方式呈现。

样本(case)与变量(variables)数据

定量化数据常常表现为编码成一系列变量的样本。这种数据文件以表格的形式呈现,表格中的行(row)表示样本,列(column)代表变量,这也是统计分析软件常见的组织数据的方式。以逗号隔开(comma-delimited)的ASCII文本文件是此类文件的最通用格式。此类文件的后缀名通常为.txt,几乎可以被任何编写用来处理此类数据的程序读取,在比较考古学数据库的数据集中,统一采用了此种文件格式。这些.txt文件的第一行和最后一行进行了标注和解释,以帮助用户避免对数据的错误解读以及避免在用户的软件中出现导入错误。对这些文件来说,元数据中最重要的元素包括非常详细的对样本(行)和变量(列)含义以及为了让整个表格内容清楚无误的描述。在ASCII文件的前几行中,并没有包括变量的名称,这种做法时有遇见,因为不同的数据分析软件在对变量名称进行转换时有非常大的差别。用户需要参考元数据,并根据所使用软件的要求创建他们自己的变量名称。在许多数据集中,此类数据也可以下载为电子表格(spreadsheet)格式(.xls),利用免费的开源软件(例如OpenOffice),这种格式可以更加便于浏览。

空间数据和影像校准(Georeferencing)

空间数据展示了许多特别的复杂因素。其中之一就是影像校准。显然,很多考古学数据的采集发生在世界范围内影像校准的标准化和GPS仪器广泛使用之前。在小的尺度上(例如一个居住面上或者一个遗址内部的地点),相对的空间位置十分重要,因此,使用随意、未进行影像校准的坐标体系的做法十分常见,并且在未来也将持续下去。事实上,这种做法在一些更大(区域性)的尺度上也时常见到,哪怕GIS支持的田野设备可能已经采集到了经过影像校准的坐标体系,以及一些GIS软件默认坐标体系已经被影像校准过。如果影像校准没有帮助,就需要对任意的地理坐标系统作额外的工作。

不同数据集中所包含的影像校准信息是不同的,这种不同取决于空间信息(spatial information)是何时、何地以及通过何种方式被采集到的。由于可广泛获取的经过影像校准的环境数据在数量和分辨率上都有了增加,试图将区域尺度(regional-scale)的考古学聚落分布叠加到各种新环境信息上的诱惑也在增长。对于比较考古学数据库中区域尺度的数据集来说,都努力试图对各自使用的地理坐标系统进行明确的说明,并提供了对影像校准有用的信息。将不同来源的空间数据集进行叠加时总会遇到这种情况,用户应当非常小心地检查不同来源的数据在被进行任何形式的分析之前是否已被恰当地修正。当然,要做到这一点,一种方式是查看不同来源的数据在叠加时明显可见的特征(河流、高速公路、极易识别的地形特征,等等)上是否匹配。所有功能强大的GIS软件都会提供一些工具,通过匹配一些共同的特征(无论坐标体系的元数据是否可以获取到)来校正不同来源的数据。相比在错误或不精确的影像校准元数据上“自动”校正多个数据集,这些工具可能会获取更好的结果(即更加精确和可靠的校正数据集)。

矢量格式的空间数据和AutoCAD Map .dxf文件

在比较考古学数据库中,矢量格式的空间信息通常用AutoCAD Release 12 .dxf文件表现。这种格式可以被导入到许多图形和GIS软件中。由于它是AutoCAD Map自带的一种格式,所以无需“导入”这一过程,其数据结构对于AutoCAD Map用户来说非常熟悉。不过,不同GIS程序之间的数据结构和词汇却有很大差别。在检测和正确使用AutoCAD Map .dxf文件中内嵌的影像校准信息时,不同程序有着非常显著的差别。正因如此,比较考古学数据库中的大多数.dxf文件并没有嵌入影像校准信息;相反,这些信息被包含在元数据(metadata)中。因此,对于需要影像校准过的考古数据的用户,必须对影像校准信息给予细致的关注,并了解如何在一个导入.dxf文件的程序中正确地使用这些信息。考虑到目前为止许多考古学家都在使用ArcGIS,我们在此提供了一些将数据导入到ArcGIS的小技巧。一些数据集的空间信息除.dxf文件外,也提供了其作者使用的原始格式的矢量格式文件。

栅格图层格式的空间数据和GeoTIFF文件

在比较考古学数据库中,栅格图层格式的空间信息通常以GeoTIFF文件的形式呈现。而影像校准信息也总是嵌入在这些.tif的文件以及伴随它们但又独立的.tfw文件中。在导入GeoTIFF文件时,一些GIS软件根据嵌入的信息(不需使用.tfw文件)对其进行影像校准。另外一些软件需要依靠.tfw文件,而不需要使用.tif文件内嵌的影像校准信息。此外,还有另外一些软件可供用户选择任意一种对数据进行影像校准的来源(有时候会导致不同的结果)。作为数据集元数据的一部分,我们明确提供了影像校准信息。比较考古学数据库的GIS数据集内在是一致的,如果它们与其它来源的空间数据合并,重要的是要通过两个来源的数据中空间特征的地点匹配来验证是否已通过正确的校正(正如上述讨论的那样)。