比较考古学数据库试图将不同项目的数据集以一个相对统一的格式呈现出来,同时认识到考古学需要面对极其多样的数据,而且考古学家通常会用许多不同的形式来整理数据。 鉴于这种情形,比较考古学数据库并未对不同数据集的数据文件进行过多的“标准化(standardization)”处理。一些数据集含有完全独特的元素,对此我们尽力以一些创新的方式展示,利用了在线数字化和直观的组织方式,以避免单独的解释。此外,至少是对于一些反复出现的元素,我们尽可能地采用一致的处理方式。我们选择了一些标准的文件格式,主要是因为它们可以导入到特别多的分析软件中,并且在未来有可能被持续地作为标准格式而广泛使用。对于元数据(metadata),我们也尽量将其以一种一致的方式呈现。

Style image

样本(case)与变量(variables)数据

定量化数据常常表现为编码成一系列变量的样本。这种数据文件以表格的形式呈现,表格中的行(row)表示样本,列(column)代表变量,这也是统计分析软件常见的组织数据的方式。以逗号隔开(comma-delimited)的ASCII文本文件是此类文件的最通用格式。此类文件的后缀名通常为.csv,几乎可以被任何编写用来处理此类数据的程序读取,在比较考古学数据库的数据集中,统一采用了此种文件格式。这些.csv文件的第一行和最后一行进行了标注和解释,以帮助用户避免对数据的错误解读以及避免在用户的软件中出现导入错误。对这些文件来说,元数据中最重要的元素包括非常详细的对样本(行)和变量(列)含义以及为了让整个表格内容清楚无误的描述。在ASCII文件的前几行中,并没有包括变量的名称,这种做法时有遇见,因为不同的数据分析软件在对变量名称进行转换时有非常大的差别。用户需要参考元数据,并根据所使用软件的要求创建他们自己的变量名称。在许多数据集中,此类数据也可以下载为电子表格(spreadsheet)格式(.xls),利用免费的开源软件(例如OpenOffice),这种格式可以更加便于浏览。

空间数据和影像校准(Georeferencing)

空间数据展示了许多特别的复杂因素。其中之一就是影像校准。显然,很多考古学数据的采集发生在世界范围内影像校准的标准化和GPS仪器广泛使用之前。在小的尺度上(例如一个居住面上或者一个遗址内部的地点),相对的空间位置十分重要,因此,使用随意、未进行影像校准的坐标体系的做法十分常见,并且在未来也将持续下去。事实上,这种做法在一些更大(区域性)的尺度上也时常见到,哪怕GIS支持的田野设备可能已经采集到了经过影像校准的坐标体系,以及一些GIS软件默认坐标体系已经被影像校准过。如果影像校准没有帮助,就需要对任意的地理坐标系统作额外的工作。

不同数据集中所包含的影像校准信息是不同的,这种不同取决于空间信息(spatial information)是何时、何地以及通过何种方式被采集到的。由于可广泛获取的经过影像校准的环境数据在数量和分辨率上都有了增加,试图将区域尺度(regional-scale)的考古学聚落分布叠加到各种新环境信息上的诱惑也在增长。对于比较考古学数据库中区域尺度的数据集来说,都努力试图对各自使用的地理坐标系统进行明确的说明,并提供了对影像校准有用的信息。将不同来源的空间数据集进行叠加时总会遇到这种情况,用户应当非常小心地检查不同来源的数据在被进行任何形式的分析之前是否已被恰当地修正。当然,要做到这一点,一种方式是查看不同来源的数据在叠加时明显可见的特征(河流、高速公路、极易识别的地形特征,等等)上是否匹配。所有功能强大的GIS软件都会提供一些工具,通过匹配一些共同的特征(无论坐标体系的元数据是否可以获取到)来校正不同来源的数据。相比在错误或不精确的影像校准元数据上“自动”校正多个数据集,这些工具可能会获取更好的结果(即更加精确和可靠的校正数据集)。

Style image

矢量格式的空间数据和AutoCAD Map .dxf文件

在比较考古学数据库中,矢量格式的空间信息通常用AutoCAD Release 12 .dxf文件表现。这种格式可以被导入到许多图形和GIS软件中。由于它是AutoCAD Map自带的一种格式,所以无需“导入”这一过程,其数据结构对于AutoCAD Map用户来说非常熟悉。不过,不同GIS程序之间的数据结构和词汇却有很大差别。在检测和正确使用AutoCAD Map .dxf文件中内嵌的影像校准信息时,不同程序有着非常显著的差别。正因如此,比较考古学数据库中的大多数.dxf文件并没有嵌入影像校准信息;相反,这些信息被包含在元数据(metadata)中。因此,对于需要影像校准过的考古数据的用户,必须对影像校准信息给予细致的关注,并了解如何在一个导入.dxf文件的程序中正确地使用这些信息。考虑到目前为止许多考古学家都在使用ArcGIS,我们在此提供了一些将 数据导入到ArcGIS的小技巧 。一些数据集的空间信息除.dxf文件外,也提供了其作者使用的原始格式的矢量格式文件。

Style image

栅格图层格式的空间数据和GeoTIFF文件

在比较考古学数据库中,栅格图层格式的空间信息通常以GeoTIFF文件的形式呈现。而影像校准信息也总是嵌入在这些.tif的文件以及伴随它们但又独立的.tfw文件中。在导入GeoTIFF文件时,一些GIS软件根据嵌入的信息(不需使用.tfw文件)对其进行影像校准。另外一些软件需要依靠.tfw文件,而不需要使用.tif文件内嵌的影像校准信息。此外,还有另外一些软件可供用户选择任意一种对数据进行影像校准的来源(有时候会导致不同的结果)。作为数据集元数据的一部分,我们明确提供了影像校准信息。比较考古学数据库的GIS数据集内在是一致的,如果它们与其它来源的空间数据合并,重要的是要通过两个来源的数据中空间特征的地点匹配来验证是否已通过正确的校正(正如上述讨论的那样)。

数据导入到ArcGIS的小技巧

ArcGIS假定,任何一张地图图层可以被影像校准(georeferencing)到地球表面上某一特定的地点。这种方法对于合并不同来源的空间数据十分强大和普适,然而,许多空间分析并不需要影像校准。利用比较考古学数据库中的数据,无论地理定位信息是否存在或准确,都可以进行如下分析:空间集群或分散、集中化、聚落层级化、网络关系、多个空间分布的相似性以及许多其它主题。比较考古学数据库中的大多数区域性数据集同样包括环境因素的信息,例如地形、水文、土壤以及其它资源。一个数据集中的这些不同地图图层可以恰当地相互进行影像校准,甚至于对精确地理定位受到广泛关注之前或在某些地区可行之前采集的数据集,也是如此。这些地理信息的数据集是内在统一的,而且自身不需要进行影像校准就可以进行分析。一些GIS程序(包括AutoCAD Map、GRASS、Idrisi以及其它)让分析变得十分简单,可以使用任何内在统一的坐标体系,而不管它们是否经过影像校准。然而,来自ArcGIS用户的疑问表明,许多人被ArcGIS对“所有地图图层应当经过影像校准”的坚持所困扰。正如下面要讨论到的,这个问题可以在ArcGIS中得以解决。即便是影像校准的元数据无法得到,这个目的仍然可以达到,这一点同样在下面有所讨论。以下的这些注释无意取代ArcGIS的说明文件,而仅仅是唤起对某些使用者可能并不知晓的ArcGIS相关工具的关注。

例如,通过在目录视图(Catalog Pane)中拖曳或者使用添加数据(Add Data)快捷键,一个.dxf文件可以被导入到ArcGIS中。忽略掉ArcGIS“空间信息丢失”的警告,继续进行。此时,AutoCAD的实体(entities)就出现在ArcGIS中目录表(Table of Contents)的图层组(Group Layer)文件下。AutoCAD的文本实体(Text entities)显示为ArcGIS的注释要素(Annotation features);AutoCAD的点实体(Point entities)显示为ArcGIS的点要素(Point features);AutoCAD的折线实体(Polyline entities)显示为ArcGIS的折线要素(Polyline features);AutoCAD的闭合折线实体显示为ArcGIS 的多边形要素(Polygon features)。ArcGIS要素的属性表(Attribute Tables)包含对应AutoCAD各种实体属性(例如图层、颜色以及其它)的变量。

如果影像校准的元数据可以获取到,这个信息可以被用来设置ArcGIS的数据组属性。这时很可能要求明确坐标体系、基准面(base datum)和地图单位(map units)。例如,在若干GIS程序中,ArcGIS是坚持使用“米”作为UTM投影体系单位的一个程序,而其它程序(包括AutoCAD Map、GRASS和Idrisi)则更加灵活,基于UTM的数据集经常可以使用“千米/公里”作为基本的地图单位。

对无法获取影像校准元数据或者元数据似乎不准确的地图而言,ArcGIS提供了非常好的工具可以对其进行影像校准。在影像校准(Georeferencing)和空间校正(Spatial Adjustment)工具条中可以找到这些工具。一些最强大和灵活的工具允许在未经过影像校准的地图上建立控制点(Control Points)以及告诉ArcGIS这些控制点在一个已知坐标体系的现实世界中的坐标。遗址、河流、高速公路、现代城镇等的确切位置常常包含在一个GIS数据集中。这些地方的坐标可以在基于WGS84基准面的UTM系统或经纬度(Lat/Long)中被确定,并且可以通过在某一个来源(例如Google Earth)中寻找这些地点。通过这种方式,一些控制点的坐标可以被精确地定位,影像配准从而可能有足够的精度允许其它来源、经过校准的数据进行叠加。在任何一个将不同来源数据进行叠加的实例中,聪明的分析者会坚持从视觉上判断空间匹配的精确程度(即当两个地图图层进行影像配准和叠加的时候,地图上的河流、高速公路或者其他可识别要素究竟匹配的怎么样?)。

如果目标分析并不包括将其它来源的空间数据进行叠加,而仅是要求在同一个数据集中保持内部的一致性。那么,应用上述方法,在ArcGIS中可以很方便地定位数据集在现实世界中的合适位置。为了追求高精准度而做出大量的投入并不必要。只要一个内部统一的GIS数据集的被导入要素被以相同的方式处理,那么这种内部的统一性就会被保留下来。

一旦空间数据被导入到ArcGIS中,利用导出数据(Export Data)选项,就可以生成一个向量文件(Shapefile)。如果含有AutoCAD实体属性的属性表(Attribute Table)不再出现,它可以被重新链接上。例如,利用ArcToolbox数据管理(Data Management)中的Feature to Point工具。

在一个.dxf文件中,多边形的标示符(identifiers of polygons)常常以AutoCAD文本实体(Text Entities)的形式出现,而这些文本实体的插入点(Insertion Points)就位于确立多边形的闭合折线的内部。当这样一张地图被导入到ArcGIS中时,多边形和它们的标示符之间的联系必须被重新确立。我们可以使用空间连接(Spatial Join)功能完成这个步骤。多边形所在的图层作为目标要素图层(Target Features layer),而AutoCAD文本实体所在的注释要素图层(Annotation Features layer)则成为连接要素图层(Join Features layer)。这个连接操作(Join Operation)叫做"一对一对应"(JOIN_ONE_TO_ONE). 一个新的含有多边形的图层会被创建,而它的属性表(Attribute Table)将包含字符串型的标示符(text-string identifiers)。

然后,这些标示符可以成为将其他数据表格(例如,以电子表格的形式)连接到多边形的基础。默认的情况下,一个由此生成的注释图层(Annotation layer)含有文本域(text fields),如果外在的数据表格含有数字域标示符,那么其中必须有一个被修改,因为ArcGIS将无法识别一个数字域和一个文本域之间的对应关系。如果要在ArcGIS中改变域(field)的类型,可以在表格中创建一个新的列及需要域的类型,然后根据已有标示符的域,使用属性字段计算器(Field Calculator)得到它们的数值。在连接数据(Join Data)对话框表格工具(Table)的连接属性(Join Attributes)里,外在表格这时就可以被连接到多边形。含有标示符的域必须同时被注释表格(Annotation Table)和外在表格(external table)选中。外在表格的列将被添加到注释表格中。之后,利用导出数据(Export Data)工具,整个结构可以被保存为一个向量文件(Shapefile)。

作者指南:ArcGIS 到 DXF

提交文件后,我们很乐意将所有矢量空间数据转换为 .dxf 格式。但是,对于希望自行执行转换的作者,我们提供了以下指南, 该指南改编自 ESRI ArcGIS Pro 指南。它提供了有关如何创建地理参考 .dxf 文件的分步说明,这些文件具有作为文本字符串的属性 ID,其插入点位于它们表示的多边形内:下载指南 (英文版)