摘 要:对某线两车站间轨道的58601组GPS测量数据的分析发现,数据存在测量过密或重复记录、测量过疏或忘记记录、往返测量、测量或记录错误等4种错误模式。为此提出对应的4种算法进行检测判断:针对前2种错误模式,根据相邻两点之间的距离来判断;针对错误模式3,根据当前点和其后第2点之间的间隔距离来判断;针对错误模式4,根据相邻线段的角度变化来判断。利用Matlab编程实现了算法,以58601组数据为例进行计算和确认,并与人工判断相比较。结果表明:该算法是有效的,检出率为100%,大幅压缩了检测时间,既减少了工作量,也保证了判断的正确性。
关键词:测量数据;GPS测量;错误模式;检测算法;轨道交通
利用大量实测高精度的GPS数据自动生成轨道交通电子地图是轨道交通GIS发展的一个方向[1-3]。轨道交通电子地图正确与否在于测量的GPS数据的准确性、完整性和记录的严密性。数据的准确性是指GPS数据本身的精度,利用差分GPS技术来保证[4]。数据的完整性和记录的严密性主要靠实地测量人员的耐心和细致来实现。
但大量实测GPS数据中不可避免会出现一些错误数据,检测错误数据的最基本方法是采用人工的方法,逐段观察所测数据的散点图,这种方法工作量大,而且容易由于疲劳导致失误。本文将根据某铁路区段的实测GPS数据,研究和验证错误数据检测算法。通过该检测算法自动判断GPS错误数据发生的位置,然后由人工进行确定。这样既可以减少工作量,也可保证判断的正确性。
1 数据描述和错误数据模式分类
由于数据有严格的保密要求,因此选取A站到B站共58601组数据进行研究。首先利用软件将GPS经纬度数据转化为xy坐标,并做了坐标平移变化,单位也转化为ft(英尺),如图1所示。
借鉴模式分类的方法[5],将经常出现的错误模式分为以下4类。
(1)测量过密、重复测量或者重复记录,如图2所示,第4点为这种情况。
(2)测量过疏、遗漏测量点或者忘记记录,如图3所示,3和4点之间遗漏了1个GPS数据点。
(3)测量过程出现往返测量现象,如图4所示,第4和5点为往返测量点。
(4)测量或者记录出现错误,导致数据点明显偏离实际点,如图5所示,第4点偏离了预定的轨道。
需要指出的是,前2种错误模式严格来说并不算严重的错误。第1类错误模式不会有负面的影响,但是去除之后有利于减少存储的空间。第2类错误模式对一些很直的线路并没有影响,但指出来可以让工作人员进一步确认,是否需要增加一些测量点。
2 检测算法
针对以上4种错误模式,采用以下4种算法分别检测判断。
(1)针对错误模式1,可根据相邻两点之间的距离来判断。如果相邻距离过小,则认为出现错误数据,如公式(1)。最小距离Distmin可根据相邻两点之间距离的散点图确定。
(2)针对错误模式2,也可根据相邻两点之间的距离来判断。如果相邻距离过大,则认为出现错误数据,如公式(2)。最大距离Distmax同样可根据相邻两点之间距离的散点图确定。
Disti&>Distmax (2)
(3)针对错误模式3,可根据当前点和其后第2点之间的间隔距离来判断。正常情况下,该距离应是相邻两点之间平均距离的2倍;如果出现往返测量现象,该值非常小,甚至小于相邻两点之间的平均距离,如公式(3)所示。间隔距离的最小值TwoDistmin大约等于相邻最小距离的2倍,具体取值要根据间隔距离TwoDist的散点图确定。
(5)如果检测数据满足以上4种模式中的1种,就被怀疑为错误数据。为了判断算法的效果,借鉴交通事件检测算法[6],定义以下3个主要性能指标。
①检出率DR:发现的错误数据个数与实际错误数据个数之比。DR越接近100%越好。
②误报率FAR:误发现的错误数据个数与所检测到的错误数据个数之比。FAR越接近0越好。
③算法效率EA:全体数据的个数与所检测到的错误数据的个数之比。EA越大效率越高。
3 实验验证及其分析
利用Matlab[7]编程实现算法。根据算法的要求,画出3个散点图。图6为相邻两点的距离图,用于确定Distmin和Distmax。图7为间隔两点距离的散点图,用于确定TwoDistmin;图8为角度变化图,用于确定θup和θdown。
根据图6—图8,可得到以下阈值参数和可能错误的数据。
(1)Distmin=4.8ft,Distmax=10ft。第1种和第2种错误模式散点图的连续性很好,没有发现错误数据。
(2)TwoDistmin=9.0ft,共有14个点的间隔距离过小,被认为是错误数据。
(3)θup=5°,θdown=-5°,共有40个点的角度变化超过±5°,被认为是错误数据。
取可疑错误数据点的前后各2个数据,共5个数据组合在一起,然后将一些重复的点除掉,并把连续的点合并在一起,共得到17组(共112个点)可能错误的数据点,最后再由人工一一确认,整个过程大约不超过1h,可认为这是人机结合的智能检测算法[8]。
同时采用最基本的用人工逐段判断的方法,共用去10d,约80h,找到的错误数据共11组,其中往返测量错误7组,角度变化过大错误4组。而且这11组数据完全包括在算法找到的17组数据之中。
从这11组错误数据中选择2组不同错误模式的数据,其局部放大图分别如图9和图10所示。
从中不难发现这些数据在测量或记录过程中出现了明显的错误。
计算算法的性能指标得DR=100%,FAR=6/17=35.3%,EA=58601/17=3447。可见第1
和第3个指标非常好,第2个指标较差,但这样可以确保没有漏捡。
4 结 语
根据错误数据出现的4种模式,提出了4种相应的检测算法,并利用某铁路线实测GPS数据进行了验证。
验证结果表明,该算法是有效的,检出率为100%,而且节约了大量的时间,极大地提高了工作效率。虽然误报率也较高为35.3%,但对于防止漏检非常有用。
值得注意的是,最终的错误与否必须要人工进行确认,确认后,将给出正确的数据,或者重新测量,为后续工作提供保障。
参考文献
[1]高桂桂,蔡伯根.列车监控系统专用电子地图自动生成算法的研究[J].铁道学报,2006,28(1):63-67.
(GAOGuigui,CAIBaigen.ResearchontheAutomaticElectronicMapGenerationAlgorithmfortheTrainSupervi-sionSystem[J].JournaloftheChinaRailwaySociety,2006,28(1):63-67.inChinese)
[2]丁克良,刘 成,卜庆颢,等.GPSRTK技术在铁路既有线勘测中的应用[J].中国铁道科学,2005,26(2):49-54.
(DINGKeliang,LIUCheng,PUQinghao,etal.ApplicationofGPSRealTimeKinematicTechniqueforExisting
RailwayLineSurvey[J].ChinaRailwayScience,2005,26(2):49-54.inChinese)
[3]王 斌,魏庆朝,杨松林.G3技术集成及其在青藏铁路信息化中的应用研究[J].中国安全科学学报,2005,15(5):71-74.
(WANGBin,WEIQingchao,YANGShonglin.G3TechniqueIntegrationandItsApplicationinQinghai—TibetRailwayInformationManagement[J].ChinaSafetyScienceJournal,2005,15(5):71-74.inChinese)
[4]KeeC,ParkinsonBW.WideAreaDifferentialGPS(WADGPS)———FutureNavigationSystem[J].IEEETrans-actionsonAerospaceandElectronicSystems,1996,32(2):795-808.
[5]李巍华,史铁林,杨叔子.基于非线性判别分析的故障分类方法研究[J].振动工程学报,2005,18(2):133-138.
(LIWeihua,SHITielin,YANGShuzi.MechanicalFaultClassificationUsingNonlinearDiscriminantAnalysis[J].JournalofVibrationEngineering,2005,18(2):133-138.inChinese)
[6]张敬磊,王晓原.交通事件检测算法研究进展[J].武汉理工大学学报(交通科学与工程版),2005,29(2):215-218.
(ZHANGJinglei,WANGXiaoyuan.ResearchProgressofTrafficIncidentAutomaticDetectionAlgorithms[J].
JournalofWuhanUniversityofTechnologyTransportationEngineering,2005,29(2):215-218.inChinese)
[7]薛定宇,陈阳泉.基于Matlab/Simulink的系统仿真技术与应用[M].北京:清华大学出版社,2002.
[8]于景元,周晓纪.系统科学与系统工程的发展[J].复杂系统与复杂性科学,2004,1(3):4-9.
(YUJingyuan,ZHOUXiaoji.EvolutionofSystemScienceandSystemEngineering[J].ComplexSystemsandComplexityScience,2004,1(3):4-9.inChinese)转贴于