Skip to content

Instantly share code, notes, and snippets.

@zhuang-hao-ming
Last active May 30, 2018 11:46
Show Gist options
  • Save zhuang-hao-ming/dad517c03360056fc13d3b89b5a1325c to your computer and use it in GitHub Desktop.
Save zhuang-hao-ming/dad517c03360056fc13d3b89b5a1325c to your computer and use it in GitHub Desktop.
论文瞎读

论文瞎读 20180529

标题: Mining and visual exploration of closed contiguous sequential patterns in trajectories

提出了一种算法从轨迹数据库中挖掘“闭连续序列模式”。

连续序列模式, 是一个连续序列(轨迹经过的道路id序列),它在轨迹数据库中出现次数超过了一定的阈值。

闭连续序列模式指的是一个连续序列模式, 不存在另外一个连续序列模式包含它,并且置信度和它一样(不能是一个没有意义的子序列)。


之前有看过一篇文章,也是讲连续序列模式提取的, 但是不是通过给定一个阈值,来提取模式。

它是通过一个目标函数, 希望能得到尽可能少的序列模式,希望序列模式尽可能长,而且序列模式要能够完全还原出所有轨迹。 通过动态规划来优化目标函数, 最后可以实现使用序列来压缩轨迹。


这篇文章更强调,得到频繁的序列。


想法:

  1. 序列模式 -> 路径规划
  2. 序列模式 -> 行程时间估计

论文瞎读 20180530

标题: A trajectory clustering approach based on decision graph and data field for detecting hotspots

本文提出一种基于“decision graph”和“data field”的方法来进行聚类。 并且把每个类的中心认为是热点, 进行热点的分布特征和变化分析。

这个方法的最大优点在于所有参数都是确定的,不需要使用先验知识来确定参数(论文给出了确定参数的确切方法)。

这个方法的主体是依靠“decision graph”来确定聚类的中心。在“decision graph”局部密度和到高密度点的最小距离两个值都很大的点可以视为聚类中心。

原始的“decision graph”给定一个距离阈值, 然后将到一个点的距离小于阈值的点的个数当作点的密度,这种方法,需要确定距离阈值。这篇论文最大的改进就是使用

“data field”中的点的势能代替密度。而“data field”中势能函数的参数可以通过,最小化势能熵来确定。

在“decision graph”中需要找到密度阈值和最小距离阈值然后才可以确定聚类中心。 本文,将所有点的密度按照从大到小排列,然后找到二阶导数最大的点,将那个点作为 的值作为阈值。按照同样的方法也确定出了异常点(密度很小的点)的阈值。

整体来看,这篇论文最大的有点就是使用“data field”中的势能代替了点的密度。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment