作者peter308 (pete)
看板DataScience
标题Re: [讨论] 分团问题!?
时间Thu Feb 18 12:15:02 2021
※ 引述《peter308 (pete)》之铭言:
: 在处理庞大的数据的时候
: 经常会透过分团(Clique, cluster analysis) 来将数据做分类
: 我最近有观察到这种分团问题都会附带一个关联矩阵
: 这个矩阵的长相大致上如下:
: https://i.imgur.com/IgE8Y75.jpg
: 因为我之前修群论的时候
: 对於这样的图形常常接触
: 像有一本量子力学的教科书的封面就是这类型的矩阵
: https://i.imgur.com/I9Aa6cU.jpg
: 通常有这样的图形出现就表示系统有某种对称性!
: 不知道各位在数据科学领域(非我的专长)
: 可有听过有什麽样的对称性的状况或是讨论吗??
: 感谢!!
想再聊聊这个话题
我觉得分群或是分团问题,本身就是一个大哉问。
通常这类问题 我们都会把哈密顿矩阵在一个比较直观容易处理的基底ψs上做展开。
但因为这些ψs所形成的矩阵比较稀疏或是矩阵元素散布各处
我们通常会做一件事 那就是
矩阵对角化或是
区块矩阵对角化
这件事情的几何上意义,就是再做一个座标转换 (similiarity transformation)
将原本的座标系统转到一个新的座标系统上
让矩阵元素可以变成集中在区块的对角线上,而非区块对角线上的元素越小越好。
这件事情其实在数据科学也常常看见
像是 PCA, k-means,.....等等
本质上 和 做block diagonization是非常类似的
然而这件事情,其实可以从一另一个完全不同方向来着手。
也就是从观测系统的对称性 S 上直接下手。
================================================================
比方说 化学的分子点群就是一个很棒的例子
如果用一个比较简单的例子 水分子 H20 ( 分子点群为C2v)
那麽水分子的哈密顿矩阵就可以被区块对角化
而区块对角化後的矩阵所对应的座标系统我们给一个名称叫做"不可化约的"
这个区块对角化後的新的矩阵上的基底ψ'
会对应C2v的徵值表所能列出的所有不可化约表象, e.g. A1,A2,B1,B2
http://symmetry.jacobs-university.de/cgi-bin/group.cgi?group=402&option=4
================================================================
回到数据科学上
针对某个数据资料集
我们能否在还没做分群前,就先知道数据资料集的对称性Ω为何?
类似前面举的那个水分子的分子对称性'C2v'一样
事实上,我个人觉得找数据资料集的整体对称性Ω这件事情
已经有人再做了
如果对称性Ω能事先知道
那麽理论上我们应该可以加速分群这件事
因为,在分群前我们其实已经事先知道答案了。
那就是最後的区块对角化的矩阵
一定会在Ω的不可化约表像基底所形成的线性空间上
这些不可化约表象上的基底,会和这个资料集所具备的整体对称性Ω有某些关系存在
如果能知道Ω为何?以及其对应的徵值表和不可化约表象。
那在对於资料及分群这件事情上
应该会事半功倍 进而设计出更有快有效率的新的分群演算法!
再找数据资料集的对称性Ω上所花的时间,可能就能做完分群了。
(可能是这个原因 做数据科学的人比较少在谈Ω)
尽管如此,我还是觉得分析数据资料集的整体对称性的这个课题
在学术研究甚至是应用层面上都是非常有意义的!
P.S. 似乎目前有看到一些人是用拓朴的方式来描述数据的结构或是对称性
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.117.32.251 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1613621707.A.C0C.html
※ 编辑: peter308 (140.117.32.251 台湾), 02/18/2021 12:23:57
※ 编辑: peter308 (140.117.32.251 台湾), 02/18/2021 12:24:11
※ 编辑: peter308 (140.117.32.251 台湾), 02/18/2021 12:27:27
※ 编辑: peter308 (140.117.32.251 台湾), 02/18/2021 12:29:03
※ 编辑: peter308 (140.117.32.251 台湾), 02/18/2021 12:30:20
1F:推 ddavid: 等等,在你说的理想之前,先要考虑一件事情:所谓的分群( 02/18 17:11
2F:推 ddavid: Clustering)跟分类(Classification)有关键性的差异 02/18 17:13
3F:→ ddavid: 在你这串开头第一篇中讲了「经常会透过分团(Clique, 02/18 17:14
4F:→ ddavid: cluster analysis) 来将数据做分类」,我认为这边用词要更 02/18 17:14
5F:→ ddavid: 明确小心些,因为你同时讲了分群又讲了分类 02/18 17:15
6F:→ ddavid: 然後讲回到分群,基本上是非监督式学习为主,所以事实上分 02/18 17:15
7F:→ ddavid: 群是没有唯一标准的,所以「必然」不会有所谓「分群就是在 02/18 17:17
8F:→ ddavid: 找xxx」中的唯一xxx存在 02/18 17:17
9F:推 wtchen: Spectral Biclustering? 02/18 17:22
对,是很接近的东西
不知道有没办法从checkbroad的图形
去分析出资料可能的对称性为何?
类似内文举的水分子的C2v点群那样
10F:推 ddavid: 一般初接触Clustering,往往会看到「分群是让同一群的点尽 02/18 17:22
11F:→ ddavid: 量相似,而不同群的点尽量不相似」之类的粗略入门介绍,但 02/18 17:23
12F:→ ddavid: 光是这句话就未必是绝对的 02/18 17:25
13F:推 ddavid: 所以原Po你所提到的方向,只能说可以建立出「一种分群方式 02/18 17:29
14F:→ ddavid: 」,而无法说「分群就是这个」 02/18 17:30
15F:推 ddavid: 像k-means跟DBSCAN找出的分群天差地远,但不能说谁比较对 02/18 17:34
16F:→ ddavid: ,所谓的对称性也没有必然存在,分群是可以在有向图的点上 02/18 17:35
17F:→ ddavid: 进行的 02/18 17:37
18F:推 ddavid: Clustering的主要目标本来也就不是要找出肯定的结论,反而 02/18 17:49
19F:→ ddavid: 是偏重在分割之後能帮助到後续分析就是有益的分群了 02/18 17:50
其实我的重点是再做分群前
如果能知道资料数据集的Ω
理论上,分群的速度会快非常多。
应该可以快10-100倍
20F:→ followwar: 你对资料取的features决定分群的好坏 02/22 22:17
21F:→ followwar: features反映什麽特性 就分出啥 02/22 22:18
※ 编辑: peter308 (140.117.32.17 台湾), 02/24/2021 11:20:25
※ 编辑: peter308 (140.117.32.17 台湾), 02/24/2021 11:33:26
※ 编辑: peter308 (140.117.32.17 台湾), 02/24/2021 11:34:47
※ 编辑: peter308 (42.74.233.91 台湾), 02/24/2021 14:23:02
※ 编辑: peter308 (42.74.233.91 台湾), 02/24/2021 14:30:27
※ 编辑: peter308 (42.74.233.91 台湾), 02/24/2021 14:36:28
※ 编辑: peter308 (42.74.233.91 台湾), 02/24/2021 14:52:24
※ 编辑: peter308 (140.117.32.17 台湾), 02/24/2021 15:15:15
23F:→ wtchen: tml 02/25 01:06
24F:推 ddavid: 有些分群方法有自己的特点,并不是可以用同样方法加速的 02/25 14:57
25F:推 ddavid: 你可能没有考虑到有很多分群演算法根本跟对角化一丁点关系 02/25 15:00
26F:→ ddavid: 都没有,甚至连同一群的instances要彼此相似这种限制都不 02/25 15:01
27F:→ ddavid: 存在 02/25 15:01
28F:→ ddavid: 所谓分群的好坏也没有绝对性,是依据後续应用而定 02/25 15:05