看板Config
標 題CDN 與 P2P 的分類索引與查詢
發信站中央大學松濤風情資訊站 (Thu Aug 5 13:39:31 2004)
轉信站ptt!ctu-reader!ctu-gate!news.nctu!news.ncu!news.csie.ncu!Evergreen
> 6-1.假設使用者以 URL 形式向 Pi (provider-i.com) 請求下載 ri
> http://provider-i.com/dir-ri/file-ri
> 6-2.Provider 同意 user uk 的請求後, 使用 CDN 給的 Consistent Hash
> Function Hc , Hs , 將請求改為轉向到
> http://Hc(uk-ip).Hs(provider-i.com).CDN.NET/provider-i.com
> /dir-ri/file-ri
===================================================================
上述這個 CDN 例子是針對 URL 的 original resource 對應出 upload
server Hs 與 Download cache Hc 兩者所在的位置, 使得傳送資源的途徑可
以經由 Hs 與 Hc 構成的 Overlay Network 走快速通道與 cache 來進行.
使用 Consistency Hash 技術的 Hs , Hc 就是將 (uk-ip, provider-i.com)
這種 information pair 經由特定一致的對應(mapping)方法產生 Server
addressable Network 所在的查詢用 (Hc.Hs) 2-dimension index . 對應方
法必須是可分散式處理, 同時最好是有規則且可擴充容量能一致性計算的計
算式. 使用 Hc.Hs.CDN.NET 此種 DNS tree 的查詢與命名表示法在先天上就
利用了上下層的樹狀關係, 其前後次序構成某種程度的相關分類. 例如:
A 是 2-dimention array , ai,j 是其元件, 假設 i 代表 level-1 國別/地
區, j 代表縣市 , (TW, tp) 的命名就是 tp.tw.CDN.NET , 再假設 Hs(TW)
=1 , Hc(tp)=1 , Hc(tn)=2, Hc(ks)=3 , 所以 (TW.ks) --> (1,3) , 要查
出 TW 下相關的縣市就是 (1,*) . 查詢 a(1,*) 可以用 a(1,1-3) 針對 A1
區列舉查詢, 也可以是將 a1,1 a1,2 a1,3 放在同一個 vector table (
row majoring), 從 a1,1 當入口進去做循序(sequtial)查詢.
|--a1,1
|--A1 --|--a1,2
| |--a1,3
| |--a2,1
A: |--A2 -----------|--a2,2
| |--a2,3
|
| |--a3,1
|--A3 --|--a3,2
|--a3,3
把 2-dimention array 轉換成 1-dimension array 採用那種方式排列(row
或 column 或 gray, sfc 等其他)就可以讓相關(例如同一地區)的項目可以
用相鄰的方式以快速(一次入口), 集中(相關性相臨) 的形式進行 partial
matching. 樹狀分類是會有前後相關, row-majoring 就反應了同層次的相
鄰, 假如要查詢 a(*,3), 除了考慮分類上的常用頻次性外, row-majoring
的排列, 仍然可以用a(1-3,3) 列舉, 再用轉換為 one-dimension 的公式做
有限範圍的逐一查詢. 有規則的轉換公式(row-majoring 或 sfc)就使得原
先被分隔無關的獨立性 Hash Hc, Hs 變成有規則性的相關. 這使得相鄰性
轉換(例如 3-D 立體分布點的相鄰)可以達成某些 content associative
search 的需求.
如果把 information pair 再擴充增加幾項 content 相關的項目當新的
類別, 例如 file-name , file-type , 甚至是以 content 的文件內容萃取
出屬性類別的關鍵字(keyword)組成 key vector, 再用 Consistency-Hash
產生 n-dimension index , 再依據相關性決定相鄰關係以及層次次序的轉換
規則(如 SFC ), 就能把 P2P 的 resources query 在有考慮資源內容存放位
置的 content addreesable network 上, 達到快速找到相關 peer 的效果.
多維樹狀分類與相鄰對應轉換間無法存在一種單一又通用的相鄰規則,
例如以 row 或 column majoring 為考量就是不同的上下層次優先. 但是如
果考慮及屬性分類的涵蓋範圍與使用的頻次, 就能決定索引的前後優先次序
也就能決定何者要優先相鄰(密切相關). 例如假設學生將自己的相關資料存
在自己的電腦, 再以 P2P 的形式在就學時跟學校的教務電腦 server 報到,
學生的姓名, 性別, 出生年月日, 通信地址, 就讀的系所, 入學或畢業的日
期, 修習過的課目成績, 獎懲及個人榮辱資訊, 甚至是個人的嗜好, 興趣,
得意的心得, 發表的著作, 自拍影音等等資訊都是可以限對象下, 分享的資
料. 這些項目就是傳統的分類用 keyword 攔位. 目前, 其敘述與記載都可
以用 XML 型式描述及登錄存取的資料位置. 再假設教務處沒有單一資料庫,
而是用入學的學生電腦及其上的資訊當資料, 學生電腦就變成是 P2P 系統
的主要一環. 每個學生的 XML 記載表可以有大小容量與類別數量, 甚至次
序的不同. 但做為標記的 TAG keyword-name 則是相同的. 教務處提供給教
師對學生資料的服務就是透過她就能做分散式的索引與快速相關資訊的定位
服務. 學務處學生活動組的電腦也是透過她就能讓同學間能相互交換與分享
彼此自有的資訊.
在分散式的觀念下, 這裡的教務處或學生活動組並沒有單一集中的資料
庫, 也沒有集中的索引表, 教務處與教師, 學生之間是使用了同一規範規則
的軟體或服務系統就能進行有規則又快速的資料分享與更新. 比照 CDN 的
方法就是教務系統建立了一套獨立於學生電腦之外的 DNS index system ,
要查學生教務資訊就從教務處的入口站開始, 教務可能提供從 keyword (例
如系別年級, 姓名)產生唯一學號( indentifier)的對應規則, 因此師生可以
從學號或系別年級, 姓名就能找到該生的所有資訊. 同樣的, 學生活動組或
社團領導人的電腦就是提供 P2P 的 peer tracker 網站, 有同一興趣的學生
透過嗜好, 興趣, 年齡, 性別 這些 multi-dimension keyword 可依據同一
C-Hash 計算式產生 vector index, 再用 keyword 間的關聯密切度計算出共
通的相鄰規則對映式, 有了規則式就能各自計算轉換成對應的 unique one-
dimension index , 透過有相鄰性的 one-dimension index 就能快速找到同
一興趣的社群進行資料交換或分享.
整個問題, 其實就是一種可以讓參與者動態組合的分散式資料庫, 這裡
的 XML Tag-Name 與 type 要一致, C-Hash 規則要相同, keyword 關聯度的
評估公式規則要相同, 使得 Key Vector 轉換成對映的 one-dimension index
number 也能相同. 如此一來, 能做 keyword partial matching 的網路分散
式資料庫就能進行.
學生入學就是向教務系統的 DNS index system Pulish 其相關資訊, 教
師要查閱處理班級學生資訊就是透過教務處的選課生名單 subscribe 這些課
程內學生資訊.
社團活動就是主要學生間彼此先推舉一個領導人當社長, 彼此的電腦再以
P2P 的方式加入, 非社團成員也是能透過興趣嗜好的 partial matching query
找到相關社群的成員, 臨時加入該社群, 彼此進行資訊分享.
--
◎ Origin: 中央松濤站□bbs.ee.ncu.edu.tw From: 140.115.6.234