作者jeunder (omega~ oh my god)
看板CSSE
標題Re: [請益] for jeunder KoalaLee 版友
時間Mon Apr 25 02:36:45 2005
※ 引述《voiceh (cold)》之銘言:
: 謝謝你們寶貴的意見
: 在下虛心受教
: 我發出這個訊息的目的
: 可能大家不太清楚
: 我非電腦專家亦無詐騙動機
: 大家對對方一個16歲孩子來說是大哥哥大姐姐們
: 所以才想請大家幫幫忙
: 給這個年輕的孩子一些珍貴的指引
: 在這裡誠懇邀請jeunder和KoalaLee版友撥空來檢查這個程式
檔案已經收到, 經過確認之後, 結論就是... 恭喜! 你被小孩騙了... -,-||
首先, 該檔案副檔名為 bz2, 我想應該是 bzip 的壓縮格式, 您在信件標題也說
"要用 WINRAR 來解壓縮...", 那麼顯然只是利用現有的 bzip 壓縮格式與演算法,
根本沒有任何新發明的技術或理論, 連壓縮工具程式都不是自己寫的.
其次, 該壓縮檔的確只有 4k 那麼小, 解壓縮後也是一個超大檔案, 有沒有到 6G
那麼大我不確定 (因為我懶得等它解壓縮完), 但是觀看解壓縮之後的部分結果,
果然如同我之前所說的 "沒什麼資訊內容的檔案, 即使檔案很大, 也可以壓成很小"
例如: 一個 6G 的檔案裡面都是 00000000000... 那壓縮程式只要在壓縮檔案中
紀錄著 "這個檔案有 6G 個 0" 這樣類似的敘述即可.
對於現今的壓縮技術來說, 這根本不是什麼新發現.
其實嚴格來說, 世界上根本沒有任何壓縮程式能做到 "6G -> 4K",
我所謂的 "嚴格" 指的是這樣的壓縮率應該通用於任何類型的資料,
不管這 6G 的資料是什麼, 考慮到 6G 所能呈現的所有的不同的資料,
總共有 2^(6G*8) 個可能的不同的資料, 都應該要能壓縮成 4K,
才能通過這項嚴格的條件.
那退而求其次, 不要那麼嚴格呢? 通常考量的標準會是平均壓縮率,
但問題又來了, 怎樣的資料算是常見的 (出現機率高, 加權數大的) 呢?
怎麼的資料又算是罕見的? 其實根本沒有絕對客觀的標準...
或許要統計過全世界所有資料才能得到正確的機率?
只能模糊的說... 根據手上收集的, 儘可能涵蓋多類型的數量龐大的資料來測試,
A 壓縮演算法表現得比 B 壓縮演算法好, 但如果把測試資料庫換成別的,
就算出現相反結論, 也別太驚訝. 如同上面敘述的 "這個檔案有 6G 個 0" 這句話,
這不就是最原始最簡單的 run length coding 嗎?
面對這類資料, 這就是最好的壓縮演算法.
當然啦, 在理論的完美世界裡, 是不會有這麼多 "世俗雜務" 要顧慮的,
所以理論上我們有個平均編碼長度的 lower bound,
公式裡面會出現 log, p1, p2, ... 等等
其中的 p1, p2, ... 等, 會事先給定, 要不就是把你限制在一個封閉的小小小世界,
要你自己去統計出來... 然後套用公式, 根據理論來計算出來...
一切都很完美, 學生也拿一百分拿得心花怒放... (* 喃喃自語 發牢騷中 *)
: 我相信PTT版的版友們有高水準的文化涵養
: 都明白聞道有先後術業有專攻
: 在互相尊重的基礎上
: 進行有意義的對談
: 再次很開心的能夠邀請所有有興趣的版友
: 一起來研究學習
: 也很感謝版友的意見
: 讓我受益良多
: 連絡: EMAIL: [email protected]
: PS:我手邊有 6G的蘋果電腦影音檔壓縮成5K檔案
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.230.226.187
※ 編輯: jeunder 來自: 61.230.226.187 (04/25 02:44)