作者jeunder (omega~ oh my god)
看板CSSE
标题Re: [请益] for jeunder KoalaLee 版友
时间Mon Apr 25 02:36:45 2005
※ 引述《voiceh (cold)》之铭言:
: 谢谢你们宝贵的意见
: 在下虚心受教
: 我发出这个讯息的目的
: 可能大家不太清楚
: 我非电脑专家亦无诈骗动机
: 大家对对方一个16岁孩子来说是大哥哥大姐姐们
: 所以才想请大家帮帮忙
: 给这个年轻的孩子一些珍贵的指引
: 在这里诚恳邀请jeunder和KoalaLee版友拨空来检查这个程式
档案已经收到, 经过确认之後, 结论就是... 恭喜! 你被小孩骗了... -,-||
首先, 该档案副档名为 bz2, 我想应该是 bzip 的压缩格式, 您在信件标题也说
"要用 WINRAR 来解压缩...", 那麽显然只是利用现有的 bzip 压缩格式与演算法,
根本没有任何新发明的技术或理论, 连压缩工具程式都不是自己写的.
其次, 该压缩档的确只有 4k 那麽小, 解压缩後也是一个超大档案, 有没有到 6G
那麽大我不确定 (因为我懒得等它解压缩完), 但是观看解压缩之後的部分结果,
果然如同我之前所说的 "没什麽资讯内容的档案, 即使档案很大, 也可以压成很小"
例如: 一个 6G 的档案里面都是 00000000000... 那压缩程式只要在压缩档案中
纪录着 "这个档案有 6G 个 0" 这样类似的叙述即可.
对於现今的压缩技术来说, 这根本不是什麽新发现.
其实严格来说, 世界上根本没有任何压缩程式能做到 "6G -> 4K",
我所谓的 "严格" 指的是这样的压缩率应该通用於任何类型的资料,
不管这 6G 的资料是什麽, 考虑到 6G 所能呈现的所有的不同的资料,
总共有 2^(6G*8) 个可能的不同的资料, 都应该要能压缩成 4K,
才能通过这项严格的条件.
那退而求其次, 不要那麽严格呢? 通常考量的标准会是平均压缩率,
但问题又来了, 怎样的资料算是常见的 (出现机率高, 加权数大的) 呢?
怎麽的资料又算是罕见的? 其实根本没有绝对客观的标准...
或许要统计过全世界所有资料才能得到正确的机率?
只能模糊的说... 根据手上收集的, 尽可能涵盖多类型的数量庞大的资料来测试,
A 压缩演算法表现得比 B 压缩演算法好, 但如果把测试资料库换成别的,
就算出现相反结论, 也别太惊讶. 如同上面叙述的 "这个档案有 6G 个 0" 这句话,
这不就是最原始最简单的 run length coding 吗?
面对这类资料, 这就是最好的压缩演算法.
当然啦, 在理论的完美世界里, 是不会有这麽多 "世俗杂务" 要顾虑的,
所以理论上我们有个平均编码长度的 lower bound,
公式里面会出现 log, p1, p2, ... 等等
其中的 p1, p2, ... 等, 会事先给定, 要不就是把你限制在一个封闭的小小小世界,
要你自己去统计出来... 然後套用公式, 根据理论来计算出来...
一切都很完美, 学生也拿一百分拿得心花怒放... (* 喃喃自语 发牢骚中 *)
: 我相信PTT版的版友们有高水准的文化涵养
: 都明白闻道有先後术业有专攻
: 在互相尊重的基础上
: 进行有意义的对谈
: 再次很开心的能够邀请所有有兴趣的版友
: 一起来研究学习
: 也很感谢版友的意见
: 让我受益良多
: 连络: EMAIL: [email protected]
: PS:我手边有 6G的苹果电脑影音档压缩成5K档案
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.230.226.187
※ 编辑: jeunder 来自: 61.230.226.187 (04/25 02:44)