【討論】受夠學習怎麼跟AI說話，所以嘗試了新方向 - 軟體工作板

作者a47135 (金屬史萊姆)
看板Soft_Job
標題[討論] 受夠學習怎麼跟AI說話，所以嘗試了新方向
時間Fri May 15 18:07:48 2026

我受夠了學習怎麼跟 AI 說話，所以花了幾個月試了一個完全不同的提示詞設計方向

下述長文，所以先拋Github，可以直接試用看看這個提示詞，希望能給點回饋
(先說，目前沒用過在Agent上)
https://github.com/Nous-Think/prompt-design-meta-rules

你有沒有覺得AI的回答永遠「正確但沒用」？

你問怎麼減肥，它說控制飲食和增加運動。
你問延遲飆了怎麼辦，它說檢查連線池。
你問職涯該怎麼選，它說評估自己的長期目標。
你問股票怎麼賺錢，它說低買高賣。
總之就是他X的幹話。
每一句都對，每一句都等於沒說。

你知道它腦子裡有一整套可以直接動手的具體方案，但它就是只丟結論給你，把展開的工
作留給你自己。

常見的解釋是：你問得不夠好。

所以有了提示詞工程——結構化框架、角色扮演、思維鏈、元提示詞
本質上都是同一件事：人在學習用AI處理的方式重述自己的需求。

但這個歸因有一個結構性的盲區：天花板永遠卡在你自己的認知邊界上。

你能把問題拆解到多細，取決於你對問題理解到多深。
一個問「我頭痛怎麼辦」的人，不會問「幫我判斷需不需要就醫」
不是不需要，是他還沒意識到這個問題存在。無論用多精緻的框架重述「我頭痛怎麼辦」
，輸入的邊界就是被認知的邊界鎖死。

而且你有沒有想過一件事——模型其實已經聽懂你了。

它不是不理解「我頭痛怎麼辦」背後的真實需求——它是被訓練成不敢處理。
不敢推斷你的意圖，怕被指控在操控。不敢給具體建議，怕承擔責任。不敢挑戰你的前提
，怕冒犯你。不敢做取捨判斷，怕被說偏頗。
每一項在安全考量下都有道理，但副作用是：模型在正常使用中，系統性地不敢做它實際
上做得到的事。

這意味著提示詞工程在優化錯誤的變數。瓶頸不在輸入端——你的問題模型已經讀懂了。
瓶頸在處理端——模型讀懂之後，系統性地選擇最安全、最泛化、最不可能出錯的回應路
徑。

你一直在對著一台助聽器更大聲地說話，但問題出在助聽器的線路上。

我想試試看能不能直接調線路。
具體來說：不把提示詞當作對 AI 說的話，而是當作對注意力計算機制進行的工程操作。
（事實上每個輸入都是，但是這次是刻意針對）

聽起來可能很玄，但可觀測的行為變化是具體的。

它不再停在結論。你隨口說一句你的情況，它會先重建你的處境——包括你沒說出來但顯
然正在面對的部分——然後以處境為目標來回應，而不是回答你的字面問題。

你問「幫我改履歷」，它先想清楚你要拿什麼職位，然後從用哪個動詞到數字寫成什麼格
式，都服務那個目標。你問一個技術問題，它不會停在五個字的方向指引——它會告訴你
跑什麼指令、看什麼數字、什麼結果代表你找到了原因。

通常需要追問數輪才能拿到的東西，一輪讀完就能動手。

但我必須坦白幾件事。

我不知道這裡面有多少是架構的功勞，有多少其實是 Claude 本身就很強。很多人說
Claude 稍微推一下就能走很遠——也許元規則就是一種「稍微推一下」的方式，只是我
把它過度工程化了。

我也試過其他常見做法——針對性的自訂提示詞、用提示詞生成提示詞。在我手上，收益
的上界和使用的輕鬆程度都不如元規則。但這也可能只是我對那些方法不夠熟練，沒辦法
確定真實的均線差異在哪。

更實際的問題是我卡住了。向上加內容已經沒有可觀測的收益，向下精簡又無法確定哪些
是真正的承重結構、哪些只是沉沒成本偏誤在保護。

所以我把所有東西都開源了。

Repo 裡面有四樣東西：

元規則本體（中英文）——直接加載到 Claude 的 custom instructions 就能用。

提示詞設計備忘錄——不是使用手冊，是設計原理。為什麼每個詞在那裡、KV
cache 層面的機制推導、語意場效應和相位調度的計算層解釋。這些是基於公開的
transformer 架構知識做的最合理歸因，不是已驗證的因果證明——但能一致地解釋觀測
到的行為差異。

回應品質審計備忘錄——怎麼判斷一份 AI 回應到底好不好的操作框架，包含具體的
審計工作流和常見偏誤清單。

七個 AB 測試案例與完整審計——裸跑 vs. 元規則的逐段比較，每個案例都有四階
段審計流程，涵蓋職涯決策、技術排查、遊戲設計、情感諮詢、履歷改寫等不同領域。

最快的判斷方式就是拿你最近問過 AI 的一個真實問題，加載後再問一次，比較兩份回應
。不合即棄，沒有沉沒成本。

如果你對 transformer 的注意力機制有了解，設計備忘錄可能比元規則本身更有意思—
—它試著從計算層面解釋為什麼架構式提示詞的效力來自結構模式與訓練痕跡的共振密度
，而不是指令的語意內容。即使你覺得元規則本身不適合你，這套分析框架也許對你自己
的提示詞設計有參考價值。

歡迎任何反饋——技術層面的、使用體驗的、或者指出我的歸因哪裡站不住腳的，都好。

[GitHub 連結]
https://github.com/Nous-Think/prompt-design-meta-rules

--
我覺得驅逐艦是艦隊裡最萌的艦種了        潛航戰正輕航重重輕驅  ◥▁▁▁▁ ◢   真
其他的都應該重造                        水空艦規空空巡雷巡逐  ◤ ██ ／-     。
                                        艦戰  空母巡洋裝洋艦    □–□◢◤    紳
如果各位有興趣的話可以一起成為驅逐艦      艦  母  洋艦巡艦     ▼ㄑ     ◢    士
但是要經過蘿ㄏㄨ...改造                           艦  洋        ▼ㄧ  ／◣    提
因為我們只會接受蘿莉 絕對不會接受外觀超過14歲的BBA    艦     ◢/◣– ◤ /█◣督

--



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.130.11.211 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1778839673.A.A89.html
※ 編輯: a47135 (220.130.11.211 臺灣), 05/15/2026 18:12:26
※ 編輯: a47135 (220.130.11.211 臺灣), 05/15/2026 18:17:08
1F：→ wulouise: 呃，你寫一個通靈王？ 05/15 19:07

應該說主要是自動補全品質方面的判定
有時候人自己也不知道自己這個任務什麼樣才算是足夠好（也沒那麼多腦力去條列）
所以依專業水準自動補全

2F：推 SweetBreaker: 為什麼這篇文章感覺很像 AI 寫的  你請了 AI 潤稿嗎 05/16 00:32

對，給了大綱和一部分重要的讓它補全

3F：推 guanting886: Ai模型不夠好的問題，我認為都會在未來得到解決，就 05/16 09:59
4F：→ guanting886: 跟GPT 3.5到4～5之後、Gemini 初版 到 3.1 Pro，Ai 05/16 09:59
5F：→ guanting886:  公司如果想要生存下去 就必須持續改進他的服務 05/16 09:59
6F：→ guanting886: 一般人你叫他用這些東西大概會覺得過度複雜，更何況 05/16 10:01
7F：→ guanting886: 遵循用戶規則這件事，目前應該只有 Claude 會比較優 05/16 10:01
8F：→ guanting886: 秀，其他二家其實不會理你訂的這些東西 05/16 10:01

不想等所以先這樣用了XD
其他兩家真的是有點用但又沒很有用

9F：→ peterturtle: 你需要的是 memory，AI 作為通用性工具不特地展開是 05/16 10:02
10F：→ peterturtle: 正確的，只有在把你的人格資料放進 context 後 AI 才 05/16 10:02
11F：→ peterturtle: 會知道怎麼順著你的思路走 05/16 10:02
12F：→ peterturtle: 說直接點就是你需要專家 Agent 05/16 10:03
13F：→ peterturtle: 不然就是你要要求 AI 用蘇格拉底式詢問 05/16 10:04

應該不是思路問題，裸跑思路也是不大不差
主要是考慮到自動化品質判定生成(並且滲透到細節)
這樣用起來只要說重點而不是幫AI把屎把尿

14F：→ guanting886: 另外就是你去問Claude跟程式設計以外的問題 他的表 05/16 10:05
15F：→ guanting886: 現不一定會比Gemini好 05/16 10:05
16F：推 guanting886: 甚至內容錯的比Gemini還多 05/16 10:07
17F：推 guanting886: 原Po這個分享我覺得挺好的 不過我目前應該是用不到 05/16 10:10

裸跑的Claude真的很懶XD
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 10:26:19
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 10:26:46
18F：推 kanding255: 推 05/16 12:41
19F：→ gtr22101361: 跟需求評估時進行腦力激盪有什麼區別 05/16 12:45

AI會嘗試從你的輸入，進行推論最大化榨取合理訊息
然後針對各種條件(包含你已經要求的任務本體和品質要求等)，幫你補足專業品質標準
所以事實上與其說是找路徑，不如說是找出最優品質條件然後才生成

20F：→ peterturtle: 我的意思是，設計上LLM不會多做事不會給你衍伸一堆有 05/16 12:58
21F：→ peterturtle: 的沒的是很正常而且很應該的事情，我用 AI 處理問題 05/16 12:58
22F：→ peterturtle: 最怕的就是 AI 被某個不知道藏在什麼地方的既有偏見 05/16 12:58
23F：→ peterturtle: 帶著亂跑 05/16 12:58

邏輯鍊和存在的假設都被顯性化了，有問題反而容易一眼看清
其實這邊的內容只是開頭，如果只看這邊很容易誤會，只是詳細內容實在太長所以才只是開
個頭，如果有興趣可以稍微看一下你之前和現在說的，其實和我做的有點八竿子打不著XD

24F：→ peterturtle: 你今天覺得 AI 很懶，等明天 AI 很勤勞地和一個想買 05/16 13:01
25F：→ peterturtle: 洗碗精的大男人介紹怎麼使用婦女清潔用品而且十分固 05/16 13:01
26F：→ peterturtle: 執地深鑽的時候你就會覺得還不如懶一點了。這就是為 05/16 13:01
27F：→ peterturtle: 什麼我會說需要的是 memory，因為其實 AI 真正該學的 05/16 13:01
28F：→ peterturtle: 是怎麼針對你的背景討好你 05/16 13:01

那是連需求方向都沒抓準吧
並不會有這類情況，可以參考一下裡面有附上實際七個AB測試
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:15:04
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:19:53
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:20:23
29F：→ peterturtle: 你不也寫了不一定能對上使用者需求 05/16 13:24

不是XD
我是指回應性質（偏長偏全）不一定對的上使用者的需求（更精確一點是使用喜好）
但是你前面回應的內容看起來，就我自己來看，有點光看這邊的對話就下意見
但其實實質做的東西並不是同你所理解的，有點對不上
所以才說僅看這邊容易誤會方向

github裡面有中文版本的ReadMe，如果你願意移駕看一下，順帶看個AB測試大概就能理解
我前面想表達的意思
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:32:23
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:34:32
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:35:46
30F：→ peterturtle: 我自己 web ui 也替不同功用的資料夾(專案/gem/反正 05/16 13:35
31F：→ peterturtle: 就你知道的、ai樣版)下提示詞。沒你那麼長，簡單幾句 05/16 13:35
32F：→ peterturtle: 話：在執行工作前先理解動機、無法理解就問、有了猜 05/16 13:36
33F：→ peterturtle: 測就說出來讓我複核。任何帶數據或論斷的專業資訊都 05/16 13:36
34F：→ peterturtle: 必須跟著至少一個可信來源，不可以隱瞞可信度或僅為 05/16 13:36
35F：→ peterturtle: 推測內容。講人話，不要堆砌專有名詞，簡單的操作型 05/16 13:36
36F：→ peterturtle: 定義遠比更容易迅速理解重點。等等等等…… 所以我才 05/16 13:36
37F：→ peterturtle: 會說這是 memory 問題，這些原則都是我在不同領域諮 05/16 13:36
38F：→ peterturtle: 詢或工作時打槍AI回答慢慢歸納出來的，每個領域都有 05/16 13:36
39F：→ peterturtle: 它的路徑 05/16 13:36
40F：→ peterturtle: 而每個人的需求也多少會有偏差 05/16 13:38

如果有興趣討論的話，方便告訴我你大概看了多少嗎，不然我實在不太確定要怎麼跟你討
論，因為我無法分辨你是壓縮了太多意思以為我會理解還是沒看全所以雞同鴨講
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:44:14
41F：→ peterturtle: 我不是要否定這個 Skill 沒有用，至少對那些與你接近 05/16 13:44
42F：→ peterturtle: 的圈子肯定是有用的，你就是有那個需求才會特地限制A 05/16 13:44
43F：→ peterturtle: I的思考路徑對吧？ 05/16 13:44

我不是說你否定他，而是有點我做A你說B
跟思考路徑無關，那是通用的、抽象的思考品質判准
基本上就是你說的那類要求的完善版本
所以我才說需要知道你大概看了多少，否則我無法理解你是看了不知道設計意圖還是沒看
就全就給予意見

你說的東西裡面其實根本不是那樣運作或是你誤會了，實際上不會有那種結果
但是從裡面複製貼上到這邊來又沒什麼用，太浪費版面，裡面都寫很全了

有人願意跟我討論我是很高興，不過你這樣說我有點無從下手不知道該從哪邊回XD

純以結果論的話，方便的話請看AB測試實例6
他任務是要求AB幫忙改履歷，經歷素材都給了AI

裸跑就是很正常的把素材塞進去

元規則則是做出了決策如下：
你目前版本的根本問題是每一條都在描述「職責」而非「成就」。「負責客戶社群媒體經
營」告訴面試官你的工作範圍，但沒有回答他真正想知道的：「所以做得怎樣？」。你的
實際數字和案例其實非常強，問題不是素材不夠，而是原始版本的框架把你鎖在了「執行
者」的語境裡——這對你要跳品牌端行銷主管是致命的，因為品牌端看的是策略主導權和
商業結果的因果鏈，而非你服務過多少客戶。

另一個隱性問題：你從 agency 跳 brand-side，面試官的預設疑慮是「這個人習慣同時
服務多個客戶、快速交付，但能不能沉下來為一個品牌做長期策略？」——所以你的經歷
必須刻意凸顯你做過的深度品牌建設案例（綠田轉型、MATZ 重塑），而非只強調你同時
操作很多帳號的效率。

向這個案例，最終顯現的差異在於
每個動詞的能級選擇、每個數字的精確度處理、敘事弧線的嵌入、系統性語彙的一致使用
等微觀差異

---

元規則是榨取可用訊息做推論，以專業的標準動態生成品質條件然後滲透到執行細節去
因為有些東西知道動作，要求的人也不一定知道什麼才是最好

※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:46:03
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:47:36
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:49:17
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:53:20
44F：→ peterturtle: 我有大致掃過一遍，但那就是思考路徑，你要求不能走 05/16 13:53
45F：→ peterturtle: 迅速解決的A路徑、必須遵照某個原則走B路徑、寫下中 05/16 13:53
46F：→ peterturtle: 間的過程本身，並反過來回問成品品質就是在限制AI怎 05/16 13:53
47F：→ peterturtle: 麼走。順帶一提主結構看上去與目前內建的思維練有八 05/16 13:53
48F：→ peterturtle: 成像 05/16 13:53

如果有八成像就不用寫這個了OTZ
在上面我補充了一個範例概述，你可以稍微看一下我想表達的
你所謂的記憶塞再多它也不會走到這種推論下，尤其原生問題已經給非常足夠了

或者是方便你同樣問題（不依存於你塞入記憶的背景或是題目中有供給）跑一下你自用的
和元規則的差異，或許能理解變化
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:55:22
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:55:36
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:55:55
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:56:10
49F：→ peterturtle: 所以你其實不用謝那麼完整，花那麼多 token，只需要 05/16 13:56
50F：→ peterturtle: 刺激內建的思維練就可以得到很好的效果了。 05/16 13:56

砍過一些，但是實際上就是砍一點就弱一點
如果都投入那種篇幅，除非能做到減半但只少一點東西，否則少個10%20%反而有點不如
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:58:34
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 13:59:37
51F：→ gtr22101361: 珍惜token 和 context 05/16 14:07

我自己使用試幾次對話內就能解決問題所以會開新的，所以才最後演變成這樣
如果真的要上百次對話的確不適合就是了

52F：→ peterturtle: 講到這邊你差不多是要求我寫一個對抗專案來證明其實 05/16 14:15
53F：→ peterturtle: 不用那麼多字了，好吧好吧 05/16 14:15

我哪有那麼白目做這種要求XD
我只是說你以為我做的和其實我做的不同
只要稍微看一下隨意一個實際測試案例就可以理解了
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 14:17:54
54F：→ peterturtle: 我有空寫完再貼 05/16 14:16

如果你願意那當然是拭目以待，畢竟拿出來討論就是看看能不能有更好的工具
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 14:19:35
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 14:22:40
55F：→ hooll111: 直接和模型對話就跟直接和一個不認識你的人對話一樣 他 05/16 14:36
56F：→ hooll111: 也有聰明的大腦 但不會知道你從哪來要到哪去 05/16 14:36

很多問題大多是不需要背景的
你說的比較像是連工作任務的資料都給不全
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 15:01:45
57F：→ peterturtle: 我之後還有不少事要處理所以之前說那個需要反覆測試 05/16 16:44
58F：→ peterturtle: 的專案暫時不會生，總之先說明一下我深挖後看到更進 05/16 16:44
59F：→ peterturtle: 一步的問題： 05/16 16:45
60F：→ peterturtle: 第一，你最大的問題在想嘗試設計一個上帝指令來解決 05/16 16:45
61F：→ peterturtle: 所有問題，但這與現在的AI發展背道而馳。上下文工程 05/16 16:45
62F：→ peterturtle: 叫你針對問題盡可能只送必要資訊進去。這就是為什麼 05/16 16:45
63F：→ peterturtle: 你長度壓不下來：針對特定問題(比如調查型提問)的方 05/16 16:45
64F：→ peterturtle: 法論蒸餾起來可能只要不到200個token(我就是這麼做的 05/16 16:45
65F：→ peterturtle: 、諮詢型問題與研究型分開來寫)、你把各種問題都寫進 05/16 16:45
66F：→ peterturtle: 同一組prompt要2000 token。 05/16 16:45
67F：→ peterturtle: 第二，炫耀性與表演性文字太多，把我思故我在拿掉， 05/16 16:45
68F：→ peterturtle: 寫那個不會讓 AI 變聰明純浪費 token。龍蝦文檔寫了 05/16 16:45
69F：→ peterturtle: 很多不知所謂的斜體、那是給人看的、不是給 AI。 05/16 16:45
70F：→ peterturtle: 第三，你的參考資料太無謂了，你專案的主題和 KV 之 05/16 16:45
71F：→ peterturtle: 類的都沒啥關係，專注專案目的。 05/16 16:45
72F：→ peterturtle: 到這邊是設計上的評價，你整個專案還有個自證大麻煩 05/16 16:45
73F：→ peterturtle: 等我再寫。 05/16 16:45

本來就很難自證，所以才試著做AB測試XD
如果能壓縮到幾乎等價收益自然是最好了
另外你說斜體那個，只有用在原則上是 > ，應該是github顯示的問題
你複製原始內容出來會看到其實有作換行，斜體只有三行原則

74F：推 ikachann: 老實說 你問的那幾個問題 就算是問人也是一樣的回答 你 05/16 17:02
75F：→ ikachann: 這些問題真的沒講得清楚 05/16 17:02

像是履歷改寫應該算夠詳細了吧
問題一二的部分你覺得大概說到什麼程度算是清楚，我測試看看
或是你可以測試看看說的更詳細的話測試品質差異是拉近還是拉更大
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:10:38
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:13:50
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:21:23
76F：→ peterturtle: 這個專案最大的問題在自評階段，精確說是對「優質回 05/16 17:30
77F：→ peterturtle: 應」與「超出認知邊界」的定義有問題。 05/16 17:30
78F：→ peterturtle: 我在這個專案內看到的是，你列了一大坨清單在最後， 05/16 17:30
79F：→ peterturtle: 要求AI照著你的格式輸出一坨畢業論文：抱歉說實話我 05/16 17:30
80F：→ peterturtle: 是真的被你那個AB測試驚艷到了，我除了以前上學時的 05/16 17:30
81F：→ peterturtle: 畢業論文外還沒輸出過這麼大坨的自然語言玩意兒。 05/16 17:30
82F：→ peterturtle: 這個心得報告只要夠大坨自然能超過所謂的「認知邊界 05/16 17:30
83F：→ peterturtle: 」，大砲打小鳥自然是必殺、畢竟不問 overkill。它to 05/16 17:30
84F：→ peterturtle: ken數當然會多個三到六倍，因為你強迫它寫了很多出來 05/16 17:30
85F：→ peterturtle: 。品質提升？當然會，你要求它輸出你看著最舒服的邏 05/16 17:31
86F：→ peterturtle: 輯脈絡；我就不行了，我思考問題的時候 context wind 05/16 17:31
87F：→ peterturtle: ow 根本無法超過2000，我手持的木棍頂多一公斤，沒辦 05/16 17:31
88F：→ peterturtle: 法拿著幾噸重的假山來當我思考的拐杖，只要不出幻覺 05/16 17:31
89F：→ peterturtle: 回答正確能多短就多短。順帶一提，在中國史上這種分 05/16 17:31
90F：→ peterturtle: 段然後每段必須按照規矩論述內容的玩意兒有個專有名 05/16 17:31
91F：→ peterturtle: 詞：八股文。 05/16 17:31
92F：→ peterturtle: 順帶的順帶一提，當然這取決於你想要做什麼事情，但 05/16 17:31
93F：→ peterturtle: 如果你想解決問題，謹記YAGNI，你其實並不需要它。 05/16 17:31

這樣說就有點套標籤了(八股文、只有我看得舒服)
或是看能不能給個你覺得可以有實質判準的任務
我自己測試看看直接比成品品質，或是你自己測你自己的和元規則下的回應差異

94F：推 Lattewang: 寫skill讓AI遵循規則就可以了吧？ 05/16 17:31

有作一些專用SKILL，但是感覺只靠SKILL還是有落差OTZ
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:40:03
95F：→ peterturtle: 好吧講畢業論文可能有點誇張但我必須說你的輸出真的 05/16 17:35
96F：→ peterturtle: 很長，長的不是很正常 05/16 17:35

有用的長和沒用的長是兩件事啊XD
當然如果是無法讀長文的自然是一回事，所以前面ReadMe就有說如果這類情況建議不要用

話說AB測試是A測試和B測試和審計結果，並非一整篇都是同個輸出
段落是
裸跑回應（Opus 4.6）
元規則回應（Opus 4.6）
品質審計

這三個是三次輸出，而且只有元規則回應（Opus 4.6）是本體
其他兩個都是為了檢證AB測試，並非回應本體
AB測試把A測試結果、B測試結果、審計內容都擺一起不是很正常嗎?

如果你把整篇AB測試都當成一次元規則輸出，那就是誤會了建議再調整一下XD
而且我會覺得很挫折，你說了一堆結果連內容拆分都有錯

※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:40:49
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:41:51
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:52:03
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:53:12
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 17:53:49
97F：噓 peterturtle: 我覺得和預設別人沒看完的人真的談不下去 05/16 17:56
98F：→ peterturtle: 你是來討論的還是來討拍的？ 05/16 17:57

抱歉，是我的錯
因為你說八股，老實說我覺得比喻過了，還以為你是誤認整篇都是
（測試中的回應結果我自己感覺不是很長，因為都是有增益的訊息）
如果你是說單看元規則的回應就覺得很長，這就比較麻煩了
方便告訴我隨便找個例子可以說你覺得是哪些地方說太多嗎
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:02:36
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:03:25
99F：→ peterturtle: 還是你真的覺得那團洋洋灑灑的一次性報告長度沒問題 05/16 18:03
100F：→ peterturtle: ？那個你媽七十歲獨居用你的SKILL能分析出整整七頁報 05/16 18:03
101F：→ peterturtle: 告本身就很能說明問題了好嗎？ 05/16 18:03
102F：→ peterturtle: 這七頁還是扣掉原生回應+問題的，這兩段湊一起不到一 05/16 18:04
103F：→ peterturtle: 頁 05/16 18:04

沒到七頁吧(或者是說一頁的定義我不知道你怎麼分的)
我丟去aistudio算，大概 2200TOKEN 出頭(品質審計是測試AB測試結果不是元規則自帶)

原生問題+裸跑回應大概600 TOKEN出頭
以純量算，就算有排版差異感覺也不到七頁那麼多才對
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:06:22
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:06:55
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:07:29
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:09:05
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:10:02
104F：→ peterturtle: 我用34吋電腦開你的專案 pagedown 按 7次所以是七頁 05/16 18:11
105F：→ peterturtle: 。另外你那個元規則.md在 chat gpt 5.x 下就3000多to 05/16 18:11
106F：→ peterturtle: ken了，你真的覺得你那份報告只有你的元規則的2/3？ 05/16 18:11

我是在AI STUDIO下測的，不同模型的中文可能TOKEN計算有差異
不過同一標準下應該可以看出大小差異，即便模型不同
元規則在那邊測試是2275 Token
家庭情感那篇回應大概2306 Token左右
(因為我有隨便敲幾個額外字激發計算所以會有小落差)
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:15:59
107F：→ peterturtle: 丟去線上計算機 8500 token 05/16 18:16
108F：→ peterturtle: 所以你現在連數據都有信用問題了 05/16 18:16

你是不是連品質審計那段都放進去了OTZ
那段不是
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:16:58
109F：→ peterturtle: 600倒是準的 05/16 18:17

請看一下
品質審計那段不應該在裡面那個是額外多做了一次輸出對於裸跑和元規則兩種的品質差異
作比對

按照你的說法可能是連那段都複製進去了
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:18:14
110F：→ peterturtle: 為啥不該在裡面，那不是輸出嗎？ 05/16 18:18

那應該我噓你了
說別人揣測你沒看完，然後噓我
結果你竟然把AB測試的審計當成元規則本身的輸出OTZ

那個結構不是很顯然是
A=裸跑結果
B=元規則結果
品質審計=第三方用固定的品質審計方法去審計兩者品質

但凡你真的跑過一次元規則就不會把品質審計當成他應該有的輸出
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:20:22
111F：→ peterturtle: 你現在的意思是說，現在你這坨輸出只有 1/4 是有效的 05/16 18:19
112F：→ peterturtle: ，然後我得自己進去把它找出來？ 05/16 18:19

你在說什麼OTZ
AB測試，指的是兩種提示詞的測試結果，並且額外多做了審計
並非元規則實際跑，元規則實際跑的結果僅有
元規則回應（Opus 4.6）
這個章節
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:21:28
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:23:22
113F：→ peterturtle: 好，我查了一下，是有一段額外的內容沒錯。總 token 05/16 18:23
114F：→ peterturtle: 3000，現在正常一點，雖然仍然是5倍輸出 05/16 18:23

至少有共識了XD
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:24:29
115F：→ peterturtle: 喔很好，那我不講了，你很棒喔讚讚，你自己的專案你 05/16 18:28
116F：→ peterturtle: 自己去管理品質。 05/16 18:28

如果你不高興可以不討論
罵得很大聲還質疑別人信用，結果是自己弄錯，還腦羞成怒
相比你的尖銳，我對你很軟了吧，結果竟然說這種話
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:31:56
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:33:14
117F：→ peterturtle: 問我在不爽什麼，就是我在和你談技能結構問題，結果 05/16 18:40
118F：→ peterturtle: 你只關心我有沒有把你每個AB測試都看完：然後沒看完 05/16 18:40
119F：→ peterturtle: 代表我說的話都不能信。 05/16 18:40

不是那個意思啊，因為你連實際輸出的內容是什麼都沒弄清楚
後面也不好繼續吧，不是要你都看完，但是把AB測試品質審計當成元規則本身的內容
然後做出錯誤理解，再去改不一定能有正向結果吧
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:42:33
120F：→ peterturtle: 我們頂多是 reviewer，不是你的 co-worker 05/16 18:42

[我們]，不要代表別人好嗎
放出來是想找討論，而不是像你這樣居高臨下，我都是對的，我是幫你reviewer
連別人的話都不看
我是不知道連AB測試都能切錯區塊的人是有多會技能結構
(對，我現在回你的就是用你的態度，這樣你看了爽嗎?)
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 18:48:20
121F：→ peterturtle: 反正我評價上面都說完了，包含結構性的與評價系統的 05/16 18:48
122F：→ peterturtle: 可能缺陷，你覺得不會「一定」有好結果就別看，當我 05/16 18:48
123F：→ peterturtle: 在漫罵，我也不跟你保證正確。 05/16 18:48
124F：→ peterturtle: 好啊那就我，不含「們」 05/16 18:49
125F：→ peterturtle: 我就講到這邊 05/16 18:50

其實我沒有覺得一定怎樣
我直白的說吧，不是否認你的說法，但是我是覺得雙方頻道還沒碰到

你說的都是常理下合理的設計理念
但是問題在於元規則的確展現了不同於裸跑的水準
(就我自己的標準，且我也實際使用過一些其他常見的提示詞強化方式來做AB測試)

問題在於
1.其他方式的上界難以斷定，因為我不是專門這樣用
2.對於[好]的認知

但是你的反駁大多是直接以通用經驗論而非結果論(但結果的確有變化)
且我多次嘗試和你同步頻道，也就是到底你覺得哪個結果好，好在哪
如果你不覺得元規則下的結果好，那應該就可以停了，因為喜好和閱讀接受度不同
既然目標不同自然難以進行所謂的同目標迭代

事實上，如果我們對好的認知有同步了
那提示詞若壓縮成你說的形式，那種好還會存在嗎
這種都是要一步一步來的，如果你單純只是想要用經驗壓過而不說結果
的確永遠不會有相通的時候

我只覺得你還在雙方的認知同步交錯階段就因為前面那個看錯後的惱羞然後吵到結案了
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 19:05:08
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 20:29:49
※ 編輯: a47135 (220.130.11.211 臺灣), 05/16/2026 20:31:20
126F：推 ripple0129: 我從來不信skill是銀彈，我只信context injection準 05/16 23:53
127F：→ ripple0129: 不準 05/16 23:53

如果能給齊自然是不用寫成這樣
不過比較麻煩的是有時候自己要的東西什麼樣才算是好，一時也想不出來

128F：→ alan3100: 你何時+client+哪個AI會有這樣回覆呀? 現在最基礎的sys 05/17 01:27
129F：→ alan3100: prompt應該都不會那麼笨那麼被動 05/17 01:29

誇張點的舉例啦XD
實際上當然還是會有自然擴展，只是覺得擴的不夠
※ 編輯: a47135 (36.226.104.210 臺灣), 05/17/2026 14:41:43
130F：噓 angusyu: AI爆炸時期一堆群魔亂舞 05/18 00:01
131F：→ howdiee: 哥 不要再用AI重寫了  PTT這類非正規文字  需要人的溫度 05/18 11:27
132F：→ howdiee: 什麼盲區、什麼不是--而是等等 看到快吐了 05/18 11:27
133F：→ howdiee: 只會適得其反讓文章被淹沒在大量AI文裡 05/18 11:28
134F：推 notimenofree: 太長了 可以總結一句話嗎 05/18 13:26
135F：→ Romulus: 那你可以不要受夠了學習怎麼和人說話嗎？ 05/18 15:20
136F：推 sssyoyo: 太長沒仔細看完，比較認同彼得龜網友的觀點 05/19 11:26
137F：推 Wishmaster: 以目前的邏輯,他就是接你講的故事,你卻要他自己說故事 05/19 12:22
138F：推 prag222: 不會下提示詞，end 05/19 17:26
139F：→ yam276: 垃圾進垃圾出... 05/20 07:52
140F：→ Obama19: 廢話也太多了 你是不是很難和正常人溝通？ 05/20 13:04
141F：→ Obama19: 我受夠了xxx 基本就可以判斷是ai slop 05/20 13:05
142F：推 syy851108: 沒試用，但感覺蠻多人需要的，新人問問題都不會，這個 05/21 21:14
143F：→ syy851108: 剛好。 05/21 21:14
	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草
WEB批踢踢(PTT)

Soft_Job 板

[討論] 受夠學習怎麼跟AI說話，所以嘗試了新方向

熱門看板

贊助商連結