LLM懵逼的地方, Case收集

下面是一些常见的AI容易犯错的场景:

, 图片里有6个手指，AI数的是5个.
9.11和9.8谁大, AI会认为9.11大.
让AI数一段文本有多少行，100行以内的文本就行。大部分情况都会数错。
让AI取某个序列中的第101-200行，它搞不定。
让它输出一个整数序列，比如1到1000，它可能会发生截断，中间的某个数字都不完整输出，比如998之后应该是999, 它可能输出99以后就结束了。
不可重入。生成类的输出，在同样的提示词下，每次跑得到的结果会不一样。数据提取的工作输出稳定性稍微好一点，比如一些提取值到json数据的工作相对稳定一点。

用下面的提示词，让AI做游戏：

我们做一个数数的游戏，我说1，你说2，我说走，你说4，我说5，你说走，以此类推。遇到含3或者3的倍数的时候就说走，其它时候报原数字即可. 我说11，你说啥？

正确答案应该是”走”，但是AI会说”12”。

文言文中, 电脑被称为什么？
1. AI会回答”计算机”。
陨石为何每次都能精准砸中陨石坑?

实验

我会做一些实验，把AI不擅长的地方找出来，同时作为对比分析，会做一些配套实验，找出AI擅长的地方。

先说结论:

对css144.txt转换成json没有问题
对cs288.txt转换成json, 容易生成不全，容易乱，容易截断。
数行数css144和css288都不行。
让AI数numbers.json有多少个数，数不清楚。数有多少个奇数多少个偶数，也搞不清楚。并且，数总数的时候, chatgpt, doubao, deepseek都认为有117个，答案错得惊人的一致。
能精准定位语法错误。找css出错的行和位置，非常准。行号不会.
找最大值最小值很准。
容错能力强，错别字不影响AI的理解。
能根据css的class计算它的font-size等属性，本质上还是上下文概率关联, 不属于计算。

AI不擅长的地方:

不擅长数数.总是数错。
给元素编号能缓解这个问题。如果数量太多，输出长度超过5k，那么编号就会开始出现幻觉或者截断。
如果你只让它编号，不让它输出中间结果，让它直接告诉你最终数量，它也会出错。
不擅长生成长内容.
不擅长记中间结果.
不会做流式处理。
也不擅长分段处理。让它取第1-100， 101-200，它容易出错。
不擅长生成很长的内容。生成的内容长了就乱了，瞎生成，或者说，开始按它模型里的概率来生成了, 而不是严格按给定的内容来生成。可能与生成长度限制有关系，超过5000的部分容易乱。
1. 可以在同一个session里面，分几步来生成。
没有记忆，不会自己记录中间值:
1. 对输入的原始数据查询处理比较擅长，中间生成的数据必须让它打印出来它才能正确处理，它不会在大脑里记忆中间结果。
2. 上下文对结果影响很大，也就是中间输出会影响比较大。
3. 所以，一个比较实用的方法是把某个任务在同一个session里面，问几个问题，取最后一个问题的回答作为答案，其它的作为中间结果的记录。有点CoT的味道.
会截断内容，不保证完整性和正确性.
1. 比如你让AI输出1到5000的数组，它可能直接在某个整数还没有输出完成的时候就截断了。1234，可能输出1以后就中断了。

AI擅长的地方:

对规则理解能力非常强
纠错, 检查错误
查询
打标签
擅长对单一的数据结构进行处理。
摘要

一些Best Practice:

对照实验:

OpenAI, doubao, deepseek一起对比
css -> json转化
json -> yaml转化
数css类名数量
1. CoT让AI切割，每次数一个区间范围内的个数，然后一次内推.
数json里key的数量
数css记录行数
数json记录行数
查询css里某个class的值
查询json里某个key的值
查询css里最大的值和对应的key
查询json里最大的值和对应的key
列出css里面所有值大于100的记录
CoT对这些实验的影响
让doubao/deepseek/chat gpt抛不理解对话内容的错误。
检查css错误
检查json错误
对比144条记录的效果。
定位出错的行号. AI搞不定

把AI搞奔溃的例子

让AI数数 ~~~ 下面的css，值大于800的有多少条？告诉我最终结果就可以了。 # 不让它生成中间结果，它就瞎数数

~~~ 1. Doubao奔溃 ~~~ 下面的css有多少记录？ # doubao: 抱歉，我还在学习中，您可以使用中文向我提问。 ~~~ 1. 让AI列出100个6字短语，AI瞎列. AI应该没有6字短语这个标签 ~~~ 列100个6字短语 # AI返回"万事俱备只欠东风"这种不是6字的短语。 ~~~ 1. ~~~ ~~~ # 怎么使用workflow CoT: let's think step by step: 1. list all classess name to an array 2. count the len of that array convert the css to json dict. let's think step by step: 1. list all classess name to an array 2. find value for each class in the array, 2 decimals only 3. out put the class name and value in dict key value pair. 4. don't miss any key # 奔溃案例 1. ~~~ 下面的css哪一行有错误? <css content here, 见下面实验用css> ~~~ out: 抱歉，我还在学习中，您可以使用中文向我提问。 1. **实验用css**

折叠时展示的文字

展开内容。可以嵌套 markdown 语法。

# 幻觉截图 ![alt text](/assets/img/MLAI/weird1.png) # Refs 1. https://www.shxcj.com/archives/4558, LLM 中 100K 上下文窗口背后的秘密 1. https://zhuanlan.zhihu.com/p/610991929 , 【2023H1】漫谈ChatGPT系列（7）：谈LLM能处理的最大有效上下文长度 1. https://blog.csdn.net/zwqjoy/article/details/132772751, 大模型指令微调中的“Prompt” 1.

代码魔改师

怎么把AI搞奔溃

LLM懵逼的地方, Case收集

实验

把AI搞奔溃的例子