正文
这里展示的是 archive 里保存的正文全文,方便你后续做复盘、写作、提炼、回听或重新归类。
。想想做了啥就是每天都有一种感觉星期一天好像忙活了很久的。但是实际上又没有什么产出的感觉。
好像很多时间都浪费出来了我也不能不知道到底说的是不是那种浪费。都放在了流程上那这些件呢如果自己不去给到解答的话那我在想我也很难去在别人问起我的时候我立刻给到一个很明确的答案。所以说还是要想一下这个事情到底今天做什么。
今天好像是上来就去吃了一点麦片 ,那个时候不在想今天吃什么。关于健康今天确实有做过一部分的努力。然后去把冰箱里画冻的一些东西你搞了点出来吃然后发现上一次冻得八块鸡翅好像还是有点多了 ,就吃了三块就够了。
三会儿集市就饱了 ,然后我会发现像山姆他们那种腌制鸡翅。真的不怎么好吃 ,不如我自己去买那种新鲜的鸡翅去腌制 ,还能腌制更符合我口味的调料吧。现在出发去跳来的舞。
还上半小时 ,其实今天已经迟到了。啊 ,回想一下今天到底做了哪些事情吧。嗯 ,刚刚提到说今天其实。
我在做一个。其实一起来还是没有在做什么有效的事情。在为健康努力的一一段时间之后 ,然后下午的时候大概两点的时候。
嗯 ,开始去看我这几天的自动化的那个内容跑跑动的一个情况。说起来 Dipseck的效果实际并没有我想象中那么好。原本让他去处理单个任务的时候 ,他确实还做的还可以。
但是当任务量复杂起来了 ,它其实效果差强人一把。嗯 ,我觉得他的问题其实跟。我买的那一个 cloud逆向。
有一点类似他们在处理单个任务的逻辑层面其实是有比较好的效果的。但是当去处理一件事情的执行的时候 ,确实现在看起来越远不如 codex给的效果好。所以我也在纠结要不要说还是要。
Cloud循环体去调度 codex去执行任务 ,而不是让。 Cloud去执行任务。因为这样的话它会导致我以前做的一些内容了。
嗯失效 ,而且其实它做的这个过程还有点浪费。甚至目前看下来 ,其实他在。我目前充值的应该充值了 50多块钱吧 ,四50块钱用了一半二十多块钱就如果说同样是 24块钱 ,我去买两买 token的话。
买 codex做的效果绝对是比现在这个效果要好的。只是它的好处在于它可以去定时处理这个东西。但是我现在 codex那边没跑通 ,但其实 Codex那边想跑通也是可以跑通的。
那如果他这样效果这么差的话 ,那我不如。做充值一点给 codex,然后让他去帮我并行跑这个处理。不过最起码经过这两天的测试 ,我会发现嗯明显。
Codex还施工程能力最强的 ,他基本上他来完成这项任务的准确率和成功率基本能达到九成以上基本上不需要再 review就能看到一些比较真实的效果 ,而且结果。所以我觉得还是应该把之前去用那个 cloud的操作 codex执行或者是说让 codex自动化去执行这两步骤 ,我觉得可以一起去考虑一下吧。这个是。
呃 ,模型能力操作层面的事情 ,除此之外 ,我觉得我的上下文也是构建有问题的。再跟 codeX结合我们前面跑的那个 log的内容也可以大致让它看出嗯问题出现在哪里 ,我觉得这可能就是它实际执行的意义。因为他实习去跑之后他会有一些真实的 log数据。
那这个数据是非常有价值的可以看出在执行复杂复杂任务以及多模型执行任务或者是说多内容执行任务的时候。它可以对比出来一些很明确的区别。比如说我今天就拿历史的那个 log取问了两两个模块实现的方式。
那第一个就是我刚刚一直跟你聊到提到飞书的那一块还有一个是。嗯 ,我不是在弄那个找工作以及工作的岗位 review和。岗位 review和岗位查找的这两个环节 ,那这两个环节我在将所有的 log发给。
嗯 , Codex进一步看之后 ,然后以及将这个相关的证据发给 cloud之后 ,我会得到一个更优的嗯解决策略。就是那种渐进式的逐步识别的模式。然后进一步优化了我的相关表格的展示。
还有会发现就是我人工的填写的内容 ,然后缺少了相关的字段嗯这导致嗯在表格的逐步的渐进式的循环中其实分辨不出来是 AI做的内容还是我人工准确的内容其实这里面会涉及到一个证据强度的。内容就是证据的话 ,它有的时候嗯 ,比如说我人工去 review这个东西肯定是最准的。但是 AI它由于它的幻觉导致它不同模型 ,它可能能力不一样 ,它有时候跑出来的结果是假的 ,甚至是说虚构的。
或者是说它有时候会把它假的那种当成是真的。那如何让这个东西更加贴近真实就需要一些明确的证据一些更强的证据。像我之前我印象中我们其实跑过嗯靠自动化测试的流程就是要准确的一本地真实脚本数据的结果为准 ,而不是以模型理解为准。
这样的话才能更加规范让模型知道自己做的是真真还是假的才能更好的评估这个东西。再有一个就是今天我了解到让任务的。范围更小化这个事情。
之前我还是故意把任务都放到一起 ,然让爱处理这个效果并不是很好。嗯 ,在今天十字去评估的时候发现这些任务更好的是去拆解的用细 ,让每一个 AI的循环只处理到具体的事项。比如说信息的收集和评估分为两个环节去做收集只是只是聚焦在收集新的信息当中。
评估的时候更注重评估的信息的准确性和完整性 ,然后以及决定的话在给予完整的信息的前提下 ,然后去进行嗯评估的校准 ,这样的话会得到更好的内容 ,而不是说一上来就把所有的内容让它统一完成。这样上下文也是很难去 hold住。尤其是我这种很长的上下文去抛中的时候打起效果并不是非常好。
在我们共同安全的环境目前相当于把这几个文件夹已经拆分开了 ,然后但是还没有实际去执行 ,因为我看了一下具体的提示词中关于相关记录的内容出现的问题。每一天的那个内容它有了重复 ,然后这也定义到了为什么之前一直获取不到新的数据的那个事情。所以这一次嗯我先去然后 coldex去修复了一下嗯具体是什么样的一个情况我先把这个数据源修复了之后后续才有跑动这么好的可能吧。
现在已经将原本的单个的那个任务拆分成六个具体的词任务 ,然后每一个任务也配置着新的模型去做这个事情。可能美宗不足的就是我百度的那个模型现在还没有完整去把它跑通 ,而且它的水平其实确实一般 ,所以说现在只让他做一些信息收集的任务比较简单的任务。嗯 ,AI也发现了 ,还是我那个中转的那个 gloud它的效果比较好 ,那这样的话还是让他去做更多评估的工作 ,而不是说前面的那个 review的那个工作。
Mini Max我没有太注意 ,但是他可能跟百度那个水平也差不了太多吧。那这套嗯 ,因为现在数据还没修复 ,所以然后啊对 ,然后那个 review的那个部分现在还是在让嗯之前的那几个内容还在跑 ,因为我发现他现在 review的基础的这个处理都没有做好。而且我发现改表你让多个模型去改表这样的其实是非常不可控的。
我觉得改的话还是应该让单一的某一个处理比较好的方式去改这个表的内容 ,不然的话翻反复复他会处于一种就是改对了 ,然后修改错了改错的那个可能性。其实昨天还做了一项 ,就是把评分标准做了个组建化的事。处理。
那这一块的话我不太清楚他做的是怎么样子的 ,然后再有就是关于。嗯 ,提示子的想进程度 ,我现在感觉可能还不一定有我最初的那个提示词的效果要好 ,因为我发现的结果没有那个好。但是具体我也不是很清楚他有没有这样执行 ,尤其是我有一个新岗位评估 review的那个内容好像没有被付到相关地方。
因为嗯现在提示词只是列举了相关要关注的文件 ,但是并没有具体提到这些文件怎么去使用那这样的话就会导致他模型不一定会真的去读这些文件以及就算读了这些文件也抓不到重点的问题。那这个是高温信息的这一块内容易然后关于我们直门上周还是上上周选定的那个岗位 ,现在基本上已经经过一周两周的这个时间嗯。基本上这个事情确实是一定要去做的 ,但是还有相关还有还有问还有一定的问题。
那问题就是说我们之前列的嗯一套逻辑就是关于我们当我们选定了某一个王位的时候那要还要做很多岗位的筹备筹备工作。这个筹备工作的话 ,它其实也是需要耗费很大的精力的 ,而且要筹备很多内容以及相关的岗位的画像的评估和具体内容和处理的。其实在结合最佳实践的处理中 ,其实做的不好比较多的还不错的结果 ,但是。
嗯 ,在具体循环上 ,我不知道他有哪些配置出现了问题 ,他没能够轮回的去配置这一块的还是今天没能解决的东西关于后续代处理的内容 ,其实我要会说列了一个表格 ,然后这个表格现在记录了一些我明明要做 ,但是现在要来不及做的东西像之前如果 Conex有额度的时候我会让他去执行 ,但是也会消耗一定的精力 ,现在我就相当于直接让 Codex把相关内容放到里面 ,然后这些内容到我有时间甚至说后续模型技术能力更强的时候让他们去再去执行这个东西。而且也可以让他们去划分任务的优先级 ,并且识别比较简单的任务务 ,也可以去让我更低级的模型去批量跑这些信息。关键还是一个要做信息收集和整理的工作吧 ,再有就是让录音文件每天去跑 ,我感觉效果还不错 ,但是我还没有来得及去看具体的内容。
啊 ,公众号其实出现了一些问题 ,现在其实比较大的问题是整个我 openclou飞数内个系统有点问题。就是从这个能看出其实 DC在处理中复杂任务的时候其实远不如 Conex的稳定性在要好。因为它可能在修改这个比较困难的这个东西的时候 ,不管是验证层面还是它设计的效果都还没能达到一个可用的状态 ,导致现在不可用。
现在可能这也有自动化测试不完善的问题