• u******* 登录了本站
  • u******* 登录了本站
  • u******* 加入了本站
  • u******* 加入了本站
  • u******* 加入了本站
  • u******* 加入了本站
  • u******* 加入了本站
  • u******* 加入了本站
  • u******* 加入了本站
  • C****y 下载了资源 亚马逊美国FBA仓库分区表-247行-1个子表

我用AI+RPA打造了一个7×24小时自动运转的跨境电商资料下载栏目

AI生成的封面图

AI生成的封面图

之前在文章里说过,我想做一个全自动的资源下载站,现在我已经实现了——资料下载栏目已经成功自动运转了一个多月!

今天特地向大家简单介绍一下这个栏目的自动化思路。

首先讲一下我之前遇到的痛点:

  1. 每个人的电脑里肯定有一堆的资料,包括网盘上,移动硬盘里……很多时候这些资料日积月累,整理起来很费解,而且受限于整理方式,我们能做的整理有限,顶多就是分类分文件夹重命名这些的~对于文件里面的内容,我们无法整理。
  2. 我们从多个渠道获取到了资料,但是文件太多了,导致会出现很多重复的文件,比如很多文件改了个名,格式换一下,内容稍微删减一下,你就无法快速查重了,人工肉眼的查重不实际。
  3. 我们在应用资料的时候,很多时候单纯凭记忆寻找文件,又或者只靠基础的文件索引来搜索文件,导致我们无法将资料文件里的知识点进行精确的需求匹配,同时受限于人工,我们很难将多个文件的知识点集中汇总起来进行需求匹配。
  4. 如果做成本地知识库的话,无法做到联网随时取用,对电脑配置要求也高,如果用类似于腾讯IMA这样的在线知识库的话,知识库管理无法和网站进行联动,做不到自动维护知识库。
    我的部分移动硬盘,管理文件相当麻烦,不少盘里的文件是当时为了省事存的,估计有不少重复文件~

    如图,这是我的部分移动硬盘,管理文件相当麻烦,不少盘里的文件是当时为了省事存的,有不少是重复文件~

我暂时能整理出来的痛点就这些,想到哪就算哪吧,可能还有些细节点,我一下子说不全。以上这些痛点我不知道大家和我有没有共鸣~

由于有了痛点,就促成了我去研究方案来解决痛点,所以我的文章分享基本都是基于我自己的真实需求达成后的分享,落地性还是有的~

我崇尚IT化解决问题,一劳永逸的方式最好,即使做不到一劳永逸,那也要尽量减少人工。目前对于我来说,最低成本最可行的方式那还得是RPA+AI~

先和大家梳理一下这个项目的大概思路:

一、自动整理资料

  1. 去水印:pdf文件水印最多,一些excel文件和word文件里也有水印,一个一个的去水印是不现实的,这个网站我只是分享站,没有那么多的精力,所以得批量快速,目前的除了一些图片式的pdf里的水印去不掉以外,其他的水印基本都能搞定!说到水印,大家可以看到我暂时是没有在文件里加我的水印的,真的要加的话,我可以直接给pdf加难以去掉但是又不影响阅读的非图片水印,如下:
    顶部加高加水印
    顶部加高加水印
    底部拉长加水印
    底部拉长加水印
    居中加水印
    居中加水印
    AI写的python加水印指令,代码调了好久才符合需求~
    AI写的python加水印指令,代码调了好久才符合需求~
  2. 加密文件解密:pdf加密解密最简单,excel加密解密最难,不过目前都搞定了~
  3. 去二维码:支持去除多种格式文件里的二维码图片批量去除。
  4. 去除空白页:支持去除多种格式文件里的空白页。

大家别看我写的字不多,整理文件这一步其实还是有很多难点的,因为自动化的第一步是让无序变成有序,有序变得有规律~

二、自动发布

  1. 文件内容提取:这一步,和常规的文件内容提取有点区别的是,我为文档加入了页码,方便后续的目录生成和每页内容的定位,word和ppt文档转pdf后按照上面加水印的方式来在顶部左上位置加页码。文件内容提取最难的是excel文档提取,我是先将excel转成markdown格式后提取的(AI无法直接理解表格,需要转成markdown),对于超大表格会进行取样前100行。目前采用的文件内容提取引擎是影刀AI Power的月之暗面,对于大几百页的大型文件,用的是影刀自研的提取引擎。
    月之暗面文件提取
    月之暗面文件提取
    影刀自研文件提取
    影刀自研文件提取
  2. 文件内容级查重:查重系统采用本地缓存 + 增量同步 + 智能查重的架构。这一步其实还是构思了很久的,花了很多精力,因为如果直接全文查重速度会非常慢,现在全站文章这么多,文件也很大,直接查重不实际,我是自己研究,采用了多步骤查重的形式查重的,大致框架如下——
    check_duplicate_content() (公共接口)
    ├── local_check_duplicate() (本地查重主入口)
    │ ├── ArticleCacheManager (缓存管理)
    │ └── _check_duplicates_in_articles() (具体字段查重)
    │ ├── fast_similarity_check() (核心相似度算法,使用SequenceMatcher计算相似度)
    │ ├── quick_length_check() (快速预筛选)
    │ └── preprocess_text_with_compression() (文本预处理)
    这里也和大家特别说明一下,由于非全文全字查重,对于修改了文件首页和尾页的文件,目前的查重会有遗漏的情况(快速查重逻辑是取样对比查重,首尾和中间取样),以及对于纯图片型文件,查重会受内容提取的区别影响。但是我自己从目前的查重率来看,文件去重效果还是非常不错的~

    Python查重模块

    Python查重模块

  3. 文件属性信息提取:页数,文件大小,行数,子表等
  4. 文件截图:pdf截图最简单,所以word文档,ppt文档都是转成pdf后截图的(这个转换系统采用COM组件自动化的方式,通过调用Microsoft Office或WPS Office的应用程序接口来实现文档格式转换),最难的是excel,直接转成pdf,会丧失excel表格样式~幸好影刀有自带的excel截图指令,所以最后也解决了截图问题。
  5. 文件内容转述、摘要、目录、卖点:这一步稍微难点的是需要确保输出格式的稳定性,采用的是json输出。附带说一下,目录的提取和卖点的提炼也是花了心思的,尤其是卖点提炼——因为我是需要变现资料的,所以不能完全将资料内容全部展现(表格没有尺度限制),但是又不能什么都不讲,所以对于这个AI指令“尺度”,我调试了很久~大家可以看看资料文章感受一下我说的这个点~
  6. 文章自动排版发布:这一步,目录的多端自适应花了些心思,插图的摆放位置也花了些心思,其它还好~
目前的设定的计划任务

目前的设定的计划任务

三、自动管理

  1. 文件重命名:通过提取内容后,AI总结出新的文件名称
  2. 文件自动上传:采用影刀的FTP上传指令
  3. 发布记录飞书同步:采用飞书的API指令,将所有的发布记录都自动同步到了飞书表格
    文档自动发布记录,采用飞书API

    文档自动发布记录,采用飞书API

四、预留后续二次拓展的空间

  1. 文件内容重写
  2. AI向量知识库
  3. 基于这些资料知识库的AI聊天和内容生成
  4. SEO文章自动生成

结语

通过构建这个全自动资源下载栏目,我基本上解决了最初遇到了资料管理痛点。现在,我的资料收集、整理和发布已经实现了高度自动化,大大提高了知识利用效率。

这个系统的核心价值在于:将零散的资料转化为结构化的知识,将被动收集变为主动增值,最终形成一个自我演进的知识生态系统

当然,这个系统还有很多可以优化的地方,我会持续迭代和改进。希望我的分享能给大家带来一些启发,也欢迎有兴趣的朋友一起交流探讨!

最好的工具,是那些能够自我完善的工具;最好的知识,是那些能够不断再生的知识。

原文链接:https://www.amazon888.com/blog/23807.html,转载请注明出处和链接。

0

评论0

请先

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录