蛙蛙科技日报 2025-03-23

大型语言模型（LLM）如何改进推荐系统和搜索引擎

这篇文章探讨了在大型语言模型（LLM）时代，推荐系统和搜索引擎的改进方向。文章详细介绍了工业界在模型架构、数据生成、训练范式以及统一框架方面的最新进展。

LLM/多模态增强的模型架构

推荐模型越来越多地采用语言模型和多模态内容，以克服传统基于ID方法的局限性。例如，YouTube的Semantic IDs通过内容嵌入生成离散的语义ID，显著提高了冷启动和长尾项目的推荐效率。Kuaishou的M3CSR则通过多模态内容嵌入（视觉、文本、音频）来生成可训练的类别ID，提升了推荐效果。

LLM辅助的数据生成与分析

LLM被用于生成高质量的数据，以解决数据稀缺问题。例如，Bing使用GPT-4生成网页元数据，Indeed则使用LLM生成的标签来过滤低质量的职位匹配。

扩展法则、迁移学习、蒸馏和LoRA

文章探讨了如何将LLM和计算机视觉中的训练方法应用于推荐系统，例如通过扩展法则研究模型大小和数据量对性能的影响，以及使用知识蒸馏将大模型的洞察力传递给更小的模型。

搜索与推荐的统一架构

文章还讨论了如何构建统一的架构来处理搜索和推荐任务，例如Google的CALRec通过文本序列表示用户交互和模型预测，显著提升了推荐效果。

评论区讨论

评论区的讨论主要集中在LLM在推荐系统中的潜力与挑战。一些读者对Spotify的查询推荐系统表示质疑，认为用户需要输入更长的查询可能并不一定意味着系统改进，而是用户难以找到所需内容。另一些读者则对LLM在推荐系统中的潜力表示乐观，认为LLM可以显著提升搜索和推荐的效率。

此外，评论中还提到了一些技术挑战，例如延迟问题和模型微调的重要性。有读者指出，LLM的推理延迟仍然较高，尤其是在实时推荐场景中，如何平衡性能和成本是一个关键问题。

野猪肉引发的罕见细菌感染

这篇文章讲述了一位佛罗里达州的77岁男子因食用野猪肉而感染了一种罕见的细菌——猪布鲁氏菌（Brucella suis）。这种细菌通常存在于猪体内，人类感染后会导致布鲁氏菌病（brucellosis），症状包括胸痛、发热、关节痛等。

感染与治疗过程

这位男子在2017年接受了当地猎人赠送的野猪肉，并在处理生肉时未采取防护措施，导致感染。经过近两年的反复就医和抗生素治疗，医生最终通过血液培养和基因检测确认了感染源，并为他进行了适当的抗生素治疗，最终治愈。

布鲁氏菌病的背景

布鲁氏菌病在美国非常罕见，每年仅有80到140例报告，主要由未经巴氏消毒的奶制品引起。然而，猪布鲁氏菌通常与狩猎和处理野猪有关。这种细菌曾被视为生物恐怖主义威胁，但最近被从美国政府的“选择剂”名单中移除，以便于研究人员进行更多的兽医研究和疫苗开发。

评论区讨论

评论区的讨论主要集中在几个方面：

诊断的困难：许多评论者提到，像布鲁氏菌病这样的感染往往难以诊断，尤其是在症状不典型的情况下。
食品安全：许多评论者强调了处理生肉时的卫生问题，建议在处理野味时戴手套并彻底洗手，以避免交叉污染。
宗教与健康：一些评论者讨论了宗教禁忌与健康风险之间的关系。
抗生素的使用：一些用户讨论了抗生素的使用和副作用，特别是长期使用抗生素可能导致的肠道菌群失调问题。

Vectrex：80年代的家用游戏机与未发布的计算机扩展

这篇文章讨论了Vectrex，一款80年代初的矢量图形家用游戏机，以及一个从未发布的计算机扩展。这个扩展本可以将Vectrex转变为一台家用计算机，具备BASIC编程能力和128K的存储空间。

Vectrex的独特之处

Vectrex以其矢量图形显示而闻名，提供了比当时的光栅显示器更清晰、高分辨率的视觉效果。然而，其硬件限制（1KB的RAM和8KB的ROM）使其成为一个小众产品。

未发布的计算机扩展

这个扩展本应包括一个65键键盘、16K ROM、16K RAM和BASIC编程能力，软件存储在“wafer-tapes”上，提供128K的存储空间。尽管这个扩展从未发布，但它展示了Vectrex的潜力。

评论区讨论

评论区的讨论主要集中在Vectrex的技术限制和现代重现尝试。一些用户分享了他们对Vectrex的回忆，而另一些用户则讨论了矢量显示器的技术挑战，如闪烁问题。还有一些用户提到了现代项目，如PiTrex，它使用Raspberry Pi来模拟Vectrex的硬件。

EmptyEpsilon：开源太空船桥模拟器

EmptyEpsilon是一款开源的多玩家太空船桥模拟器游戏，灵感来源于《Artemis Spaceship Bridge Simulator》。游戏允许玩家扮演太空船桥上的不同角色，如船长、舵手、武器官等，每个角色都有独特的职责和操作界面。

游戏设计与功能

EmptyEpsilon解决了Artemis中的一些问题，例如通讯站的功能有限、游戏同步问题等。游戏是开源的，允许玩家自由修改和扩展游戏内容。

评论区讨论

评论区的讨论主要集中在游戏的扩展性、多人协作的可行性以及与其他类似游戏的比较。一些用户提到，EmptyEpsilon已经被用于一些大型沉浸式体验项目，展示了游戏在商业和娱乐领域的潜力。

病毒是否会触发阿尔茨海默病？

这篇文章探讨了病毒是否会触发阿尔茨海默病的问题。近年来，越来越多的科学家开始关注这一可能性，并研究抗病毒药物是否能够治疗这种疾病。

带状疱疹疫苗与痴呆症风险

文章提到，接种带状疱疹疫苗的人比未接种者患痴呆症的风险更低。一些研究认为，大约五分之一的痴呆症诊断可以通过接种带状疱疹疫苗来避免。

抗病毒药物的研究

哥伦比亚大学的研究人员正在测试一种抗病毒药物——伐昔洛韦（valacyclovir），用于治疗早期阿尔茨海默病患者。这项研究为探索病毒与阿尔茨海默病之间的关系提供了新的视角。

评论区讨论

评论区的讨论主要集中在抗病毒药物的潜在作用以及病毒与阿尔茨海默病之间复杂的关系。一些用户对病毒与阿尔茨海默病之间的关系表示怀疑，认为阿尔茨海默病可能是一种多因素疾病。

Michalina Janoszanka 的反向玻璃绘画

这篇文章介绍了 Michalina Janoszanka 在 1920 年代创作的“反向玻璃绘画”作品。Janoszanka 是波兰著名画家 Jacek Malczewski 的缪斯和学徒，但她自己也是一位杰出的艺术家。

反向玻璃绘画的技术与风格

反向玻璃绘画是一种在玻璃背面逐层涂抹颜料的技术，起源于 15 世纪的意大利。Janoszanka 的作品与传统波兰玻璃绘画的僵硬宗教形象截然不同，她使用鲜艳的宝石色调和金属线条来描绘丰富的花卉、树木、风格化的鸟类和青蛙，创造出梦幻般的景观。

评论区讨论

评论区的讨论主要集中在反向玻璃绘画的优缺点上。优点包括透明画布便于复制细节、可以结合折射效果等，缺点则是细节需要先完成，难以中途修改。

波兰300年山毛榉树赢得“欧洲年度树木”奖

这篇文章介绍了波兰一棵300年树龄的山毛榉树赢得了“欧洲年度树木”奖，这是波兰连续第四次获得该奖项。

树木的背景与传统

这棵树位于Dalków的历史公园中，是当地社区的象征，游客们还有一个有趣的传统：将花生扔进树洞，希望能实现愿望。

评论区讨论

评论区的讨论主要集中在全球化和贸易对树木疾病传播的影响，以及“年度树木”这一概念的合理性。一些用户还提到了其他地区的树木，如加州的红杉和古老的刺果松。

开发者生产力的故事：Tim Mackinnon

这篇文章讲述了一个关于开发者生产力的有趣故事，作者描述了他认识的最糟糕的程序员——Tim Mackinnon。尽管Tim在团队中的个人生产力指标（如故事点）为零，但他通过与其他团队成员配对编程，极大地提升了整个团队的生产力和代码质量。

核心观点

文章的核心观点是：衡量个体开发者的生产力是困难的，尤其是在复杂的团队协作环境中。作者认为，像故事点或代码行数这样的指标并不能真正反映开发者的价值。

评论区讨论

评论区的讨论主要集中在生产力指标的争议、Tim的案例引发的共鸣、管理者的角色以及对AI生成代码的反思。

多线程编程中临界区失效的调试故事

这篇文章讲述了一个关于多线程编程中临界区（critical section）失效的调试故事。作者在调试一个企业产品时，发现一个临界区未能阻止多个线程同时进入同一段代码，导致程序崩溃。

问题的根源

问题的根源在于一个懒初始化（lazy initialization）函数错误地返回了STATUS_SUCCESS（值为0），而调用它的RtlRunOnceExecuteOnce函数期望返回非零值表示成功。

评论区讨论

评论区的讨论主要集中在微软的代码风格和API设计上。一些评论者提到，微软的API设计历史悠久，导致了一些不一致性和复杂性。

Cloudflare 的 AI Labyrinth：迷惑 AI 爬虫的新工具

Cloudflare 最近推出了一个名为 AI Labyrinth 的新工具，旨在通过生成 AI 内容来迷惑和消耗不遵守“禁止爬取”指令的 AI 爬虫和其他恶意机器人的资源。

AI Labyrinth 的核心思想

AI Labyrinth 的核心思想是利用生成式 AI 作为防御武器。当检测到不当的机器人活动时，Cloudflare 会自动部署一系列 AI 生成的链接页面，这些页面看起来真实，但实际上与网站的真实内容无关，从而浪费爬虫的时间和计算资源。

评论区讨论

评论区的讨论主要集中在隐藏链接可能影响屏幕阅读器的使用、这种方法的长期有效性以及“已验证爬虫”计划的局限性。