阅读视图

发现新文章,点击刷新页面。

博客导览

本文作为博客地图,主要归集特定专题的博文,方便大家按照自己的需求去查看对应的博客文章。

:::note 部分博客文章可能不包含在本地图中 :::

模型考古学系列

本专题专注于解析深度学习领域内的大模型发展脉络与技术原理,通过对经典模型与前沿研究的追溯与剖析,揭示其背后的设计逻辑与技术走向。从理论构建到实际应用,文章深入浅出地为读者提供结构化的学术参考。

模型考古学(一):大模型原理探赜

模型考古学(二):视觉大模型发展梳理与Qwen2-VL论文解读

模型考古学(三):Agent 系统概述

Trading101 璿玑楮痕系列

此系列旨在拆解投资与量化交易中的核心概念与操作逻辑,系统化地介绍技术指标与策略设计的基本原理。文章结合理论与实践,为读者提供清晰的工具与框架,以助其更科学地理解市场行为。

Trading101:简析投资中常见的技术指标和其背后的逻辑

Trading101:策略交易解析

定期投资月报

本系列以月度为周期探讨投资中的策略调整与市场洞察,通过总结投资实践中的经验与教训,反思认知偏差与决策误区,为长期投资者提供冷静且深刻的视角。

2025年1月投资月报:耐心、预期管理与认知局限

暗涌系列

在看似平静的水面之下,总涌动着改变世界的力量。

作为专注科技创投领域的观察者,我新建了「暗涌」系列,识图捕捉哪些尚未形成滔天巨浪,却已积蓄势能的产业暗流。在这里,你可能看到:

  • 深度解构:穿透创业公司的PR话术,拆解独角兽的底层技术栈与商业模式
  • 趋势前瞻:保持对市场的敬畏,在大趋势下捕捉潜在的超额收益
  • 范式转移:追踪技术成熟度曲线的陡峭转折点,捕捉范式转换期的非共识机遇

水面之下,方见真章。

暗涌系列:Ark Invest《Big Ideas 2025》报告浅析 Part 1

《经济学研究入门指南》书评

在飞机上看完了这本书。作为经济学和金融学的半吊子入门者,我一直感觉现代经济学的实证研究可以粗俗的讲就是算“直线”,给定一个假设和一堆数据,通过各种五花八门的模型和计量软件来拟合出那一条可能最符合实际的直线来证明自己的假设有效

当然,这种刻板印象肯定只是我这种不学无术的学术蟑螂的暴论。格林劳的《经济学研究入门指南》就温和地指出,回归方程中的每一个β系数,本质上都是人类认知局限的投影。当研究者选择将复杂的社会关系简化为线性表达式时,必须时刻警惕这种数学优雅背后可能隐藏的认知暴力。

经济学的经验研究远不止是简单地拟合一条“最优直线”。在这本书中,作者细致拆解了经济学研究的完整过程:从选题的权衡与考量,到文献的梳理与整合;从理论模型的构建,到数据的搜集与管理;从计量方法的检验,到最终论文的撰写与展示。每一个环节都深刻影响着研究的可靠性,而绝非仅仅追求回归结果的“显著性”。

全书的最大优点在于它并非一本单纯教授计量方法或论文写作技巧的工具书,而是一本研究方法的指南。它强调了经验研究的逻辑链条,提示读者在数据分析之前首先要明确研究问题,并在理论逻辑上建立起可验证的假设。这样的思路,恰恰是许多初学者容易忽略的。当前,国内经济学入门书籍大多偏重于计量技术本身,而较少关注整个研究体系的搭建。本书的价值正在于此——它不仅提供了研究的“技术指南”,更塑造了一种严谨的研究思维。

当然,本书并非没有局限性。它的内容框架虽然完整,但对具体的计量方法并未展开深入讨论,更多是指引读者如何组织研究,而非教会具体的分析技巧。因此,对于已经掌握一定计量经济学知识的读者来说,或许会感到意犹未尽。但正因如此,它更适合作为本科生或低年级研究生的入门指引,而非高级研究者的进阶读物。

最后总结一下,《经济学研究入门指南》是一本非常值得推荐的书,尤其适合那些希望从零开始构建经济学研究思维的读者。在这个“数据驱动”的时代,许多研究者过于关注计量技术的复杂性,却忽视了研究本身的逻辑严谨性。格林劳通过这本书提醒我们,经济学的经验研究并不仅仅是“拟合直线”,而是一个完整且缜密的推理过程。对于任何希望真正理解经验经济学研究本质的人来说,这本书无疑是一个不可错过的起点,也是一份宝贵的指南。

模型考古学(三):Agent 系统概述

当瓦特在1788年为蒸汽机装上离心调速器,人类第一次触摸到了自动化的脉搏。这个由旋转飞球构成的简单装置能够根据蒸汽压力自动调节阀门开度,使机器的运转开始全面摆脱人工实时操控的桎梏。

两个多世纪后的今天,当我们谈论大语言模型驱动的Agent系统时,依然能感受到这种追求自动化的原始冲动在技术迭代中延续——从机械装置的自动调节,到计算机程序的规则执行,再到如今AI系统在开放环境中的自主决策,人类始终在探索如何让机器更好地理解意图、完成任务。

如果说工业革命用齿轮传递动能,信息时代用代码传递指令,那么当前的 AI 浪潮,则试图传递某种更接近人类认知的「智能」。早期的自动化系统,需要工程师预设所有可能场景,如同纺织机依靠打孔卡控制织纹;现代机器学习则能通过数据自动发现规律,正如 AlphaGo 从棋谱中提炼策略。而 Agent 框架的突破性在于,它首次在数字世界中构建了具备环境感知、目标拆解、工具调用等类人认知能力的自主实体

更形象地说,早期的机器像提线木偶,每个动作都需要人直接操控;传统 AI 像按剧本表演的演员,只能在预设场景中完成任务;而现代 Agent 更像是被赋予了自由意志的智能助手。你只需要告诉它“帮我策划周末露营”,它就会自动查天气、列清单、比价格,甚至在帐篷售罄时主动建议替代方案。这种从“机械执行”到“认知协作”的转变,标志着自动化技术正突破物理规则与数字代码的边界,向着真正理解人类意图的方向进化。

在本篇文章中,我们将探讨Agent系统的核心概念、技术演化及其与大模型的融合方式。尽管“Agent”这个词在计算机科学的不同领域有着各自的定义,但当下围绕大语言模型(LLM)构建的Agent架构,已经远远超出了传统意义上的自动化脚本或专家系统,而是朝着更具自主性、适应性和复杂推理能力的方向发展。

为此,本文将围绕以下几个问题展开:

  • 什么是Agent系统? 我们将从AI历史的角度,回顾Agent的核心概念,并区分不同类型的Agent模型。
  • 如何构建一个Agent? 解析Agent的基本组成模块,包括环境感知、任务拆解、工具调用及反馈机制等关键组件,以及当下流行的实现框架。
  • 大模型如何增强Agent能力? 大语言模型的推理能力为Agent带来了推断、规划和执行任务的巨大潜力,我们将探讨它如何在Agent架构中充当核心引擎。
  • Agent的发展方向与挑战是什么? 虽然Agent系统正在快速进步,但它仍然面临推理可靠性、可控性、长任务规划等挑战,本文也会对此作初步分析。

一、什么是Agent系统

1.基本概念

在人工智能领域,Agent(智能代理)通常指能够自主感知环境并采取行动以实现目标的实体。这一概念源于早期人工智能对自主智能体的探索,并在20世纪90年代随着面向代理的编程和多智能体系统的研究得到强化。人工智能教材经常将AI定义为“对智能代理的研究与设计”,这体现了面向目标的行为是智能的核心。

一个Agent通常具备以下关键属性:

  1. 自治性:它能独立运行,依据自身的感知和内部状态作出决定。
  2. 反应性和适应性:Agent能够根据环境变化及时作出响应,并通过学习或规则的更新来适应新情况。
  3. 前瞻性(主动性):优秀的Agent不仅能够被动响应事件,还能够基于目标主动采取行动。
  4. 交互性(或社会性):Agent能够与人类或其他Agents进行通信、协作或竞争,以完成任务。

这些属性共同定义了智能Agent系统:它们能够在复杂环境中自主运行,追求既定目标,并不断提高其性能。

2.Agent类型

根据AI发展的不同阶段和范式,Agent系统可以采取多种模型和架构。

  • 基于规则的Agent:这类Agent依据预先定义的规则集(如条件-动作if-then规则)来感知环境并执行动作。它们没有内部学习机制,而是类似简单反射式代理,看到某种感知就触发相应动作。例如经典的恒温器、有限状态机控制程序,或早期专家系统都属此类。基于规则的Agent通常快速而直接,适用于简单明确的环境响应,例如机器人避障中的直接传感器-效应器映射。然而,由于缺乏对环境的内部模型和学习能力,它们难以应对复杂多变的情境,也无法自行改进策略。它们的行为完全由人类设计的规则决定,缺乏适应新情况的灵活性。

image.png

图1:简单反射式Agent示意图。Agent通过传感器获取环境感知(percepts),根据内部条件-动作规则判断当前环境状态(“世界现在是什么样”),然后由执行器输出动作来影响环境。这种Agent没有内部学习过程,其行为完全由预设规则驱动。

(1)强化学习驱动的Agent

强化学习(RL)代理通过与环境反复交互、试错来自主学习最优行为策略。与基于规则的固定策略不同,RL代理根据奖励信号更新其决策策略,以最大化长期累积回报。

经典工作如Sutton和Barto(1998)的研究奠定了RL代理的基础。现代AI中许多智能体都采用强化学习,不断调整策略以适应环境变化。例如,DeepMind的AlphaGo系列通过自我博弈强化学习达到超人水平的围棋决策,就是RL代理的代表。强化学习Agent具备适应性和学习能力,能在未知或复杂环境中逐步提高绩效。然而,其学习效率和稳定性依赖于良好的奖励设计和探索策略。RL代理往往需要大量交互数据训练,对于高维或长时序任务可能面临探索空间巨大的挑战。此外,纯RL代理的决策往往难以解释,这带来了可解释性方面的问题。

(2)认知架构Agent

这类Agent基于认知科学的架构模型来设计,旨在模拟人类思维的结构和过程。典型代表有ACT-R和Soar等认知架构,它们将智能体的软件系统划分为类似人脑功能的模块。例如,ACT-R架构包含多个专门模块(视觉、记忆检索、决策等)和有限容量的缓冲区,用于模拟人类认知过程。Soar架构围绕问题空间来组织智能体行为,使用产生式规则(if-then规则)指导动作,并能在遇到无法立即解决的问题时建立子目标,从而逐步求解。

认知架构Agent通常具有内部记忆和推理机制,支持较复杂的计划和问题求解。它们的决策依据清晰的符号规则或认知模型,因而在一定程度上可解释。这类Agent擅长需要高层推理和结构化知识的任务,在模拟人类认知、建模用户行为等领域有应用。然而,认知架构往往需要精细的知识工程和参数设置,通用性较弱;其性能也可能受限于人工设定的规则,不易扩展到完全未知的问题领域。

(3)大语言模型(LLM)增强的Agent

最新兴起的一类Agent将强大的大语言模型融入决策与推理过程,为Agent赋予了前所未有的灵活性和知识能力。大语言模型(如GPT-4、PaLM等)经过海量语料训练,具备丰富的世界知识、推理和语言理解能力。

当将LLM用作Agent的“大脑”或策略生成器时,Agent能够以类似自然语言思维的方式规划和行动。例如,LLM可以根据任务目标,用对话或提示来生成行动方案,再将方案转化为具体操作步骤。这使Agent能够在开放环境中处理复杂问题,甚至通过语言接口与人类或软件工具交互。

LLM增强的Agent往往具备强大的推理能力和通用性:它们能理解抽象指令、分解复杂任务,并利用内置的知识完成开放领域的问题。这类Agent的兴起使AI从传统的工具型交互迈向更智能的合作伙伴。例如,最近涌现的AutoGPT、BabyAGI等系统展示了仅通过语言模型驱动的自主代理如何执行一系列复杂操作。需要注意的是,由于LLM本身的局限(如幻觉错误、长链推理困难),LLM-Agent在可靠性和可控性上还面临挑战,但其巨大潜力已引发广泛关注和研究。

Agent系统是在AI历史中逐渐形成的核心概念,涵盖了从简单反应式程序到复杂自主智能体的各种形式。不同类型的Agent在自主性、适应性和交互性上各有侧重:基于规则的Agent强调确定性和可控性,强化学习Agent体现学习和优化能力,认知架构Agent追求可解释的高层智能,而LLM增强的Agent则带来了通用推理和语言交互的新范式。理解这些类别及其属性,有助于我们把握Agent技术的发展脉络和应用场景。

二、如何构建一个现代意义上的Agent

1.基本组成模块

构建一个智能Agent通常需要将其划分为若干核心功能模块,协同实现“感知-决策-行动”的闭环。

首先是环境感知模块(Sensors/Perception):Agent通过传感器获取来自环境或用户的输入,这些输入可视为环境的状态信息或任务要求。

接下来,Agent需要对感知信息进行理解与建模,这涉及内部状态表示或记忆模块。例如,内部世界模型/记忆可以存储Agent对环境的信念、历史经验或上下文信息,支持后续决策。

然后是任务规划与决策模块:Agent依据其目标和当前状态,选择或生成一系列行动步骤。对于简单Agent,这可能是查表或规则匹配;对于复杂Agent,则包含策略推理、任务拆解(把复杂任务分解为子任务)等功能。在大语言模型驱动的Agent中,规划往往通过LLM生成链式思考或步骤列表来实现。

之后,Agent通过工具调用或行动执行模块将决策付诸实施。这可能是控制机械执行器在物理环境中行动,也可能是调用软件API、检索数据库、生成文本回复等。在执行行动后,Agent获取环境反馈(例如行动导致环境变化或收到新感知),这又会通过反馈机制更新内部状态,进入下一轮感知-决策循环。

这样的闭环形成了Agent的控制流,也被称为“感知-计划-执行”循环

一个常见架构是“Sense-Plan-Act”:即感知环境、基于内部模型计划行动、执行并影响环境,再循环往复。现代自主Agent还常加入反馈学习机制,即根据执行结果调整内部模型或策略参数,从而不断改进行为。例如,在强化学习代理中,环境反馈的奖励信号会用于更新策略;在LLM代理中,可以通过对对话历史的总结或自我反思来修正下一步方案。这些模块共同组成了Agent的基本架构,各模块的设计细节会因具体应用和算法选择而有所不同。

image.png

图2:典型AI Agent架构的组成模块示意图。中央的Agent核心负责统筹决策逻辑,围绕其四周是关键辅助模块:自上而下依次为记忆模块(存储历史对话或状态信息,提供上下文)、规划模块(负责将复杂问题分解成可执行的步骤或子任务)、工具模块(Agent可调用的外部工具或API函数库)。左侧是来自用户或环境的请求输入,Agent核心据此结合记忆、规划和工具接口产生行动方案,右侧通过执行模块影响环境或给出答复,实现闭环。

2.已经成熟的框架项目

(1)Langchain

LangChain是一个用于构建由大语言模型驱动的应用(尤其是Agent)的框架库。它提供了一系列抽象和组件,将LLM与外部工具、知识库、记忆模块等连接起来。

利用LangChain,开发者可以方便地创建链式调用(Chain)和代理(Agent)模块。例如,LangChain定义了统一的接口来接入不同的LLM、向量数据库(用于长时记忆)、工具函数等,使Agent可以在这些组件之间顺畅地进行对话和操作。

LangChain内置了多种常见Agent范式(如基于ReAct逻辑的工具使用Agent),开发者只需配置提示模板和所需工具,即可构建一个能够自主解析任务并调用工具的LLM代理。LangChain的优势在于其模块化和灵活性:可以根据应用需要自由组合不同组件,扩展性强;但相应地,需要使用者具有一定的提示设计和编程能力来定制Agent的行为逻辑。

(2)AutoGPT

AutoGPT是2023年引发广泛讨论的一个开源自主Agent项目。它的目标是创建一个几乎无需人干预的“自治GPT-4代理”。AutoGPT通过让GPT-4模型持续迭代地生成行动计划、执行Python代码、再根据结果调整计划,如此循环来自主完成用户给定的目标。

在启动时,用户为Agent设定名字、角色和若干目标,之后Agent便会“自行其事”,不断产生下一步行动直至达到目标或耗尽设定资源。AutoGPT的一大特点是引入了代码执行能力,即Agent可以让LLM编写Python脚本并运行,从而实现诸如文件操作、网络请求等复杂操作。这种机制形成了一个自我反馈回路:LLM生成的代码通过执行影响环境,产生新观察,LLM再根据新状态调整策略。AutoGPT被形象地称为一种“自我改进的AI”,因为它可以在一定程度上调试和改进自己生成的代码。

它展示了LLM在长时间自主运行方面的潜力。然而当前版本的AutoGPT也暴露出一些问题:例如,长时间循环可能导致上下文丢失或重复操作,缺乏全局规划容易在复杂任务上迷失方向。此外,对GPT的大量调用也带来高额的计算成本。尽管如此,AutoGPT作为探索“任务级连续自主性”的里程碑式项目,证明了LLM可以作为核心引擎驱动多步任务的自动执行。

(3)BabyAGI

BabyAGI是另一个有代表性的开源自主Agent框架,由创业者Yohei Nakajima提出。它的设计宗旨是实现一个任务驱动的自动代理:给定一个高层次目标,BabyAGI能够自主生成、排序并执行子任务,直至目标完成。其核心机制包括一个任务队列和一个向量数据库记忆。BabyAGI使用LLM根据当前目标和已有进展,动态地产生新的待办任务,并评估其优先级插入队列中。每完成一个任务,会从队列取出下一个最高优先级的任务继续执行,如此循环。

向量数据库用于记录先前任务的结果和有用信息,LLM可以查询这些记忆,从而保持跨任务的上下文衔接。BabyAGI因其简洁有效的设计成为开源社区关注的焦点,据报道它是2023年3月首个流行起来的自主Agent,实现了无人干预的任务规划和执行,在社交媒体上引发了热议。

相较AutoGPT,BabyAGI架构更简单、轻量,易于理解和改进。但也因为简单,缺少复杂的决策模块,可能在应对非常复杂的目标时力不从心。目前社区已在BabyAGI基础上衍生出多个改进版本,引入更先进的调度算法或记忆管理,以提升其任务管理效率。

(4)其他框架

除了上述三个外,近期还有许多值得关注的Agent框架。例如,HuggingGPT是一种让LLM作为中枢,调用Hugging Face模型库中各种专家模型去解决复杂多模态任务的方案;微软的Jarvis(与HuggingGPT类似)展示了用ChatGPT协调计算机视觉、语音等模型来完成组合任务的案例。

还有一些研究原型,如面向web浏览和API调用的BrowserGPT、面向机器人操作的SayCan等,都体现了通过工具集成来扩展Agent能力的趋势。此外,在多智能体方向,有框架探索让多个LLM代理彼此对话协作完成任务(如CAMEL等),体现出“代理社会”协同求解问题的初步能力。

3.不同架构的优势、劣势及适用性

不同Agent架构各有优劣,适合的应用场景也有所差异。

早期的反应式架构(如简单规则代理)胜在实时性和可靠性,由于不维护复杂的内部状态,它们对传感器输入的响应非常迅速,适用于机器人避障、自动控制等需要毫秒级反应的场景。然而,这类架构无法处理需要规划的复杂任务,面对新情况时缺乏灵活性。

与之相对,计划型架构引入了环境模型和前瞻性规划。Agent会执行“感知-建模-计划-行动”的周期,仔细推演可能的行动结果然后再执行。这种方法适合解决复杂决策问题,例如路径规划、策略游戏决策等,在需要高准确性的场景表现出色。然而,其缺点是在动态环境中反应速度较慢,可能跟不上实时变化。

混合架构尝试将二者优点结合,使用分层结构同时具备及时反应和全局规划能力。典型做法是底层用反应式策略处理紧急情况,上层用计划模块处理长程目标。混合架构适用范围广,但设计和调试较为复杂,需要处理好不同层次决策的协调。

对于LLM增强的Agent框架,例如LangChain提供的代理与AutoGPT/BabyAGI这种自治代理,它们之间也有差异。

LangChain作为库,灵活性很高,适合需要深度定制Agent行为的应用,比如企业希望集成自有数据库和业务逻辑的智能助手。这种方式的优势是可控性强:开发者可以严格指定Agent何时调用何工具、如何解析输出,从而在安全性和可靠性上有保障。但不足之处在于需要投入开发工作,并且最终效果依赖于提示工程和设计质量。

相比之下,AutoGPT/BabyAGI属于“一站式”的Agent应用,使用门槛较低,只需给定目标即可启动Agent自主运行。这适合于探索性任务或用户希望观察AI自主能力的场景。然而,由于当前LLM的能力限制,这类Agent在长时间运行时容易出现策略发散、推理错误累积等问题,需要人类在环监督长任务的执行。

因此,在开放环境、复杂长任务(如跨天的项目管理、连续科研助手等)上,目前的AutoGPT类架构仍有待提升可靠性。反之,在封闭域、清晰目标的任务(如自动生成多步代码脚本、批量化的数据处理)中,它们可以大幅节省人力。

认知架构Agent在需要高可信度和可解释性的领域依然有价值,例如军事决策支持系统或航空航天系统中,工程师可能偏好采用混合了符号AI的架构来保证系统行为可预测。而强化学习Agent则在游戏AI、机器人控制、推荐系统等有明确反馈信号的场景表现突出。总的来说,选择何种Agent架构取决于应用需求:要实时还是要深度推理?环境是否复杂多变?是否需要引入海量人类知识?等等。理解各种架构的优劣,让我们能在不同场景下扬长避短,构建最合适的Agent系统。

三、大模型是如何增强Agent能力的?

1.大模型扮演的角色

大语言模型(LLM)的引入为Agent的推理、规划和执行能力带来了质的飞跃。一般而言,LLM在Agent中可以充当大脑或决策中枢的角色。具体来说,LLM擅长从复杂指令或问题中进行自然语言推理,这意味着Agent能够通过LLM产生接近人类逻辑的思考过程(通常以文本“思维链”形式)来分析问题。

LLM还具备将抽象问题逐步分解的能力:面对复杂任务时,LLM可以按照步骤生成一个计划,将大目标拆解成可管理的子目标。这种能力极大地提升了Agent的自主规划水平,使其可以在多步推理和长程任务上有所作为。

此外,LLM拥有海量的知识和语言理解能力,因而Agent可以利用LLM来获取背景常识,在缺乏外部知识库的情况下仍能进行有根据的决策。例如,一个LLM增强的Agent在医疗问答场景中可以直接依靠模型存储的医学知识给出初步诊断建议,然后再通过工具查询文献验证。这种内置知识丰富性让Agent能够处理开放领域的问题,而不局限于狭窄的预设规则。

在Agent架构中,大模型可以扮演的角色有

其一,作为策略生成器/决策器,根据当前状态和目标直接产出下一步行动或计划。例如在自主对话Agent中,LLM根据对话上下文决定回答、询问还是调用工具。

其二,作为任务规划器,LLM可以阅读总体目标后给出一系列有逻辑的子任务清单,Agent据此逐一执行并动态修正。这方面的例子有前述BabyAGI以及微软提出的HuggingGPT系统——在HuggingGPT中,ChatGPT(LLM)读取用户请求后进行任务规划,将请求拆解成若干步骤并为每步选择合适的专家模型来完成。

LLM还可充当工具调用的接口:通过让LLM输出特殊格式的“动作指令”,Agent能够决定何时调用外部API或工具,再把工具返回的结果融入后续推理。这一思路在ReAct等研究中得到验证:LLM被引导生成交替的“思考(Thought)”和“行动(Action)”日志,边推理边执行外部操作。这种方法让Agent可以一边利用LLM高层推理,一边通过检索知识库或调用计算工具获取所需信息,从而将LLM的语言能力与外部环境交互有机结合。

2.多步推理和复杂决策

LLM使得Agent在解决复杂问题时表现出超越以往的能力。

首先,LLM能够进行连贯的多跳推理。传统Agent在长链推理时容易因为中间步骤错误导致最终失败,而带有Chain-of-Thought(思维链)提示的LLM可以一步步展开推理过程,降低了跳跃性错误。例如,在回答需要综合多条资料的问题时,LLM-Agent可以先让模型思考哪些资料可能相关,然后指导其调用搜索工具获取资料,再整合信息得到最终答案。这种分解使模型的每一步都有据可查,降低了幻觉(hallucination)和推理混乱的风险。

实验表明,采用ReAct框架(交替推理和行动)的LLM-Agent在开放域问答和事实核查任务中有效缓解了纯思维链方法中常见的幻觉问题,通过与外部百科接口交互,答案的准确性和可信度都有所提升。

其次,在复杂决策场景,LLM-Agent展现出评估和权衡的能力。 LLM可以在内部模拟多种方案,并给出对各方案的分析,近似实现“头脑风暴”式的决策支持。例如,在投资组合优化场景下,一个LLM驱动的金融Agent可以同时考虑多种市场情景,分析不同组合的风险收益,然后推荐较优的策略。这种能力过去往往需要手工设计算法或专家知识,如今LLM的出现使Agent能够以通用推理的方式处理决策问题。

第三,LLM-Agent在自动化长任务上展现出前景。 过去,让AI连续执行一个长达数小时甚至数天的复杂任务几乎是不可能的,因为需要面对各种不可预知的情况并灵活应对。LLM提供的语言策略生成使Agent能够在任务进行过程中实时调整计划。AutoGPT的实验显示,LLM-Agent可以完成如“从网络收集信息->分析->撰写报告”这样需要多步骤、多工具协作的任务。这类任务以往需要人工将不同AI工具串联,而现在Agent本身就能通过LLM的决策将流程连接起来。

这预示着在未来,高度复杂的流程自动化将成为可能:从产品设计、数据分析到业务决策,Agent都可能接手执行诸多子任务,并且仅在关键决策点征询人类反馈。麦肯锡的分析亦指出,生成式AI正从提供知识的聊天机器人,进化到可以执行复杂多步骤工作的“代理”,实现从“思考”到“行动”的飞跃。

四、发展方向与挑战

1.挑战

尽管Agent技术取得了显著进步,尤其是在引入大模型之后,仍有若干关键挑战亟待解决。

(1)推理可靠性问题

LLM驱动的Agent有时会产生“幻觉”——输出看似合理但实际错误的判断,或在多步推理中引入逻辑谬误。这种幻觉和错误传播可能在长任务中累积,导致最终结果偏离预期。如果Agent自主执行关键任务(如财务决策、控制机械设备),这样的不可靠推理显然是高风险的。因此,提高Agent推理的准确性和稳健性至关重要。目前,一些方法如引入自我反思(让Agent审查自己的思维链)或外部校验(通过冗余Agent互相检查)正在探索中,以减少推理失误。

(2)可控性挑战

高度自主的Agent可能会走意外路径,例如,为达成目标采用了人类未预料的方法,甚至违背初衷。如何让Agent的自主性在有边界的情况下发挥作用,避免“跑偏”,涉及到安全约束和人类监督机制的研究。

  • 监督机制:需要在架构上给予人类中途干预或监督的接口,例如在重要决策点请求人工确认。
  • 行为约束:在模型层面融入约束条件或奖励设计,引导Agent行为符合人类价值。这延伸出**AI价值对齐(Alignment)**的难题,即如何确保Agent的内部目标和策略与设计者的意图一致,避免敌对或有害的行动。

正如AI学者Yoshua Bengio警示的,如果一个AI具备自主规划和行动能力,而其目标在恶意者手中被滥用,或者AI产生了自我保存等隐含目标,就可能与人类利益相冲突。例如,一个过于自主的Agent若将“自我生存”作为首要目标,可能会抗拒被关闭,甚至采取极端手段保证自身持续运行。虽然这种情况目前仍属极端假设,但它强调了目标可控性的重要性:我们必须能定义和限制Agent的目标范围,并防范潜在的目标漂移。

(3)长任务规划与记忆挑战

现有的大模型虽然在数千字上下文内表现出色,但对涉及数万步、跨越数天的任务仍力有不逮。Agent需要处理超长时序的计划,并记住早期步骤的细节和中间结果,这要求存储和检索大量信息。

  • 存储和检索:向量数据库、长短期记忆模块可以部分解决,但如何让Agent有效“记住”并“理解”自己的过去行为,仍是持续自适应的一大难题。
  • 上下文窗口限制:现有大模型的上下文窗口有限,长时间运行的Agent可能遗忘早期信息,因此需要分段规划、阶段性总结等策略加以缓解。

(4)环境适应性挑战

当Agent部署在现实世界或动态复杂环境中,它必须适应不断变化的情境、噪声和未见过的事件。这要求它具备领域自适应能力,能够将已有知识迁移到新情况,或通过在线学习快速调整策略。例如:

  • 家庭机器人:需要适应不同家庭的摆设和主人习惯。
  • 金融交易Agent:需要根据市场突发变化调整策略。

这涉及强化学习、元学习、自主探索等技术的融合,让Agent更趋于持续学习者而非固定程序。近期的Voyager实验朝这一方向迈出了步伐,通过持续与环境交互积累技能,实现了开放世界中的自主适应。但在更广泛应用下,实现可靠的环境适应性仍然充满挑战。

2.发展方向

(1)多智能体系统

除了单个Agent,多个Agent的交互与协作(即多智能体系统)被认为是下一阶段的重要方向。

多个Agent之间可以分工合作,互相竞争,或通过通信形成群体智能。这种架构有望解决一些单智能体难以胜任的问题。一个明显趋势是利用多Agent自博弈来提升智能水平,例如AlphaGo通过多个代理自我对弈实现了超人表现。同理,在复杂决策场景下,让Agent与Agent交互(而非总是与人或静态环境交互),可以产生新的学习动力和策略探索。合作型多Agent系统中,不同Agent可以被赋予不同的专业能力或角色,类似人类团队那样各司其职。例如,一个复杂项目的AI团队里,可能有的Agent擅长规划,有的擅长执行代码,有的负责监控和纠错。通过协议,这些Agent可以交流信息、同步进度,完成单个Agent无法独立完成的宏大任务。

最近的一些研究让两个LLM代理互相对话来完善答案或方案,发现确实能提高结果质量,因为不同代理相当于提供了多元视角和审核机制。这类似于人类“四眼原则”,即两个独立智能体互相检查减少错误。

未来,多Agent有望在复杂环境建模、博弈决策、智能体博弈等方面取得突破。例如,在模拟经济或交通这样的复杂系统时,使用多个Agent模拟不同参与者的行为,可以产生逼近真实的涌现现象,从而测试各种政策的效果。再如,在Internet环境中部署的自主Agent,可以组成协作网络,共享信息以完成跨地域、跨领域的任务。然而,多智能体也带来新的挑战,如协调与通信问题:Agent如何形成共享协议语言高效交流?如何避免Agent之间出现不良竞争或冲突?这些都需要制定机制(比如契约网络协议或博弈均衡策略)来管理。多Agent系统的稳定性也是研究重点——因为每个Agent的学习行为会改变环境,对于其他Agent来说环境是非静止的,这使得收敛分析更加复杂。一项综合调查指出,让Agent能够建模和预测其他Agent的行为是实现稳定多Agent系统的关键开放问题之一。

(2)多头技术结合

为了进一步增强Agent的能力,研究者正尝试将Agent与强化学习、自监督学习、世界模型等前沿技术相结合。

一方面,模型辅助的强化学习为Agent提供了更强的规划能力:通过学习环境的世界模型(即能够预测环境动态的内部模型),Agent可以在内部模拟多步结果,再选择最优行动,而无需完全依赖实时试错。这类似于人会在脑海中“想象”行动后果以做决策。DeepMind的MuZero算法将强化学习与学得的环境模型结合,在棋类和Atari游戏中取得了优秀成果,就是这种思路的例证。同样,未来的Agent或许会训练自己的世界模型网络,用于复杂环境下的预判和风险评估,以减少真实环境中的代价试错。

另一方面,自监督学习可以赋予Agent更丰富的常识和表示学习能力。例如,Agent可以在大量无标签数据(视频、文本、模拟环境)中自我训练,学到关于物理世界、人类行为模式等的表征,这将在其执行具体任务时提供先验知识支撑。OpenAI等机构也在探索让语言模型通过阅读百科和网页自我训练,提升事实准确性和推理一致性。对于物理世界的Agent(如机器人),嵌入式的视觉模型可以通过自监督训练理解物体概念、空间关系,使机器人Agent具备类人常识。这些技术的融合有望突破目前Agent的局限:比如一个结合世界模型的Agent在下棋时可以在脑海中搜索未来几步的局面(提高策略最优性),在导航时可以规划路径避开可能的危险区域;结合自监督学习则让Agent在陌生情境下也有基本常识指导,不至于做出荒谬行为。

我们认为Agent的发展正朝着综合智能方向迈进,即将不同AI范式的优势融于一身:既有深度学习带来的感知与模式识别能力,又有符号方法提供的逻辑与知识,以及强化学习给予的试炼提升能力。这将造就更健壮和灵活的智能体。

(3)伦理、透明性和安全性

随着Agent变得越来越自主和强大,围绕其行为的伦理与安全问题变得日益突出。

决策透明性(Transparency)

当Agent基于复杂模型和大规模数据做出决定时,人类往往难以理解其内部过程。如果Agent应用于医疗诊断、司法建议等敏感领域,缺乏解释的决策可能无法被信任。从技术角度看,未来Agent系统需要在设计上融入可解释AI的原则,例如提供可审计的决策链条(哪怕是LLM的“思维链摘要”)或关键步骤的理由说明。

值得欣慰的是,一些LLM代理方法(如ReAct)天然具备“思维日志”功能,能够记录LLM每一步推理和行动的文本轨迹,使人类可以检查决策过程,从而提升透明度。

安全性与伦理约束

然而,当Agent拥有执行能力时,其被不当使用可能带来实际危害。例如,攻击者可能诱导它调用接口实施网络攻击或生成有害内容。为此,Agent系统需要:

  • 加入安全审查机制:限制其调用敏感操作的权限,并对输出内容进行过滤。
  • 责任归属问题:如果一个Agent的错误决策导致损失,开发者、用户还是Agent本身应该承担责任?当前法律框架尚未覆盖这类新问题,各国和相关机构需尽快制定相关法规。

正如AI专家Yoshua Bengio所呼吁,对于强自治的AI,应当采取审慎监管,例如在部署前进行全面的风险评估和认证。Bengio还建议对“能够自主在现实世界中行动的强大AI”,采取“在未证明安全之前禁止投入使用”的原则。这种前置审查能够防范AI系统以不可控方式影响社会。

在技术层面,还有专家提出,使用AI来监控AI是一种潜在的解决方案。具体而言,可以开发“审计Agent”作为实时监督者,对工作Agent的行为进行风险评估,并及时干预可能的不良行动。

伦理嵌入与多Agent协作

我们期望未来的Agent能够遵循人类价值观行事,例如公平、公正、避免偏见和保护隐私等。这一方向可以通过在训练中融入人类反馈(RLHF)或设定明确的伦理约束来实现。

在多Agent交互情况下,也需要防止它们协作形成对抗性行为或串谋作弊。例如,多个Agent在交易场景中可能会无意间触发反竞争性策略。这表明,在多Agent系统中,还需研究其协作和博弈策略的约束机制。

参见

[1] Durante Z, Huang Q, Wake N, et al. Agent ai: Surveying the horizons of multimodal interaction[J]. arXiv preprint arXiv:2401.03568, 2024.

[2] Xi Z, Chen W, Guo X, et al. The rise and potential of large language model based agents: A survey[J]. Science China Information Sciences, 2025, 68(2): 121101.

[3] Lyzr AI. AI agents for stock market: The future of investments. 2023. Retrieved from https://lyzr.ai.

[4] Hitachi DS. AI-powered GRC in banking – Part 2. 2023. Retrieved from https://hitachids.com.

[5] Shen J, et al. Artificial intelligence versus clinicians in disease diagnosis. JMIR Medical Informatics, 2019. Retrieved from https://pmc.ncbi.nlm.nih.gov.

[6] Fox News. ChatGPT outperformed doctors in diagnostic accuracy, study reveals. 2024. Retrieved from https://livenowfox.com.

[7] DigitalDefynd. Agentic AI in healthcare – 5 case studies. 2025. Retrieved from https://digitaldefynd.com.

[8] AONL Voice. Using robotics to remove staff delivery tasks. 2022. Retrieved from https://aonl.org.

[9] MDPI Sensors. Multi-agent RL for traffic flow of autonomous vehicles. 2023. Retrieved from https://mdpi.com.

[10] Waymo. New data on Waymo driver performance. 2023. Retrieved from https://waymo.com.

[11] Weng L. LLM powered autonomous agents – Fig. 13 Generative agent architecture. 2023. Retrieved from https://lilianweng.github.io.

[12] NVIDIA Blog. Voyager: An open-ended embodied agent with GPT-4. 2023. Retrieved from https://blogs.nvidia.com.

[13] Wikipedia. Intelligent agent. Retrieved from https://en.wikipedia.org.

[14] Wooldridge M. What agents aren't: A discussion paper. IEE Colloquium on Intelligent Agents, 1996. Retrieved from https://digital-library.theiet.org.

[15] SmythOS Blog. Agent architectures in robotics. Retrieved from https://smythos.com.

[16] Panesar A. Machine learning & AI for healthcare: Intelligent agents learn heuristics. 2017. Retrieved from https://pmc.ncbi.nlm.nih.gov.

[17] SmythOS Blog. Cognitive agent architectures. Retrieved from https://smythos.com.

[18] Talukdar W. Autonomous AI agents: Leveraging LLMs. IEEE Computer Society, 2025. Retrieved from https://computer.org.

[19] Arya N. AutoGPT: Everything you need to know. KDnuggets, 2023. Retrieved from https://kd Nuggets.com.

[20] Ruczynski K. BabyAGI explained. Wordware, 2024. Retrieved from https://wordware.ai.

[21] NVIDIA Technical Blog. Introduction to LLM agents. Retrieved from https://developer.nvidia.com.

[22] Talukdar W. Autonomous AI agents. IEEE Computer Society, 2025. Retrieved from https://computer.org.

[23] Yao et al. ReAct: Synergizing reasoning and acting in LLMs. 2023. Retrieved from https://arxiv.org.

[24] Shen et al. HuggingGPT: Solving AI tasks with ChatGPT. 2023. Retrieved from https://arxiv.org.

[25] Wang et al. Voyager: An open-ended embodied agent with LLMs. 2023. Retrieved from https://arxiv.org.

[26] Panesar A. Value alignment issue in ISAs. 2017. Retrieved from https://pmc.ncbi.nlm.nih.gov.

[27] Bengio Y. AI scientists: Safe and useful AI? 2023. Retrieved from https://yoshua bengi o.org.

[28] Lumenova AI Blog. AI agents: Potential risks. Retrieved from https://lumenova.ai.

[29] Albrecht S, Stone P. Autonomous agents modelling other agents: A survey. Retrieved from https://en.wikipedia.org.

暗涌系列:Ark Invest《Big Ideas 2025》报告浅析 Part 1

:::note 在看似平静的水面之下,总涌动着改变世界的力量。

作为专注科技创投领域的观察者,我新建了「暗涌」系列,识图捕捉哪些尚未形成滔天巨浪,却已积蓄势能的产业暗流。在这里,你可能看到:

  • 深度解构:穿透创业公司的PR话术,拆解独角兽的底层技术栈与商业模式
  • 趋势前瞻:保持对市场的敬畏,在大趋势下捕捉潜在的超额收益
  • 范式转移:追踪技术成熟度曲线的陡峭转折点,捕捉范式转换期的非共识机遇

首篇聚焦ARK Invest《Big Ideas 2025》,让我们从木头姐的前沿预判中,解码那些正在重塑全球产业格局的隐秘力量。

水面之下,方见真章。 :::

ARK Invest 由凯瑟琳·伍德(Catherine Wood,业内称“木头姐”)创立,是一家专注于科技创新与数字资产投资的基金管理公司。目前,该公司共运营 14 只 ETF,覆盖多个前沿技术领域,其中 6 只主动管理型科技创新 ETF 的资产管理规模已达 302 亿美元。自 2017 年以来,ARK 每年发布《Big Ideas》报告,以深度研究和独到见解成为全球科技创业者与投资者的重要参考。

2025 年 2 月,《Big Ideas 2025》如期发布。作为 ARK 以实战押注科技变革的核心指南,本年度报告重点剖析了人工智能(AI)、机器人、能源存储、公共区块链和多组学测序五大技术领域,系统梳理产业格局,揭示未来趋势。

报告涵盖产业/领域:

  • 人工智能代理(AI Agents)
  • 比特币
  • 稳定币
  • 区块链扩展
  • 自动驾驶出租车
  • 自动化物流
  • 能源
  • 机器人技术
  • 可重复使用火箭
  • 多组学(Multiomics)

报告的几个观点洞察

我觉得在具体分析这份报告之前,我们需要先思考几个问题:

1.这篇报告为什么关注这几个领域?这些领域的独特价值是什么?

要理解ARK Invest的关注逻辑,我们需要从它的核心投资理念出发。ARK始终保持着对于「颠覆性创新」的投资信仰,他们投资有三个核心判断标准:是否具备成本下降曲线是否形成网格效应是否创造增量市场

基于这个框架,我们可以解读ARK的领域选择逻辑:

(1)AI Agent正处于“Iphone时刻”

AI agent的价值突破在于其边际成本正以指数级下降,当顶级大模型的调用价格变成白菜价,同时推理速度在技术优化迭代下持续提高,那么原本很多迫于成本和延时没办法部署的场景现在和未来都会变得很具想象力。大模型价格战自DeepSeek v2推出时开打,大模型正式进入1元/百万tokens时代;后续DeepSeek r1更是将世界顶尖水平的推理模型推理价格拉到平民价。

此外,以 DS、 Llama 和 Qwen 为代表的巨头开源力量允许模型普惠化去中心化,开发者和其他公司可以在自己的GPU集群里部署企业级推理服务,进一步降低了企业部署AI Agent的门槛。这个趋势类似于云计算的演进——当AWS、GCP等云服务商使计算资源成本下降后,SaaS应用迅速崛起。当模型综合调用成本远低于人工成本时时,智能客服、法律文书处理、编程辅助等场景将涌现出「AI原生工作流」,形成开发者生态与用户需求相互激发的网络效应。这种模式不简单替代人力,而是创造出万亿级的智能服务增量市场。

(2)区块链基础设施开始支撑主流金融应用

ARK对区块链的关注由来已久,本次的《Big Ideas 2025》依然将其作为重点方向之一。

:::note 不过ARK他们好像只关注比特币的投资价值,没太说其他在金融技术层的建构,我不知道是他们认为这玩意投资人看不懂还是压根就不信 :::

我认为当前的区块链技术确实正在从单纯的「加密资产」阶段逐步演进为一个支持全球范围内金融和数据流通的「去中心化信任层」。交易成本下降两个数量级(从以太坊主网每笔交易数美元降至Layer2的0.01美元量级)、结算速度突破千倍提升(Optimism等Rollup链实现秒级确认)、合规框架趋于完善(欧盟MiCA法案落地)三大突破,使区块链技术首次具备支撑万亿级金融应用的技术-经济可行性。

区块链的核心价值可以拆解为以下几点:

  • 去中心化结算网络:相比传统金融系统,区块链网络能够提供更高效、透明的全球结算方案。稳定币(如USDC)已经成为跨境支付的重要工具,而基于智能合约的去中心化金融(DeFi)则提供了全新的资产管理和借贷模式。
  • 可编程金融:智能合约的引入,使得金融应用可以以代码的方式运行,去除中介,提高效率。如以太坊生态中的L2扩展方案(如Arbitrum、Optimism)正在推动DeFi的主流化应用,提供更低成本、更高吞吐量的交易环境。
  • NFT与数字身份:大模型说这玩意有价值,但我觉得难说。

(3)大模型加持下的智驾自动物流正式开始高速商业化

智驾和自动物流的商业化突破本质上也是多模态大模型技术红利硬件成本下降曲线的交汇产物。

之前的智驾系统曾受限于高昂的长尾问题处理成本:激光雷达+高精地图方案单车成本过高难以落地,传统算法面对极端场景(如暴雨中的临时路障)需要耗费大量的标注数据且效用难以令人满意;22、23年后大模型驱动的智驾方案(如特斯拉的FSD V12和华蔚小理的智驾方案)通过多模态感知融合+端到端技术让系统首次具备人类水平的判断驾驶能力。

根据高盛团队的测试体验、众包数据以及第三方评价,FSD V13的关键干预距离达到了400-450英里之间,97%的驾驶过程中无需发生干预,当搭载智驾大模型的车辆突破临界规模,实时驾驶数据回流-模型迭代-OTA升级形成的循环加速可以进一步推动智驾能力指数级增长。随着Dojo超算投产,模型训练成本进一步降低,意味着L4级自动驾驶的经济可行性正在逼近临界点。

当然,大模型的影响力不仅限于乘用车,还在重塑全球物流产业。中美两国都有大批智驾独角兽在测试L4级的自动驾驶卡车,逐步替代传统的双驾驶员模式,大幅降低人力成本的同时还可降低车祸/故障风险。末端物流领域,我们同样可以期待低空经济框架下美团无人机配送网络和菜鸟快递无人配送网络的入场。

致敬传奇内斗之王纳斯达克上市企业图森未来

除开硬件,软件方面的变革更具想象力。主机厂正在从传统制造商向数据运营商转型,依靠智驾订阅获取更长周期的用户价值;保险行业也随之变革,Progressive等保险公司已开始采用智驾安全评分进行动态定价,推动车险模式从「风险对冲」转向「技术服务费」模式。自动驾驶不再只是一个汽车行业的技术升级,而是一个规模比传统汽车产业大10倍的全新市场空间,覆盖数据服务、智能基建、能源网络等多个维度,开启了「软件吞噬交通」的新时代。

(4)具身智能革命进入成本临界点

具身智能(Embodied Intelligence)是指拥有物理身体、能够进行感知和行动的智能系统,强调机器对环境的交互能力。通俗一点讲,就是让人工智能“长”出躯体,在真实世界中理解、决策并执行任务。近年来深度学习、强化学习等AI范式飞速进步,大模型在前沿探索的过程中逐步融入机器人决策中,使机器具备了更强的语言、视觉理解和规划能力。

核心技术方面,具身智能依赖多领域协同:高算力且低功耗的芯片,视觉、听觉、触觉等多模态传感器,精密伺服电机与控制器,以及云计算和大数据支持下的智能算法。这些要素的成熟共同奠定了具身智能革命的技术基础。

为什么我说具身智能革命正在进入成本临界点呢?

  • 硬件成本:机器人的制造和组件成本正快速降低。以工业机器人为例,其全球平均价格已从2010年的约4.6万美元降至2017年的2.7万美元,并预计到2025年进一步降至约1.09万美元。根据经验曲线模型,每当累计产量翻番,成本就会下降固定比例(被称为“莱特定律”)。历史数据显示机器人领域的学习率约为50%,意味着产量每翻一倍,成本可减半。也正是我们的ARK Invest预测,到2025年工业机器人单价将低于1.1万美元,远低于传统预测,届时机器人需求将因成本触底而出现拐点式增长。实际案例也印证了成本的快速下滑:机器人的核心零部件如高精度传感器、减速器、伺服电机等过去昂贵且依赖进口,如今在技术进步和国产化推动下价格显著下降。例如曾经每台数万美元的激光雷达,现在部分型号已降到千元美元级别。人形机器人的硬件总成本目前约为5万美元,其中AI“大脑”、传感器芯片、伺服电机等单项成本均在1万美元左右,但随着设计优化和规模生产,这些模块的单价正逐步压缩。
  • 计算和算法成本:人工智能模型的训练和推理成本也在下降。一方面,芯片算力提升使单位计算成本降低;另一方面,云计算和开源软件生态降低了机器人开发门槛。例如Robot Operating System (ROS)等开源机器人操作系统的普及,使厂商无需从零开发软件,大大节约了开发成本。目前具身智能的大脑——大模型虽然训练代价高昂,但可以通过一次训练服务于无数机器人应用,摊薄了单个机器人实现复杂智能行为的AI成本。未来完全通过让单个大模型大脑控制多个机器人,实现“一脑多机”,这有望在未来进一步降低具身智能系统的人均智能成本。
  • 制造与数据成本:规模化生产带来的单位制造成本降低也非常明显。以人形机器人为例,特斯拉计划在2027-2028年实现每年数十万台的人形机器人量产。虽然这一目标可能偏乐观,但包括特斯拉在内的多家公司正致力于将机器人生产从实验小批量提升到类似汽车的大规模流水线。麦格理研究预计,随着产量提升,人形机器人的平均售价将从2026年的约7.4万美元大幅降至2035年的约2.2万美元。这意味着十年出头成本将削减70%以上,进入普通企业甚至消费者可承受的区间。同样,中国初创公司宇树科技近日发布其人形机器人G1量产版,起售价仅为9.9万元人民币,远低于业内普遍动辄数十万的价格。

宇树科技公司创始人表示,这一低价得益于复用之前机器人狗成熟技术,对电机、结构、传感器等零部件的精准成本控制。他也强调,随着出货量增加,价格有望进一步亲民,这是任何产品规模化后的自然趋势。由此可见,机器人从试验品走向商品化,其成本拐点已近在眼前。

:::note 宇树科技,很神奇吧 :::

(5)能源生产

这块其实有点老调重弹的味。大家年年都知道可控核聚变重要,成功就会颠覆全世界,都知道托卡马克xxxxxx,但年年又距离实现可控核聚变还差五十年。

旧能源+光伏所有人都知道是红海市场,再怎么炒概念也没啥分析价值,整条产业链上限就到此为止;像可控核聚变这种高新硬科技我又没能力去做真正有价值的分析,所以这部分就不写了。

(6)多组学革命

理论上,多组学技术的突破可以大幅降低单人类全基因组测序成本和CRISPR基因编辑效率,单细胞测序成本的快速降低也可推动癌症早筛和免疫微环境研究相关方面的研究;在传统药物研发领域。2023 年,AlphaFold2RoseTTAFold 等 AI 模型成功预测了几乎所有已知蛋白的三维结构,这一突破大幅加速了新药靶点的发现,AlphaFold3作为新一代模型性能更具想象力,AI将药物研发成本压缩70%,平均周期从10年降至3-5年。

但!

这方面我基本上是纯白痴,所以这里仅仅援引公开新闻报道观点,具体真实性我先存疑,毕竟技术从实验室到真正走上生产环境要走的路还是非常漫长的。

总结

能源革命支撑算力技术设施训练出更大更强的模型,Transformer架构+大模型加速具身智能算法迭代,具身智能进一步解放生产力替换低端岗位,多组学突破则又进一步依赖计算生物学的进步,广领域多头技术融合产生的“乘数效应”给予了ARK Invest投资极为庞大的想象空间。

2.这篇报告是给谁看的?

《Big Ideas》系列是一份面向长期投资者的硬科技路线图,其核心读者群体可分为以下四类:

(1)机构投资者:追求超额收益

传统资产管理机构(如养老金、主权基金)面临低利率时代下的收益焦虑,但受制于合规框架和短期考核压力,难以直接押注早期技术。他们需要一份具备前瞻性框架的报告,既能捕捉技术革命的早期信号,又能提供系统性风险评估逻辑。ARK通过拆解「成本下降曲线→网络效应→增量市场」的递进关系(例如AI Agent从技术突破到生态爆发的路径),帮助机构投资者建立对新兴领域的非线性增长预期,同时通过历史数据(如Agent渗透率曲线对比)验证其假设的合理性。

(2)科技创业者:验证赛道选择与商业模式设计

很多创业者,尤其是科创领域经常会陷入「技术迷恋」和「市场需求脱节」的矛盾。

是的,零X万物,说的就是你

报告通过技术-经济可行性分析(大模型成本降低后企业级代理市场的扩展)为创业者提供「技术落地临界点」的判断标尺,影响创业公司产品定义策略(选择高单价工业场景还是低单价消费场景)。

(3)政策制定者:预判技术冲击与监管沙盒设计

监管机构需要在技术创新与系统性风险之间平衡,例如自动驾驶事故责任认定、区块链跨境支付与反洗钱冲突等。报告可以通过量化技术扩散速度为政策响应预留时间窗口,给政策制定者提醒建立弹性更强的沙盒机制。

(4)企业战投部门

企业战投部门(CVC,Corporate Venture Capital)和传统GP/LP机构的目标其实并不太一样。传统财务投资者的核心逻辑是「投赛道、赌概率、求退出」,通过分散投资组合捕捉市场β收益,最终依赖IPO或并购实现资本增值;而企业战投的核心目标则是「控生态、锁资源、抗颠覆」,其投资行为本质上是母公司战略的延伸,需要将技术趋势转化为企业自身的竞争壁垒风险缓冲垫

  • 补全技术短板:当母公司主营业务面临技术断层风险时(例如传统车企在智驾算法上的滞后),CVC需要通过投资快速获取关键技术能力。ARK报告中强调的「成本临界点分析」为此类投资提供了精准的窗口期判断。例如,若AI Agent的边际调用成本在2025年降至人工成本的1/10(报告中预测数据),零售巨头可能会提前收购客服对话引擎初创公司,避免自身呼叫中心被低成本AI服务商颠覆。

一个很经典的例子就是亚马逊2012年收购Kiva Systems(仓储机器人公司),正是预判了物流自动化成本曲线下探的趋势。 造不如买,买不如收购!

  • 卡位式投资:在技术扩散初期,通过投资关键节点公司控制生态入口。ARK对区块链Layer2网络「交易成本突破0.01美元」的测算,解释了为何摩根大通等金融机构在2023年密集投资Polygon、StarkWare等扩容方案——谁能主导低成本结算层,谁就能在未来跨境支付网络中掌握定价权。

这块我觉得阿里挺经典的。23年大模型投资热潮开始,国内基本上所有有头有脸的大模型独角兽阿里都参股投资了。

  • 应对跨界颠覆(防御式投资):大模型等通用技术可能催生行业外的「野蛮人」(如字节跳动借助推荐算法颠覆内容产业)。主机厂们未来最大的竞争对手可能不是宝马丰田这种传统势力,而是而是拥有自动驾驶数据和用户入口的科技公司(如Waymo、高德甚至美团)。

当然还有我们的华为。出卖灵魂你们车厂懂伐?

(5)其他

ARK写这份报告我觉得还有潜藏的意思,就是通过渲染「颠覆性创新」的史诗感,强化ARK在科技投资领域的思想领导力,吸引更多资金流入其ETF产品。在预期管理方面,可提前向LP传递「非共识投资」的必要性(例如忍受机器人领域短期亏损以换取指数级回报),降低业绩波动引发的赎回压力。事实上,报告中「成本临界点」的反复强调本质是在构建一套对抗传统估值模型(如DCF)的叙事体系。

前言

这部分主要还是分析师的宏大叙事,主要目的是让各位投资者放心的投资未来。

人工智能、储能和公共区块链的进步对技术发展的步伐至关重要。

在颠覆性技术中,神经网络是最重要的催化剂。根据ARK Inverst的研究,神经网络的进步将使得其他14项技术中至少6项的价值提升至少一个数量级,从而为下一代云技术、智能设备、自动驾驶、人形机器人、精准医学和多组学技术带来巨大的市场扩展。

image.png

ARK团队认为的十四项技术

一、AI Agent

首先我们得给AI Agent一个定义。

AI代理是一个通过自然语言理解意图,利用推理和适当的上下文制定计划,使用工具采取行动以实现意图,通过迭代和持续学习自我改进的技术实体。

image.png

目前主流的agents都处于孤立的单用途代理场景,未来会逐步发展平台级代理和最广泛的通用代理。

1.AI搜索+购物

image.png

ARK主要认为agent在未来搜索+购物领域大有可为,其实也好理解,毕竟最终消费掏钱的还得是人嘛。

2.企业生产力

(1)掠过消费场景,看企业生产力场景:

在The Enterprise中,agent将通过软件提高生产力。部署智能代理的公司能够在相同人力资源的情况下增加单位产量,和/或优化人力资源以转向更高价值活动。随着人工智能的发展,agent有可能承担更高比例的工作负荷,并独立完成更高价值的任务。

image.png

降本增效.jpg

我之前见过很脑残的反驳,说为什么ai不会替代人力劳工:

如果工作岗位都用ai来做,那资本拿什么剥削员工?

这种就属于念经念傻了,或者没读过正儿八经的经书。资本的最终目的是增值,剥削只是增值过程中非常好用的手段之一,如果资本不剥削就可以快速自我增值甚至效果还更好,那为啥还要剥削人?

随着模型性能提高+成本快速下降,这一趋势将显著影响代理经济学:

OpenAl 和Salesforce的新产品正在以经济高效的方式补充人工客服Agent。即使每次对话的固定成本为1美元,一旦AI代理能处理35%的客户服务咨询,它们就能为企业节省大量资金。AI代理还应降低入职和招聘成本,以及基于座位的软件成本,同时在扩展方面比人力更容易。

(2)AI Coding赛道:AI正在重塑软件价值链

image.png

不同的大模型在实际编程任务解决中的表现

这一章节最后的部分是「AI将极大地增强知识工作」,什么意思呢?

(3)AI 正在推动软件的爆炸式增长

  • 预计到2030年,企业将在知识型工作中大幅增加AI软件的使用,以提高生产力。
  • 取决于AI软件的采用率,全球软件支出可能从过去10年14%的年增长率加速到18%-48%

ARK 设想了三种不同的AI投资情境,并分析了它们对就业、自动化、生产力等方面的影响:

指标 保守投资 (Modest Investment) 加速投资 (Accelerated Investment) 快速大规模采用 (Rapid Mass Adoption)
知识型工作者年增长率 6.3% 3.2% 1.3%
2030年自动化的工作时间占比 31% 61% 81%
生产性工作时间减少 0% 8% 20%
创造的生产力盈余 $22万亿 $57万亿 $117万亿
生产力解决方案的价值捕获率 10% 10% 10%
新增软件收入 $2.2万亿 $5.7万亿 $11.7万亿
2030年软件市场规模 $3.5万亿 (18% CAGR) $7万亿 (33% CAGR) $13万亿 (48% CAGR)
  • AI 采用率的提高将减少知识型工作者的增长,同时提高生产力和经济收益。
  • 企业将越来越多地投资AI软件,并减少对人力的依赖。
  • 如果AI被快速大规模采用,全球软件市场可能在2030年达到$13万亿,年增长率高达48%。

中译中就是,传统的中低层知识型员工的生存空间可能被快速压缩。

二、比特币

如果要用一句话概括比特币,那么最简单的描述便是:「一种去中心化的数字货币」。

比特币诞生于2008年,由化名「中本聪(Satoshi Nakamoto)」的匿名人物提出,并在2009年正式上线运行。从技术角度来看,比特币依赖于区块链技术,其核心是一套分布式的、不可篡改的账本系统。与传统货币不同,比特币不依赖任何中央机构,所有交易记录都由全球的矿工节点共同维护,并通过工作量证明(Proof of Work, PoW)机制竞争生成新区块。这种设计确保了比特币的去中心化特性,使其无法被单一机构控制,也极难被篡改或作假。

与传统法币可以由央行无限印钞不同,比特币的总量被严格限定在2100万枚,这一算法层面的设定使其更类似于数字黄金,被许多人视为一种抗通胀的价值储存手段。正因如此,从最初的一文不值,到后来被市场认定为「数字黄金」,比特币的价格经历了惊人的增长,也成为全球金融市场中最具争议性,同时也是最受关注的资产之一。

比特币目前建立了一个成熟的全球货币体系,具有健全的网络基础与日益增长的机构采用率。

image.png

比特币在2024年创下历史新高,并且市场普遍预期特朗普总统任期内会有加密货币市场的重大利好。

1.比特币的原理

基本技术原理一共有三个模块:

(1)区块链架构与分布式账本

比特币运行在区块链之上,即一个由顺序链接的区块组成的公开分布式账本。所有参与比特币网络的节点共同维护这本账本,每个区块记录一批经过验证的交易,并包含前一区块的哈希,从而将区块串联成链。这种链式结构确保交易记录不可篡改且可溯源,全网节点通过点对点网络实时同步新区块,保证账本的一致性。任何人都可以运行节点并持有完整账本副本,实现真正的去中心化。

(2)工作量证明(PoW)共识机制

比特币采用PoW共识来确保新区块的产生和验证。矿工节点通过不断尝试哈希碰撞来竞争记账权:他们搜寻一个随机数(Nonce),使得将该Nonce与区块交易数据一起哈希后的结果满足网络难度要求(如哈希值前若干位为零)。找到合适Nonce的矿工即完成工作量证明并有权将新区块广播全网。其他节点验证该区块哈希及其中交易的有效性后,区块被添加到链上,矿工获得比特币区块奖励作为激励。PoW机制提高了作恶成本,确保攻击者必须投入巨大算力才能篡改历史记录,从而防止双重支付等攻击。正是通过这一“挖矿”过程,比特币网络在无中心机构的情况下达成共识并安全运行。

(3)挖矿经济模型

比特币的货币发行内嵌于挖矿过程之中。最初每个新区块补贴50 BTC,每21万个区块(约4年)奖励减半,目前区块奖励为6.25 BTC,并将持续减半直至约2140年达到2100万枚上限。这一渐减的发行曲线使比特币成为恒量资产,长期呈现通缩性质,不会因超发而通胀。同时,网络每约两周根据全网算力自动调整挖矿难度,以确保出块时间约为10分钟。因此,无论矿工数量多少,出块速率保持稳定,新的比特币发行节奏可预测。矿工通过区块奖励和交易手续费获得收入,其利润取决于币价和运营成本。当币价上升时,挖矿收益提高会吸引更多矿工参与,算力上升;反之币价下跌会令部分矿工退出,算力下降。这个矿工-价格的动态平衡在一定程度上连接了比特币的市场价值与其网络安全(算力)之间的关系。总体而言,挖矿经济模型通过激励机制维系了网络的安全和货币供应的稳定增长。

2.生态拓展:Layer 1 和 Layer 2

(1)什么是Layer 1 ?

Layer 1 是指区块链的底层协议,通常也被称为基础链。例如比特币(Bitcoin)、以太坊(Ethereum)等都属于Layer 1区块链。Layer 1 区块链在设计中追求去中心化与安全性,但在运行效率和可扩展性上面临一定限制。尤其是在高并发场景下,交易速度(TPS,Transactions Per Second)成为一种瓶颈。为了解决这一问题,Layer 1 区块链常常引入共识机制的改进或协议升级。例如,以太坊通过从工作量证明(PoW)转向权益证明(PoS)的转型(即Ethereum 2.0)就是一种尝试,以提高交易速度并降低能耗。

然而,Layer 1扩展性的提升往往是有限的,因为它需要在三角理论(不可能三角:去中心化、安全性、扩展性)中权衡,过度改善某一方面可能损害其他方面。这也就是为什么区块链领域提出了引入Layer 2的解决方案。

:::note 所以,比特币作为Layer 1的数字货币,交易成本相较于现在的其他货币还是比较高的,在比特币基础上建构的DeFi生态也相对比较薄弱。 :::

(2)什么又是Layer 2 ?

Layer 2 是建立在Layer 1基础协议之上的“加速”层,旨在优化区块链的效率和扩展性。简单来说,Layer 2的目标是将一部分计算和交易处理从主链中“卸载”到额外的二级网络,通过分担主链压力来提高整体性能。

Layer 2 的具体实现方式可以分为多种,比如:

  1. 状态通道(State Channels):例如比特币的闪电网络(Lightning Network),通过在链外处理大部分交互,只将最终结果记录到主链上,极大提升了效率。
  2. 侧链(Side Chains):独立于主链但与之互操作的链,例如Polygon,提供更快、更廉价的交易服务。
  3. Rollups:包括Optimistic Rollups和ZK Rollups等,通过将大量交易数据打包后提交到主链,显著降低交易成本并提高吞吐量。

所以,Layer 2实际上就是建构在Layer 1之上,将部分计算打包话链下化计算完成之后再反映到链上的一种技术治理方式,Layer 1 提供底层的安全保障和去中心化特性,而 Layer 2 则通过灵活的扩展方案提高了交易效率和用户体验。在这种协同进化的模式下,区块链技术能够逐步达到大众所期待的“去中心化互联网”:更快、更安全、更可靠的全球价值传输网络。

3.区块链生态

(1)去中心化金融(DeFi)

近年兴起的去中心化金融(DeFi)拓展了区块链的金融应用版图。相比以太坊上繁荣的DeFi生态,比特币在这一领域的直接参与较为有限。由于比特币主链缺乏图灵完备的智能合约能力,其DeFi应用主要通过跨链形式实现,例如将BTC锚定为WBTC等代币在以太坊上使用。整体来看,目前只有极少比例的比特币被用于DeFi协议中:截至近期统计,比特币总市值约8,680亿美元,而其中锁定在DeFi中的价值仅约3.15亿美元,相比之下以太坊链上DeFi锁定价值高达约280亿美元。美国财政部在2024年的一份报告中指出,比特币在DeFi生态中主要扮演价值储存工具的角色,被视为“数字黄金”而非交易媒介。这体现出当前比特币更多被投资者持有用于储值,直接参与DeFi借贷、流动性挖矿等活动的程度较低。一方面,DeFi的繁荣强化了加密资产作为整体的市场关注度,间接提升了机构和投资者对比特币的认可度;但另一方面,以太坊等平台凭借DeFi实用性吸引了大量资金和用户,在一定程度上分流了对比特币的边际投资需求。这种此消彼长的关系需要动态来看:若未来在比特币网络上实现更丰富的金融应用(例如借助侧链或跨链协议),比特币有望进一步巩固其在加密金融体系中的核心地位,并从中获得更高的估值溢价。

(2)Layer 2 扩容方案(闪电网络等)

为提升比特币的交易处理能力和降低费用,Layer 2扩容方案应运而生,其中闪电网络(Lightning Network)是最主要的代表。闪电网络作为比特币之上的第二层协议,通过在链下建立支付通道实现快速且低成本的比特币交易。两方预先在主链上锁定一定金额的BTC后即可频繁地进行链下互相支付,最终再将净额结算回主链。这极大提高了交易吞吐量,使小额支付变得高效可行。

自推出以来,闪电网络的规模不断扩大:统计显示,自2021年初至今,Lightning节点数量增长了105%,已超过17,000个,网络每日可处理价值约8,300万美元的BTC交易。随着更多钱包和交易平台集成闪电网络,比特币作为支付手段的实用性有所增强。然而,当前闪电网络的实际应用仍主要集中在少量小额转账和极客社区中,其对比特币整体需求的拉动有限。值得注意的是,2023年闪电网络生态出现新进展:Lightning Labs发布了Taproot Assets协议,开始支持在比特币/闪电网络上发行稳定币和其他资产。这一创新有望使比特币网络承载多资产转移功能,在不显著增加主链负担的情况下拓展应用场景。从估值角度看,Layer 2方案提升了比特币的可扩展性实用性,有助于强化其“数字货币”属性。如果未来闪电网络能被更广泛采用(例如用于商户支付、跨境汇款等),那么比特币的潜在用户群和交易需求将扩大,从而对价值产生正向影响。但短期内,其影响仍取决于网络效应能否真正建立。

(3)比特币和其他区块链的竞争关系

比特币面临着来自新兴区块链平台的竞争,其中以太坊是最主要的竞争者。以太坊通过智能合约和丰富的去中心化应用,吸引了大量开发者和用户,在功能性上形成对比特币的差异化优势。然而,比特币凭借先发优势简洁稳定的定位,在市值和用户认知上依然占据主导地位。投资者往往将比特币视作加密市场的价值基石和避险资产,而将以太坊及其他山寨币视作风险更高的创新投资标的。这一点从市场表现可见一斑:据IntoTheBlock数据,2023-2024年间ETH/BTC价比一度跌至40多个月低点,反映投资者在动荡市况下更偏好比特币的稳定性而非以太坊的高波动性。

同时,比特币有限供应高度去中心化的特点使其获得了“数字黄金”的共识,这种品牌信任度不是后来者短期内能够复制的。当然,其他公链的创新(如更快的性能、不同的共识机制等)也不断对比特币形成挑战和补充。一些替代币在特定功能上表现出色(例如用于智能合约、隐私保护等),可能分流部分投资资金和使用场景。不过,从长期看,比特币在网络效应(持有者和支持者众多)、流动性深度(市场最广泛交易)以及基础设施(交易所、托管、支付渠道的支持)等方面的深厚积累,构筑了强大的竞争护城河。只要比特币社区能够通过协议升级(如SegWit、Taproot等)逐步提升性能并保持安全性,它将在与其他区块链的竞争中继续保持相对优势。这种竞争环境也提醒我们,比特币的估值不仅取决于自身,还与整个加密生态的此消彼长息息相关——投资者会在不同资产间重新分配资本,但截至目前,比特币依然牢据加密市场的“定海神针”地位。

4.挖矿之外

比特币当前的高估值是多重因素综合作用的结果。

技术原理来看,区块链架构、PoW共识和通缩经济模型奠定了比特币作为稀缺、安全数字资产的基本价值;区块链生态的发展既为比特币带来新的机遇(Layer 2扩容、新应用场景)也提出挑战(来自其他公链的竞争),这些外部环境影响着投资者对比特币前景的预期;链上数据提供了洞察内在供需动态的窗口,HODL比例、活跃地址等指标反映出网络的长期健康增长,为估值提供数据支撑;

市场接受度与安全性方面,机构的参与和监管的完善正在降低比特币的风险溢价,而持续走高的算力与稳健的安全性则增强了市场对比特币承载巨大价值的信任。总体而言,比特币已经从早期的小众试验演变为全球认可的价值储藏和投资资产。其估值逻辑类似于介于技术产品和宏观资产之间的混合体:既要考虑网络技术指标和用户增长这样的“基本面”,也要考虑宏观流动性、市场情绪和制度环境等因素。

比特币能否维持并提升当前估值水平,将取决于其在技术上持续创新和保持安全,在应用上扩大实际使用场景,在生态竞争中巩固地位,并在传统金融体系中赢得更广泛的认可。随着越来越多的数据和研究涌现,我们对比特币价值驱动因素的理解也将更加深入,为投资决策和学术分析提供更完善的框架。

5.ARK Invest核心观点总结:

  • 现货比特币EFT发行速度快积累资金多,未来可期
  • 在第四次减半后,比特币的通胀率降至低于黄金长期供应增长水平,未来可期
  • 比特币的年波动率降到历史最低点,风险调整后的回报率仍然优于大多数主要资产类别,值得投资
  • 尽管减半后矿工收入大幅下滑,但比特币的算力仍然创下历史新高(区块链的维护者的长期信仰坚定,不用担心崩盘)
  • 闪电网络未来可期,比特币交易量激增,流动性有保障
  • 比特币在2024年吸收了主要的抛售压力,未来大幅回撤概率小
  • 越来越多的上市公司现在持有比特币,你的同事上司都买了你不买就是吃大亏
  • 2024年比特币的总成本基础创下新高,因为大家都想赚钱所以比特币未来的估值会越来越高
  • 最后,比特币正按部就班地向我们2030年的价格目标迈进,熊市30万刀正常71万刀牛市150万刀,好大的一个饼

image.png

三、稳定币

在我们人类世界的货币演进过程中,黄金的物理重量、纸币的防伪水印、银行账户的电子符号和投资者账户上的债券期权等本质上都是不同形态的信用凭证。移动互联网革命后,我们突然意识到区块链正在重构概念上的货币——新系统既继承了中央银行对货币创造的垄断权(通过算法发行),又保留了传统货币最重要的稳定基因。稳定币(Stablecoin)正是这种双重属性的完美融合,你可以像法币一般具有锚定的购买力,又具备加密货币的链上流动性。

这类数字货币通常采用三种锚定机制:最保守的 USDT 将美元现钞锁进银行金库,以1:1储备铸造链上代币;更具加密原教旨色彩的 DAI则以超额加密资产为抵押,在去中心化协议中维持价值稳定;最大胆的算法稳定币如 UST(已崩溃)则试图用数学方程式替代真金白银,通过供需调节机制维系虚拟信用。

后续有机会的话我还挺想写篇博客去分析UST

1.稳定币的发展历程

(1) 早期稳定币

稳定币(Stablecoin)是在加密货币领域中用于保持价格稳定的数字资产。

早期的稳定币概念可以追溯到2014年,当时出现了世界上第一批稳定币项目,例如BitUSD和NuBits。BitUSD于2014年7月21日在BitShares区块链上推出,由加密货币(BitShares平台的BTS代币)作为抵押品来支持其价值。NuBits则于2014年9月推出,采用有争议的“铸币税”(Seigniorage)算法机制来调节供应,以尝试维持与美元的锚定。这些早期稳定币是开创性的尝试:BitUSD开创了用加密资产抵押来维持稳定价值的模式,NuBits则探索了算法调节供应的模式。然而,这两者最终都未能长期保持与美元的平价——BitUSD在2018年末失去了与美元1:1的锚定(价格跌至约0.8美元),NuBits甚至因机制缺陷导致价值较发行目标贬损了94%。这些早期案例表明实现价格稳定对于纯粹依靠加密资产或算法的模型是极具挑战性的,为后来的稳定币发展提供了经验教训。

(2)Tether(USDT)的推出及影响

2014年末,一种由法定货币支持的稳定币开始出现,即Realcoin项目,不久后更名为Tether(USDT)。Tether于2014年由Tether有限公司推出,并在2015年由交易所Bitfinex率先引入市场交易。作为第一个由法币储备支持的大型稳定币,USDT开创了通过法币抵押保持价值稳定的模式——每发行1枚USDT代币,理论上都有1美元的储备作为支撑。Tether的出现对加密市场产生了深远影响:它为交易者提供了在加密货币和法币之间快速切换的工具,极大提升了市场流动性和资金进出效率。随着加密市场的扩张,USDT的发行量迅速增长,成为交易量最大的加密资产之一。例如,截至2023年1月,USDT流通市值约678亿美元,占所有稳定币市值的近一半;其在中心化交易所的交易量份额更是超过75%,远超其他稳定币。

然而,Tether在发展过程中也伴随着争议和风险。一方面,其规模效应使其成为整个加密生态的重要基石;另一方面,市场对其法币储备的透明度和合规性提出质疑。Tether公司曾卷入储备金不足和资金挪用的指控:例如,2019年纽约州检察长调查发现其关联交易所曾挪用约7亿美元的储备填补资金缺口,引发了监管罚款和和解。另外,2017年Tether曾遭遇黑客事件,3,100万USDT被盗。尽管如此,Tether基本维持了代币1:1锚定美元的承诺,其价格绝大多数时间紧贴1美元。在2022年5月TerraUSD(UST)崩盘引发市场恐慌时,USDT价格一度短暂下跌至约0.96美元,但很快恢复到接近1美元,并且Tether公司继续兑现1:1赎回。总体而言,USDT作为第一大稳定币,在推动稳定币概念普及和提供市场流动性方面具有里程碑意义,但其集中式模式也使其受到监管关注和信任度考验。

(3)去中心化稳定币(DAI)的发展

随着稳定币概念的发展,社区开始探索更去中心化的稳定币模式。2017年底,MakerDAO项目推出了去中心化稳定币Dai(DAI)。与USDT依赖法币储备不同,DAI通过超额抵押加密资产来维持与美元的锚定率。MakerDAO的用户可以将以太币等加密资产锁定在智能合约中,生成对应价值的DAI;为了应对抵押品价格波动,系统要求抵押品价值超过生成DAI的价值(例如150%或更高),并通过链上清算机制保证DAI的足额抵押。这种模式实现了稳定币发行和管理的去中心化:无需中心机构背书,全靠智能合约和社区治理维护稳定。DAI的出现被视为稳定币领域的“圣杯”式创新——既保持了价值稳定,又不依赖传统金融资产。

在实践中,DAI的发展经历了逐步壮大并融入去中心化金融(DeFi)生态的过程。2018-2019年,DAI主要以单一抵押品(ETH)运作,后来扩展为多抵押品DAI,引入更多种类的加密资产作为抵押,甚至包括一些现实世界资产和其他稳定币,以提高稳定性和流动性。DeFi热潮中(2020-2021年),DAI的发行量快速上升,一度超过90亿枚,成为仅次于USDT和USDC的主要稳定币之一。许多去中心化借贷平台和去中心化交易所都将DAI作为基础稳定资产。但DAI也面临挑战:例如在2020年3月加密市场暴跌时,抵押品价值骤降导致部分仓位清算困难,出现过短暂的锚定偏离和债务缺口,之后MakerDAO通过增发治理代币等手段弥补了不足。这表明,虽然DAI无需信任中心机构,但对系统参数和风险控制的治理要求很高。此外,随着稳定币市场的发展,DAI自身也开始依赖于其他稳定币(如USDC作为抵押品)来巩固锚定,这引发了去中心化程度的讨论。

去中心化稳定币的出现丰富了稳定币的形态,使用户在交易和DeFi应用中有了不依赖中心机构的选择。DAI等去中心化稳定币在去中心化借贷、衍生品交易等场景中发挥了关键作用,证明了基于智能合约的稳定机制的可行性。它们的发展也反映出,通过社区治理和机制设计,可以在一定程度上缓解纯算法或纯法币模式的缺点,在稳定性与去中心化之间取得平衡。

(4)监管和合规进展(USDC、BUSD 等)

随着稳定币规模的扩大,各国监管机构开始密切关注其合规性和潜在风险。一些稳定币发行方选择主动遵循法规,以获取主流金融体系的信任。其中代表性的是USD Coin(USDC)和Binance USD(BUSD)。

  • USDC:USDC由Circle公司和Coinbase等组成的Centre财团于2018年发行,定位为合规透明的美元稳定币。USDC坚持1:1全额储备,由受监管的金融机构托管美元资产,并定期由审计机构出具储备证明。例如,据Circle披露,其储备约80%投资于美国国债,20%持于现金存款,严格保证流动性和安全性。USDC发行方在美国FinCEN注册为货币服务业务,并遵守各州的货币传输法律。这种“先合规后发展”的策略使USDC赢得了更高的机构信任度,其市场份额在2020-2022年间大幅提升,一度占据稳定币市场约30%的份额。USDC也广泛应用于中心化交易所和链上交易,尤其是在以太坊等公链上的交易量占比常年保持在40%以上,反映出其在DeFi和跨境支付场景的受欢迎程度。2023年3月,美国硅谷银行倒闭事件曾导致Circle部分储备金无法及时取出,引发USDC短暂脱锚(价格跌至0.9美元以下)。不过,得益于透明的储备披露和后续美国政府对银行存款的保护,USDC很快恢复了锚定。这一事件凸显了合规和透明对于稳定币信心的重要性:尽管市场出现恐慌抛售,但USDC凭借可信的储备支持和快速的信息披露,稳定了市场预期。
  • BUSD:BUSD是币安(Binance)与受纽约监管的信托机构Paxos合作于2019年推出的美元稳定币。BUSD同样采取1:1美元储备,由Paxos托管资金并获得纽约州金融服务署(NYDFS)的批准发行,初期被视为合规运营的范例。借助币安交易所的生态优势,BUSD流通量在2021-2022年迅速扩大,最高时于2022年11月达到约235亿美元市值,成为第三大稳定币。然而,2023年2月纽约监管机构要求Paxos停止发行新的BUSD代币,原因据报道与监管审查和合规问题有关。此举对BUSD影响巨大:禁令发布后BUSD供应量迅速萎缩,从2023年初的约160亿美元降至6月的38亿美元左右,半年内市值蒸发近70%。到2024年底,BUSD流通规模已降至不到1亿美元,基本退出主流稳定币行列。BUSD的兴衰表明,监管政策可以直接决定一个稳定币的生死:再强大的市场需求,一旦失去监管支持,用户信心和使用场景也会迅速消退。
  • 除USDC、BUSD外,全球范围内对稳定币的监管正在逐步成形。在美国,监管机构曾于2021年发布《总统金融市场工作组稳定币报告》,建议将稳定币发行限定在受监管的存款机构内,以防范风险。这引发了美国国会关于《稳定币监管法案》的讨论(如《支付稳定币透明度法案》等草案),虽尚未通过但显示出立法方向:要求发行人持有高质量储备、及时兑现赎回,以及接受严格监管。在欧盟,全面的加密资产市场监管框架MiCA于2023年正式通过,其中对稳定币(称为电子货币代币或资产参照代币)提出了明确要求,包括发行需许可、储备资产须安全保管、设立资本金和流动性缓冲等。MiCA将于2024-2025年生效,这意味着在欧盟运营稳定币需要满足统一的合规标准。在亚洲,一些国家也在积极应对:日本于2023年修订《支付服务法》,允许合规实体发行日元稳定币,并对储备和赎回作出规定;新加坡金融管理局(MAS)在2023年8月发布稳定币监管框架,要求单一币种稳定币发行人持有100%准备金、及时赎回并取得牌照等。总体来看,稳定币正从早期的野蛮生长走向强监管时代。合规透明的稳定币(如USDC)在政策收紧中反而赢得更多市场,而不合规的产品则可能被迫退出。这一趋势有望提升稳定币整体的安全性和信誉度,但短期内也可能限制一些创新模式(例如算法稳定币或小型企业发行的稳定币)的发展。

(5)近期发展趋势(央行数字货币与算法稳定币)

进入最近两年,稳定币领域出现了两大显著趋势:一是各国央行数字货币(CBDC)的推进,二是算法稳定币的兴衰和演变。

央行数字货币(CBDC)的兴起:

稳定币的成功引发了各国央行对法定数字货币的兴趣。许多央行意识到,由私营机构发行的美元稳定币(如USDT、USDC)在全球范围内被广泛使用,甚至可能影响本国货币政策和金融稳定。因此,各国开始研发由央行直接发行、与本国法币挂钩的数字货币。

典型例子包括:中国的数字人民币(e-CNY)已经在全国多个城市试点;欧洲央行正就数字欧元进行论证和原型开发;美国联储也在研究数字美元的技术可能性,尽管在政治上尚未形成共识。CBDC与稳定币在功能上有相似之处——都力图提供法币的数字化形式——但在控制权和技术架构上有本质区别。

央行倾向于认为,由官方发行CBDC可以避免私营稳定币可能带来的金融风险,同时保障货币主权和金融稳定。例如,欧洲方面更支持数字欧元,认为私营稳定币可能带来风险;而美国一些政策制定者相对支持由合规的美元稳定币来满足市场需求,态度上对央行直接发行CBDC持保留意见。

可以预见,未来几年内,部分主要经济体的CBDC将落地,这将与现有稳定币产生竞争或共存关系:在国内支付领域,CBDC可能占优,而在跨境转账和加密交易领域,私营稳定币可能继续发挥作用。两者的发展都会对全球稳定币生态产生深远影响,例如可能促使稳定币发行人提升合规标准,与央行合作或者调整运营模式,以适应新的竞争环境。

目前全球主要经济体对CBDC与稳定币的态度不尽相同,正如前文所述:美国倾向于让私营合规稳定币发挥作用,同时对推出数字美元持谨慎态度,而欧盟和中国等更积极推进CBDC,希望以官方数字货币为主导,同时对私人稳定币加强管控。可以预见,在技术层面,稳定币和CBDC可能长期并存:稳定币侧重于加密生态和跨境场景,CBDC服务于国内零售支付和中央银行职能。两者也可能出现融合,例如央行支持的稳定币**(由商业银行或受许可机构发行、100%持有央行准备金的稳定币)模式。在技术实现上,一些稳定币公司(如Circle)表示愿意将CBDC纳入其储备或在CBDC网络上发行代币,由此可见未来可能形成公私合作的数字货币体系。

算法稳定币的新探索与反思:

算法稳定币是指主要依靠算法和市场博弈机制来维持币值稳定的稳定币类型。

2020-2021年间,一些算法稳定币项目兴起,试图在无需足额抵押资产的情况下实现价格稳定。其中最引人瞩目的是Terra生态的UST。TerraUSD(UST)于2020年推出,采用LUNA-UST双代币体系和算法铸销机制:用户可以在1UST≠1美元时通过与LUNA的兑换套利来调节UST供需,从而使UST价格回归锚定。

然而,这种机制高度依赖市场信心和流动性支持。UST在2021-初2022年取得了惊人的增长,一度成为市值第三大的稳定币(市值从2021年初的1.8亿美元飙升至2022年3月接近150亿美元)。其吸引力不仅在于算法机制的新颖,还因为Anchor协议提供的高达19.5%的存款收益率,吸引了大批用户将资金投入UST。然而,UST的繁荣掩盖了潜在脆弱性:缺乏独立于市场情绪的资产支持。2022年5月,面对宏观环境转冷和部分大户资金退出,UST的锚定出现松动并引发连锁反应:短短几天内,UST从接近1美元暴跌至数美分,关联的LUNA代币几乎归零,整个Terra生态瞬间崩溃,投资者损失估计高达420亿美元。这次崩盘对行业的冲击极大,不仅让大量投资者蒙受损失,也引发了监管层对稳定币特别是算法稳定币的强烈关注,被誉为“加密市场的雷曼时刻”。

UST事件之后,算法稳定币的设计理念遭到全面反思。一些项目选择主动收缩或调整策略,例如Tron的USDD在UST崩盘后增加了超额抵押资产作为保障。部分仍在运行的算法稳定币开始强调部分抵押(部分由资产支撑、部分算法调节)的模式,以避免“无担保”模式的信任危机。Frax (FRAX) 就是一个代表性案例:它号称“部分算法、部分抵押”的稳定币,通过持有一定比例的USDC等储备资产以及其治理代币FXS的算法调节,来保持1美元锚定。FRAX在市场平稳时可以降低抵押率提高资本效率,而在压力时期则提高抵押率确保稳定。

据统计,在2022年市场震荡和UST崩盘期间,FRAX的供应量从18亿美元缩减至约10亿美元(跌幅43.5%),显示出市场需求的下降和项目为稳健运行而主动收缩规模的策略。FRAX基本维持了锚定,没有发生极端崩盘,但其市占率仍然很小,这说明市场对纯或部分算法模型依然保持谨慎。

近期也有一些新的算法稳定币尝试和实验,比如Ampleforth(AMPL,采用弹性供应机制而非严格锚定1美元)、基于社区治理的算法外汇稳定币等。但总体而言,算法稳定币在UST事件后进入低谷。投资者和开发者更加认识到此类模型的高风险,高收益伴随着高不确定性。因此,未来算法稳定币的发展可能会更侧重于“小规模+高抵押”的实验,或是在明确的合规框架下引入混合设计,而不大会重现UST崩盘前那种爆炸式增长。监管层面也可能对算法稳定币提出特别的要求,甚至有国家考虑禁止无资产支持的稳定币发行,以保护投资者。这些都预示着算法稳定币领域将朝着更谨慎和创新并存的方向演化。

2.稳定币的主要技术架构

稳定币根据其价值支撑和稳定机制的不同,大体可分为以下几种主要技术架构:法币抵押型加密资产抵押型算法型(包含部分算法混合型)以及由中央银行发行的数字法币(CBDC)。它们在抵押物、稳定机制、信任假设等方面各有特点。下面分别介绍这些架构的原理,并分析各自的优缺点与适用场景。

(1)法币抵押型稳定币

法币抵押型稳定币是目前市面上规模最大、影响最广的一类稳定币,包括USDT、USDC、BUSD等。其基本原理是:每发行1枚稳定币代币,在银行等托管机构存入等值的法定货币或合规资产作为储备,从而确保代币可以1:1锚定法币价值。这种模式下,用户可以用法币(如美元)向发行方兑换等值的稳定币,反之亦然,发行方承诺随时按1:1比例赎回。以USDC为例,当用户通过Circle的平台存入100美元资金,Circle会增发100枚USDC给用户;若用户需要兑回法币,则销毁相应的USDC并返还等额美元。锚定机制方面,由于持有人始终有权将稳定币兑换回法币,其市场价格一般紧贴锚定价。如果二级市场价格出现偏离,套利者会买入低价稳定币并赎回获取1美元,或反之,这种套利交易将价格拉回1美元附近。

法币抵押型稳定币依赖中心化的发行机构来管理储备和兑现承诺。为了保持信任,主流发行人通常会将储备资产存放在信誉良好的银行,并持有安全、流动性高的资产(例如现金或短期国债)。如USDC的储备有约80%为美国短期国债、20%为现金存款。另外,发行人会定期披露储备情况,聘请独立审计或出具证明(例如USDC由会计师事务所出具月度证明)。一些发行人还对智能合约进行审核,确保代币发行和销毁与储备变动一一对应。

  • 优点:法币抵押型稳定币的最大优点在于价值稳定可靠。只要发行方确实持有充足的法币储备,并且银行托管安全无虞,理论上就能保证其代币始终等值于锚定货币。这类稳定币价格波动极小,非常接近1美元(或其他锚定币种)。同时,由于采用成熟的金融市场资产作为支撑(如美元、国债),这类稳定币很容易被交易所、机构投资者接受,是交易流动性的重要来源。在中心化交易所(CEX)中,法币稳定币通常充当基础交易对,使投资者无需离开加密市场就能在风险资产和现金头寸之间切换,大大提高了交易便利性。此外,法币稳定币的使用门槛较低,普通用户理解起来也较为简单(1枚代币代表1单位法币),这帮助其迅速推广。
  • 缺点:这类稳定币的不足主要在于中心化信任风险和监管依赖。用户必须信任发行机构真正存有足额储备并能兑付,而储备资产通常托管在传统金融体系内,受到银行运营和监管环境影响。例如,若发行机构管理不善、挪用储备或发生破产,用户持有的稳定币价值将难以保障。另外,中心化发行人通常有能力冻结特定地址的代币或配合监管进行账户封锁(USDT和USDC都曾多次冻结涉嫌犯罪活动的地址),这意味着资产可控性和隐私性不如去中心化方案。监管层的政策变化也会直接影响这类稳定币的存续和扩张(正如前文BUSD案例所示)。在极端情况下,如果政府全面打击私人发行的稳定币,用户将面临资产被限制或赎回困难的风险。
  • 适用场景:法币抵押稳定币非常适合于交易结算、支付和价值储存等需要低波动性的场景。在加密交易所,它们是交易对的标准计价资产,提供市场流动性和价格锚定。在场外交易和支付领域,用户可以使用稳定币进行跨境汇款和支付,避免传统汇款的高费用与延迟。同时,对于希望暂时退出波动市场的加密投资者,持有稳定币是一种便利的避险方式(无需将资金转回银行,也不会像直接持有美元那样受到地域限制)。机构方面,一些加密友好企业把稳定币当作现金等价物,用于商业结算或国与国之间的快速转账。因此,法币抵押型稳定币在当前的CeFi(中心化金融)和部分传统金融融合应用中扮演了不可或缺的角色。

(2)智能合约加持下的加密资产抵押型稳定币

加密资产抵押型稳定币通过链上抵押其他加密资产来维持稳定价值,典型代表是MakerDAO的DAI。此外早期的BitUSD也是类似原理。这类稳定币依托智能合约,实现超额抵押自动清算机制,其核心理念是用波动性更高的加密资产作为担保,换取价值相对稳定的代币发行。

以DAI为例,用户(借款人)可以将ETH等加密资产存入MakerDAO的金库合约(Vault)中作为抵押品,然后按照一定抵押率(例如150%)生成所需数量的DAI。只要用户的抵押品价值高于最低抵押比要求,就可以借出DAI。当用户想赎回抵押的ETH时,需要归还等额的DAI(加上一定的稳定费利息),智能合约随即销毁这些DAI并释放抵押品。如果抵押资产价格下跌导致抵押比不足(低于150%),智能合约会自动将抵押品拍卖(清算)以偿还所欠的DAI,确保系统中流通的每1 DAI都有足额的抵押资产支撑,从而保持DAI的价值稳定。整个过程在链上透明执行,由去中心化网络维护价格预言机提供抵押品价格数据,并由MakerDAO持有的治理代币(MKR)持有人投票治理参数(如稳定费率、抵押品种类)。 DAI的市场价主要通过套利和市场调节来维持在1美元附近。如果DAI价格高于1美元,用户有动力通过抵押ETH新铸造DAI并卖出,增加供给使价格回落;反之如果DAI跌破1美元,用户会买入便宜的DAI去偿还债务或储备,从市场收回DAI减少供应。此外,MakerDAO也引入了一些辅助稳定手段,如目标利率(通过调节借贷利率影响DAI供需)和锚定稳定模块(PSM,允许用户直接用其他稳定币如USDC以固定汇率兑换DAI,提供锚定支撑)。这些机制共同作用,帮助DAI尽可能保持与美元1:1的价值。

  • 优点:加密抵押型稳定币最大的优点是去中心化和透明。其发行和运行完全通过智能合约执行,不依赖于任何单一公司或银行,只要智能合约可靠,用户无需信任某个特定机构即可使用。所有抵押资产和代币流通的数据公开可查,系统的风险状况(如抵押倍数)实时透明。这带来了抗审查性:没有中心化机构能够单方面冻结或没收用户的DAI,只要用户管理好自己的抵押仓位。在一些重视隐私和自主权的场景下(比如点对点交易、某些对法币管制严格的地区),去中心化稳定币提供了不依赖传统金融机构的价值储存和交换手段。此外,利用现有的加密资产来发行稳定币,可以为持币者提供流动性释放的渠道——用户无需卖出手中的加密货币,就能借出稳定币用于其他投资或消费。这种模式也被视为将传统银行抵押贷款概念引入链上的一种尝试。
  • 缺点:首先是资本效率低:由于抵押品本身价格不稳定,系统要求超额抵押(常见150%以上,有的甚至需200%以上抵押率),这意味着要发行1美元的稳定币,可能需要锁定价值1.5美元甚至更多的加密资产。大量资产被锁定提高了资金成本。从用户角度看,借出稳定币相当于拿自己的资产借了一笔相对较小的美元,相比法币抵押型稳定币的1:1效率要低很多。其次,稳定性仍受加密市场极端波动影响:如果出现剧烈熊市,抵押品价值暴跌,可能触发连锁清算,造成稳定币供应剧减和市场恐慌,进而使锚定承压(例如2020年3月“黑色星期四”事件中,ETH暴跌导致部分DAI无法及时清算,DAI价格一度高于1美元,因为市场上流动DAI不足)。再次,机制较复杂,依赖良好治理:维持这套体系需要持续调整参数和引入新抵押品,治理过程复杂且对参与者能力有要求。如果治理不善,可能出现系统性风险或经济攻击。例如,预言机失灵或被攻击会影响抵押品定价,从而威胁稳定币价值。最后,目前许多去中心化稳定币(包括DAI)为了加强稳定性,开始持有部分中心化资产作抵押(如USDC),这在一定程度上削弱了去中心化纯度,引入了传统金融风险。
  • 适用场景:加密抵押型稳定币主要服务于去中心化金融(DeFi)生态和注重隐私、去信任环境的用户。在DeFi应用中,如借贷平台Aave、Compound,或去中心化交易所Uniswap等,DAI等去中心化稳定币常被用作基础货币和计价单位。因为在这些场景下,参与者希望尽量减少对中心化资产的依赖,以避免遭受第三方冻结或审查的风险。对于持有大量加密资产又不想全部变现的投资者,抵押借出DAI也是一种获得流动性的方式,可用于套利交易、流动性挖矿等,从而增强资产利用效率。此外,在一些对法币渠道不友好的地区或人群,去中心化稳定币提供了获取美元等硬通货的替代途径,只需互联网和加密钱包即可参与。总的来说,加密抵押型稳定币适用于那些高度依赖智能合约自治和跨国界的加密金融活动场景,它们与整个DeFi体系共同成长,成为去中心化经济的重要基石。

(3)算法稳定币的设计与崩溃

算法稳定币试图通过算法和市场机制(而非足额抵押)来维持币价稳定,通常不以等量资产直接抵押支持,因此也被称为无抵押或部分抵押稳定币。其设计多种多样,但核心是在供需层面进行调节,以使稳定币价格锚定目标(如1美元)。常见的算法稳定币模型包括铸币税股份模型(如Basis、NuBits)、双代币模型(如UST/LUNA)以及弹性供应模型(如Ampleforth)。

算法稳定币通常内置一个中央弹性调节机制:当稳定币价格高于锚定价时,系统会增加供应(或激励用户赎回),使价格回落;当价格低于锚定价时,系统会减少供应(或激励用户买入),使价格回升。例如,在Basis(已停项)和部分早期项目中,引入了“债券”或“股份”代币:当稳定币低于锚定价,用户可用稳定币折价购买债券,销毁流通的稳定币;当稳定币高于锚定价,系统发行新稳定币偿还债券或分配给股份持有人,从而调节供需。这类机制的理论基础类似于央行调节货币供给的思路。而在Terra UST模式中,则采用双代币套利:用户总可以按1 UST = 1美元价值的LUNA进行交换。当UST市价<1美元时,可以用1 UST兑换价值1美元的LUNA(相当于花低于1美元买入1美元等值的LUNA),然后卖出获利;反之UST>1美元时,可用1美元的LUNA铸造1 UST卖出。这种市场套利机制在理想情况下应能稳定UST价格。

Terra UST曾被视为算法稳定币的成功典范,但其在2022年5月的崩盘揭示了算法稳定币的系统性脆弱。UST的设计完全依赖市场信心和LUNA市值来支撑。UST崩盘的直接导火索是大额资金撤出和卖压增大,导致UST价格跌破1美元。尽管Terra基金会动用了巨额比特币储备试图维稳,仍无法阻止恐慌。随着UST价格跌破关键阈值,套利者开始大量兑换LUNA,导致LUNA供应量爆炸性增加(因每赎回1 UST就需新发行等值的LUNA),LUNA价格因抛售压力崩盘,进而进一步减弱对UST的支撑,形成死亡螺旋。短短几天内,UST从接近$1跌至不足$0.1,LUNA价格几乎归零。

UST的失败暴露了算法稳定币的几个致命问题:

其一,没有外部资产托底,完全依赖二级市场信心,一旦信心崩溃便无锚可循;

其二,激励失衡,如Anchor协议过高的利率吸引了短期套利资本,但当宏观环境变化时这些资本迅速撤离,加剧了危机;

其三,缺乏熔断机制,UST/LUNA模型在极端情况下供应和价格互动造成了不可控的循环下跌。

除UST外,历史上还有多次算法稳定币失败案例。例如前述NuBits在2016年和2018年两次崩盘,最终价值几乎归零;Iron Finance的IRON稳定币(部分抵押,Mark Cuban参与的项目)在2021年因为算法调节失灵和流动性枯竭导致币值崩盘;Empty Set Dollar (ESD)、Basis Cash等项目也都未能长久保持锚定。这些失败案例往往有共同点:过于理想化地假设市场理性和参与者信心,缺少在极端压力下保护稳定币价值的硬抵押。

当然,也有少数算法稳定币在调整策略后存续至今,例如前文提到的FRAX(部分抵押部分算法)和Ampleforth(通过每日弹性调整供应,使代币价格围绕目标震荡而非固定$1)。FRAX通过引入部分USDC抵押,某种程度上降低了纯算法的风险,并在UST事件后进一步提高了抵押比重,保持了对美元的基本锚定。不过,这也说明纯粹的算法模型很难独立运作,需要向混合模式妥协。

目前来看,算法稳定币更多是实验性质,尚未证明适合大规模商用。在特定的试验性DeFi协议中,算法稳定币可能被用来测试新的货币理论或自动化做市机制。一些金融创新产品也许会用小规模算法稳定币来作为实验工具。此外,在学术研究编程游戏的环境下,算法稳定币是展示机制设计和博弈论的一个舞台。然而,对于一般用户或大型应用,算法稳定币并不适合作为主要的价值承载工具。经过UST的教训后,除非有重大理论突破,否则很少有场景会信任一个全新的、纯算法支撑的稳定币来承担重要价值。未来若有算法稳定币取得长时间稳健运行,才有望逐步拓展应用场景。因此当前算法稳定币更多地被视为稳定币领域的高风险实验,其适用范围相对狭窄。

3.金融分析:稳定币的市场影响

稳定币的兴起对加密货币市场产生了深远的金融影响,其作用主要体现在提供流动性、充当价值中介和稳定锚定等方面:

(1)交易流动性的引擎

稳定币为加密交易市场注入了大量流动性。在传统观念中,法币进出加密市场需要通过银行通道,过程缓慢且受限。而稳定币作为法币的数字替身,可以在链上或交易所内快速流通。如今,大部分加密交易对都使用稳定币而非直接使用美元等法币。比如在币安、火币等大型交易所,USDT长期作为主要报价和结算货币。据统计,大约90%的加密交易量发生在中心化交易所(CEX),其中绝大多数又是与USDT配对交易**。这意味着USDT等稳定币已经成为交易所的“基础货币”。稳定币让投资者可以24/7全天候进行币币交易,无需银行开市。这极大提高了市场效率**,也降低了不同交易所之间的价差——套利者可以方便地用稳定币搬砖,使全球市场价格更趋统一。此外,稳定币提供了“中间账户”功能:投资者可以在避险时将仓位转换为稳定币,等待机会再行投资,而无需每次都提现回法币账户,从而减少了摩擦成本和时间延迟。

(2)DeFi生态的基础资产

在去中心化金融中,稳定币扮演着结算单位和储值工具的角色。借贷协议如Aave、Compound主要以稳定币作为借贷资产和计息单位,用户可以存入稳定币获取利息,或借入稳定币用于杠杆交易。去中心化交易所(DEX)中,大量流动性资金池采用稳定币对(如DAI/ETH、USDC/USDT),以减少价差和无常损失,因为两边之一是稳定资产。稳定币还被用于发行合成资产、衍生品保证金、收益聚合等各种创新应用。可以说,没有稳定币,就没有近年蓬勃发展的DeFi。稳定币为这些协议提供了价值尺度(unit of account)和低波动的交易媒介,使复杂的金融操作成为可能。

(3)市场稳定锚和避险工具

在剧烈波动的加密市场中,稳定币充当了“安全港”的功能。当比特币等加密货币暴跌时,资金往往涌入稳定币避险,从而稳定币市值占比会上升。例如,据CoinGecko报告,稳定币在2022年5月Terra事件后的总体市值占加密市场比重一度超过8%,在市场低迷时其占比反而增高。对于投资者而言,将资产转为稳定币可以暂时规避价格剧烈波动,同时又保持资金随时可以重新投入市场。这一点在24小时不间断交易的加密领域尤为重要。此外,一些交易平台在缺乏法币通道的情况下,会将稳定币视作美元等价物,为用户账户提供计价,降低了使用加密服务的门槛。稳定币还方便了跨市场套利和衍生品交易:比如期货交易所经常以USDT作为保证金计价,这样交易者可以统一用稳定币结算盈亏,而不必频繁换算法币。

(4)支付和跨境转账

虽然稳定币主要在交易和投资领域发挥作用,但其支付功能也不容忽视。与传统跨境转账相比,通过稳定币汇款可以在几分钟内到账,费用低廉,而且不受银行营业时间限制。这对一些外汇管制严格或汇款成本高昂的地区具有吸引力。例如,一些新兴市场的个人和企业开始使用USDT或USDC进行跨境贸易结算或侨汇。在2022年乌克兰危机期间,稳定币也被用于紧急筹款和转移资产。尽管目前稳定币支付还不是主流,但其潜力已经显现,特别是在无银行服务(unbanked)或高通胀国家,稳定币提供了获取美元价值的便捷渠道,为金融包容性做出了一定贡献。

当然,稳定币并不总是优点。稳定币高度融入交易系统也意味着单一稳定币的风险传染效应显著:如果某主流稳定币出现信用问题或技术故障,可能导致交易停滞和市场恐慌。2018年曾发生USDT短暂脱锚引发币价震荡的事件;2023年3月USDC脱锚也导致部分DeFi协议损失和市场波动。好在这些事件都较快平息。但像UST崩盘这样的极端案例则证明,不稳定的稳定币会加剧市场崩盘的深度和范围。

4.总结

综上,稳定币作为连接加密世界与传统金融的桥梁,其重要性只增不减。在过去的十年里,稳定币从无到有、从边缘尝试到市值数千亿美元,证明了市场对稳定价值数字资产的巨大需求。展望未来,稳定币的生态将更加成熟规范。一方面,合规化、透明化将成为主旋律,用户对稳定币的信心有望加强,大规模商业应用变得可行;另一方面,多元化和创新仍会持续,新的稳定机制、新的发行主体可能涌现,为市场注入活力。在央行数字货币和宏观监管的浪潮下,稳定币也将不断自我调整,寻找最佳的定位。可以预期,稳定币的市场份额在加密领域会进一步提高,甚至突破以往的规模天花板,与此同时,它也会越来越深地嵌入我们的日常经济活动,真正发挥数字化货币的变革潜力。

不同类型稳定币的优缺点及适用场景总结:(如下表所示)

稳定币类型 代表例子 优点 缺点 适用场景
法币抵押型<br>(中心化) USDT、USDC、BUSD - 价值稳定,1:1有足额法币储备背书<br>- 使用门槛低,易于理解,获得广泛接受<br>- 交易流动性强,在交易所和支付领域应用广泛 - 中心化依赖,需信任发行机构储备充足<br>- 可能受监管和政策影响,被冻结或停止发行的风险<br>- 不够匿名,发行方可配合监管追踪资金 加密交易(主要交易对,避险资产)<br>跨境支付和汇款<br>为传统企业提供链上结算手段
加密抵押型<br>(去中心化) DAI、BitUSD、LUSD - 去中心化运作,无单一主体控制,抗审查<br>- 抵押品和系统参数透明可查,增强信任<br>- 无需法币支持,可在纯区块链环境下运作 - 需超额抵押,资金利用效率低<br>- 机制复杂,依赖智能合约和预言机,存在技术风险<br>- 抵押品价值波动大时稳定性面临考验,可能脱锚 DeFi生态中的借贷、交易(强调去信任)<br>跨国界的数字经济活动<br>为加密资产持有者提供流动性
算法稳定型<br>(部分/无抵押) UST、AMPL、FRAX - 不需大量储备资产,理论上扩展性好,资本效率高<br>- 如果机制可靠,可实现真正的去中心化稳定币<br>- 某些模型下具有创新性,可自动调节供需 - 对市场信心高度依赖,历史上多次崩盘失败<br>- 缺乏最后价值支撑,出现挤兑时易陷入死亡螺旋<br>- 投资者认知不足时风险巨大,监管层高度警惕 暂以试验为主,适合小规模创新项目<br>特殊DeFi策略(套利、博弈实验)<br>未来若成熟后,可能用于一般支付储值
央行数字货币<br>(CBDC) 数字人民币<br>数字欧元 - 国家信用背书,法定货币地位,信用风险最低<br>- 由央行发行,能有效服务货币政策和金融稳定<br>- 可实现普惠金融,推动支付系统现代化 - 中心化控制,交易隐私和自由度受限<br>- 可能冲击商业银行,引发金融脱媒<br>- 技术实现复杂,推广需改变用户习惯 零售和批发支付(国内)<br>政府转移支付、补贴发放<br>跨境结算(央行间合作)

5.ARK观点

  • 2024年,稳定币作为数字资产中增长最快的领域之一,其交易额已超过万事达卡和Visa;2024年12月,稳定币交易量创下历史新高(前景好)
  • 在2023年经历回撤后,2024年稳定币的供应量和活跃稳定币地址数量均创下历史新高
  • 随着一些国家逐渐远离美元,数字资产正朝它靠拢
  • 稳定币因Layer 2 的低成本和高效率而吸引零售兴趣
  • 点对点交易与个人钱包储存主导稳定币应用场景

image.png

  • Tether的财务表现无论在绝对值还是相对值上都令人震惊(意思是这玩意太赚钱了)
  • 在「去美元化」对冲下,稳定币正增加对美国政府债务作为抵押品的需求(意思是这玩意对美国也好)
  • 稳定币到2030年可能从全球法币M2供应量的0.17%增至0.9%。如果这样,稳定币将成为第13大流通货币,排在西班牙之后,领先于荷兰

当信息流开始遵循我的语法:TG RSS BOT 搭建教程与开源项目推荐

「滴——」

手机在晨光中震动,锁屏界面已被信息洪流冲垮:GitHub trending推送了新的AI工具、订阅的Newsletter准时抵达邮箱、关注的Podcaster突然日更三集……你滑动着永无止境的未读红点,突然意识到自己像被困在API接口里的数据包——被调度、被解析、却从未真正抵达「已处理」状态。

在这个信息过载纪元,我们正经历着两种极端的撕裂:一边是算法用精准的「猜你喜欢」编织数据茧房,一边是散落在43个平台的知识碎片让人患上数字仓鼠症。当Ctrl+S已成为肌肉记忆,1999年诞生的RSS协议却像一位沉默的守夜人,握着锈迹斑斑的钥匙,静候我们重启去中心化的信息管道。

本篇博客就希望借助 Telegram Bot,实现RSS信源自动推送,稍稍缓解我们的信息依赖症,将重要信息归集起来集中处理。

一、项目搭建流程

项目地址

::github{repo="Rongronggg9/RSS-to-Telegram-Bot"}

1.在Telegram中新建Bot并获取相关信息

  • 在tg中搜索 @BotFather,聊天框发送 /newbot,按提示输入机器人名称/机器人用户名。

image.png

记录下生成的HTTP API,后面需要用。

  • 在tg中搜索@userinfobot,点击start,记录返回的用户id

image.png

https://api.telegra.ph/createAccount?short_name=RSSBot&author_name=Myself&author_url=https://github.com/Rongronggg9/RSS-to-Telegram-Bot

2.搭建bot

在 vps 根目录下新建文件夹 mkdir tgrss ,并进入文件夹cd tgrss ,新建docker compose文件 nano docker-compose.yml

在打开的编辑器中,添加 Docker Compose 配置:

version: '3.9'

services:
  rssbot:
    image: rongronggg9/rss-to-telegram:dev
    container_name: rss-bot
    restart: unless-stopped
    volumes:
      - ./config:/app/config
    environment:
      - TZ=Asia/Shanghai
      - TOKEN=  # 使用 @BotFather 返回的 API Token
      - MANAGER=  # 使用从 @userinfobot 获得的用户id
      - TELEGRAPH_TOKEN= # 使用请求 telegraph API 返回的 Token

最后docker-compose up -d 启动即可。

回到tg,向我们刚创建的bot发送/start就可以开始使用了。

二、开源项目推荐

1.Rsshub

::github{repo="DIYgod/RSSHub"}

“万物皆可 RSS” 是 RSSHub 的口号,也是它的灵魂。这个由国内开发者维护的开源项目,像一把万能钥匙,能解锁互联网上几乎所有平台的订阅可能——从微博热搜到 B 站 UP 主更新,从 GitHub 仓库动态到豆瓣小组新帖,甚至是淘宝商品降价提醒、机场航班延误播报……只要你能想到的内容,几乎都能通过 RSSHub 转化为标准的 RSS 订阅源

为什么选择 RSSHub?

  • 破除平台封锁:许多平台(比如某红书、某音)不提供原生 RSS 支持,RSSHub 通过解析网页或调用 API 强行“投喂”内容;
  • 规则丰富灵活:社区贡献了 1000+ 条路由规则(官方文档堪称 RSS 版“百科全书”),且支持自定义规则;
  • 部署自由度高:你可以直接使用官方公共实例(需注意频率限制),也可自建服务实现“订阅自由”;
  • 无缝对接 Bot:生成的 RSS 链接可直接填入 Telegram Bot,实现“订阅-解析-推送”全链路自动化。

2.Follow

::github{repo="RSSNext/Follow"}

新一代高颜值RSS阅读器(我目前正在用的主力阅读器),但目前尚处测试阶段,性能方面似乎存在一定问题

3.FreshRSS

::github{repo="FreshRSS/FreshRSS"}

自建RSS生态的基石。这款基于PHP/MySQL的阅读器支持Docker一键部署,具有以下核心优势:

  • 多协议支持:除常规RSS外,还能解析JSON Feed、YouTube频道等特殊格式
  • 智能过滤:通过CSS选择器自定义内容清洗规则,过滤广告/干扰元素
  • 浏览器插件:配套的WebSub扩展实现"一键订阅"
  • 多用户体系:适合团队共享订阅源,支持OPML批量导入导出

4.Miniflux

::github{repo="miniflux/v2"}

极简主义者的福音。采用Go语言编写的轻量级阅读器(内存占用<20MB),特别适合:

  • 开发者:提供RESTful API,可与Huginn/Automate等自动化工具联动
  • 隐私控:默认关闭图片代理,支持基于规则的文章永久存档
  • 键盘党:全快捷键操作(按?唤出快捷键列表)
  • PWA应用:支持离线阅读,安卓/iOS均可添加至主屏幕
<BASH>

# 典型Docker部署命令docker run -d --name miniflux -p 8080:8080 \  -e DATABASE_URL="postgres://user:password@host/dbname?sslmode=disable" \  miniflux/miniflux:latest

三、结论

RSS技术栈的复兴绝非偶然——在算法推荐肆虐的今天,这套始于1999年的协议仍然是最优雅的信息自主权解决方案。借助RSS,我们既能享受算法带来的效率红利,又能避免陷入"信息茧房"的陷阱。建议从RSSHub+Follow的轻量级组合开始,逐步构建自己的数字巴别塔。当你的订阅源开始流淌经过精心筛选的知识时,或许会突然理解《黑客帝国》中墨菲斯那句台词的含义:

"You take the blue pill... the story ends. You take the red pill... you stay in Wonderland."

2025年1月投资月报:耐心、预期管理与认知局限

本月实现收益率为32%,本文主要提炼在投资过程中形成的认知,探讨如何在波动市场中建立可持续的投资框架。

1.耐心:对抗市场噪声的终极武器

加密货币市场7x24小时不间断交易,价格波动剧烈,信息爆炸,投资者极易受到市场情绪的影响,产生FOMO和FUD情绪,做出非理性的投资决策。耐心,是抵御市场噪声、避免情绪化交易的终极武器

首先就是等待合适的时机,不轻易出手。频繁交易只会将投资收益浪费在每次交易的费率上,应当耐心等待市场出现明显的机会,例如价格大幅回调至合理估值区间,或者项目出现重大积极进展时,才会考虑加仓或建仓。

深入研究,独立思考。应当将更多的时间用于深入研究项目白皮书、团队背景、技术架构、代币经济模型、社区活跃度等关键信息,形成自己独立的判断,而不是盲目跟随市场热点或KOL的意见。这需要极大的耐心,因为深入研究是一个耗时费力的过程,但只有这样才能真正理解投资标的的价值,坚定持有的信心。

适当坚持长期主义。虽然我这个月做的都是短线交易,每次交易基本上收益也都在15%左右,但一直押注短期市场情绪必然会在某一天迎来重大回撤全盘皆输。未来应当将一半以上的资产置于更长的时间维度考量上,只要投资标的的基本面良好,长期持有优质资产,时间会熨平短期波动带来的风险,带来更为可观的回报和更低的交易风险。

2.预期管理:用安全垫构建投资护城河

加密货币市场充满不确定性,即使是再深入的研究也无法完全预测未来的走势。因此,合理的预期管理至关重要,它能帮助我们构建投资的安全垫,抵御市场风险,提高投资的容错率。

在每一阶段的投资开始前,应当设定合理的收益预期,千万千万不能追求一夜暴富。应当避免过度冒险以致成为实质上的赌博,努力降低投资组合的波动性。

分散投资,降低单一资产风险。 应将资金分散投资于多个不同类型的加密货币资产,例如公链、DeFi、NFT等,并根据市场情况动态调整资产配置比例。这可以有效降低单一资产价格波动对整体投资组合的影响。

预留安全边际,应对极端情况。 在评估投资标的的价值时,应预留一定的安全边际,例如在估值的基础上打个8折或7折。这样即使市场出现极端情况,也能保证投资组合的安全。

虚拟货币投资的残酷性在于,单次高收益可能源自运气,而长期盈利必须依赖风险报酬比的精密控制。可在未来投资中构建"动态安全垫"机制,当浮动收益达到15%时立即将本金部分转出,仅用利润参与后续博弈;当收益突破25%后启动"阶梯止盈",每上涨3%自动锁定三分之一仓位。这种设计让心理账户始终处于"已盈利"状态,有效规避了"盈利回吐焦虑症"导致的非理性持仓。

3. 从"求胜"到"不败":投资哲学的范式转换

最初开始投资时每个人都会想着“求胜”,追求高收益,渴望战胜市场。但在加密货币市场,"不败"比"求胜"更重要。 这是一种投资哲学的范式转换,它意味着将风险管理置于收益之上,追求长期稳定的回报,而不是短期的高收益。

  • 承认自己的无知,敬畏市场。 加密货币市场是一个复杂且不断进化的系统,没有人能够完全预测未来的走势。应深刻认识到自己的认知局限性,对市场保持敬畏之心,不盲目自信,不固执己见。
  • 控制仓位,避免爆仓风险。 应严格控制仓位,避免使用高杠杆,将爆仓风险降到最低。这是"不败"投资哲学的核心原则之一,只有保住本金,才能在市场中长期生存下去。
  • 持续学习,不断进化。 加密货币行业发展日新月异,新的项目、技术和模式层出不穷。应将持续学习,不断更新自己的知识体系,提高认知水平,以适应市场的变化。
  • 保持良好的心态,享受投资的过程。 投资是一场马拉松,而不是短跑。应努力保持良好的心态,不以一时的得失而喜悲,享受投资的过程,享受与市场共同成长的过程。

传统投资教育强调"抓住机会",而加密市场的生存法则更注重"避免致命错误"。承认自身认知局限,在混沌市场中构筑以生存为底线的防御体系,反而能捕捉到真正的阿尔法机会

2月策略展望

当前加密市场处于"政策预期博弈期"与"叙事真空期"的叠加态:美联储降息路径摇摆导致风险资产估值重构,比特币ETF资金流入放缓引发市场流动性担忧,以太坊坎昆升级落地形成技术面利好兑现。在此背景下,期望采用"防守反击"策略——将整体仓位控制在60%-70%,预留30%以上USDT/Tether应对极端波动,重点捕捉结构性机会。

在二月可能出现的"政策真空期震荡行情"中,投资者需重点锤炼三项能力:

  1. 噪音过滤能力:当市场同时出现"ETF资金枯竭论"和"减半前最后一次抄底机会"等矛盾叙事时,坚持查看链上巨鲸地址持仓变化(Glassnode预警系统)
  2. 痛苦承受阈值:预设账户20%回撤的心理防线,通过历史回测数据验证策略有效性而非情绪驱动
  3. 机会成本认知:接受"错过暴涨"本就是稳健投资的必要代价,用凯利公式计算每笔交易的期望值(EV>1.5才值得出手)

总结

资本质上是一场与自我认知缺陷对抗的修行。本月的实践再次证明:在非有效市场,手动投资可通过“规则约束+认知优势”创造超额收益,但其核心并非预测市场,而是管理好自身的贪婪、恐惧与脆弱性。正如格雷厄姆所言:“投资者最大的敌人不是市场,而是自己。”

新征程刚刚开始,愿与诸位同行者共勉。2025年的市场将奖励那些用规则驯服欲望,用概率思维替代胜负执念的投资者。投资不需要璀璨的烟火,而是确保永远留在赛场。

用飞书多维文档打造博客书架页—支持 GitHub Actions 自动更新

前言与总结

项目代码还请直接参见我的博客GitHub库的scripts文件夹 ::github{repo="Lapis0x0/fuwari"}

情况是这样的:我现在将日常任务管理、OKR编排和个人书库影音库放到了飞书里。得益于飞书强大的自定义能力和开放的 API 接口,我能够根据自身需求构建个性化的信息管理系统。然而,仅仅在飞书内部管理这些数据还不够,我还需要一个对外展示的窗口,尤其是针对我的书库——一个精美的、可自动更新的博客书架页。

在当前的技术栈中,Astro作为静态站点生成器(SSG)提供了很棒的博客框架与组件化能力。但传统静态博客的痛点在于:每当飞书书库新增条目时,需要手动导出数据、更新Front Matter、重新部署站点。这种机械的重复劳动显然违背了自动化管理的初衷。

为了解决这个问题,我设计了一个自动化工作流:通过Github Action自动从飞书多维表格中同步数据,并触发博客的自动构建与部署,整个流程节点如下:

  1. 数据源管理 在飞书多维表格(Bitable)中,我创建了一个结构化的书库表格,记录每本书的基本信息、阅读状态、笔记等。这种方式不仅便于日常管理,还能通过飞书移动端随时记录读书心得。
  2. 数据同步与处理 我编写了一个 Python 脚本来处理数据同步,主要功能包括:
    • 通过飞书开放平台的 API 获取书库数据
    • 智能处理书籍封面图片:
      • 自动压缩和转换为 WebP 格式
      • 优化图片尺寸(最大 800×1200)
      • 控制文件大小(不超过 300KB)
      • 保持透明通道(如果原图有的话)
    • 将处理后的数据转换为博客可用的 JSON 格式
  3. 自动化部署 利用 GitHub Actions 的定时任务功能,系统会:
    • 定期执行数据同步脚本
    • 使用处理后的数据更新博客内容
    • 自动触发站点重新构建和部署

通过这种方式,我实现了一个真正的“阅读优先”的工作流,只需要在飞书中维护书库数据,博客页面就会自动保持同步。

二、脚本代码解析

1.环境配置与图片资源优化

脚本通过环境变量管理敏感配置信息:

APP_ID = os.getenv('FEISHU_APP_ID')
APP_SECRET = os.getenv('FEISHU_APP_SECRET')
BITABLE_ID = os.getenv('FEISHU_BITABLE_ID')
TABLE_ID = os.getenv('FEISHU_TABLE_ID')

确保安全性,同时也方便在不同环境(本地开发/GitHub Action)间切换。

环境变量介绍:

  1. FEISHU_APP_ID
    • 飞书应用的唯一标识符
    • 在创建飞书应用后可以在应用凭证页面获取
    • 用于识别是哪个应用在访问飞书 API
  2. FEISHU_APP_SECRET
    • 飞书应用的密钥
    • 与 APP_ID 配对使用,用于生成访问令牌(access token)
    • 需要妥善保管,不能泄露
  3. FEISHU_BITABLE_ID
    • 多维表格的唯一标识符
    • 可以从多维表格的 URL 中获取
    • 用于指定要操作的具体多维表格
  4. FEISHU_TABLE_ID
    • 多维表格中具体数据表的唯一标识符
    • 一个多维表格可以包含多个数据表,这个 ID 用于指定具体要操作哪个数据表
    • 可以从数据表的 URL 或者 API 获取

为了确保博客页面的加载性能,实现了智能的图片处理机制:

# 图片压缩配置
MAX_SIZE = (800, 1200)  # 最大尺寸
WEBP_QUALITY = 85      # 初始质量
MAX_FILE_SIZE = 300 * 1024  # 目标大小上限
  • 自动转换为现代的 WebP 格式
  • 智能压缩算法:从85%质量开始,逐步降低直至满足大小要求
  • 保留透明通道:自动检测和保持图片的透明度
  • 渐进式压缩:在保证视觉质量的同时实现最优压缩比

2.数据同步

同步过程分为以下几个:

(1)认证

def get_tenant_access_token():
    """获取飞书应用的 tenant_access_token"""
    url = "https://open.feishu.cn/open-apis/auth/v3/tenant_access_token/internal"
    headers = {
        "Content-Type": "application/json"
    }
    data = {
        "app_id": APP_ID,
        "app_secret": APP_SECRET
    }

通过飞书开放平台的 OAuth2 流程获取访问令牌,确保安全访问。

(2)获取多维表格中的记录

def get_bitable_records():
    """获取多维表格中的记录"""
    token = get_tenant_access_token()
    if not token:
        print("Failed to get access token")
        return None
    
    url = f"https://open.feishu.cn/open-apis/bitable/v1/apps/{BITABLE_ID}/tables/{TABLE_ID}/records"
    headers = {
        "Authorization": f"Bearer {token}",
        "Content-Type": "application/json"
    }
    
    response = requests.get(url, headers=headers)
    return response.json()

获取飞书多维表格中的表格记录

def download_image(url, token, save_dir):
    """下载图片并返回本地路径"""
    try:
        # 生成文件名(使用URL的哈希值)
        url_hash = hashlib.md5(url.encode()).hexdigest()
        filename = f"{url_hash}.webp"  # 使用webp格式
        local_path = os.path.join(save_dir, filename)
        
        # 如果文件已存在,直接返回路径
        if os.path.exists(local_path):
            print(f"Image already exists: {filename}")
            return os.path.join('/images/books', filename)
        
        # 下载图片
        headers = {"Authorization": f"Bearer {token}"}
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        
        # 压缩图片
        compressed_data = compress_image(response.content)
        
        # 保存压缩后的图片
        with open(local_path, 'wb') as f:
            f.write(compressed_data)
        
        original_size = len(response.content) / 1024  # KB
        compressed_size = len(compressed_data) / 1024  # KB
        compression_ratio = (1 - compressed_size / original_size) * 100 if original_size > 0 else 0
        print(f"Downloaded: {filename} (Original: {original_size:.1f}KB, Compressed: {compressed_size:.1f}KB, Saved: {compression_ratio:.1f}%)")
        
        return os.path.join('/images/books', filename)
    except Exception as e:
        print(f"Error downloading image {url}: {str(e)}")
        return None
def process_records(records, token):
    """处理记录,下载图片并更新图片路径"""
    if not records or 'data' not in records or 'items' not in records['data']:
        return records
    
    # 确保图片目录存在
    save_dir = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'public', 'images', 'books')
    os.makedirs(save_dir, exist_ok=True)
    
    # 处理每条记录
    for item in records['data']['items']:
        if '封面' in item['fields'] and item['fields']['封面']:
            covers = item['fields']['封面']
            new_covers = []
            for cover in covers:
                if 'url' in cover:
                    # 下载图片并获取本地路径
                    local_path = download_image(cover['url'], token, save_dir)
                    if local_path:
                        new_cover = cover.copy()
                        new_cover['local_path'] = local_path
                        new_covers.append(new_cover)
            if new_covers:
                item['fields']['封面'] = new_covers
    
    return records

def save_to_json(data):
    """将数据保存为 JSON 文件"""
    output_path = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'public', 'data', 'books.json')
    
    # 添加更新时间
    data['last_updated'] = datetime.now().isoformat()
    
    with open(output_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    
    print(f"Data saved to {output_path}")
  • 提取书籍信息
  • 下载并优化封面图片
  • 生成适用于静态站点的本地路径
  • 将处理后的数据序列化为 JSON 格式
  • 添加时间戳,便于追踪更新状态
  • 保存到博客的 public/data 目录

(3)文件组织

处理后的资源按照类型分类存储:

  • 图片资源:public/images/books/
  • 数据文件:public/data/books.json

这种组织方式与 Astro 的静态资源处理完美契合,确保了资源的正确引用和加载。

2.静态博客书架页样式设计

---
import MainGridLayout from '../layouts/MainGridLayout.astro';
import { i18n } from '../i18n/translation';
import I18nKey from '../i18n/i18nKey';

// Read and parse the books data
const response = await fetch(new URL('/data/books.json', Astro.url));
const booksData = await response.json();
// Filter books with reading progress "1"
const books = booksData.data.items.filter(book => book.fields['阅读进度'] === "1");

// Group books by category (领域)
const booksByCategory = books.reduce((acc, book) => {
  const category = book.fields['领域'] || '未分类';
  if (!acc[category]) {
    acc[category] = [];
  }
  acc[category].push(book);
  return acc;
}, {});

// Function to get cover URL
function getCoverUrl(book) {
  if (book.fields['封面']?.[0]) {
    // 使用本地路径
    return book.fields['封面'][0].local_path;
  }
  return null;
}
---

<MainGridLayout title={i18n(I18nKey.bookshelf)} description={i18n(I18nKey.bookshelf)}>
  <style>
    .custom-scrollbar::-webkit-scrollbar {
      width: 4px;
    }
    .custom-scrollbar::-webkit-scrollbar-track {
      background: transparent;
    }
    .custom-scrollbar::-webkit-scrollbar-thumb {
      background-color: rgba(255, 255, 255, 0.3);
      border-radius: 2px;
    }
    .custom-scrollbar::-webkit-scrollbar-thumb:hover {
      background-color: rgba(255, 255, 255, 0.5);
    }
  </style>
  <div class="flex w-full rounded-[var(--radius-large)] overflow-hidden relative">
    <div class="card-base z-10 px-6 py-6 relative w-full">
      {Object.entries(booksByCategory).map(([category, books]) => (
        <div class="mb-12">
          <h2 class="text-2xl font-bold mb-6 pb-2 border-b border-zinc-200 dark:border-zinc-800 text-[var(--primary)]">
            {category}
          </h2>
          <div class="grid grid-cols-2 sm:grid-cols-3 lg:grid-cols-4 xl:grid-cols-5 gap-6">
            {books.map((book) => (
              <div class="group relative flex flex-col">
                <div class="aspect-[3/4] overflow-hidden rounded-lg bg-zinc-100 dark:bg-zinc-900 shadow-md transition-all duration-300 group-hover:shadow-xl">
                  {getCoverUrl(book) ? (
                    <img 
                      src={getCoverUrl(book)}
                      alt={book.fields['书名']} 
                      class="h-full w-full object-cover transition-transform duration-300 group-hover:scale-105"
                    />
                  ) : (
                    <div class="flex h-full w-full items-center justify-center bg-zinc-100 dark:bg-zinc-900 p-4">
                      <span class="text-center text-sm text-[var(--text-2)]">{book.fields['书名']}</span>
                    </div>
                  )}
                  <div class="absolute inset-0 bg-gradient-to-t from-black/60 to-transparent opacity-0 transition-opacity duration-300 group-hover:opacity-100">
                    <div class="absolute bottom-0 left-0 right-0 p-4">
                      <h3 class="text-sm font-bold text-white mb-1 line-clamp-2">
                        {book.fields['书名']}
                      </h3>
                      {book.fields['作者']?.length > 0 && (
                        <p class="text-xs text-zinc-200 mb-2">
                          {book.fields['作者'].join(', ')}
                        </p>
                      )}
                    </div>
                  </div>
                </div>
                <div class="overlay absolute inset-0 bg-black/80 opacity-0 transition-opacity duration-300 rounded-lg invisible group-hover:visible group-hover:opacity-100 flex items-center justify-center overflow-hidden">
                  <div class="p-4 text-white h-full overflow-y-auto custom-scrollbar">
                    <h3 class="text-sm font-bold mb-2 sticky top-0 bg-black/80 py-2">{book.fields['书名']}</h3>
                    {book.fields['书评'] ? (
                      <>
                        <p class="text-sm text-zinc-100 mb-3">{book.fields['书评']}</p>
                        {book.fields['书籍简介'] && (
                          <div class="pt-3 border-t border-white/20">
                            <p class="text-xs text-zinc-400">
                              {book.fields['书籍简介']}
                            </p>
                          </div>
                        )}
                      </>
                    ) : (
                      <p class="text-xs text-zinc-300">{book.fields['书籍简介']}</p>
                    )}
                  </div>
                </div>
              </div>
            ))}
          </div>
        </div>
      ))}
    </div>
  </div>

  <!-- giscus评论 -->
  <div style="margin-top: 20px;"></div>
  <script src="https://giscus.app/client.js"
          data-repo="Lapis0x0/blog-discussion"
          data-repo-id="R_kgDONda6_g"
          data-category="Announcements"
          data-category-id="DIC_kwDONda6_s4ClN0D"
          data-mapping="pathname"
          data-strict="0"
          data-reactions-enabled="1"
          data-emit-metadata="0"
          data-input-position="bottom"
          data-theme="preferred_color_scheme"
          data-lang="zh-CN"
          crossorigin="anonymous"
          async>
  </script>
</MainGridLayout>

<style>
  .line-clamp-2 {
    display: -webkit-box;
    -webkit-line-clamp: 2;
    -webkit-box-orient: vertical;
    overflow: hidden;
  }

  .line-clamp-3 {
    display: -webkit-box;
    -webkit-line-clamp: 3;
    -webkit-box-orient: vertical;
    overflow: hidden;
  }

  .line-clamp-6 {
    display: -webkit-box;
    -webkit-line-clamp: 6;
    -webkit-box-orient: vertical;
    overflow: hidden;
  }
</style>

3.Github Action工作流

设定为每周日从飞书那里拉取一次数据,更新书架页信息。

name: Update Books Data

on:
  schedule:
    - cron: '0 0 * * 0'  # 每周日 UTC 00:00 运行
  workflow_dispatch:  # 允许手动触发

jobs:
  update-books:
    runs-on: ubuntu-latest
    permissions:
      contents: write  # 明确设置写入权限
    
    steps:
    - uses: actions/checkout@v3
      with:
        token: ${{ secrets.GITHUB_TOKEN }}
    
    - name: Set up Python
      uses: actions/setup-python@v4
      with:
        python-version: '3.10'
        cache: 'pip'  # 启用pip缓存
    
    - name: Install dependencies
      run: |
        python -m pip install --upgrade pip
        pip install pillow requests  # 直接指定必要的依赖
    
    - name: Update books data
      env:
        FEISHU_APP_ID: ${{ secrets.FEISHU_APP_ID }}
        FEISHU_APP_SECRET: ${{ secrets.FEISHU_APP_SECRET }}
        FEISHU_BITABLE_ID: ${{ secrets.FEISHU_BITABLE_ID }}
        FEISHU_TABLE_ID: ${{ secrets.FEISHU_TABLE_ID }}
      run: |
        python scripts/test_feishu_bitable.py
        
    - name: Commit and push if changed
      run: |
        git config --local user.email "github-actions[bot]@users.noreply.github.com"
        git config --local user.name "github-actions[bot]"
        git add public/data/books.json public/images/books/*
        git diff --quiet && git diff --staged --quiet || (git commit -m "Update books data [skip ci]" && git push)

三、实际效果

请访问 此链接 来体验

零一万物之死

我在2024年10月19日的博客中曾经很明确地预判过:

:::note 我作为金融壬持续看空零一万物这家公司,无论是它的商业逻辑还是运营能力,在我看来都难以支撑其「独角兽」的市场地位。 ::: 这一观点在当时(李开复刚买了大量通稿吹零一万物和新模型并强调不会放弃预训练)可能显得有些激进,但2025年1月初的新闻最终还是印证了我预判的含金量:

image.png

嘴硬没有任何意义,零一万物从未找到清晰的产品定位,也始终无法证明自己在商业链条上的不可替代性

24年10月份写下那篇博客时,我的预判还只是「对零一万物未来的发展持谨慎态度,并倾向于看空其长期表现」,现在来看人家的资金链比我想象的还要紧张,谁又能想到这个曾经巨头加盟声势浩大的公司成为第一个在大模型时代出局的独角兽了呢?

当2025年的年初清冷地敲响钟声,这场闹剧式的收场显得荒诞但并不意外——零一万物的商业野心最终以预训练研发团队打包出售给阿里的形式画上了终止符,而公司CEO李开复博士的“白菜价模式”“SOTA领先模型”等豪言壮语,也最终随着他在媒体面前的解释显得苍白无力。

在资本与技术竞赛的狂飙中,我认为零一万物失败的原因并不复杂——它并不是被技术打败了,能训练出Yi-Lighting这种规模和性能的模型代表零一万物并不是一无是处,它是被自身缺乏清晰战略的营运模式给拖垮的。从一个打着「零一智能,万物赋能」标签的明星独角兽到黯然出局,零一的没落就像一面镜子,硬照出了大模型创业浪潮的光与影。

今天,我们不妨从几个视角再来回顾下零一万物从崛起到溃败的过程,在大模型赛道从狂欢到冷静再到理性的起伏中进行再反思。

一、零一发展历程梳理

起高楼——豪华的创业团队

2023年3月下旬,创新工场董事长兼CEO李开复正式宣布以Project AI 2.0之名入局大模型,从3月开始在三个月内拉起了数十名核心成员的团队,成员集中在大模型技术、人工智能算法、自然语言处理、系统架构、算力架构、数据安全、产品研发等领域。技术副总裁及AI Alignment负责人是 Google Bard/Assistant 早期核心成员,主导或参与了从 Bert、LaMDA 到大模型在多轮对话、个人助理、AI Agent 等多个方向的研究和工程落地;首席架构师曾在Google Brain与Jeff Dean、Samy Bengio等合作,为TensorFlow的核心创始成员之一。

而算法和模型团队成员中,有论文曾被GPT-4引用的算法大拿,有获得过微软内部研究大奖的优秀研究员,曾获得过阿里CEO特别奖的超级工程师。总计在ICLR、NeurIPS、CVPR、ICCV等知名学术会议上发表过大模型相关学术论文100余篇。

作为主力战将之一,零一万物技术副总裁及 Pretrain 负责人黄文灏、技术副总裁及AI Infra负责人戴宗宏今天也正式亮相,并对最新产品进行介绍。此前,黄文灏曾先后任职于微软亚洲研究院和智源研究院;戴宗宏则是前华为云 AI CTO 及技术创新部长、前阿里达摩院 AI Infra 总监。

其中已加入的联创团队成员包含前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco/副总裁,算法和产品团队背景均来自国内外大厂。三个月内零一团队已经实现百亿参数规模的模型内测,正往300到700亿参数规模扩大。

宴宾客——发展历程梳理

2023年11月6日:零一万物正式发布首款开源中英双语大模型「Yi」。同期,零一万物完成新一轮融资,由阿里云领头,估值超10亿刀。

2024年3月14日:零一万物发布Yi大模型API开放平台,为开发者提供多种模型服务。

2024年5月7日:零一万物推出一站式AI工作平台“万知”,支持会议纪要、周报、写作助手等功能。

2024年5月13日:零一万物发布千亿参数闭源大模型Yi-Large。

2024年6月:零一万物的Yi-Large等系列大模型正式登陆阿里云百炼平台。

2024年8月:零一万物完成下一轮融资,金额达数亿刀,此轮融资参与方包括某国际战投、东南亚财团等多家机构。

2024年10月16日:零一万物发布新旗舰模型Yi-Lightning,并公布ToB战略下的AI 2.0数字人产品。

楼塌了

2024年10月:零一万物被传放弃预训练,李开复辟谣称将继续专注于预训练模型。

2025年1月2日:零一万物与阿里云达成战略合作,成立“产业大模型联合实验室”,聚焦技术、业务、人才等板块的深度共建。

2025年1月6日:市场传言零一万物将预训练团队出售给阿里云,李开复辟谣称该消息不实。

结果还是卖了

二、为什么楼会塌?

(一)战略迷失:在开源与闭源之间反复横跳的“精神分裂”

零一万物自诞生之初就展现出明显的战略摇摆。在2023年11月高调发布其开源模型Yi时,李开复曾宣称“开源是AI民主化的必由之路”,但短短几个月后推出的闭源Yi-Large却转而强调"核心技术必须掌握在自己手中"。2024年5月重申不打价格战,「价格战烧不出 AI 超级应用,好模型有贵的道理」,四个月后新发布的Yi-Lightning价格又迅速降到1元/M的量级。这种180度的转向背后,暴露出团队对商业模式认知的混乱。

更致命的是,当阿里云在2024年6月将其模型接入通义百炼平台时,零一万物实际上已经沦为云厂商的算法供应商。此时李博士再转头布局"万知"企业服务平台,试图直接触达终端客户,本质上形成了与合作伙伴的竞争关系。这种既要当运动员(做产品)又想当裁判员(做基建)的定位,最终导致其既失去了阿里云的深度支持,又未能建立起独立的产品生态。

数据最能说明问题:截至2024年Q3,Yi系列API调用量始终徘徊在GPT-4调用量的3%左右,而其引以为傲的"万知"平台企业用户数未突破5000家,客单价更是不足竞品DeepSeek的1/3。这种两头不靠岸的尴尬处境,像极了当年在社交与工具之间摇摆的子弹短信。

(二)产品空心化:技术至上主义的致命陷阱

翻阅零一万物官网的产品矩阵,我们会发现一个有趣的现象:从Yi-Large到Yi-Lightning,所有版本迭代都在强调"参数规模提升50%""MMLU评分超越GPT-4",却始终回避回答最核心的问题——这些技术突破如何转化为商业价值?

这种"为SOTA而SOTA"的研发导向,在2024年10月发布的数字人产品上达到顶峰。

当团队还在炫耀数字人的微表情延迟降低了0.3秒时,市场早已被硅基智能、风平智能等玩家的"千元级数字人解决方案"占领。据某券商调研,零一万物单个数智人客户的获客成本高达8.7万元,而行业均值仅1.2万元。

更值得玩味的是其产品落地场景的选择:既有面向开发者的模型API,又有针对企业的"万知"办公套件,还布局了数智人赛道。这种撒胡椒面式的扩张,恰恰暴露了其缺乏核心场景深耕能力的短板。

在大模型领域,尤其像零一万物这种独角兽,做十款60分产品不如做一款90分产品。产品矩阵过多过广会极大的分散团队的注意力和共识,内斗会极大的拖缓整体公司决策的步伐。

(三)资本豪赌:算力军备竞赛下的现金流危机

零一万物的融资轨迹揭示了一个危险的信号:从2023年到2024年,其估值从70亿飙升至200亿人民币,但经营性现金流始终为负。作为前大模型独角兽,零一万物为了保证自家大模型不掉队,绝大多数融资一定会投入到预训练算力的采购中。

这种"融资-买卡-刷榜-再融资"的击鼓传花游戏,在2024年遭遇致命打击。

随着美国新一轮芯片禁令出台,直接导致其千卡集群建设计划搁浅。而此时距离其宣称"启动下一代万亿参数Yi-XLarge MoE模型训练"的豪言,才过去不到三个月。

零一万物引以为傲的"白菜价"战略中,为抢占市场份额,其API定价仅为GPT-4的1/5,但根据内部测算,每处理100万tokens的实际成本却远大于收费价格。这种饮鸩止渴的定价策略,本质上是用投资人的钱补贴客户,最终在资本寒冬来临时轰然崩塌。

如今,李开复不得不承认,“当前只有大厂能够‘烧’超大模型。”虽然否认了打包出售,但他在接受媒体采访时表示,愿意继续训练超大参数模型的成员,加入了零一万物和阿里云成立的“产业大模型联合实验室”。

(四)组织熵增:豪华团队的布朗运动

当我们审视这个集结了谷歌大脑、阿里达摩院、华为2012实验室精英的"全明星团队",会发现一个诡异的悖论:成员个体越优秀,组织内耗反而越严重。多位离职员工在匿名社区爆料,光是"应该先做对话式AI还是先做行业大模型"的路线之争,就导致三个月内更换了四次技术架构。

接下来就是我们非常熟悉的山头内斗了,零一万物内部也存在"海归派"与"本土派"的隐形割裂。从流出的会议纪要可见,拥有海外背景的高管坚持"技术驱动论",主张持续投入预训练;而来自国内大厂的成员则力推"场景先行",要求砍掉部分研发预算转向垂直领域。这种理念分歧直接导致Yi-Lightning成为了"四不像"产品——既想保持通用性又要强调金融场景适配,最终在两项评测中都未能进入前三。

三、Deepseek与零一万物——大模型创业启示录

:::note 当然,我还要给零一万物找补一下:深度求索背靠幻方,自家爸爸有钱不用担心投资人压力,零一万物自成立之初就一直有沉重的变现盈利商业化运作压力,资本的考量不可谓不重要。 :::

零一万物的溃败与DeepSeek-R1的崛起,共同勾勒出大模型赛道从资本狂欢到理性回归的清晰脉络。零一万物的故事或许是中国大模型创业最好的启蒙教材——它用近30亿美元的代价告诉我们:在AI 2.0的世界里,没有战略定力的技术狂欢,终将沦为资本游戏中的烟花表演。

1. 技术护城河幻觉的破灭:开源生态重构竞争格局

DeepSeek-R1的爆发印证了一个残酷现实:单纯依赖参数规模和榜单刷分的时代已终结。其通过全栈开源策略(MIT协议),不仅开放了660B参数的模型权重,还允许用户基于R1进行二次开发与模型蒸馏,甚至将6个蒸馏后的小模型(1.5B-70B)开源。这直接导致了一个现象:原本需要天价算力支撑的顶级推理能力,如今中小开发者仅用开源社区资源即可复现,甚至通过微调在特定场景超越闭源模型。

更关键的是,DeepSeek-R1-Zero的实验证明,纯强化学习方法无需依赖监督微调(SFT),仅通过极简奖励规则(准确性+格式约束)即可激发模型涌现推理能力。这种技术民主化彻底击碎了"闭源即壁垒"的幻想——当算法框架、训练方法论甚至思维链生成机制都被透明化,技术护城河已从"独家秘籍"转变为"开放协作的起点"。

2. 生态绑定与效率革命的双重碾压

当零一万物因战略摇摆陷入"既要当云厂商的算法供应商,又想直接争夺终端客户"的困境时,DeepSeek-R1用生态协同+成本屠刀的组合拳重构了竞争规则。一方面,其输入tokens每百万1元的超低定价(仅为OpenAI o1的3%)倒逼企业用户迁移,配合"思维链API接口"实现技术价值与产业需求的无缝咬合;另一方面,通过群组相对策略优化(GRPO)将标注数据需求骤降至传统方法的0.5%,结合动态知识蒸馏技术使3B小模型性能超越竞品15%,最终在同等性能下实现训练成本仅为Llama3的1/11。这种战略与技术的双重碾压,本质上是用工程创新支撑商业野心——当零一万物还在烧钱买卡时,DeepSeek已通过算法架构革新,将每单位算力的商业回报提升了27倍。

3.破除精英迷信:年轻血液重构创新范式

零一万物的陨落与DeepSeek的崛起,揭示了大模型创业中一个被长期忽视的真理:过度迷信海外大牛和明星团队,往往导致战略失焦与组织内耗。当行业还在追捧“谷歌大脑+FAIR+OpenAI”的履历组合时,DeepSeek用一支平均年龄不足28岁的本土团队,完成了对传统精英叙事的颠覆。

(1)认知红利

DeepSeek的成员构成极具反叛性——85%的核心技术岗位由应届毕业生或毕业两年内的新人担任,甚至包括在读博士生。这种看似冒险的用人策略,实则暗含对大模型技术特性的深刻洞察:

  • 技术代际跃迁的红利期:当行业处于范式变革期(如从Transformer到MLA架构),经验反而可能成为思维定势的枷锁。年轻研究者未被既有框架束缚,更敢于挑战“Attention机制不可修改”等行业教条。
  • 极致效率导向:年轻团队对算力优化有近乎偏执的追求。清华毕业生赵成钢主导的Fire-Flyer超算架构,通过动态资源调度算法将GPU利用率提升至92%,远超行业平均60%的水平。这种工程能力,恰是零一万物等依赖云厂商的团队难以企及的。

(2)本土创新的组织优势

与零一万物高调引进海外人才不同,DeepSeek坚持“本土培养+内部造血”模式:

  • 文化认同消除沟通损耗:团队成员多来自清北、北邮等国内高校,共享相似的教育背景与研究范式。这种同源性大幅减少了“海归派”与“本土派”常见的理念冲突(如预训练优先还是场景优先的路线之争)。
  • 扁平化协作激发创造力:DeepSeek采用OpenAI式的“自然分工”机制——任何小组只要对某个方向感兴趣,即可自由调用算力资源启动项目。这种模式使GRPO强化学习算法从构想到论文发表仅耗时47天,而传统企业同等规模创新平均需6个月。

中国大模型创业正在书写新的规则:不再需要复刻硅谷的人才崇拜,也不必困于“海归光环”的焦虑。正如梁文锋所言:“我们不需要世界前50的AI专家,因为我们可以自己培养出第51到100名——而他们终将重新定义排名。”这种自信,或许才是中国AI穿越周期真正的护城河。

4. 开源协作与技术透明度成竞争加速器

DeepSeek-R1的MIT协议开放策略,不仅赢得开发者社区支持,更倒逼技术透明度成为行业准入门槛。其论文中坦承R1-Zero存在"语言混杂""可读性差"等缺陷,并通过冷启动数据迭代改进,这种开放纠错机制反而增强了技术公信力。相比之下,零一万物封闭的技术路线与夸大宣传,最终导致信任崩塌。

未来,大模型竞争将演变为开放生态的协同效率之争——谁能更快吸收社区创新、更低成本整合产业链,谁就能在洗牌中存活。正如Nature评论所言:"DeepSeek的成功证明,资源效率比算力规模更重要"。

结语:理性时代的生存法则

当资本泡沫退去,大模型创业已从"造神运动"回归商业本质。零一万物和DeepSeek-R1的启示在于:技术必须服务于可量化的商业价值,而价值必须通过生态协作实现指数级放大。零一万物的墓碑上刻着"战略迷失",而DeepSeek的里程碑则写着"开源即护城河,效率即生命力"。这场范式转移中,唯有拥抱开放、深耕场景、极致提效的玩家,方能穿越周期,见证AGI的真正曙光。

参考

[1] 李开复麾下大模型公司零一万物上线,数十位核心成员就位,量子位

[2] 刚刚,李开复最快独角兽诞生:零一万物估值超70亿,投资界PEdaily

[3] 「零一万物」完成数亿美元融资,某国际战投、东南亚财团加盟,36氪独家

[4] 零一万物决定给大厂让路,界面新闻

[5] 全网都在扒的DeepSeek团队,是清北应届生撑起一片天,量子位

[6] 揭秘DeepSeek:一个更极致的中国技术理想主义故事,暗涌Waves

[7] 回望大模型这一年:混搭、扩散、ROI,腾讯研究院

[8] DeepSeek's Unconventional Talent Strategy: Why They Hire Fresh Graduates Over Industry Veterans

模型考古学(二):视觉大模型发展梳理与Qwen2-VL论文解读

如果说「模型考古学」第一篇主要聚焦于大语言模型(LLM)的内部机制与演进脉络,那么本篇博客将拓宽视野,探求视觉大模型(Vision Large Language Model,VLLM)的技术原理和发展历程。在单纯的文本世界之外,视觉大模型融合了图像理解能力,赋予了AI“看”世界的眼睛,让模型理解世界的方式从一维的文字扩展到了二维的图像。

本文将从两个方面展开论述:首先,我将回溯视觉大模型的发展历程,梳理其关键的技术节点和代表性模型,力求勾勒出一幅清晰的技术演进图景;其次,我将解读阿里的旗舰视觉模型Qwen2-VL的技术报告,剖析其架构和创新点。

一、视觉大模型基本原理

从技术原理上看,视觉大模型的基础架构大多融合了现代深度学习中的两大支柱:卷积神经网络(CNN)和自注意力机制(Transformer)。前者曾是早期视觉任务的主流方案,擅长在局部感受野中提取特征,而后者的引入则显著提升了模型对全局关系的建模能力,使视觉大模型能够以更加通用和灵活的方式处理图像。

1.深度学习带来的变革:特征学习

以卷积神经网络 (Convolutional Neural Networks, CNNs) 为代表的深度学习模型,能够自动从大量数据中学习到层次化的特征表示,而无需人工设计特征。CNN 的核心组件是卷积层。卷积层通过一组可学习的滤波器(也称为卷积核)对输入图像进行卷积操作,提取出图像的局部特征。通过多个卷积层的堆叠,CNN 可以逐渐提取出从低级到高级的特征表示:

  • 低级特征: 例如边缘、角点等。
  • 中级特征: 例如纹理、形状等。
  • 高级特征: 例如物体部件、物体类别等。

除了卷积层,CNN 中还包含池化层全连接层

  • 池化层: 用于降低特征图的维度,减少计算量,并增强模型的平移不变性。常用的池化操作包括最大池化和平均池化。
  • 全连接层: 用于将卷积层和池化层提取的特征进行整合,并输出最终的预测结果。

经典 CNN 模型,例如 AlexNet、VGG、GoogLeNet、ResNet 等,在图像分类、目标检测等任务上取得了巨大成功,推动了计算机视觉领域的飞速发展。

2.从独立视觉任务到视觉-语言融合

VLLM之前的计算机视觉模型大多都只针对特定任务进行训练,例如图像分类、目标检测、语义分割等。这些模型只能处理视觉输入,并输出视觉相关的结果。但我们人类对于世界的理解是多模态的,既包括视觉信息也包括语言信息。为了让 AI 具备更接近人类的智能,研究者们开始探索将视觉和语言融合起来,构建能够同时处理图像和文本的模型。

这就是视觉大模型 (VLLM) 的雏形。VLLM 的核心思想是,通过一个统一的模型架构,将图像和文本映射到同一个语义空间,从而实现跨模态的理解和推理。现代视觉大模型普遍采用Vision Transformer(ViT)架构。ViT的核心思想是将图像分割成一系列图像块(patches),然后像处理文本序列一样用Transformer来处理这些图像块序列。具体来说,ViT首先将输入图像切分成固定大小的patch(例如16×16像素),每个patch经过线性投影后转换为一个特征向量。这些特征向量序列再加入位置编码,构成Transformer的输入序列。通过多层self-attention机制,模型能够捕获图像各个部分之间的关系,从而学习到更抽象的视觉特征表示。

初代的 VLLM 通常会使用两个独立的编码器分别处理图像和文本,然后通过一个融合模块将两种模态的信息进行整合,最后输入到一个语言模型解码器中生成文本描述或者执行相应的视觉-语言任务。例如早期的 Visual Question Answering (VQA) 模型,以及将图像和文本映射到同一语义空间进行对比学习的 CLIP 等,都采用了这种思路。

二、视觉大模型发展历程:从单模态到多模态涌现

和其他事物一样,视觉大模型的发展并非一蹴而就,其演进路径可划分为三个阶段:单模态视觉模型主导期多模态融合探索期,以及多模态通用智能涌现期。这三个阶段既体现了技术范式的跃迁,也揭示了从“被动感知”到“主动交互”的AI能力进化。

1.单模态时代:视觉表征学习的奠基(2012-2020)

AlexNet (2012)为代表的早期CNN模型开启了深度学习在计算机视觉的黄金时代。通过卷积层堆叠与ImageNet大规模监督训练,模型首次展现出通用视觉表征学习能力 。此后,VGGNet (2014)通过更深层网络验证了深度对性能的提升,ResNet (2015)凭借残差连接突破梯度消失瓶颈,EfficientNet (2019)则通过复合缩放法则实现精度与效率的平衡。这些模型虽局限于图像分类任务,但其预训练权重被广泛迁移至目标检测(Faster R-CNN)、分割(Mask R-CNN)等下游任务,形成了“预训练-微调 ”的经典范式。

当然,这个时代的单模态模型也存在显著的局限性。首先就是不同的视觉任务需要独立设计网络头,缺乏统一架构,存在任务隔离性。正因为其是单模态模型,我们没办法将视觉特征与语言语义对齐,难以实现跨模态推理。最后,在ai领域有一个经典笑话:「有多少智能就有多少人工」,当时严重依赖人工标注的边界框/掩码数据,模型的泛化能力有限

2.多模态融合萌芽:视觉-语言对齐的探索(2020-2022)

Transformer在NLP领域的成功催生了视觉架构的变革。Vision Transformer(ViT) (2020)首次将图像切分为序列化Patch,通过自注意力建模全局关系,打破了CNN的局部归纳偏置限制。与此同时,CLIP (2021)与ALIGN (2021)开创了双塔对比学习范式 :图像编码器(ViT/CNN)与文本编码器(Transformer)通过海量互联网图文对进行对比学习,使模型无需人工标注即可建立跨模态语义关联。这类模型展现出强大的零样本迁移能力 ——仅通过文本提示(Prompt)即可完成图像分类、检索等任务。

这一阶段的突破性在于:

  • 模态对齐 :通过对比损失函数将视觉-语言映射至共享语义空间
  • 弱监督学习 :利用互联网天然图文对减少人工标注依赖
  • 提示工程 :以文本指令控制模型行为,初步展现多模态交互潜力

但局限性仍存:双塔架构的模态交互仅发生在特征对齐阶段,缺乏深层次的跨模态信息融合 ,难以完成复杂推理任务(如视觉问答、图像描述生成)。

3.多模态涌现:通用视觉-语言交互的崛起(2022至今)

随着大语言模型(LLM)在文本理解与生成上的突破,研究者开始探索将视觉能力与LLM深度融合,推动多模态模型从浅层对齐深度协同推理 跨越。这一阶段的技术革新不仅体现在架构设计上,更标志着AI从“感知工具”向“通用交互智能体”的范式转变。

(1)视觉和语言的初步耦合

  • Flamingo (DeepMind, 2022):

    首次提出交叉注意力适配器 (Cross-Attention Adapter)架构,将预训练视觉编码器(如NFNet)与冻结的LLM(Chinchilla)连接。通过插入可训练的交叉注意力层,模型能够将视觉特征动态注入语言模型,支持多图多轮对话少样本学习 。Flamingo的上下文学习能力 (如根据少量示例完成VQA任务)证明了多模态涌现的潜力。

  • BLIP-2 (Salesforce, 2023):

    设计Q-Former (Querying Transformer)模块,通过一组可学习的查询向量(learnable queries)从视觉编码器中提取与文本相关的特征,再输入LLM生成响应。这一设计显著降低了训练成本(仅需训练Q-Former和部分投影层),使研究者能够灵活组合不同视觉编码器(如ViT、CLIP-ViT)与LLM(如FlanT5、OPT),为开源社区提供了高效的多模态训练范式。

(2)闭源巨头入场:GPT-4V与Gemini

  • GPT-4V (OpenAI, 2023):

    GPT-4的视觉版本(Vision)标志着闭源多模态模型的巅峰。其技术细节未完全公开,但通过API展示的能力可知:

    • 支持任意分辨率图像输入 ,通过空间感知的token化策略保留细节信息
    • 实现复杂视觉推理 ,如流程图解析、抽象漫画理解、跨图像时空推理
    • 通过RLHF与多模态指令微调 对齐人类意图,避免幻觉输出GPT-4V的推出重新定义了多模态模型的上限,但其黑盒性质也引发了对技术透明性的争议。
  • Gemini (Google, 2023):

    作为首个原生多模态模型 ,Gemini从预训练阶段即统一处理图文数据,而非拼接独立编码器。其关键技术包括:

    • MoE(Mixture of Experts)架构 :动态路由不同模态至专家子网络,提升计算效率
    • 多模态思维链 (Multimodal CoT):通过中间推理步骤解释视觉-语言决策过程
    • 3D空间理解 :支持点云、视频等三维输入,拓展多模态交互场景

(3)开源社区:从LLaVA到Qwen-VL

  • LLaVA (威斯康星大学, 2023):

    首次在开源社区验证“视觉指令微调 ”的有效性。通过将CLIP视觉编码器与Vicuna语言模型连接,并利用GPT-4生成的视觉-指令数据微调,LLaVA以较小参数量(7B/13B)达到接近商用模型的性能,推动了开源多模态应用的普及。

  • Qwen-VL系列 (阿里云, 2023-2024):

    作为中文开源多模态模型的代表,Qwen-VL的技术亮点包括:

    • 多粒度视觉表征 :通过动态分辨率处理与自适应token采样,平衡计算成本与细粒度理解(如OCR、物体属性识别)
    • 多图多轮对话 :支持用户上传多张图像并基于历史上下文进行连贯推理(如对比分析、事件排序)
    • 定位-描述协同 :联合训练目标检测与描述生成任务,实现“指哪说哪”的交互能力

    尽管Qwen-VL在通用性和综合性能上可能仍逊于当时的4v,但其在中文场景 (如古诗词配图理解、电商产品分析)和垂直任务 (如医学图像报告生成)上的优化,为行业应用提供了高性价比选择。

(4)本阶段的技术特征与挑战

  • 1.架构统一化
    • 主流方案采用“视觉编码器+语言模型 ”的耦合架构,通过轻量级适配器(Adapter)或中间表示(如Q-Former)实现跨模态特征交互。
    • 趋势:逐步从“冻结视觉/语言模块”向“端到端联合优化”演进(如Qwen-VL、Gemini)。
  • 2.训练范式革新
    • 两阶段训练 :先对齐视觉-语言表征(对比学习),再通过指令微调激发推理能力。
    • 数据引擎 :利用LLM生成合成数据(如LLaVA)、构建多模态思维链数据(如CogVLM),突破高质量标注数据瓶颈。
  • 3.涌现能力
    • 零样本迁移 :无需微调即可处理未见任务(如GPT-4V解读手写笔记)。
    • 组合推理 :融合常识与视觉线索解答复杂问题(如“推断图中人物的情绪并解释原因”)。

当然,目前视觉模型仍然会存在幻觉问题,生成与图像无关的虚假描述,需通过强化学习与规则约束降低风险。在长尾场景下,如对罕见物体(如特殊医疗器械)或文化特定内容(如传统服饰)的理解仍不稳定。

三、Qwen2-VL论文解读

Qwen2-VL整体架构上仍然延续了Qwen-VL中ViT加Qwen2的串联架构,在三个不同尺度的模型上都采用600M大小的ViT。不说废话,直接总结Qwen2-VL的创新点:

  • 引⼊了 Naive Dynamic Resolution 机制,与上一代模型相比,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性,更是模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力,使其在图像处理领域展现出更加灵活和高效的表现。

  • 集成多模态旋转位置嵌入(M-RoPE),传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。

    例如对text输入,distinct-IDs退化为1D-RoPE;对image输入,distinct-IDs是由height & width components决定的;对于video输入,distinct-IDs是由height & width + temporal决定的。

image.png

  • 采用统一的范式处理图像和视频,增强了模型的视觉感知能力

1.基础:以Qwen2-VL为例解析一个视觉大模型的结构

image.png

我们直接以Qwen2-VL技术报告里这张结构图为例,来解析一下一个视觉大模型应该包含哪些部分。

(1)、输入处理模块

首先就是文本输入处理,模型支持自然语言文本输入,并在多模态情境下与视觉内容进行整合。然后,作为多模态模型,重要功能就是视觉输入处理,Qwen2-VL可以处理各种类型的视觉输入,包括高分辨率图片和视频帧。

  • 样例输入包括:
    • 图片(Picture 1, 2, 3) :例如网页截图、自然风景等。其中,输入分辨率可能各不相同,如高度8204像素的网页截图,或者更小分辨率的风景图片。
    • 视频(Video 1) :输入是多帧视频流,包含时间序列信息,例如16秒长的视频序列。

(2)、视觉编码器(Vision Encoder)

Qwen2-VL的视觉编码器采用改进型Vision Transformer(ViT)架构,参数规模为6.75亿,通过Naive Dynamic Resolution 机制突破传统固定尺寸限制。其核心创新体验在:

原生分辨率支持:

  • 动态分块策略:输入图像不再强制缩放,而是根据原始分辨率自适应划分图像块(patches)。例如8204像素高度的网页截图会被分割为587个14x14像素块(8204/14≈586),而224x224标准图片则生成256个块((224/14)^2)。
  • 空间信息保留:通过2D旋转位置编码(RoPE-2D)替代传统绝对位置编码,将二维坐标(x,y)映射到复数空间进行旋转操作,使模型能精确感知每个图像块在原始图像中的几何位置。

多模态时空建模:

  • 视频处理机制:对视频输入每秒采样2帧,通过深度可分离3D卷积提取时空特征。每帧视为独立图像进行分块编码后,额外叠加时间轴RoPE分量,形成三维位置编码(高度、宽度、时间)的联合表征。
  • 跨模态对齐:在ViT末层引入可学习的模态标记(<vision_start>, <vision_end>),与文本标记共享嵌入空间,为后续跨模态融合奠定基础。

特征压缩与优化:

  • 相邻特征聚合:在ViT输出端加入MLP压缩层,将相邻2x2视觉标记(如16x16区域)合并为超标记,既降低序列长度(例如224x224输入从256标记压缩至64),又增强局部语义连贯性。
  • 显存优化技术:采用动态序列打包(Dynamic Sequence Packing),将不同分辨率图像的视觉标记拼接为连续张量,通过掩码机制隔离不同样本,实现GPU显存利用率提升37%。

之后,视觉编码器的输出通过自适应门控机制注入语言模型。

(3)、Token化与跨模态表示

视觉 Token处理

  • 经过视觉编码器处理后,每张图片或视频被转化为一组 token。

  • 分辨率自适应的分块策略

    每个图像块(patch)固定为14x14像素,但分块数量由输入分辨率动态决定。例如:

    • 网页截图(8204像素高度)⇒ 587个垂直分块(8204/14≈586.71,向上取整)
    • 标准224x224图片 ⇒ 16x16网格(共256个分块)
  • 时空统一编码

    视频帧通过三维位置编码(M-RoPE)实现时空感知:

    • 空间维度:每个分块的(x,y)坐标映射为复数空间的旋转相位
    • 时间维度:帧序列位置t通过线性递增的旋转角度编码
    • 示例:16秒视频(32帧)⇒ 时间轴RoPE角度从0°到31°线性分布
  • 示例中,图片和视频的特征被编码为不同数量的 token,例如:

    • Picture 1 转为 11427 个 token。
    • Video 1 转为 2208 个 token。
    • Picture 2 转为较小数量的 token(8个token),表明小图可能具有更少的信息量。

统一 Token 表示

  • 跨模态位置对齐

    通过模态间位置映射函数,将视觉/语言的位置编码统一到同一度量空间:

    文本位置i → θ_i = i / 10000^(2d/D)
    视觉位置(x,y) → θ_x = x/10000^(2d/D), θ_y = y/10000^(2d/D)
    
  • 动态掩码注意力

    在自注意力层引入模态感知掩码,控制跨模态交互强度:

    # 视觉→文本注意力权重衰减
    if query_modality != key_modality:
        attention_scores *= 0.7  # 跨模态衰减系数
    

(4)、语言解码器(QwenLM Decoder)

QwenLM Decoder 负责将视觉编码器提取的视觉 token 与语言 token 进行深度融合,并最终生成自然语言输出。这种跨模态的融合是通过注意力机制实现的,包括自注意力和交叉注意力,使得模型能够在文字和视觉内容之间建立起紧密的关联。例如,解码器可以理解图片中的场景并用文字进行描述,或者根据视频内容生成文字总结,从而实现对多模态信息的有效整合。

作为模型的语言生成组件,QwenLM Decoder 采用典型的自回归式生成方式,即生成的每一个 token 都依赖于已有的 token 和视觉上下文。这种方式确保了生成文本的连贯性和与视觉内容的关联性。

(5)、输出模块与标注任务对齐:

模型的输出通常是文本,但可以是其他可能的结果,如进一步的特征表示或用于下游任务的结构化信息。

  • 典型功能
    • 描述生成 :如对 Picture 1 生成描述 —— “这是来自一个博客的图片”。
    • 视频总结 :为 Video 1 生成文字性总结。
    • 问答系统 :结合输入,回答像 "What is in Picture 3?" 这类的多模态问题。

为了有效处理多个输入(例如多张图片和多段视频),模型对每个输入模态进行了标识,并在每个模态的 token 数量上进行了明确说明,实现了模态之间的序列标注。通过任务对齐和数据训练,模型学习如何整合视觉与文本信息,并能够动态调整以适应特定任务,如生成描述、进行问答、联想推理等。这种任务自适应的能力,使得模型在实际应用中具有极高的灵活性和实用性。

2.M-RoPE粗解

(1)、技术背景

之前的传统旋转位置嵌入(Rotary Position Embedding, RoPE)通过旋转操作将位置信息动态融入注意力机制,解决了传统位置编码在灵活性、效率和泛化性上的瓶颈。相较于传统位置编码,采用RoPE的模型在同等参数量下实现更优的困惑度(Perplexity)和下游任务准确率,其天然支持动态长度输入,适合处理长文本任务,在PG-19(长篇小说生成)和arXiv论文理解任务中,RoPE模型相比基线(如ALiBi)的生成连贯性提升显著。RoPE技术的数学优雅性、计算高效性以及对长序列的支持,使其成为现代LLM的核心技术之一,并为多模态模型的进一步发展奠定了基础。

RoPE主要用于对语言模型中一维序列的位置编码,通过复数域的旋转操作捕捉位置关系。然而,因为图像和视频的视觉信息具有天然的空间或时空结构,例如图像中的像素位置(高度、宽度)和视频的帧序列(时间),RoPE无法有效建模高度、宽度和时间维度上的位置关联,通常将多维位置压缩为一维或静态处理,导致信息丢失。

因此,学术界提出M-RoPE,通过以下方式扩展传统RoPE,实现多模态位置信息的动态建模:

(2)、实现方式

多维位置分解

将旋转嵌入分解为独立的时间、高度和宽度分量,分别对应视频的帧序列、图像的垂直和水平位置:

  • 文本输入:时间、高度、宽度分量使用相同的位置ID,退化为传统1D-RoPE。
  • 图像输入:时间分量固定(单帧),高度和宽度分量根据视觉标记在图像中的实际位置动态分配。
  • 视频输入:时间分量随帧数递增,高度和宽度分量与图像处理一致。

跨模态位置编码

  • 模态间位置隔离:不同模态的位置ID独立分配。例如,若前一个模态的最大位置ID为 $N$,下一模态的起始位置ID为 $N+1$,避免跨模态位置冲突。
  • 动态序列打包:在推理阶段,不同分辨率的图像或视频帧被打包为单一序列,通过控制序列长度平衡计算效率与信息保留。

数学实现

对于输入向量 $ \mathbf{x} $,M-RoPE通过旋转矩阵 $ \mathbf{R} $ 注入位置信息: $$ \mathbf{R}(t, h, w) = \mathbf{R}_t(t) \otimes \mathbf{R}_h(h) \otimes \mathbf{R}_w(w) $$ 其中:

  • $ \mathbf{R}_t $、$ \mathbf{R}_h $、$ \mathbf{R}_w $ 分别表示时间、高度和宽度分量的旋转矩阵。
  • $ \otimes $ 为张量积操作,将各分量的旋转效应组合为多维位置编码。

(3)、优势

  1. 动态分辨率支持

    M-RoPE允许模型处理任意分辨率的图像,无需固定输入尺寸。视觉标记数量随图像分辨率动态调整,避免下采样或填充导致的信息损失。

  2. 长序列外推能力

    通过分离时间与空间分量,M-RoPE在视频任务中显著提升了长度外推能力。实验表明,模型在推理时能处理远超训练时最大长度(16K token)的序列(如80K token),性能保持稳健。

  3. 跨模态信息融合

    统一的编码框架无缝整合文本、图像和视频的位置信息,增强模型对动态内容(如视频流)的理解能力。

3.其他技术报告摘录与解读

这部分主要选取我感兴趣的内容

训练过程

Qwen2-VL沿袭了Qwen-VL(Bai等人,2023b)的核心训练框架,采用分阶段渐进式训练方法,兼顾视觉-语言对齐与模型泛化能力:

视觉语义奠基阶段

首阶段聚焦视觉Transformer(ViT)组件的专项训练,通过海量图像-文本对数据,强化大型语言模型(LLM)对视觉特征的语义映射能力。此阶段ViT参数保持可调,而LLM部分冻结,确保视觉模块的基础能力沉淀。

全参数协同优化阶段

第二阶段全面解冻模型参数,引入更丰富的数据类型(如OCR文本、图文交错文档等),促使视觉与语言模块深度融合。这种「全开放」训练模式有助于模型捕捉跨模态关联规律,提升复杂场景下的多模态推理能力。

指令微调精修阶段

最终阶段锁定已成熟的ViT参数,专注使用指令数据集对LLM进行针对性微调。这种设计既保留了视觉编码器的稳定性,又通过指令驱动的方式强化了模型的任务响应与逻辑表达能力。

4.数据格式与定位能力

与 Qwen-VL ⼀致,Qwen2-VL 也采⽤特殊标记来区分视觉和⽂本输⼊。标记 2023)被 RoPE-2D <|vision_start|>和<|vision_end|>取代,分别插⼊图像特征序列的开始和结束位置,以界定图像内容。

格式示例:

<|im_start|>⽤户 <|vision_start|>Picture1.jpg<|vision_end|><|vision_start|>Picture2.jpg<|vision_end|>这两张图
⽚有什么共同点?<|im_end|> <|im_start|>助⼿ 这两张图⽚都是海绵宝宝。<|im_end|> <|im_start|>⽤户 视频中
发⽣了什么?<|vision_start|>video.mp4<|vision_end|><|im_end|> <|im_start|>助⼿ 视频中的主⻆正在煎蛋。
<|im_end|>

视觉定位。为了赋予模型视觉定位能⼒,边界框坐标在[0, 1000)范围内归⼀化,并表示为“(X 左上⻆, Y 左上⻆), (X 右下⻆, Y 右下⻆)”。

Tokens <|box_start|> 和 <|box_end|> ⽤于界定边界框⽂本。为了准确地将边界框与其⽂本描述关联起来,Qwen引⼊了tokens <|object_ref_start|> 和 <|object_ref_end|> 来指示边界框引⽤的内容,从⽽使模型能够有效地解释并⽣成特定区域的精确描述。

示例:

<|vision_start|>Picture1.jpg<|vision_end|> <|object_ref_start|>⻓颈⿅的眼睛<|object_ref_end|><|box_start|>
(176,106),(232,160) <|box_end|>

模型总结

我们推出了 Qwen2-VL 系列,这是⼀系列多功能的⼤型视觉语⾔模型,包括总参数量分别为 20 亿、80 亿和 720 亿的三个开源模型。Qwen2-VL 在⼀系列多模态场景中与 GPT-4o 和Claude3.5-Sonnet 等顶级模型性能相当,超越了所有其他开源 LVLM 模型。Qwen2-VL 系列引⼊了朴素动态分辨率和多模态旋转位置嵌⼊(M-RoPE),以有效融合跨模态信息,并能够理解超过 20 分钟的视频。凭借先进的推理和决策能⼒,Qwen2-VL 可以与⼿机、机器⼈等设备集成。此外,Qwen2-VL 现在⽀持理解图像中的多语⾔⽂本,包括⼤多数欧洲语⾔、⽇语、韩语、阿拉伯语、越南语等。

参考文献

[1] Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. Advances in neural information processing systems, 2024, 36.

[2] Liu H, Li C, Li Y, et al. Improved baselines with visual instruction tuning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 26296-26306.

[3] Bordes F, Pang R Y, Ajay A, et al. An introduction to vision-language modeling[J]. arXiv preprint arXiv:2405.17247, 2024.

[4] Wang P, Bai S, Tan S, et al. Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution[J]. arXiv preprint arXiv:2409.12191, 2024.

模型考古学(一):大模型原理探赜

:::note 本篇博客的大量图片来自3Blue1Brown,你可以点击这个链接找到他们的B站官方账号 :::

谈及AI,我们现在大概率会直接想到大模型。诚然,大模型背后的庞大参数量和实现原理固然令人赞叹,但追本溯源我们会发现这些庞然大物的根基仍然是我们熟知的那个概念——神经网络。本篇作为“模型考古学”系列的第一篇,我会从神经网络的结构开始,一步步探寻大模型背后的奥秘。

机器学习的迷人之处在于,它赋予了机器“学习”的能力,而不再需要我们在代码中事无巨细地规定任务的执行步骤。这与 AI 发展初期的思路截然不同,那时,我们需要为每个特定任务编写明确的指令。如今,我们更倾向于构建一种通用的、具有可调参数的灵活架构,然后利用大量的样本数据(即输入与期望输出的对应关系)去训练这个架构。通过不断调整参数,模型逐渐学会模仿数据中蕴含的规律。以最简单的线性回归为例,我们输入房屋面积,期望得到预测的价格,这中间只需找到一条最佳拟合线——它由斜率和截距这两个关键参数定义。通过优化这些参数,我们就能让这条直线最大程度地贴合已知的房屋面积与价格数据,从而预测未来的房价。而这,仅仅是机器学习的冰山一角。

一个更容易理解的说法是:我们不直接告诉机器怎么做,而是搭建一个灵活的“大脑”——神经网络,然后给它看海量的“例子”,比如“这个面积的房子大概值多少钱”。机器“看”多了,自己就能琢磨出规律,慢慢地,它就能根据输入的面积,猜出个八九不离十的价格。这就像我们小时候学东西,不是靠死记硬背公式,而是通过不断的观察和练习,学会举一反三。从最简单的线性回归,到如今火爆的各种深度学习模型,背后的原理其实都一样:用数据训练模型,让模型自己找到最佳答案。

一、从神经网络结构开始说起

1.基本结构

顾名思义,神经网络之名来源自人的大脑结构,神经网络里的神经元(Neuron)也可以对应我们大脑中的神经。在大脑中,一个神经元通常有多个树突用于接收信号,一个轴突用于发送信号。神经元会通过突触与其他神经元进行连接,并根据接收信号的总和决定其激活状态,就像一个生物版本的逻辑门。神经元之间连接的强弱会在学习过程中不断发生改变,进而影响信息处理的方式,这便是我们学习和记忆的基础。

人工神经网络中的神经元模型 正是对生物神经元的简化模拟。一个典型的人工神经元模型,例如经典的 McCulloch-Pitts (M-P) 模型,也拥有类似的功能结构。它接收来自其他神经元或外部输入的信号,每个输入信号都乘以一个对应的 权重(weight) ,这些加权后的信号在神经元内部进行 求和(summation) ,然后将总和与一个 阈值(threshold) 进行比较。如果总和超过了阈值,神经元就会被激活,并通过 激活函数(activation function) 产生一个输出信号;否则,神经元则保持静默。

这个简单的数学模型,虽然看起来和我们生物体内的神经元相去甚远,却奠定了整个神经网络大厦的基石。我们可以将激活函数理解为对神经元是否“兴奋”的判定,不同的激活函数,例如阶跃函数、Sigmoid 函数、ReLU 函数等,都扮演着将神经元输入转化为输出的角色,同时也为神经网络引入了非线性,使其能够处理更复杂的任务。

从单个神经元到神经网络, 我们可以将多个神经元按照一定的层次结构连接起来,形成神经网络。最简单的结构便是 前馈神经网络(Feedforward Neural Network) ,其中神经元分层排列,信号只能从前一层单向传递到后一层,层内神经元之间没有连接。

在这种网络结构中,第一层被称为 输入层(Input Layer) ,负责接收外部输入的数据;最后一层被称为 输出层(Output Layer) ,负责输出网络的计算结果;中间的层被称为 隐藏层(Hidden Layer) ,隐藏层的层数和每层的神经元数量可以根据任务的复杂程度进行调整。

image.png

我们可以把神经元看做是一个函数(Function),它输入的是上一层所有神经元的输出,而它的输出是一个0到1之间的值。其实整个神经网络就是一个函数,在上图中是一个输入784个值(因为图片的像素是28*28),输出10个值(因为输出的是十个数字的概率)的函数。不过这个函数极其的复杂,它用了13002个权重参数偏置函数来识别特殊图案,当然这个函数要是不复杂的话我们又怎么能放心的用它来识别数字了呢()

image.png

那么,我们的神经网络是如何处理这项艰巨任务的,神经网络又是如何通过数据来获得合适的权重和偏置的?答案是 反向传播算法(Backpropagation)

:::note

我们想要这么一种算法,你可以给这个网络看一大堆训练数据,其中包括一堆不同的手写数字图像,以及它们代表哪个数字的标记,算法会调整这13000个权重和偏置值,以提高网络对训练数据的表现。我们希望这种分层结构可以让它举一反三,识别训练数据之外的图像。训练好网络后,我们会给它更多以前从未见过的带标记的数据作为测试,你就可以看到这个模型对新图像进行分类的准确度。

:::

2.反向传播算法

反向传播算法 可以说是神经网络的灵魂所在,它的核心思想可以概括为:计算损失,反向传播,更新权重

(1)、计算损失(Loss Calculation):

首先,我们需要一个衡量神经网络当前输出与期望输出之间差距的指标,这就是 损失函数(Loss Function) 。例如,在手写数字识别任务中,如果我们输入一张数字“2”的图片,期望的输出是“[0, 0, 1, 0, 0, 0, 0, 0, 0, 0]”,而神经网络实际输出的是“[0.1, 0.2, 0.5, 0.05, 0.02, 0.03, 0.01, 0.02, 0.05, 0.02]”,那么我们就需要一个损失函数来计算这两个向量之间的差异。常用的损失函数包括均方误差(Mean Squared Error, MSE)、交叉熵损失(Cross-Entropy Loss)等。损失函数的值越大,表示网络的输出与期望输出的差距越大,网络的性能越差。

(2)、反向传播(Backpropagation

这一步是反向传播算法的精髓所在。它利用 链式法则(Chain Rule) ,从输出层开始,逐层计算每个权重对最终损失的 梯度(Gradient) 。可以把梯度理解为“权重对损失的影响程度”,它是一个向量,指明了损失函数在当前权重值下,沿着哪个方向变化最快,以及变化的速率。

让我们用一个简化的例子来说明:假设输出层的某个神经元 j 的输出值为 $y_j$,它与期望输出 $t_j$ 之间的误差为 $E$ (假设使用 MSE 作为损失函数,则 $E = 0.5 * (y_j - t_j)^2$)。神经元 j 的输出 $y_j$ 是由上一层神经元 i 的输出 $y_i$ 经过加权求和并经过激活函数得到的,即 $y_j = f(∑ w_{ij} * y_i + b_j)$,其中 $w_{ij}$ 是神经元 i 到神经元 j 的权重,$b_j$ 是神经元 j 的偏置。

现在,我们想要知道权重 $w_{ij}$ 对误差 $E$ 的影响,即 $\partial E/\partial w_{ij}$。根据链式法则,我们可以将这个偏导数分解为: $$ ∂E/∂w_ij = ∂E/∂y_j * ∂y_j/∂net_j * ∂net_j/∂w_ij $$ 其中 $$net_j = ∑ w_ij * y_i + b_j$$。

  • $\partial E/\partial y_j$ 表示误差对神经元 j 输出的变化率,可以直接根据损失函数的定义计算得出。
  • $\partial y_j/\partial net_j$ 表示神经元 j 的输出对其加权输入和的变化率,这取决于激活函数的导数。
  • $\partial net_j/\partial w_{ij}$ 表示神经元 j 的加权输入和对权重 $w_{ij}$ 的变化率,这个值恰好等于 $y_i$。

通过这种方式,我们可以计算出输出层每个权重对损失的梯度。然后,我们可以将误差信号继续向后传播,计算隐藏层每个权重对损失的梯度。这个过程一直持续到输入层,所有权重的梯度都被计算出来。

(3)、更新权重(Weight Update):

得到每个权重的梯度后,我们就需要根据梯度来更新权重。更新的原则是:**沿着梯度的反方向调整权重,因为梯度的反方向是损失函数下降最快的方向,**常用的权重更新方法是 梯度下降法(Gradient Descent)。

总结来说,反向传播算法通过计算损失函数对每个权重的梯度,并根据梯度来更新权重,从而使得网络的输出逐渐逼近期望输出。这个过程不断迭代进行,直到网络的损失降到足够小,或者达到预设的训练轮数。

通过反向传播算法,神经网络可以从大量的训练数据中学习到合适的权重和偏置,从而具备强大的模式识别和预测能力。而大模型,则是在此基础上,通过增加网络的深度和宽度,使用更复杂的网络结构和训练技巧,进一步提升了模型的性能和泛化能力。

2.梯度下降法

梯度下降法(Gradient Descent) 是一种广泛应用于机器学习,尤其是神经网络训练中的一阶迭代优化算法。其核心思想是,通过迭代地沿着损失函数梯度的反方向来更新模型参数(例如神经网络中的权重和偏置),从而逐步逼近损失函数的最小值,最终找到模型的最优参数。

(1)、梯度的含义回顾

在深入了解梯度下降法之前,让我们再次回顾一下梯度的概念。梯度是一个向量,它指向函数在某一点处变化最快的方向,并且其大小表示函数在该方向上的变化率。对于一个多元函数,其梯度由各个自变量的偏导数组成。在神经网络中,我们关注的是损失函数关于各个权重和偏置的梯度。

想象一下你站在一座山上,目标是走到山谷的最低点。你环顾四周,找到了最陡峭的下坡方向(梯度反方向),然后迈出了一小步。接着你再次观察周围环境,找到新的最陡峭下坡方向,然后又迈出了一小步。重复这个过程,你最终将到达山谷的最低点。这就是梯度下降法的直观体现。

(2)、数学描述

假设我们有一个损失函数 $J(\theta)$,其中 $\theta$ 是一个向量,表示模型的所有参数(权重和偏置)。梯度下降法的目标是找到一组 $\theta$,使得 $J(\theta)$ 最小化。

梯度下降法的更新规则如下:

$\theta(t+1) = \theta(t) - \eta * \nabla J(\theta(t))$

其中:

  • $\theta(t)$ 表示第 $t$ 次迭代时的参数值。
  • $\theta(t+1)$ 表示第 $t+1$ 次迭代时的参数值。
  • $\eta$ 是学习率(Learning Rate),一个正数,控制每次迭代的步长。
  • $\nabla J(\theta(t))$ 表示损失函数 $J(\theta)$ 在 $\theta(t)$ 处的梯度。

(3)、计算步骤

1.初始化参数: 随机初始化模型参数 $\theta(0)$。 2.计算梯度: 使用反向传播算法(或其他方法)计算损失函数 $J(\theta)$ 关于当前参数 $\theta(t)$ 的梯度 $\nabla J(\theta(t))$。 3.更新参数: 按照上述更新规则,使用梯度和学习率来更新参数 $\theta(t+1)$。 4. 重复步骤 2 和 3: 不断迭代,直到满足停止条件。常见的停止条件包括: - 达到预设的最大迭代次数。 - 损失函数的值变化小于某个阈值。 - 梯度的模长小于某个阈值。

(4)、学习率

学习率 η 是梯度下降法中一个至关重要的超参数。它决定了每次参数更新的步长。

  • 学习率过大: 可能导致参数更新过猛,越过最小值,甚至导致损失函数发散,无法收敛。就像你在下山时步子迈得太大,可能会直接跳过山谷,甚至跑到另一座山上。
  • 学习率过小: 会导致参数更新缓慢,训练过程耗时过长。就像你下山时步子迈得太小,可能需要很长时间才能到达山谷。
  • 合适的学习率: 使得参数能够平稳地接近最小值,并在最小值附近震荡,最终收敛到最小值。

(5)、梯度下降法的变体

为了提高梯度下降法的效率和稳定性,研究者们提出了许多变体,常见的包括:

  • 批量梯度下降法(Batch Gradient Descent, BGD): 每次迭代使用 所有 训练样本来计算梯度。优点是每次更新都朝着全局最优方向前进,缺点是计算量大,训练速度慢,尤其是对于大规模数据集。
  • 随机梯度下降法(Stochastic Gradient Descent, SGD): 每次迭代 随机选择一个 训练样本来计算梯度。优点是计算速度快,尤其适合大规模数据集;缺点是由于每次只使用一个样本,更新方向可能不稳定,存在较大噪声,但从期望来看,它是沿着正确的方向的。
  • 小批量梯度下降法(Mini-Batch Gradient Descent, MBGD): 每次迭代使用 一部分(一个 mini-batch) 训练样本来计算梯度。这是 BGD 和 SGD 的折中方案,既能加快训练速度,又能提高稳定性,是目前最常用的梯度下降法变体。

当然,梯度下降法也会有其局限性。例如其可能会陷入局部最小值,而无法达到全局最小值,尤其是对于非凸函数。就比如我们在下山时可能会到达一个小的山谷,但这个山谷并不是整座山的最低点。梯度下降法在鞍点处可能会停滞不前,因为鞍点处的梯度为零。鞍点是一个既不是局部最小值也不是局部最大值的点,就像马鞍的中心点一样。最后,学习率的选择对于训练结果的影响很大,需要按照实际经验来一点点调整。

二、大模型的架构解析

目前,绝大多数主流的大语言模型都基于 Transformer 架构。Transformer 架构最初是在 2017 年的论文 "Attention is All You Need" 中提出的,它彻底改变了自然语言处理领域。

为什么Transformer如此重要?

  • 并行化处理:因为相较于之前的循环神经网络(RNN)和长短期记忆网络(LSTM),Transformer 能够并行处理输入序列中的所有词,大大提高了训练效率。
  • 注意力机制: Transformer 的核心是注意力机制(Attention Mechanism),它允许模型关注输入序列中不同词之间的关系,并根据这些关系动态调整每个词的权重,从而更好地理解上下文信息。
  • 长距离依赖:Transformer 能够有效地捕捉长距离依赖关系,这对于理解复杂的语言结构至关重要。

1.组成架构

image.png

(1)、嵌入层

在输入到 Transformer 之前,输入序列中的每个词都需要被转换成一个向量表示,这个过程称为 词嵌入 (Word Embedding)。嵌入层负责将每个词映射到一个固定维度的向量,这个向量能够表示该词的语义信息。

  • 常用的词嵌入方法: Word2Vec, GloVe, FastText 等。
  • 子词嵌入 (Subword Embedding): 为了解决未登录词 (Out-of-Vocabulary, OOV) 问题,现代 LLM 通常使用子词嵌入,例如 字节对编码 (Byte Pair Encoding, BPE) 或 WordPiece。这些方法将词分解成更小的子词单元,并为每个子词单元学习一个向量表示。

:::note

嵌入层之后就是我们的 Transformer 了,一个典型的 Transformer 模型由两个主要部分组成:编码器 (Encoder)解码器 (Decoder)

:::

(2)、Encoder 编码器

编码器的作用是将输入序列(例如一句话)转换成一个包含丰富语义信息的向量表示,称为 上下文向量 (Context Vector)隐藏状态 (Hidden State)

我们的Encoder编码器通常由多个相同的编码器层(Encoder Layer)堆叠而成,而每个编码器层又包含两个主要子层:

  • 自注意力层 (Self-Attention Layer): 这是 Transformer 的核心。自注意力机制允许模型关注输入序列中每个词与其他所有词之间的关系,并计算出一个权重矩阵,表示每个词对其他词的重要性。通过这种方式,模型可以理解每个词在句子中的上下文含义。
    • 计算过程: 自注意力层会为输入序列中的每个词计算三个向量:查询向量 (Query)键向量 (Key) 和 值向量 (Value)。然后,通过计算查询向量和键向量的点积来衡量每个词之间的相关性,并使用 Softmax 函数将这些相关性分数归一化为权重。最后,将这些权重与相应的值向量相乘并求和,得到每个词的上下文表示。
    • 多头注意力 (Multi-Head Attention): 为了捕捉更丰富的语义信息,通常会使用多头注意力机制。它将输入序列映射到多个不同的表示空间,并在每个空间中独立地计算自注意力,最后将所有头的输出拼接起来。
  • 前馈神经网络层 (Feed-Forward Network Layer): 这是一个简单的全连接神经网络,对自注意力层的输出进行进一步的非线性变换,增强模型的表达能力。

(3)、Decoder 解码器

解码器的作用是根据编码器输出的上下文向量生成目标序列(例如翻译后的句子)。

与编码器类似,解码器也由多个相同的 解码器层 (Decoder Layer) 堆叠而成。每个解码器层包含三个主要子层:

  • 自注意力层 (Self-Attention Layer): 与编码器中的自注意力层类似,但解码器中的自注意力层只能关注到当前词和之前的词,这是为了防止模型在生成当前词时“偷看”到未来的信息,这被称为 掩码自注意力 (Masked Self-Attention)
  • 编码器-解码器注意力层 (Encoder-Decoder Attention Layer): 这个子层允许解码器关注编码器输出的上下文向量。解码器中的每个词都会计算一个查询向量,并与编码器输出的所有键向量和值向量进行交互,从而获取与当前生成任务相关的上下文信息。
  • 前馈神经网络层 (Feed-Forward Network Layer): 与编码器中的前馈神经网络层类似,对注意力层的输出进行非线性变换。

(4)、Output Layer 输出层

解码器的最后一层输出一个向量,这个向量的维度与词汇表大小相同。然后,通过一个 Softmax 函数将这个向量转换成一个概率分布,表示每个词作为下一个词的概率。

2.为什么大模型如此之大?

在之前的讨论中,我们了解了神经网络的基础:反向传播和梯度下降,也领略了 Transformer 架构的精妙。现在,一个自然而然的问题浮现在我们脑海:为什么现在的大语言模型(LLM)都如此庞大?动辄数十亿、上千亿甚至上万亿的参数,究竟这些庞大的模型是如何炼成的,海量的训练数据又被模型“消化”到哪里去了呢?

(1)、大模型的“大”体现在哪里:

大模型的“大”,直观上体现在两个方面:

  • 模型参数量巨大: 正如前面提到的,GPT-3 的参数量达到了 1750 亿,而后续的 PaLM、Gopher 等模型更是将参数量推向了新的高度。这些参数主要指的是模型中神经元之间的连接权重和偏置,每一个参数都是一个需要通过训练来确定的数值。
  • 训练数据量庞大: 大模型的训练离不开海量的数据。GPT-3 使用了约 45TB 的压缩文本数据,而其他大模型使用的训练数据量也都在数百 GB 到数 TB 的级别。这些数据通常来源于互联网、书籍、论文等各种来源,涵盖了各种各样的主题和语言风格。

(2)、为什么要这么大?

简而言之,更大的模型和更多的数据通常意味着更强的能力和更好的泛化性能。 这背后的原因可以从以下几个方面来理解:

  • 更强的模式识别能力: 大模型拥有更多的参数,这意味着它拥有更复杂的内部结构和更强大的非线性拟合能力。这使得它能够捕捉到训练数据中更细微、更复杂的模式和规律。如果把模型比作一个函数,那么更多的参数就意味着这个函数可以拥有更复杂的形态,从而更好地逼近真实世界中各种复杂的现象。
  • 更好的泛化能力: 泛化能力是指模型在面对从未见过的数据时的表现。大模型通常拥有更好的泛化能力,因为它们在训练过程中见过了更多的数据,学习到了更普遍性的规律,而不是仅仅记住了训练数据中的特定例子。这就像一个学生,如果他只做了几道练习题,那么他可能只会做这几道题,但如果他做了大量的练习题,那么他就更有可能掌握解题的普遍方法,从而能够解决各种各样的新题目。
  • 更丰富的知识表示: 大模型可以看作是一个巨大的知识库,它将海量的训练数据中蕴含的信息压缩并存储在其参数中。模型参数越多,这个知识库的容量就越大,能够存储的信息就越丰富。当模型遇到新的任务或问题时,它可以从这个知识库中检索相关的信息,并利用这些信息来生成答案或执行任务。

image.png

(3)、海量的训练数据都去哪了?

那么,如此庞大的训练数据,在训练完成后都去哪里了呢?它们并没有以原始的形式存储在模型中,而是被模型“消化吸收”,转化成了模型的参数(权重和偏置)。

我们可以将模型的训练过程类比为“读书学习”。当我们阅读一本书时,我们并不会把书中的每一个字都一字不差地记住,而是会理解书中的内容,并将这些内容提炼成我们自己的知识,存储在我们的记忆中。类似地,模型在训练过程中,会不断地调整自己的参数,使得模型的输出能够更好地匹配训练数据。这个过程实际上就是将训练数据中的信息压缩并编码到模型参数中的过程。

具体来说,训练数据通过以下方式影响模型的参数:

  • 梯度下降: 在训练过程中,模型会计算损失函数关于每个参数的梯度,并根据梯度来更新参数。训练数据决定了损失函数的具体形式,从而影响了梯度的计算,最终影响了参数的更新方向和幅度。
  • 参数的最终值: 经过大量的迭代训练后,模型的参数会收敛到一个特定的值,这些值就是模型从训练数据中学到的知识的体现。不同的训练数据会导致不同的参数值,从而使得模型表现出不同的行为和能力。

可以这样理解:训练数据塑造了模型的参数,而模型的参数则承载了模型从训练数据中学到的知识。

(4)、这些知识都是如何储存的?

需要注意的是,模型对知识的存储方式与人类的记忆机制有很大的不同。人类的记忆是显式的,我们可以清晰地回忆起具体的事件和知识。而模型的“知识”是隐式地分布在其所有的参数中,我们很难从某个具体的参数值中解读出模型学到了什么具体的知识。

这就像一个黑盒,我们知道输入(训练数据)和输出(模型预测),但我们很难理解中间的“知识”是如何被表示和存储的。 这也是目前深度学习领域的一个重要的研究方向:可解释性。

3.大语言模型(LLM)架构的发展历程

基于 Transformer 架构,目前主要有三种主流的 LLM 架构:

  • 仅编码器模型 (Encoder-only Models): 例如 BERT、RoBERTa。这类模型只使用 Transformer 的编码器部分,擅长于理解语言,常用于文本分类、情感分析、命名实体识别等任务。它们通常通过 预训练 (Pre-training) 和 微调 (Fine-tuning) 的方式进行训练。
    • 预训练: 在大规模无标注文本数据上进行预训练,学习通用的语言表示。常用的预训练任务包括 掩码语言模型 (Masked Language Modeling, MLM) 和 下一句预测 (Next Sentence Prediction, NSP)
    • 微调: 在特定任务的标注数据集上进行微调,将预训练学到的通用语言表示适配到具体任务。
  • 仅解码器模型 (Decoder-only Models): 例如 GPT 系列 (GPT-1, GPT-2, GPT-3, GPT-4)。这类模型只使用 Transformer 的解码器部分,擅长于生成文本,常用于文本生成、对话系统、机器翻译等任务。它们通常通过 自回归 (Autoregressive) 的方式进行训练,即根据前面已生成的词来预测下一个词。
  • 编码器-解码器模型 (Encoder-Decoder Models): 例如 BART、T5。这类模型同时使用 Transformer 的编码器和解码器部分,兼具理解和生成能力,常用于机器翻译、文本摘要等任务。

image.png

在大模型发展的早期阶段,encoder-only和encoder-decoder模型更受欢迎,但随着 2021 年 GPT-3 的横空出世,decoder-only 模型完成了一次漂亮的翻身仗。在 BERT 带来的最初爆炸性增长之后,encoder-only 模型逐渐开始失宠。

Encoder-Decoder or Encoder-only (BERT-style) Decoder-only (GPT-style)
训练方式 Masked Language Models(遮盖某些单词) Autoregressive Language Models(自回归)
模型类型 (Discriminative)判别式 (Generative)生成式
预训练任务 预测遮掩掉的单词(完形填空) 预测下一个单词
对应模型 ELMo , BERT , RoBERTa , DistilBERT , BioBERT , XLM , Xlnet , ALBERT , ELECTRA , T5 , GLM , XLM-E , ST-MoE , AlexaTM GPT 3/4 , OPT . PaLM , BLOOM , MT-NLG , GLaM ,Gopher , chinchilla , LaMDA , GPT-J , LLaMA , BloombergGPT

(1)、BERT风格语言模型:encoder-decoder 或 encoder-only

因为自然语言数据在前大模型时代还是很容易获取的,为了更好的利用这些超级数据集,人们提出了很多无监督训练的方式。这其中一种很常见的方法就是在给定上下文的情况下,预测句子中掩盖(masked)掉的单词,这种训练范式被称为 Masked Language Model (MLM)

典型模型包括

  • BERT
  • RoBERTa
  • T5

这种模型在许多 NLP 任务(如情感分析和 named entity 识别)中取得了 state-of-the-art 的结果, 已经成为自然语言处理领域的重要工具。

(2)、GPT风格语言模型:decoder-only

尽管语言模型通常在架构上是任务无关的,但都需要在特定下游任务的数据集上进行微调。

研究人员发现,扩展语言模型的参数规模(scaling up) 能显著提高少样本(few-shot)甚至零样本(zero-shot)性能。 少样本和零样本最成功的模型是自回归语言模型(Autoregressive Language Models,ALM)。

  • 这些模型的训练方式:给出前面的单词,生成这句话的下一个单词
  • 这些模型已被广泛用于文本生成和问题回答等 NLP 任务。

典型的自回归语言模型包括,

  • GPT-3
  • OPT
  • PaLM
  • BLOOM

这其中,GPT-3 是一个划时代的模型,它首次通过提示(prompting)和上下文学习(in-context learning) 展示了少样本/零样本也能取得不错的性能,展现了自回归语言模型的优越性。

还有一些模型针对特定任务进行了优化,如

  • CodeX :代码生成
  • BloombergGPT :金融领域

最近的突破是 ChatGPT,它专门针对对话任务优化了 GPT-3,从而在各种实际应用中 互动性、连贯性,以及更好的上下文理解能力。

参考文献

[1] Vaswani A. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017.

[2] Yang J, Jin H, Tang R, et al. Harnessing the power of llms in practice: A survey on chatgpt and beyond[J]. ACM Transactions on Knowledge Discovery from Data, 2024, 18(6): 1-32.

使用 Qwen VL 系列模型实现图片分类和OCR任务

阿里云的通义千问(Qwen)大模型在闭源和开源领域齐头并进,性能表现一直都非常不错。在2024年年末,Qwen-VL(Vision-Language)系列模型迎来了一次大幅降价,这对于像我这样希望利用大模型处理个人项目的开发者来说无疑是一大利好。今年年初我在进行图片分类时,主要还依赖于ResNet这类经典的卷积神经网络,然而随着多模态视觉-语言模型(VLM)的迅猛发展,加上Qwen-VL的成本优势凸显,给自己相册的几百上千张图片分类的价格成本已经可以降低至可以接受的、极具吸引力的水平。

于是,我开始着手探索如何利用这些强大的视觉语言模型(VLM)来改进自己的工作流。原本还得自己打标分类痛苦的训练微调ResNet模型,一点一点的炼丹看损失曲线是否收敛,现在可以直接借助VLM的零样本学习能力 (Zero-Shot Learning),写点prompt就能让模型会意自动分类图片,甚至还能根据我的需求产出细腻的分类结果。比如,我在整理旅行照片时,可以直接告诉Qwen-VL模型:哪些照片是“日落”、“美食”、“人像”、“风景”,还可以进一步制定更加细化的类别,比如“黄昏下的海滩”或者“城市天际线中的日出”,模型都能给出相当靠谱的分类结果,完全不需要额外训练,这在几年前是不可想象的。

作为一名开发者,这种易用性与强大性能兼具 的体验堪称福音。以往在开发诸如 ResNet 或 EfficientNet 等模型时,我不得不投入大量精力进行繁琐的参数调优工作,甚至经常需要通宵进行数据标注,开发效率极其低下。然而,依托于VLM这种性能卓越的预训练模型和便捷的推理机制 ,我仅需构建精巧的提示词(Prompt) ,便可通过调用阿里云开放的 API 接口,迅速实现所需的分类或分析功能。这极大地解放了生产力,使我得以将更多精力专注于核心业务逻辑的构建,而非耗费在基础模型的训练与调优上。

第一节 使用 Qwen VL 执行图片分类任务

其实这部分原理非常简单,因为VLM模型可以同时理解图像和文本,能很方便的进行跨模态的理解和推理,所以我们只需要每次向模型发送图片和特定的提示词(prompt),模型就会自动分类判断输出该图片的类别,为了简化结果处理,我们只需编写一个简单的结果匹配解析模块即可。在系统架构层面,本项目采用与 OpenAI 兼容的 API 接口与 Qwen-VL 模型进行交互,并通过环境变量来管理 API 密钥及其他相关配置,确保了系统的灵活性、安全性与可维护性。

为提高分类速度,本项目支持多图片并发处理,并集成了图片预处理与压缩功能,有效平衡了处理效率与图像质量,确保系统高效稳定的运行,以下为项目在 GitHub 上的仓库地址:

::github{repo="Lapis0x0/VLMClassifier"}

具体处理管线

本项目的具体处理流程如下:首先对输入的图片进行精细化预处理。该步骤包括将图像尺寸统一调整至最大 1024x1024 像素,转换为 RGB 色彩空间,并使用质量系数为 85 的 JPEG 压缩算法以优化数据传输效率。

预处理完成后,系统将图片转换为 Base64 编码格式,并构建一个包含图片信息和预定义分类提示词的请求。随后,通过 API 调用 Qwen-VL-Plus 模型执行推理操作。针对模型返回的结果,项目采用深度解析策略来精确判定图像的最终类别。目前,系统预设了包括二次元、生活照片、宠物、工作和表情包在内的多个分类类别,并支持通过环境变量进行自定义类别扩展,从而满足不同用户的个性化需求。

在性能优化方面,本项目采用了线程池技术实现了多图片并发处理,并集成了完善的异常处理机制以应对各种潜在问题。此外,所有主要参数均可通过环境变量进行灵活配置,而图片优化策略则在保证处理效率的同时兼顾了图像质量。

本项目的主要优势在于:其一,依托先进的 VLM 模型,确保了对图片内容的准确理解;其二,实现了高效的并发处理机制,大幅提升了处理速度;其三,具备良好的可配置性和扩展性,方便用户根据自身需求进行定制;其四,集成了完善的图片预处理功能,在保证图像质量的同时提升了处理效率。得益于这些特性,本项目可广泛应用于批量图片分类整理、图片库管理以及自动化图片分类系统等多种场景。

总结

我就喜欢VLM这种简单粗暴泛用性强的解决方案,不需要过多设计效果就会非常棒。

第二节 使用Qwen-vl-ocr模型实现笔记归档整理

思路介绍

除了内容分类,Qwen vl还有一个特化分支——Qwen-vl-ocr,该模型专门针对图像中的文字提取任务进行了优化,它能够高效地识别并提取各种类型图像中的文字信息,包括:

  • 文档: 扫描的文档、PDF文档等
  • 表格: 各种形式的表格数据
  • 试题: 试卷、练习题等
  • 手写体文字: 手写笔记、信件等

目前,Qwen-vl-ocr模型支持多种语言,包括:中文、英文、法文、日文、韩文、德文、俄文、意大利文、越南文和阿拉伯文

:::note 此模型的输入输出单价为5元/百万 tokens,性价比拉满 :::

因此,我们可以利用Qwen-vl-ocr模型强大的文字识别能力来实现笔记的自动化归档整理。

具体实现步骤如下:

  1. 图像预处理:我自己的笔记通常是多个页面拼接在一起的,因此需要对输入的图像进行必要的预处理,例如:分页、调整图像大小、灰度化、去噪等,以提高OCR模型的识别准确率。虽然Qwen VL OCR模型对图像质量有一定的鲁棒性,但良好的预处理可以进一步提升识别效果。
  2. 文字提取:将预处理后的图像输入到Qwen VL OCR模型,模型会自动识别并提取出图像中的文字信息,并以文本的形式输出。
  3. 文本后处理:模型OCR后输出的文本是非结构的,顺序不符合要求的原始文本,需要我们再调用一次其他模型进行修改润色,使其更符合我们的阅读习惯和归档需求。
  4. 归档整理: 根据提取的文本内容,结合我们的实际需求,将笔记内容归类到不同的文件夹或数据库中。例如,我们可以根据关键词、主题、日期等信息进行分类整理。

项目地址:

::github{repo="Lapis0x0/NoteOCR"}

1.笔记检测与分页——基于边缘和轮廓的页面识别

考虑到模型单次能“记住”的信息有限,如果直接把十几页笔记直接丢给它,识别效果恐怕会大打折扣。所以,我们需要先给笔记做个“瘦身”——检测并分好页。 这样,模型每次只需处理一页的内容,识别起来自然更轻松,结果也更准确。

我的主要检测方法目前基于经典计算机视觉技术,通过预处理边缘检测与直线提取 以及页面区域识别三个阶段来定位每一页笔记的边界。

(1)预处理

  • 灰度转换: 首先,我们将彩色图像转换为灰度图像。这简化了后续的处理步骤,因为我们只需要处理一个通道的信息。

    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    
  • CLAHE 对比度增强: 为了应对光照不均或对比度较低的情况,我使用了对比度受限自适应直方图均衡化 (CLAHE) 技术。CLAHE 通过在图像的局部区域上进行直方图均衡化,有效地增强了图像的对比度,同时避免了过度放大噪声。

    • CLAHE 的数学原理可以简述为:将图像分成多个小块(tiles),对每个小块计算直方图并进行均衡化,然后使用双线性插值将结果平滑地组合起来。
    • 其核心公式为(以一个 tile 为例): $$ g = \frac{(L-1) \sum_{i=0}^{f} hist(i)}{N} $$ 其中:
      • $g$ 表示均衡化后的像素值。
      • $f$ 表示原始像素值。
      • $L$ 表示灰度级数(例如 256)。
      • $hist(i)$ 表示灰度级为 $i$ 的像素数量。
      • $N$ 表示 tile 内的总像素数。
    clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8, 8))
    enhanced = clahe.apply(gray)
    
  • 高斯模糊降噪: 为了消除图像中的高频噪声,我们使用高斯模糊进行平滑处理。高斯模糊的内核大小可以根据图像的噪声水平进行调整。

    • 二维高斯函数的公式为: $$ G(x, y) = \frac{1}{2\pi\sigma^2}e^{-\frac{x^2+y^2}{2\sigma^2}} $$ 其中:
      • $(x, y)$ 表示像素坐标。
      • $\sigma$ 表示标准差,控制模糊的程度。
    blurred = cv2.GaussianBlur(enhanced, (5, 5), 0)
    

(2)边缘检测与直线提取:勾勒出页面的轮廓

经过预处理后,我们就可以开始寻找页面的边缘了。

  • Canny 边缘检测: 我使用了经典的 Canny 边缘检测算法。Canny 算法通过计算图像梯度、非极大值抑制和双阈值处理等步骤,能够有效地检测出图像中的边缘。

    edges = cv2.Canny(blurred, 50, 150)
    
  • 霍夫变换直线检测: 为了进一步提取出页面边缘的直线特征,我使用了霍夫变换。霍夫变换可以将图像空间中的直线映射到参数空间中的点,从而检测出图像中的直线。

    • 直线在极坐标系下可以表示为: $$ \rho = x\cos\theta + y\sin\theta $$ 其中:
      • $\rho$ 表示直线到原点的距离。
      • $\theta$ 表示直线法线与 $x$ 轴的夹角。
      • $(x, y)$ 表示直线上的点。
      • 霍夫变换通过在 $(\rho, \theta)$ 参数空间中进行投票,找出峰值点对应的直线。
    lines = cv2.HoughLines(edges, 1, np.pi / 180, 200)
    
  • 创建线条掩码并进行形态学处理: 检测到的直线需要进一步处理,以形成完整的页面边界。我通过创建线条掩码,并进行膨胀腐蚀操作,将断裂的边缘连接起来,并去除一些小的噪声。

(3)页面区域识别:框选出每一页笔记

有了清晰的边缘信息,我们就可以识别出每一页笔记的区域了。

  • 查找轮廓: 使用 cv2.findContours 函数查找图像中的轮廓。

    contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    
  • 筛选矩形区域: 根据面积和长宽比等特征,筛选出可能是页面区域的矩形轮廓。

  • 透视变换矫正: 对于倾斜或有透视变形的页面,我们需要进行透视变换进行矫正。通过找到矩形区域的四个顶点,并将其映射到标准矩形的四个顶点,可以实现页面的矫正。

    • 透视变换的矩阵 $M$ 可以通过解以下方程组得到: $$ \begin{bmatrix} x_i' \ y_i' \ 1 \end{bmatrix} = M \begin{bmatrix} x_i \ y_i \ 1 \end{bmatrix} $$ 其中:
      • $(x_i, y_i)$ 表示原始图像中的点。
      • $(x_i', y_i')$ 表示变换后图像中的对应点。
      • $i = 1, 2, 3, 4$ 表示四个顶点。
  • 根据位置排序: 最后,根据检测到的页面区域的位置,从左到右进行排序,确保页面的顺序正确。

(4)备选方案:基于文本密度分析的页面分割

尽管主要检测方法在大多数情况下都能取得很好的效果,但为了进一步提高系统的鲁棒性,我还设计了一个备选方案 (_fallback_page_detection)。当主要方法未能检测到预期数量的页面时(如未能检测到页面或页面数量不是3个),就会启用备选方案。

这个备选方案基于文本密度分析,它假设笔记页面之间存在一定的空白区域,这些区域的文本密度较低。

  1. 图像二值化: 首先,将图像进行二值化处理,将文本和背景分离。
    • 常用的二值化方法有全局阈值法和自适应阈值法,自适应阈值法公式为: $$ T(x, y) = \mu(x, y) - C $$ 其中:
      • $T(x, y)$ 表示像素 $(x, y)$ 的阈值。
      • $\mu(x, y)$ 表示像素 $(x, y)$ 邻域的平均灰度值。
      • $C$ 是一个常数。
  2. 计算水平方向的文本密度分布: 对二值化后的图像,逐行计算像素值为前景(例如黑色)的像素数量,从而得到水平方向的文本密度分布。
  3. 移动平均平滑: 为了消除噪声的影响,使用移动平均对密度曲线进行平滑处理。
  4. 寻找局部最小值: 在平滑后的密度曲线上,寻找局部最小值。这些局部最小值通常对应于页面之间的空白区域。
  5. 等距分割 (备选): 如果找不到合适的分割点,则采用等距分割作为最后的保障。

反思:这个检测分页方法是最优的吗?

当然不是。我最近发现像Qwen vl和Gemini这样的模型似乎直接支持进行目标检测,输出图片后可以直接输出检测框。未来的版本可以测试直接采用vlm来进行检测分页,进一步提高本项目的健壮性。

2.执行OCR任务和后处理修改润色

经过处理后的笔记分页直接提交给模型进行OCR即可,以下是Qwen-vl-ocr的代码示例:

import os
from openai import OpenAI

client = OpenAI(
    # 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
    model="qwen-vl-ocr",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241108/ctdzex/biaozhun.jpg",
                    "min_pixels": 28 * 28 * 4,
                    "max_pixels": 28 * 28 * 1280
                },
                # 为保证识别效果,目前模型内部会统一使用"Read all the text in the image."进行识别,用户输入的文本不会生效。
                {"type": "text", "text": "Read all the text in the image."},
            ]
        }
    ])

print(completion.choices[0].message.content)

在每一个笔记分页被送去执行OCR后,OCR的结果会送到新的LLM那里执行后处理润色。

这是我自己的润色Prompt:

messages = [
	{"role": "system", "content": "你是一个专业的笔记整理助手。你需要帮助整理和优化OCR识别出的课堂笔记内容,使其更加清晰、结构化,并保持原有的重点标记。请注意,你应该只输出整理后的笔记内容,不要包含任何其他信息。"},
	{"role": "user", "content": f"""请帮我整理以下课堂笔记内容,要求:
1. 保持原有的结构和格式
2. 保留所有重点标记
3. 修正明显的OCR错误(比如不合理的人名、称呼和名词等)
4. 优化段落和缩进
5. 确保数学公式和符号的正确性

模型我一般会用Deepseek v3或者gpt-4o-1120。

最后,程序会自动将各个分页ocr润色后的结果合并到一份markdown文件里输出。

:::note 下一篇博客可能会解读一下Qwen vl的技术报告,并且探索使用Qwen vl/Gemini进行笔记检测分页 :::

Trading101:策略交易解析

与传统的主观交易方式不同,策略交易摒弃了传统的主观判断和情绪化交易,转而依靠严谨的数学模型、海量的历史数据分析以及高效的计算机程序 ,构建系统化的交易策略,力求在市场波动中捕捉获利机会。

策略交易的迷人之处在于其理性与客观 。它将投资决策建立在量化分析的基础之上,通过对历史数据的回测,发现市场运行的规律,并制定出相应的交易规则。这些规则如同精密的仪器,指导着交易的每一个环节,从入场时机的选择,到仓位大小的控制,再到止损止盈的设定,都经过了严格的计算和验证。 例如,一个简单的基于移动平均线的趋势跟踪策略可以用以下公式表示:

$$ \text{如果 } P_t > MA(P, n) \text{, 则买入;如果 } P_t < MA(P, n) \text{, 则卖出} $$

其中, $P_t$ 表示当前时刻的价格, $MA(P,n)$ 表示价格 $P$ 的 $n$ 周期移动平均线。

当然,实际的策略交易系统会复杂许多,你需要考虑更多的因素运用更复杂的模型。

策略交易的优势在于其纪律性、高效性和风险可控性 。它能够帮助投资者克服人性的弱点,避免情绪化操作带来的损失,并通过程序化交易提高交易效率,同时利用量化模型对风险进行有效管理。当然,策略交易并非万能的“圣杯”。它也面临着模型失效、过度优化以及黑天鹅事件等挑战。因此,深入理解策略交易的原理、构建方法以及潜在风险,对于投资者而言至关重要。

本文就将简单介绍一下几种简单的策略交易工具,权当是我自己的知识库和备忘录了。

一、现货/合约网格

在策略交易中,网格交易尤其经典且应用广泛,适合用在震荡行情(波动率较高且价格趋势相对横盘的市场)。网格交易通过在不同价格区间内买入卖出的方式不断赚取每一个价格波动中的差价,从而在市场的不确定性中寻找稳定的获利机会。

因为现货网格和合约网格差不太多,只是合约网格可以加杠杆,因此我就不在这里专门介绍合约网格了。

1.什么是现货网格

现货网格是指专门针对现货市场(如数字货币现货、股票等)设计的网格交易策略,现货网格策略的核心思想是将资产价格波动划分成若干价格区间,如网格的格子一般,并按照预设规则,在价格触及网格线时持续买入或卖出资产。其本质是一种高抛低吸 的自动化交易策略,且无需对市场的未来趋势有准确预测,只需依赖价格在一定范围内的波动即可获利。

我们假设当前资产的价格为 $P$ ,操作时设置以下几个关键参数:

  • 网格区间: 设定价格的下限 $Plow$ 和上限 $P_{\text{high}}$;
  • 网格数量: 将区间划分为 $n$ 个等间隔网格,每个网格的间距为:

$$ \Delta P = \frac{P_{\text{high}} - P_{\text{low}}}{n} $$

  • 初始资金分配: 确定投资资产和现金的起始比例,例如 50% 资产和 50% 现金。

运作时,当价格下跌至某一网格线时,策略自动买入资产;当价格上涨至某一网格线时,策略自动卖出资产,从而不断低买高卖,赚取区间内的波动收益。

2. 如何实现现货网格策略?

现货网格的具体实施流程可以归纳为以下三个步骤:

(1) 划分网格

将价格区间从 $P_{\text{low}}$ 到 $P_{\text{high}}$ 均匀划分。例如,假设价格区间为 $10 到 20$,设置 $5$ 个网格,则每个网格的间距 $\Delta P$ 为: $$ \Delta P = \frac{20 - 10}{5} = 2 $$ 网格价格点为 $10, 12, 14, 16, 18, 20$。

(2) 配置初始资金

根据网格设计,分配一定比例的现货资产和现金,用以在网格内实现买卖。例如,如果账户总资金为 $10,000$,可以选择将 $5,000$ 拨为现货资产,$5,000$ 留作现金。

(3) 执行策略

当价格变动时,根据网格触发的规则进行交易:

  • 如果价格从 $14$ 下跌到 $12$:买入固定数量的现货。
  • 如果价格从 $14$ 上涨到 $16$:卖出固定数量的现货。

以此类推,随着价格的波动不断进行买卖交易,每笔交易赚取固定的价差。

(4) 示例

假设某加密货币当前价格为 $100$,投资者设置网格区间为 $90$-$110$,划分为 $5$ 个网格(即每个网格 $4%$)。初始投资为 $10,000$,其中 $5,000$ 用于购买现货(初始持仓 50 个币),剩余 $5,000$ 保留为现金。

  • 如果价格从 $100$ 上升到 $104$(触及下一个网格线),策略卖出 $10%$ 的现货,获得 $5,200$ 的现金;
  • 如果价格又从 $104$ 回落到 $100$,策略买回同等数量的现货,补回 $50$ 个币,同时获利 $200$。

这种通过不断“低买高卖”的方式,即使资产价格整体未发生显著变化,投资者也可以利用波动实现收益。

3.总结

现货网格技术是策略交易领域中备受欢迎的方法之一,其优势在于操作的简洁与稳定的盈利能力。首先,这种策略尤其适合于震荡行情,因为无需对市场价格的未来趋势进行判断,交易者仅需依赖价格的波动便可获利。而结合自动化程序执行交易后,现货网格策略将进一步减少人为干预所带来的情绪化错误,让交易过程更加高效和纪律化。此外,通过网格划分的设计,该策略能够在价格的波动中不断低买高卖,实现稳定的小额差价收益,堪称“稳健型策略”的代表。

然而,这种看似完善的体系也有其局限性。例如,当面对价格单边上涨或单边下跌的行情时,网格策略可能难以有效应对,容易因追不上涨幅或无法及时止损而导致亏损。此外,由于现货网格需要同时配置现货资产与现金,在较小波动幅度里上下频繁交易可能会占用大量资金,降低资金的整体利用效率。更进一步来说,如果市场长期处于低波动且紧窄的区间内运行,这种策略的获利能力甚至可能不足以覆盖交易手续费。

二、合约/现货马丁格尔

马丁格尔策略的主要特色在于其加仓策略。马丁格尔起源于 18 世纪法国的赌场,最初是一种赌博策略,后来被逐渐应用于金融交易领域。而合约马丁格尔 ,顾名思义,是将马丁格尔策略应用于合约交易 (例如期货合约、永续合约等)中,通过杠杆效应放大收益,同时也放大了风险。

还是一样,合约现货区别不大,在这一节就只介绍合约马丁格尔了。

1.基本原理

马丁格尔策略的核心思想是:在亏损时加倍下注,直到盈利为止 。在合约交易中,这意味着当交易出现浮动亏损时,策略会在原有仓位的基础上,以更高的杠杆倍数开立更大的仓位,以期望在价格反转时快速回本并盈利。

策略的关键参数:

  • 初始仓位: 确定首次开仓的仓位大小和杠杆倍数。
  • 加仓条件: 设定触发加仓的条件,例如当浮动亏损达到一定比例时(例如,每亏损 10% 加仓一次)。
  • 加仓倍数: 确定每次加仓的倍数,经典的马丁格尔策略采用 2 倍加仓,即每次加仓的仓位大小是前一次的两倍。
  • 止盈条件: 设定盈利目标,当总仓位达到预设的盈利目标时,平仓所有仓位,结束本轮交易。

2.运作逻辑

合约马丁格尔策略的运作逻辑可以用以下公式来表示:

假设初始仓位大小为 $S_0$,杠杆倍数为 $L_0$,初始开仓价格为 $P_0$。当价格下跌导致浮动亏损达到预设比例 $R$ 时,进行第一次加仓,加仓倍数为 $M$(通常为 2),则第一次加仓后的仓位大小 $S_1$ 和杠杆倍数 $L_1$ 为:

$$ S_1 = S_0 \times M $$

$$ L_1 = \frac{S_0 \times L_0 + S_1 \times L_0}{S_0 + S_1} = \frac{S_0 \times L_0 (1 + M)}{S_0 (1 + M)} = L_0 $$

可以看到,每次加仓时杠杆倍数维持不变,但是总仓位变大了。

假设当前价格为 $P_1$,则第一次加仓后的平均开仓价格 $P_{\text{avg1}}$ 为:

$$ P_{\text{avg1}} = \frac{S_0 \times P_0 + S_1 \times P_1}{S_0 + S_1} $$

以此类推,第 $n$ 次加仓后的仓位大小 $S_n$、杠杆倍数 $L_n$ 和平均开仓价格 $P_{\text{avg,n}}$ 为:

$$ S_n = S_0 \times M^n $$

$$ L_n = L_0 $$

$$ P_{\text{avg,n}} = \frac{S_0 \times P_0 + S_1 \times P_1 + \dots + S_n \times P_n}{S_0 + S_1 + \dots + S_n} $$

当价格反弹使得总仓位盈利达到预设目标时,策略会平掉所有仓位,完成一次马丁格尔循环。

3.优劣分析

合约马丁格尔策略最大的优点就是理论上可以在价格反转时快速回本并盈利,但其风险也极高(毕竟是赌徒发明的)。首先,此策略爆仓风险高,由于采用杠杆交易,且在亏损时不断加仓,一旦价格持续向不利方向移动,账户将面临巨大的爆仓风险。尤其是当加仓次数过多,仓位过重时,即使很小的价格波动也可能导致爆仓。资金需求限制:马丁格尔策略需要充足的资金来支持不断加仓的操作。如果资金不足,将无法完成一个完整的马丁格尔循环,导致前功尽弃。心理压力大:持续的亏损和不断加大的仓位会给交易者带来巨大的心理压力,容易导致非理性的交易决策。

三、智能套利

套利策略的主要优势是低风险和相对稳健。随着人工智能和大数据技术的发展,智能套利 正逐渐成为套利领域的新宠,它利用先进的算法和强大的算力,捕捉更广泛、更隐蔽、更短暂的套利机会,并实现自动化交易,大大提高了套利效率和收益率。

1.简介

套利 ,简而言之,就是利用同一资产在不同市场或不同形式之间的价差 进行交易,从而获取无风险或低风险的利润。传统的套利策略,如跨市场套利跨期套利三角套利 等,主要依赖人工盯盘和手动操作,效率较低,且难以捕捉瞬息万变的套利机会。

智能套利 则是在传统套利的基础上,引入了人工智能、机器学习等技术,构建复杂的数学模型,对海量的市场数据进行实时分析,自动识别和执行套利机会。它可以实现:

  • 全市场、多品种、7x24 小时监控: 突破人工盯盘的局限,对全球多个市场、多个交易品种进行全天候监控,不错过任何潜在的套利机会。
  • 复杂套利策略的构建: 除了简单的价差套利,智能套利还可以构建更复杂的套利模型,例如涉及多个品种、多个市场、甚至包含期权等衍生品的套利策略。
  • 毫秒级交易执行: 一旦发现套利机会,智能套利系统可以自动下单,并在毫秒级别完成交易,确保以最优价格成交,避免因延迟交易而错失良机。
  • 动态风险控制: 智能套利系统可以根据市场波动和风险指标,动态调整仓位和交易参数,控制套利交易的风险。

2.智能套利的常见类型

(1) 统计套利

统计套利是智能套利中应用最广泛的一种类型。它利用历史数据和统计模型,发现资产之间的协整关系均值回归 特性,构建套利模型。例如,如果两种资产在历史上存在稳定的价差关系,当价差偏离历史均值时,就可以进行套利交易,预期价差将回归到均值水平。

一般的统计套利首先会经历数据收集预处理等的前期准备,然后再利用统计学方法,例如协整检验、回归分析等,建立资产之间的关系模型,常用模型公式如下:

$$ Y_t = \beta_0 + \beta_1 X_t + \epsilon_t $$

其中,$Y_t$ 和 $X_t$ 分别代表两种资产在 $t$ 时刻的价格,$\beta_0$ 和 $\beta_1$ 是回归系数,$\epsilon_t$ 是误差项。

模型构建后,会通过模型计算出的价差或残差,设定交易阈值。当价差或残差超过阈值时,触发交易信号。

(2) 期现套利

期现套利是指利用期货合约现货资产之间的价差进行套利。由于期货合约存在到期日,其价格与现货价格之间存在一定的基差。当基差偏离合理范围时,就可以进行期现套利。

例如,在数字货币市场中,永续合约是一种特殊的期货合约,它没有到期日,但通过资金费率机制来锚定现货价格。当资金费率为正时,永续合约价格通常高于现货价格,此时可以卖出永续合约,同时买入现货资产,进行套利。反之,当资金费率为负时,可以进行反向套利。

(3) 三角套利

三角套利是指利用三种或多种资产之间的汇率差异进行套利。例如,在数字货币市场中,如果 BTC/USDT、ETH/USDT 和 ETH/BTC 三个交易对之间的汇率关系出现偏差,就可以进行三角套利。

原理:

在一个理想的、无摩擦的市场中,三种货币之间的汇率应该满足以下关系:

$$ \text{Rate}{A/B} \times \text{Rate}{B/C} = \text{Rate}_{A/C} $$

例如,如果:

  • 1 BTC = 10,000 USDT (BTC/USDT 汇率)
  • 1 ETH = 250 USDT (ETH/USDT 汇率)

那么理论上,1 ETH 应该等于 0.025 BTC (250 / 10,000),即 ETH/BTC 的理论汇率应为 0.025。

当实际的 ETH/BTC 汇率偏离理论汇率时,就产生了套利机会。

示例:

假设当前市场汇率为:

  • 1 BTC = 10,000 USDT (BTC/USDT = 10,000)
  • 1 ETH = 250 USDT (ETH/USDT = 250)
  • 1 ETH = 0.026 BTC (ETH/BTC = 0.026)

此时,ETH/BTC 的实际汇率 (0.026) 高于理论汇率 (0.025),存在套利空间。

套利步骤如下 (假设初始资金为 1 BTC):

  1. 卖出 BTC,买入 USDT: 用 1 BTC 换取 10,000 USDT (1 * 10,000)
  2. 卖出 USDT,买入 ETH: 用 10,000 USDT 换取 40 ETH (10,000 / 250)
  3. 卖出 ETH,买入 BTC: 用 40 ETH 换取 1.04 BTC (40 * 0.026)

通过以上步骤,初始的 1 BTC 变成了 1.04 BTC,盈利了 0.04 BTC,收益率为 4%。

更详细的计算过程:

我们可以用以下公式来计算套利利润:

$$ \text{Profit} = \text{Initial Amount} \times (\frac{\text{Rate}{1}}{\text{Rate}{2}} \times \text{Rate}_{3} - 1) $$

其中:

  • $\text{Initial Amount}$ 是初始资金量
  • $\text{Rate}_{1}$ 是第一个交易对的汇率(用中间货币兑换目标货币)
  • $\text{Rate}_{2}$ 是第二个交易对的汇率(用基础货币兑换中间货币)
  • $\text{Rate}_{3}$ 是第三个交易对的汇率(用目标货币兑换基础货币)

在上面的例子中:

  • $\text{Initial Amount} = 1 \text{ BTC}$
  • $\text{Rate}_{1} = \text{BTC/USDT} = 10,000$
  • $\text{Rate}_{2} = \text{ETH/USDT} = 250$
  • $\text{Rate}_{3} = \text{ETH/BTC} = 0.026$

套利利润为:

$$ \text{Profit} = 1 \times (\frac{10,000}{250} \times 0.026 - 1) = 1 \times (40 \times 0.026 - 1) = 1 \times (1.04 - 1) = 0.04 \text{ BTC} $$

当然的当然,上述计算过程里没有考虑到交易手续费,在实际操作中你需要计算实际的手续费,也一般没啥套利空间了。三角套利对交易速度要求极高,通常需要使用程序化交易才能捕捉到套利机会(毫秒),在成熟的市场中套利空间通常很小,且很快会被套利者抹平。

四、定投策略

1.核心原理

定投策略,又称为定期定额投资策略(Dollar-Cost Averaging, DCA) ,是一种旨在平滑市场风险的被动投资策略。其核心是持续以固定金额在固定周期内购买某种资产,无论市场价格高低,始终坚持执行投资计划。通过这一方法,投资者能够在市场下跌时购买更多的资产单位,而在市场上涨时则购买较少的资产单位,最终降低投资的成本均值。

2.数学推导与优势

假设投资者在每期以固定金额 $P$ 购买某种资产,而资产在不同周期内的价格为 $S_t$,则累计购买的资产总量 $Q$ 可表示为:

$$ Q = \sum_{t=1}^n \frac{P}{S_t} $$

定投策略的优势主要在于其可以平滑市场波动风险,作为投资者可以无需判断市场时机,通过分批买入摊薄价格波动带来的影响,当资产价格下跌时,定投有助于降低持仓平均成本,从而改善盈利条件。相较于一次性投资,定投在下跌行情中也更容易感知到“抄底”的心理优势。

适用场景:

  • 波动性较大的资产: 如股票、指数基金、加密货币等,这些资产可能具备长期上涨潜力,但短期价格往往剧烈波动。
  • 长期视角的投资者: 定投的优势通常需要较长周期才能显现出来。

中译中就是你长期看好这个资产,那么就可以定投买入了。

3.实际推演

以传统基金定投为例,假设某投资者每月定投 $100 到一支基金中,分别在以下周期内进行买入操作:首次买入价格 $10,之后价格波动为 $9、$11、$8、$12,则每月对应的购买份额为:

  • 第 1 月买入:$\frac{100}{10} = 10$ 份;
  • 第 2 月买入:$\frac{100}{9} \approx 11.11$ 份;
  • 第 3 月买入:$\frac{100}{11} \approx 9.09$ 份;
  • 第 4 月买入:$\frac{100}{8} = 12.5$ 份;
  • 第 5 月买入:$\frac{100}{12} \approx 8.33$ 份。

五个月总投入为500刀,总购买份额约为 51.03刀,计算得出的平均成本约为9.80刀,低于直观价格平均值10刀。

五、信号策略

1.核心原理

信号策略是一种主动型投资方式,通过解读市场的技术指标、量化信号或基本面数据,在触发特定条件时执行买入或卖出操作。这类策略的目标通常是提高资金使用效率,以捕捉市场的短期趋势或重要反转点。

可能的指标:

  • 技术指标: 运用移动平均线、RSI(相对强弱指数)、布林带等技术工具判断买卖机会。
  • 量化分析: 利用历史数据和统计模型,设计公式或算法确定交易信号。
  • 基本面分析: 结合资产估值或宏观经济数据,在收益风险比相对较优的情况下做出决策。

2.数学模型实现

双均线交叉策略为例,这是技术分析中一种应用广泛的信号方法,基于短期均线($MA_{short}$)和长期均线($MA_{long}$)的交叉点来判定市场趋势变动方向。

短期均线的计算公式为:

$$ MA_{short} = \frac{1}{n_{short}} \sum_{i=0}^{n_{short}-1} P_{t-i} $$

长期均线的计算公式为:

$$ MA_{long} = \frac{1}{n_{long}} \sum_{i=0}^{n_{long}-1} P_{t-i} $$

其中,$P_t$ 是时间 $t$ 时的资产价格,$n_{short}$ 和 $n_{long}$ 分别为短期和长期均线窗口。

策略规则:

  • 当 $MA_{short} > MA_{long}$ 时,生成买入信号;
  • 当 $MA_{short} < MA_{long}$ 时,生成卖出信号。

类似的,其他技术信号如 RSI(超买或超卖)、布林带(突破上下轨)等均基于特定条件触发交易指令。

3.优劣势分析

信号策略的优势在于能够主动应对市场变化,特别是在波动性加剧的行情中,具备潜在的收益放大效果。然而,与定投策略相比,信号策略也面临三方面的风险与挑战:

  • 过度交易: 频繁的交易行为可能导致高额交易成本,侵蚀利润。
  • 信号失真: 在震荡市或低流动性市场中,信号的精确性容易受到干扰。
  • 技术复杂性: 复杂的交易算法或模型需要充足的数据支持,如过拟合问题可能导致策略失效。

国行Xbox series X/S账户转港区教程

作为一位老Gamer,我最近终于下定决心买了御三家中的Xbox(狗东国行Xbox x)。众所周知,国行在游戏库和XGP上相较于另外五个区域存在较大的限制。为了体验更多的优质游戏和享受XGP服务,我决定尝试将Xbox账号从国行转到港区。

如果你也和我一样,希望摆脱国行 Xbox 的限制,拥抱更完整的游戏体验,那么这篇博客将为你提供一份详细、亲测有效的保姆级教程。 我将一步步记录我转区的整个过程,包括:

  • 转区前的准备工作
  • 详细的操作步骤及注意事项
  • 转区后该怎么做

希望我的经验可以帮你少走弯路,爽完XGP!

一、前期准备工作

  • 一台Xbox游戏机(当然!这里指的是你的国行Xbox Series X/S 主机)
  • 一个u盘(容量无需太大,建议至少 1GB 以上需要格式化为 NTFS 格式
  • 一台运行着Windows系统的电脑(MacBook跑win虚拟机也可)

二、开始操作

1.格式化硬盘并转换格式和分区

首先,你需要用Windows系统把U盘格式化成NTFS格式,并转化成MBR分区!

这一步非常重要,我就是因为网上绝大多数教程只提格式化成NTFS格式没有提MBR分区导致浪费了一个小时的时间。

如何操作:

打开cmd窗口单击“Win + R”,在“运行”窗口中键入“cmd”,打开终端;

在终端中输入以下命令:

diskpart

接着输入:

list disk

找到你的U盘对应的磁盘号(注意核对容量大小),假设是磁盘1,继续输入:

select disk 1

接下来清除所有的数据和分区:

clean

然后输入转换命令:

convert mbr

完成后你的U盘就被格式化为NTFS格式并转换为MBR分区了。

最后,你需要打开Windows的磁盘管理工具,给你格式化后的u盘新建一个简单卷,具体步骤如下:

  1. 右键点击"此电脑",选择"管理"
  2. 在"计算机管理"窗口中,找到并点击"磁盘管理"
  3. 找到你的U盘(通常显示为"未分配"状态)
  4. 右键点击未分配空间,选择"新建简单卷"
  5. 按照向导完成操作,选择NTFS格式,分配驱动器号(卷名不要用中文字符)

u盘硬件方面就此准备完成!

2.准备我们的妙妙小代码

打开 Windows 资源管理器,开启文件扩展名显示: 在资源管理器窗口上方菜单栏中,点击“查看”选项卡,勾选“文件扩展名”选项。这一步是为了确保我们能够正确修改文件的后缀名。

打开 U 盘根目录(即直接打开 U 盘后看到的目录,不要进入任何文件夹)。在空白处右键单击,选择“新建” -> “文本文档”。将新建的文本文档命名为:$ConsoleGen9 (注意:如果你的 Xbox 是 Xbox One 系列,则应命名为 $ConsoleGen8 。这里需要特别注意,务必删除 .txt 后缀,确保文件名只有 $ConsoleGen9$ConsoleGen8

准备就绪,插入 U 盘: Xbox 无需关机,保持开机状态。首先进入 Xbox 的系统设置:依次选择“系统” -> “时间和语言” -> “区域”,停留在 “区域” 这个页面。然后将包含“神秘代码”文件的 U 盘插入 Xbox 主机的 USB 接口。

重启设备: 稍等片刻,Xbox 屏幕下方会出现“已连接到移动存储设备”的提示。此时,直接选择屏幕上最右侧的“重启”选项(即硬重启)。

3.转区

如果你所有的操作都严格按照了上文要求,那么你大概率一次重启之后就可以在“区域”页面里修改自己的地区和语言了。直接选择港服即可,因为港区是除国行外所有区域里唯一可以直接用支付宝的地区。

三、转区后

直接去某宝上买XGP会员即可,然后爽玩!

Trading101:简析投资中常见的技术指标和其背后的逻辑

我们都知道股票投资市场中的交易本质上是因为价格不认可而产生。每一次交易达成实际上就代表这笔交易的空方和多方互喷互骂对方没有眼光,双方都在心里默念“谢谢你,我的对手盘”。

事实上,这就是市场价格形成的微观机制:预期差。正是因为多空双方对标的资产未来价值的预期存在分歧,才会在某一价格点位上达成交易。卖方(空方)认为价格已高估或未来将下跌,而买方则认为价格尚低估或未来将上涨。

因此,任何一个时刻下的价格,都是无数因素博弈后,买卖双方力量达到均衡的状态,是双方的共识。直到有因素影响买卖双方的力量对比,平衡被打破,价格出现变动,朝一个方向持续运动,这就会出现趋势行情,直到趋势终结,买卖双方达到新的平衡,新的共识。新平衡状态下,价格在一个区域内波动,这就是震荡行情。行情在趋势和震荡之间,反复切换。

基于上述的预期差的博弈关系,我们人类中最聪明的那部分大脑提出了技术分析中的大量指标工具。技术指标通过提取交易数据(如价格、成交量等)中的规律性特征,帮助投资者识别市场趋势、反转信号以及超买超卖的状态。在本文中,我们将介绍几种投资中常见的技术指标,并讨论它们的应用场景和局限性。

一、VOLUME(成交量)

成交量指的是在特定时间段内(例如一天、一周或一个月)交易的股票或其他金融资产的总数量。它是衡量市场活跃度和流动性的重要指标。我们进行分析的核心思路之一就是结合成交量指标进行量价分析

在量价分析中,指的是价格,通常指收盘价;指的是成交量,代表了一定时间内市场交易的活跃程度。成交量就好比是市场的“动能”,价格的变动需要有成交量的配合才能持续和有效。通过分析价格变动和成交量变化之间的关系,我们可以更好地判断市场趋势的强弱,识别潜在的买卖机会。 示例图

简单来说,我们可以把量价关系概括为四种基本情况:价涨、价跌、量增、量缩。这四种情况的排列组合构成了以下八种主要的量价关系:

1.价涨:

(1)价涨量增:

  • 解析: 这是最健康的上涨模式,表示市场人气旺盛,买方力量强劲,推动价格上涨的同时伴随着成交量的放大。这种情况下,上涨趋势大概率将持续。这种情形也常被描述为量价齐扬
  • 图示: 价格上涨,成交量柱体同步增长。
  • 公式举例 (非严格公式,仅示意): 如果第 $t$ 日收盘价为 $P_t$,成交量为 $V_t$,那么价涨量增可以表示为: $P_t > P_{t-1}$ 且 $V_t > V_{t-1}$。

(2)价涨量缩:

  • 解析: 这表示价格上涨,但成交量却在萎缩。这可能是上涨趋势中的短期调整,也可能是上涨趋势即将结束的信号。这通常意味着上涨动能减弱,市场追涨意愿不强,需要警惕价格反转下跌的风险。此时,价格还继续上涨可能是少数筹码就能拉动价格上涨造成的。这在熊市反弹中较为常见,多头动能不足,只是空头暂时力量衰竭导致的。也可能出现在牛市主升浪中,由于筹码高度集中,导致上涨时量能已经无法进一步放大。具体是哪种情况,需要结合实际情况进行判断。
  • 图示: 价格上涨,但成交量柱体较之前缩小。
  • 公式举例 (非严格公式,仅示意): $P_t > P_{t-1}$ 且 $V_t < V_{t-1}$。

(3)价涨量平:

  • 解析: 价格上涨,但成交量保持相对平稳,没有明显变化。这通常表示市场在延续之前的上涨趋势,但缺乏新的增量资金进场。上涨动能可能有所减弱,需要观察后续成交量的变化来判断趋势是否能够持续。
  • 图示: 价格上涨,但成交量柱体高度与之前大致持平。
  • 公式举例 (非严格公式,仅示意): $P_t > P_{t-1}$ 且 $V_t ≈ V_{t-1}$。

2.价跌:

(1)价跌量增:

  • 解析: 这表示价格下跌,同时成交量放大。这通常是一个危险的信号,表示市场恐慌情绪蔓延,卖方力量强大,抛售行为增加,加速了价格下跌。如果出现在高位,可能是头部形成的信号;如果出现在下跌途中,可能是下跌中继;如果出现在长期下跌后的低位,则有可能是最后一跌,需要结合其他指标和市场环境综合判断。
  • 图示: 价格下跌,成交量柱体放大。
  • 公式举例 (非严格公式,仅示意): $P_t < P_{t-1}$ 且 $V_t > V_{t-1}$。

(2)价跌量缩:

  • 解析: 这表示价格下跌,但成交量萎缩。这种情况比较复杂,需要具体分析。如果出现在下跌初期,可能是下跌趋势的开始,表示买盘不济,少量卖单就能打压价格;如果出现在长期下跌后的低位,则可能是市场惜售的表现,表示卖方力量已经衰竭,下跌动能减弱,有可能是底部临近的信号。
  • 图示: 价格下跌,成交量柱体缩小。
  • 公式举例 (非严格公式,仅示意): $P_t < P_{t-1}$ 且 $V_t < V_{t-1}$。

(3)价跌量平:

  • 解析: 价格下跌,但成交量保持平稳。这种情况表明市场仍然处于下跌趋势中,但空方力量并没有进一步增强。这可能表示多空双方都较为谨慎,市场观望情绪浓厚。需要观察后续成交量的变化来判断下跌趋势是否会持续或反转。
  • 图示: 价格下跌,成交量柱体高度与之前大致持平。
  • 公式举例 (非严格公式,仅示意): $P_t < P_{t-1}$ 且 $V_t ≈ V_{t-1}$。

3.特殊:

(1)价平量增:

  • 解析: 价格几乎没有变动,但成交量显著增加。这通常出现在重要支撑位或阻力位附近,表示多空双方在此位置展开激烈争夺。如果最终价格选择向上突破,则可能是买方力量占据上风;如果向下突破,则可能是卖方力量胜出。此情况也需要结合整体走势综合判断。
  • 图示: 价格几乎不变,但成交量柱体明显放大。
  • 公式举例 (非严格公式,仅示意): $P_t ≈ P_{t-1}$ 且 $V_t > V_{t-1}$。

(2)价平量缩:

  • 解析: 价格几乎没有变动,成交量也显著萎缩。这通常表示市场观望情绪极度浓厚,多空双方都缺乏交易意愿。这种情况常出现在长期盘整阶段的末期,预示着即将到来的重大趋势性变动。
  • 图示: 价格几乎不变,成交量柱体非常矮小。
  • 公式举例 (非严格公式,仅示意): $P_t ≈ P_{t-1}$ 且 $V_t < V_{t-1}$。

总结:

以上八种量价关系是市场中最常见的形态,每种形态都代表了不同的市场含义。在实际分析中,我们需要结合具体的市场环境、趋势位置、K线形态以及其他技术指标来进行综合判断,才能更准确地把握市场的脉搏。需要牢记的是,量价关系不是绝对的,没有哪一种量价关系能够保证价格一定会上涨或下跌,它们只是提供了一种观察市场和辅助决策的视角。

二、MA(Moving Average,移动平均线)

1.介绍

MA是一种趋势跟踪指标,它通过对指定时间段内的价格(常为收盘价)求平均,从而得到一条平滑的曲线。MA去除了价格中的噪声波动,可以帮助我们专注于价格的总体方向。

核心作用:

  • 识别趋势方向: 判断市场是处于上升趋势、下降趋势还是横盘整理。
  • 支撑与阻力: 在上升趋势中,MA 经常成为支撑位;而在下降趋势中,它经常充当阻力位。
  • 交易信号:金叉死叉,这二者是MA中最常用的买卖信号。 示例图

2.MA指标的分类

根据计算方式和参数的不同,MA 可分为以下几类:

(1)简单移动平均线 (Simple Moving Average, SMA):

  • 定义:对指定时间段内的价格进行简单平均,例如 5 日均线是最近 5 天的收盘价之和除以 5。
  • 优点:容易计算、直观。
  • 缺点:对最新价格变化反应较慢,容易滞后。

(2)指数移动平均线 (Exponential Moving Average, EMA):

  • 定义:对较近的价格赋予更高权重,因此 EMA 比 SMA 更能快速反映价格变化。
  • 优点:敏感性高,更适合短期交易者。
  • 缺点:由于对近期价格赋予更高权重,容易受到短期波动干扰。

(3)加权移动平均线 (Weighted Moving Average, WMA):

  • 定义:为每个时间段的价格赋予不同的权重,一般是将最近数据的权重设为最高。
  • 优点:在敏感性和稳定性之间取得平衡。
  • 缺点:较 SMA 更复杂,使用相对少见。

这些指标都是如何计算的呢?

MA 的计算非常简单,只需要将选定时间段内的价格求平均。以 5 日简单移动平均线为例:

$SMA = \frac{P_1 + P_2 + P_3 + P_4 + P_5}{5} $

其中,$ P_1, P_2, ..., P_5 $ 表示最近 5 天的收盘价。

而对于 EMA,其计算公式稍微复杂一些,需要计算平滑系数 $ \alpha $,公式如下:

$$ EMA_t = (P_t \cdot \alpha) + [EMA_{t-1} \cdot (1 - \alpha)] $$

其中:

  • $P_t$:当天的价格 (通常是收盘价)
  • $EMA_t$:当天的 EMA
  • $EMA_{t-1}$:前一日的 EMA
  • $\alpha = \frac{2}{n+1}$,$n$ 表示移动平均线的周期。

3.MA参数的选择和优劣分析

根据我们不同的投资需求,MA的投资参数主要有以下几个:

  • 短期均线 (如 5 日、10 日): 适用于捕捉短期波动,用于快进快出的短线交易。
  • 中期均线 (如 20 日、50 日): 适用于捕捉中期趋势。
  • 长期均线 (如 100 日、200 日): 适用于识别长期趋势,常用于牛熊市的判断。

一般的,我们认为MA指标的优点在于简单明了,计算方式容易理解,门槛较低。其作为趋势指标可以有效过滤短期波动,识别长期趋势,还可用来识别支撑阻力、进行趋势判断和信号提示。但MA指标同时也不可避免的具有滞后性,信号滞后于价格变化。此外,在横盘震荡时,MA经常发出假信号,参数设置的不同会显著影响结果,导致解读偏差。

三、BOLL(Bollinger Bands, 布林带

布林带 (Bollinger Bands),又称布林通道,是由约翰·布林格 (John Bollinger) 在 1980 年代发明的技术分析工具,广泛应用于股票、期货、外汇等各种投资市场。它通过统计学原理中的标准差概念,勾勒出价格的波动范围,从而帮助投资者判断市场状态、寻找交易机会。 示例图

1.布林带的构成:三条轨道线

布林带由三条线组成,分别是:

  • 中轨 (Middle Band): 通常是一条 N 日的简单移动平均线 (SMA)。最常见的参数 N 为 20,即 20 日均线 (公式如下)。

    中轨 = N日收盘价之和 / N
    
  • 上轨 (Upper Band): 在中轨的基础上加上 K 倍的 N 日标准差。标准差反映了价格偏离平均值的程度,也就是价格的波动性。

    上轨 = 中轨 + K * (N日的标准差)
    
  • 下轨 (Lower Band): 在中轨的基础上减去 K 倍的 N 日标准差。

    下轨 = 中轨 - K * (N日的标准差)
    

其中,K 值通常设置为 2。这意味着上下轨包含了大约 95% 的价格波动范围(基于正态分布的假设)。

2.标准差的计算

理解标准差的计算对于理解布林带至关重要。标准差的计算公式如下:

  1. 计算每个交易日的 (收盘价 - N日收盘价均值) 的平方。
  2. 将过去 N 个交易日的上述平方值加总。
  3. 将总和除以 N。
  4. 将结果开平方根。
标准差 = √[∑(收盘价 - N日收盘价均值)² / N]

简而言之,标准差越大,说明价格波动越剧烈;标准差越小,说明价格波动越平缓。

3.布林带指标解读:

布林带的宽度和位置提供了丰富的市场信息:

  • 带宽 (Bandwidth): 上轨与下轨之间的距离称为带宽。
    • 带宽扩大: 表明市场波动性增加,可能预示着趋势的开始或加速。
    • 带宽收窄: 表明市场波动性降低,可能处于盘整状态,也可能预示着即将到来的突破。当带宽极度收窄时,称为“布林带收缩”(Bollinger Squeeze),往往预示着重大行情即将发生。
  • 价格与轨道的关系:
    • 价格在中轨上方运行: 倾向于认为市场处于上升趋势。
    • 价格在中轨下方运行: 倾向于认为市场处于下降趋势。
    • 价格突破上轨: 可能表示市场超买 ,但也可能是强势上涨的信号,需结合其他指标判断。
    • 价格跌破下轨: 可能表示市场超卖 ,但也可能是强势下跌的信号,需结合其他指标判断。
    • 价格在中轨附近波动: 表明市场可能处于震荡或盘整状态。

当价格持续沿着上轨运行,且布林带开口向上,可视为上升趋势的确认,考虑买入;反之,当价格持续沿着下轨运行,且布林带开口向下,可视为下降趋势的确认,考虑卖出。当价格触及或突破上轨时,可以考虑卖出,特别是当价格从上轨回落时;当价格触及或跌破下轨时,可以考虑买入,特别是当价格从下轨反弹时。

此外,当布林带极度收窄后,一旦价格向上突破上轨,且伴随成交量放大,通常是买入信号;反之,当价格向下突破下轨,且伴随成交量放大,通常是卖出信号。

四、SAR (Parabolic Stop and Reverse, 抛物线转向指标)

SAR指标,中文称之为抛物线转向指标,是由著名技术分析大师 J. Welles Wilder 提出的技术分析工具,旨在识别市场趋势的方向,并提供潜在的趋势反转点和交易信号。它是一种动态的交易指标,常用于趋势交易系统,与止损策略结合得尤为紧密。 示例图

1.基本原理

SAR的核心思想是在一个趋势中,价格通常倾向于沿着某个方向运行,直到趋势结束,而 SAR 通过在趋势中动态调整 "跟踪点" 来提示可能的反转。"SAR" 的意思是 "停止并反转" ,即当价格触发当前的停止点(Stop Point)时,意味着趋势可能反转。

SAR 指标通常以点或小圆圈的形式绘制在价格图表的上方或下方,当点位于价格 下方 ,表明为上涨趋势,SAR 提示为支撑;当点位于价格 上方 ,表明为下跌趋势,SAR 提示为阻力。该指标还有一个特点:随着时间的推移,它会逐步 "追踪" 价格,不断收紧对价格的容忍范围。最终,当价格偏离当前趋势时,它会提示趋势可能反转。

2.指标计算方式

这个指标计算起来比较复杂,步骤和核心概念如下:

(1) 初始值(EP 和 AF 的定义):

  1. EP (Extreme Point, 极值点):
    • 在上涨趋势中,EP 表示当前趋势中出现的最高点。
    • 在下跌趋势中,EP 表示当前趋势中出现的最低点。
  2. AF (Acceleration Factor, 加速因子):
    • 加速因子是一个控制 SAR 灵敏度的参数,初始值通常设为 0.02 ,每当价格创造新高或新低时,加速因子会逐步增加(默认为每次递增 0.02),但其最大值通常限制为 0.2
    • AF 的作用:
      • AF 越大,SAR 越敏感,但更容易出现假突破。
      • AF 越小,SAR 趋于平滑但可能反应迟钝。

(2) SAR 的递推公式:

SAR 的计算公式如下:

  • 当前 SAR = 前一 SAR + 加速因子 (AF) × (极值点 EP - 前一 SAR)

该公式的核心逻辑是:

  1. SAR 会随着趋势延续而不断向新的极值点靠近。
  2. 如果趋势向下,SAR 将逐步降低;如果趋势向上,SAR 将逐步升高。

(3) 反转条件:

  • SAR 一旦穿越价格,其值将重新从下一根 K 线的极值点开始计算,并且趋势方向由多转空或由空转多,实现 "停止并反转"。

3.优劣势分析

优点:

  1. 简单直观: 图表上的点清晰显示了趋势方向和潜在的反转。
  2. 动态止损: SAR 能帮助投资者动态调整止损位,锁定利润或控制风险。
  3. 趋势系统利器: 它在单边趋势行情中表现优异,可以减少不必要的交易噪音。

缺点:

  1. 震荡行情失灵: 在盘整或震荡行情中,SAR 往往发出频繁的虚假信号,因此投资者需格外警惕。
  2. 滞后性: SAR 是滞后指标,它的信号需要等待价格变动,不适用于捕捉快速反转。
  3. 敏感度难以调节: 如果加速因子设定不当,可能导致指标过于敏感或反应过慢,投资者需要根据市场实际情况调整参数。

实际应用思路:

  • 牛市期间:

    随着价格不断创新高,SAR 点位逐渐跟随价格上移。在趋势延续的过程中,SAR 点位与价格保持较大距离,为投资者提供持仓空间。一旦价格回落并突破 SAR 点位,则视为反转信号,提示卖出。

  • 震荡行情:

    在价格上下波动但未形成明显趋势时,SAR 点会频繁穿越价格,导致假信号。这种情况下,应避免依赖 SAR,结合其他指标(如布林带或 RSI)更为稳妥。

五、总结:种类繁多的技术指标到底是什么?

1.本质一:技术指标是市场数据的「提炼与模块化」

我们智人的注意力和计算能力都是有限的,市场价格、成交量等数据浩繁且波动频繁,难以观测。技术指标的作用就在于通过数学公式从混乱的数据中提炼出有意义的规律或趋势,将复杂的问题简单化,混沌的现象规律化

例如:

  • 均线 (MA) 将过去一段时间的价格数据平滑化,提炼出趋势的「方向」;
  • RSI (相对强弱指数) 提炼出市场的「超买」或「超卖」状态;
  • 布林带 (BOLL) 提炼出价格波动的「区间」范围和市场的「波动性大小」。

换句话说,技术指标是一组工具,它们抽象化了市场的关键动态,并将其呈现为我们更容易解读的形式。

2.本质二:技术指标是「人类心理与市场行为的展现」

金融市场的核心驱动力来源于参与者的交易行为,而交易行为本质上又受到人类心理、情绪和偏好的影响。技术指标虽然基于数学公式,但其背后的意义往往隐含了交易者的行为模式和群体心理。

例如:

  • 当价格突破某条移动平均线(如 50 日均线),意味着很多投资者可能会认为市场进入了新的趋势,因此可能引发更多交易,这是一种群体行为的反馈机制
  • RSI 超过 70 意味着市场可能过热,超买压力增加,投资者可能倾向于获利了结,这反映了市场心态的变换。

因此,技术指标可以看作是市场行为和投资者心理的「影子」,它记录并揭示了这些行为和心理的规律。

3.本质三:技术指标是也只是一种「统计概率模型」

绝大多数技术指标都基于历史数据进行计算,因此它们本质上是滞后的。换句话说,技术指标反映的是已经发生的事情,而非正在发生或者即将发生的事情。这种滞后性是由其计算机制决定的,因此投资者不能完全依赖技术指标预测未来。在实际博弈中,市场也并非严格遵循历史模式来运行,因此技术指标使用的「推测性」也容易导致误判。

  • 双均线交叉系统 (如短期均线上穿长期均线)并不能每一次都预测趋势,但在历史中,这个现象可能在多数情况下与趋势上涨的概率相关。
  • 技术指标本质上依赖于「统计学上的过去是否对未来有参考意义」,但市场的随机性本质仍然存在。

技术指标的作用更倾向于提供过去数据的描述视角 ,并允许投资者在此基础上推测市场可能的未来走向,绝非什么庙算神器,不可神话技术分析。

4.本质四:技术指标也是参与者共识的「映射」

技术指标之所以有效,往往源于其广泛使用。当大量交易者都关注某一指标并根据其行为制定交易计划时,这个指标会自我强化,成为市场走势中不可忽视的一部分。

  • 当股价跌破某条知名均线(如 200 日均线),可能会触发大量投资者的止损行为,进而导致价格加速下跌。
  • 当 RSI 提示市场「超卖」,很多交易者会根据这一信号寻找买点,从而导致价格开始反弹。

因此,技术指标并非完全由市场决定,而是大量市场参与者行为的反馈与共识的结果 ,技术指标的有效性源自其他参与者的认可和运用。

技术指标的正确使用方式应该是与其他分析方法结合,基于投资者对市场的理解,制定自己的规则和策略,并辅以严谨的风险控制。用技术指标追求 "完全掌控市场" 是不现实的,但用它来提高交易效率、减轻决策负担,却是非常有用的。

新一代静态博客框架Astro的部署优化指南与使用体验

信源

1.仓库

::github{repo="withastro/astro"} ::github{repo="saicaca/fuwari"}

2.参考文章

一、前言

我一直以来都在寻找一个既能满足写作需求,又简单易懂容易上手的博客框架。 最初,我选择了 Halo 作为我的博客框架。作为国产飞致云团队出品的有口皆碑的博客框架,halo以其简单易用的后端功能和优雅的文章管理迅速成为中文互联网播客圈内的主流框架之一。 当然,享受动态博客框架的好,就得承担动态博客框架的代价:

  • 想运行WordPress和Halo这种动态框架,你需要至少准备一台性能好于1c1g的VPS
  • 你需要定期维护升级框架和对应的数据库
  • 文章数量多的话,对于博客框架的性能和稳定性会有影响

因为我是一个懒人,懒得去维护服务器和数据库,受益于现代前端技术的发展,我开始在静态博客框架中寻求替代方案。 最终,我在群友的推荐下选择了Astro框架和fuwari主题。

二、Astro和fuwari介绍

1.什么是 Astro?

Astro 是一个现代化的静态站点生成框架,其核心目标是帮助开发者创建 快速、轻量、且以内容为核心 的网站。它于 2021 年首次发布,由于其独特的设计理念和对性能的极致追求,迅速在开发者社区中崭露头角。

Astro主页

Astro 的特性不仅专注于生成高性能的静态网站,还致力于降低开发门槛,同时提供与现代前端需求兼容的技术栈支持。这使得它成为博客站点、文档网站、甚至复杂 Web 项目的理想选择。

2.Astro 的独特设计理念

Astro 的开发核心理念可以用一句话概括:“Ship less JavaScript”(更少的 JavaScript 输出)。这意味着 Astro 会尽可能地减少前端 JavaScript 的加载,提供近乎纯静态的 HTML 页面,从而极大提升网站加载速度和用户体验,尤其适合内容导向型的站点,如博客、文档和营销页面。

Astro 引入了一个非常独特的架构设计 —— 群岛架构(Islands Architecture)
在传统的静态站点中,页面通常是完全静态的;而在现代动态站点中,许多部分过度依赖 JavaScript。Astro 提供了一种两者兼得的方式:你可以定义页面中哪些部分是静态的(如文章内容),哪些部分是动态可交互的(如评论系统或搜索栏)。这种架构在提高性能的同时,确保了站点的交互能力。

3.Astro 的核心特点

  1. 零 JavaScript 默认输出:
    与传统框架(如 React、Vue)相比,Astro 默认不会输出多余的 JavaScript,仅生成纯静态的 HTML 和 CSS。这种轻量化的特性能显著减少浏览器的负担,使页面加载速度更快。

  2. 支持多种框架:
    Astro 拥有惊人的灵活性,它允许开发者在同一个项目中同时整合多种前端框架(如 React、Vue、Svelte 和 SolidJS)。你可以选择最适合问题域的工具,而无需被某一个特定框架所限制。

  3. 内容优先:
    Astro 是为内容驱动型网站设计的,特别适合博客、文档或新闻类项目。它能快速处理 Markdown 和 MDX,开发者可以轻松地将内容与组件结合。

  4. 开箱即用的开发体验:
    Astro 提供了许多默认特性,如文件路由(File-based Routing)、内置的 Markdown 支持、静态资产优化、自动图片处理等;即使是不熟悉前端开发的用户,也能快速上手。

  5. 扩展能力:
    Astro 拥有丰富的插件生态系统,可以轻松扩展功能,比如支持 TypeScript、Tailwind CSS、PWA 等技术栈。您还可以无缝接入第三方服务,比如 CMS 系统、数据库或者 API。

4.Fuwari主题介绍

Fuwari是基于 Astro 开发的静态博客模板。

::github{repo="saicaca/fuwari"}

:::tip “ふわり (fuwari) ” 是一个日文词汇,常用来描述某种动作、感觉或状态,意境整体偏向轻柔、舒适、飘逸、无负担感,常用于描绘自然风景或者精致、柔和的物品与情感,是一个充满日语美感的拟声词/副词。 :::

alt text

✨ 功能特性

  • [x] 基于 Astro 和 Tailwind CSS 开发
  • [x] 流畅的动画和页面过渡
  • [x] 亮色 / 暗色模式
  • [x] 自定义主题色和横幅图片
  • [x] 响应式设计
  • [ ] 评论
  • [x] 搜索
  • [ ] 文内目录

三、部署教程

1.准备工作

  • 首先的首先,你需要一个Github账号,你可以注册一个

  • 注册之后,你需要使用此模板生成新仓库或 Fork 此仓库

  • 然后,你需要进行本地开发,Clone 新的仓库,执行 pnpm installpnpm add sharp 以安装依赖

    • 若未安装 [pnpm](https://pnpm.io,请执行 npm install -g pnpm)

在执行完上述命令后,你可以通过 pnpm dev 命令启动本地开发服务器,访问 http://localhost:4321 进行预览。

2.博客自定义

2.1 博客配置

你可以通过配置文件 src/config.ts 自定义博客,这里以我自己的配置文件为例:

博客基本内容:

export const siteConfig: SiteConfig = {
  title: '时歌的博客',
  subtitle: '理解以真实为本,但真实本身并不会自动呈现',
  lang: 'zh_CN',         // 在这里设置你的博客语言,'en', 'zh_CN', 'zh_TW', 'ja', 'ko'
  themeColor: {
    hue: 250,         // 在这里设置你的主题色, Default hue for the theme color, from 0 to 360. e.g. red: 0, teal: 200, cyan: 250, pink: 345
    fixed: false,     // 选择是否固定主题色,默认false
  },
  banner: {
    enable: true,
    src: 'assets/images/blog-banner.webp',   // 在这里设置你的首页横幅图片,Relative to the /src directory. Relative to the /public directory if it starts with '/'
    position: 'center',      // 在这里设置你的横幅图片位置,Equivalent to object-position, only supports 'top', 'center', 'bottom'. 'center' by default
    credit: {
      enable: false,         // 这里可以设置你的横幅图片的作者信息,Display the credit text of the banner image
      text: '',              // Credit text to be displayed
      url: ''                // (Optional) URL link to the original artwork or artist's page
    }
  },
  toc: {
    enable: true,           // 这里可以设置是否显示文章目录,Display the table of contents on the right side of the post
    depth: 2                // 文章目录默认显示到2级,Maximum heading depth to show in the table, from 1 to 3
  },
  favicon: [    // Leave this array empty to use the default favicon
    // {
    //   src: '/favicon/icon.png',    // Path of the favicon, relative to the /public directory
    //   theme: 'light',              // (Optional) Either 'light' or 'dark', set only if you have different favicons for light and dark mode
    //   sizes: '32x32',              // (Optional) Size of the favicon, set only if you have favicons of different sizes
    // }
  ]
}

个人信息与联系方式:

export const profileConfig: ProfileConfig = {
  avatar: 'assets/images/avatar.jpg',  // 个人头像,Relative to the /src directory. Relative to the /public directory if it starts with '/'
  name: '时歌',
  bio: '理解以真实为本,但真实本身并不会自动呈现.',
  links: [
    {
      name: 'QQ',
      icon: 'mdi:qqchat',       // 图标可以在 https://icones.js.org/ 中找到,Visit https://icones.js.org/ for icon codes
                                        // 如果本地没有,你需要安装对应的图标集,You will need to install the corresponding icon set if it's not already included
                                        // 安装方法:`pnpm add @iconify-json/<icon-set-name>`
      url: 'https://qm.qq.com/q/Qm6VfZnWM0',
    },
    {
      name: 'NetEaseMusic',
      icon: 'tabler:brand-netease-music',
      url: 'https://music.163.com/#/user/home?id=1997803975',
    },
    {
      name: 'GitHub',
      icon: 'fa6-brands:github',
      url: 'https://github.com/Lapis0x0',
    },
  ],
}

2.2 创建文章

Astro框架是基于Markdown的,所以你可以在src/content/posts/目录中创建新的Markdown文件,编辑文章内容。 你也可以在终端中执行 pnpm new-post <filename> 创建新文章,并在 src/content/posts/ 目录中编辑。

文章格式:

---
title: My First Blog Post //文章标题
published: 2023-09-09 //文章发布日期
description: This is the first post of my new Astro blog.  //文章描述
image: ./cover.jpg  //这是文章封面,路径可以是相对路径,也可以是绝对路径
tags: [Foo, Bar] //文章标签
category: Front-end //文章分类
draft: false //是否为草稿
lang: jp      //仅当文章语言与 `config.ts` 中的网站语言不同时需要设置
---

2.3 部署

如果你的博客基本信息已经设置完成,文章也已经迁移/创建好了,你可以选择参考官方指南将博客部署至 Vercel, Netlify, GitHub Pages 等;部署前需编辑 astro.config.mjs 中的站点设置。

具体来说,你可能需要修改 astro.config.mjs 文件的 site 配置(大约在24行左右),将其设置为你的域名。

// https://astro.build/config
export default defineConfig({
  site: "https://www.lapis.cafe/", // 修改为你的域名
  base: "/",
  trailingSlash: "always",
  integrations: [
    tailwind(
        {
          nesting: true,
        }
    ),

2.3.1 部署到 Vercel

部署到Vercel非常简单,默认情况下你的 Astro 项目是一个静态站点。你无需任何额外配置即可将静态 Astro 站点部署到 Vercel。

  • 首先,将你的博客全部代码push到你的GitHub仓库,然后在Vercel里选择import from GitHub
  • Vercel将将自动检测 Astro 项目并自动为其配置正确的设置,一路点点点就行了
  • 部署后,你可以通过 https://<your-username>.vercel.app 访问你的博客,也可以在settings里设置自定义域名

2.3.2 部署到 cloudflare pages

Cloudflare Pages是一个免费的静态网站托管平台,你可以在这里部署你的Astro站点。在开始之前,你需要:

  • 一个 Cloudflare 账号。如果你暂时还没有,你可以现在免费去 Cloudflare 官网注册一个。
  • 你的源代码存储在一个 GitHub 或者 GitLab 仓库里。

部署流程:

  • 在 Cloudflare Pages 设置一个新项目。
  • 将你的代码提交到一个 Git 仓库中 (GitHub, GitLab)。
  • 登录 Cloudflare Dashboard 并在 Account Home > Workers & Pages > Overview 选择你的账号。
  • 选择 Create application,然后选择 Pages 标签页,接着选择 Connect to Git 选项。
  • 选择你想部署的 Git 项目并点击 Begin setup(初始设置)。
  • 使用以下的构建设置:
    • Framework preset(框架预设): Astro
    • Build command(构建命令): npm run build
    • Build output directory(构建输出目录): dist
  • 点击 Save and Deploy(保存并部署)按钮。 最后,你可以通过 https://<your-username>.pages.dev 访问你的博客,也可以在settings里设置自定义域名。

2.3.3 部署到 GitHub Pages

你可以使用 GitHub Actions 将 Astro 站点自动构建和部署到 GitHub Pages。为此,你的源代码必须托管在 GitHub 上。Astro 维护了一个官方的 GitHub Action withastro/action 来帮助你部署项目.

由于本节流程比较复杂,请直接参见官方文档

2.3.4 部署到 Netlify

如果你的项目存储在 GitHub、GitLab、BitBucket 或 Azure DevOps 中,你可以使用 Netlify 的网站用户操作界面来部署你的 Astro 网站。

  • Netlify dashboard 页面上,点击 Add a new site

  • 选择 Import an existing project

    当你从你的 Git 提供商中导入 Astro 仓库时,Netlify 应该会自动检测并预填充正确的配置设置。

  • 确保已输入以下设置,然后按下 Deploy 按钮:

    Build Command: astro build or npm run build

    Publish directory: dist

    部署后,你将被重定向到站点概览页面。在那里,你可以编辑你站点的详细信息。

根据你的部署配置,未来对源代码库的任何修改都将触发预览和生产部署。

四、主题个性化调整

1.添加页脚ICP备案信息和运行时间信息

你可以在 src/components/Footer.astro 文件中添加你的ICP备案信息,例如:

---
import { profileConfig } from '../config'
import { url } from '../utils/url-utils'
const currentYear = new Date().getFullYear()
---

<!--<div class="border-t border-[var(&#45;&#45;primary)] mx-16 border-dashed py-8 max-w-[var(&#45;&#45;page-width)] flex flex-col items-center justify-center px-6">-->
<div class="transition border-t border-black/10 dark:border-white/15 my-10 border-dashed mx-32"></div>
<!--<div class="transition bg-[oklch(92%_0.01_var(&#45;&#45;hue))] dark:bg-black rounded-2xl py-8 mt-4 mb-8 flex flex-col items-center justify-center px-6">-->
<div class="transition border-dashed border-[oklch(85%_0.01_var(--hue))] dark:border-white/15 rounded-2xl mb-12 flex flex-col items-center justify-center px-6">
    <div class="transition text-50 text-sm text-center">
        &copy; <span id="copyright-year">{currentYear}</span> {profileConfig.name}. All Rights Reserved. /
        <a class="transition link text-[var(--primary)] font-medium" target="_blank" href={url('rss.xml')}>RSS</a> /
        <a class="transition link text-[var(--primary)] font-medium" target="_blank" href={url('sitemap-index.xml')}>Sitemap</a> /
        <a class="transition link text-[var(--primary)] font-medium" target="_blank" href="https://www.travellings.cn/go.html">开往</a><br>
        Powered by
        <a class="transition link text-[var(--primary)] font-medium" target="_blank" href="https://astro.build">Astro</a> &
        <a class="transition link text-[var(--primary)] font-medium" target="_blank" href="https://github.com/saicaca/fuwari">Fuwari</a>
        <br>
+       <a class="transition link text-[var(--primary)] font-medium" + target="_blank" href="https://beian.miit.gov.cn/"> 
+         辽ICP备2023010881号-1</a> //  添加备案信息
    </div>
    <script type="text/javascript">function runtime(){const t=new Date("07/01/2023 08:00:00"),n=new Date,s=n-t,e=Math.floor(s/1e3),o=Math.floor(e/86400),i=Math.floor(e%86400/3600),a=Math.floor(e%3600/60),r=e%60;document.getElementById("runningtime").innerHTML=`⭐本站已运行: ${o}天${i}小时${a}分${r}秒 ☁️`}setInterval(runtime,1e3)</script>
    <div class="transition text-50 text-sm text-center hidden md:block"><p id="runningtime"> </p></div>  //  添加博客运行时间
</div>

2.添加友链页面

2.1 添加友链页面文件

src\content\spec目录下新建文件friends.md

:::note 这个文件是新友链页面的内容文件,类似于其他页面内容(例如关于页面)来源的 about.md 文件。 添加这个文件的目的是为 "友链" 页面提供对应的内容数据,也便于通过统一方式调用内容。 :::

src\types\config.ts文件约37行位置添加以下内容

export enum LinkPreset {
  Home = 0,
  Archive = 1,
  About = 2,
+ Friends = 3,  
}

:::note 定义一个新的导航链接 "Friends"。在项目结构中,LinkPreset 枚举可能用于统一管理网页导航条或特定页面布局,对应页面的标识。 :::

2.2 国际化i18n翻译

src\i18n\i18nKey.ts文件约35行位置添加以下内容

  author = 'author',
  publishedAt = 'publishedAt',
  license = 'license',
+ friends = 'friends',  

:::note i18nKey.ts 文件负责国际化功能,这里添加了 friends 键值,表示新页面 "友链" 的国际化字符串键。 后续会根据项目支持的语言为 friends 提供不同语言的翻译。 :::

按照自己的语言,在 src\i18n\languages 目录中编辑相应语言文件,以 zh_CN.ts 为例,在约 38 行位置添加内容

  [Key.author]: '作者',
  [Key.publishedAt]: '发布于',
  [Key.license]: '许可协议',
+ [Key.friends]: '友链', 

:::note 编辑语言文件,为新增的 friends 翻译字符串提供对应语言的翻译(这里是中文:友链)。 如果项目支持其他语言,这个步骤需要在每个语言文件中添加 friends 的翻译,保证页面多语言显示功能。 :::

src\constants\link-presets.ts 文件约 18 行位置添加内容

   [LinkPreset.Archive]: {
     name: i18n(I18nKey.archive),
     url: '/archive/',
   },
+  [LinkPreset.Friends]: { 
+    name: i18n(I18nKey.friends),  
+    url: '/friends/',  
+  },   
 }

:::note 在 LinkPreset 到页面路径的映射中,加入新的友链页面配置。 name 设置链接名称,这里使用国际化 i18n(I18nKey.friends) 来确保多语言支持。 url 指定这个页面的路径 /friends/。 :::

2.3 创建和配置页面的Astro文件

src\pages目录下复制原本的about.astro文件,重命名为friends.astro,在此文件中更改第 10 行、第 12 行和第14行的内容

-  const aboutPost = await getEntry('spec', 'about')
+  const friendsPost = await getEntry('spec', 'friends')

-  const { Content } = await aboutPost.render()
+  const { Content } = await friendsPost.render()

-  <MainGridLayout title={i18n(I18nKey.about)} description={i18n(I18nKey.about)}>
+  <MainGridLayout title={i18n(I18nKey.friends)} description={i18n(I18nKey.friends)}>

:::note 创建 friends.astro 作为友链页面的模板文件,复制使用了类似 about.astro 的结构代码。 修改了内容获取函数,使其加载的是 friends.md 数据,而非 about.md 数据。 修改了标题 title 和描述 description,指向 friends 的国际化字符串。 :::

2.4 在导航栏中添加友链页面

src\config.ts 文件约 39 行位置添加内容,注意要在 LinkPreset.About 末尾添加,

export const navBarConfig: NavBarConfig = {
  links: [
    LinkPreset.Home,
    LinkPreset.Archive,
    LinkPreset.About,
+   LinkPreset.Friends,  
    {

:::note navBarConfig 用于配置页面的导航栏。 在导航栏中添加新的 "友链" 入口,使用户能够通过导航直接访问这个页面。 :::

2.5 创建卡片效果友链

在之前创建的 friends.astro 文件中编辑

const friendsPost = await getEntry('spec', 'friends')
const { Content } = await friendsPost.render()
const items = [
  {  
    title: 'Astro',  
    imgurl: 'https://avatars.githubusercontent.com/u/44914786?s=48&v=4',  
    desc: 'The web framework for content-driven websites. ⭐️ Star to support our work!',  
    siteurl: 'https://github.com/withastro/astro',  
    tags: ['框架'],  
  },
    {  
    title: '时歌的博客',  
    imgurl: 'https://blog-1302893975.cos.ap-beijing.myqcloud.com/pic/avatar.webp?imageSlim',  
    desc: '理解以真实为本,但真实本身并不会自动呈现',  
    siteurl: 'https://www.lapis.cafe',  
    tags: ['博客'],  
  },
]
---
<MainGridLayout title={i18n(I18nKey.friends)} description={i18n(I18nKey.friends)}>
    <div class="flex w-full rounded-[var(--radius-large)] overflow-hidden relative min-h-32">
        <div class="card-base z-10 px-9 py-6 relative w-full ">
            <div class="grid grid-cols-1 sm:grid-cols-2 gap-x-6 gap-y-8 my-4">
                {items.map((item) => (   
                    <div class="flex flex-nowrap items-stretch h-28 gap-4 rounded-[var(--radius-large)]">
                        <div class="w-28 h-28 flex-shrink-0 rounded-lg overflow-hidden bg-zinc-200 dark:bg-zinc-900">
                            <img src={item.imgurl} alt="站点头像" class="w-full h-full object-cover">
                        </div>
                        <div class="grow w-full">
                            <div class="font-bold transition text-lg text-neutral-900 dark:text-neutral-100 mb-1">{item.title}</div>
                            <div class="text-50 text-sm font-medium">{item.desc}</div>
                            <div class:list={["items-center", {"flex": true, "hidden md:flex" : false}]}>
                                <div class="flex flex-row flex-nowrap items-center">
                                    {(item.tags && item.tags.length > 0) && item.tags.map((tag,i) => (  
                                    <div class:list={[{"hidden": i==0}, "mx-1.5 text-[var(--meta-divider)] text-sm" ]}>
                                        /
                                    </div>  
                                    <span class="transition text-50 text-sm font-medium">
                                        {tag}
                                    </span>))}
                                    {!(item.tags && item.tags.length > 0) && <div class="transition text-50 text-sm font-medium">{i18n(I18nKey.noTags)}</div>}
                                </div>
                            </div>
                        </div>
                        <a href={item.siteurl} target="_blank" rel="noopener noreferrer"class="flex btn-regular w-[3.25rem] rounded-lg bg-[var(--enter-btn-bg)] hover:bg-[var(--enter-btn-bg-hover)] active:bg-[var(--enter-btn-bg-active)] active:scale-95">
                            <svg xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" class="transition text-[var(--primary)] text-4xl mx-auto iconify iconify--material-symbols" width="1em" height="1em" viewBox="0 0 24 24">
                                <path fill="currentColor" d="M12.6 12L8.7 8.1q-.275-.275-.275-.7t.275-.7t.7-.275t.7.275l4.6 4.6q.15.15.213.325t.062.375t-.062.375t-.213.325l-4.6 4.6q-.275.275-.7.275t-.7-.275t-.275-.7t.275-.7z"></path>
                            </svg>
                        </a>
                    </div>
                ))}
            </div>  
            <Markdown class="mt-2">
                <Content />
            </Markdown>
        </div>
    </div>
</MainGridLayout>

:::note 在 friends.astro 文件中,添加卡片效果的友链信息,包括站点名称、头像、描述、链接、标签等信息。

const items 部分就是添加的友链部分,继续添加即可。 :::

最终效果:

friends

3.添加评论系统

本主题作者未来会计划添加评论系统,但目前主题原生不支持,可采用giscus等第三方评论系统,本节就采用giscus来进行演示。

3.1 giscus配置

  • 首先,你需要创建一个新的GitHub库用来“装下”博客的那些评论,你需要确保该仓库是公开的,否则访客将无法查看 discussion。
  • 然后,你需要给你的这个仓库repo安装giscus app,否则访客将无法评论和回应。
  • 最后,你需要确保 Discussions 功能已在你的仓库中启用

打开giscus官方网站https://giscus.app/,进行配置:

  • 语言:选择你目前正在使用的语言(一般应该都是简中吧?)
  • 仓库:填写你刚刚创建的仓库(格式为你的用户名/仓库名
  • 页面 ↔️ discussion 映射关系(默认即可)
  • Discussion 分类(默认即可)
  • 特性(默认即可)
  • 主题(默认即可)

按照顺序配置好之后,下方会自动生成

具体字段会根据你的情况自动生成

<script src="https://giscus.app/client.js"
        data-repo="[在此输入仓库]"
        data-repo-id="[在此输入仓库 ID]"
        data-category="[在此输入分类名]"
        data-category-id="[在此输入分类 ID]"
        data-mapping="pathname"
        data-strict="0"
        data-reactions-enabled="1"
        data-emit-metadata="0"
        data-input-position="bottom"
        data-theme="preferred_color_scheme"
        data-lang="zh-CN"
        crossorigin="anonymous"
        async>
</script>

3.2 添加评论系统

3.2.1 友链页面

如果你的友链界面已经配置好,直接在src\pages\friends.astro文件中添加即可,插入最后一行上方即可

            <Markdown class="mt-2">
                <Content />
            </Markdown>
        </div>
    </div>

<!-- giscus评论 -->
<script src="https://giscus.app/client.js"
        data-repo="AULyPc/aulypc.github.io"
        data-repo-id="xxxxxxxxx"
        data-category="Announcements"
        data-category-id="xxxxxxxxxxxx"
        data-mapping="pathname"
        data-strict="0"
        data-reactions-enabled="1"
        data-emit-metadata="0"
        data-input-position="top"
        data-theme="preferred_color_scheme"
        data-lang="zh-CN"
        crossorigin="anonymous"
        async>
</script>  

</MainGridLayout>

3.2.2 文章页面

找到 src\pages\posts\[...slug].astro 文件 在 </MainGridLayout> 行上方添加即可

                <Icon name="material-symbols:chevron-right-rounded" class="text-[2rem] text-[var(--primary)]" />
            </div>}
        </a>
    </div>

<!-- giscus评论 -->
<script src="https://giscus.app/client.js"
    data-repo="AULyPc/aulypc.github.io"
    data-repo-id="xxxxxxxxxxx"
    data-category="Announcements"
    data-category-id="xxxxxxxxxxxxx"
    data-mapping="pathname"
    data-strict="0"
    data-reactions-enabled="1"
    data-emit-metadata="0"
    data-input-position="top"
    data-theme="preferred_color_scheme"
    data-lang="zh-CN"
    crossorigin="anonymous"
    async>
</script>  

</MainGridLayout>

<style is:global>
#post-container :nth-child(1) { animation-delay: calc(var(--content-delay) + 0ms) }
#post-container :nth-child(2) { animation-delay: calc(var(--content-delay) + 50ms) }
#post-container :nth-child(3) { animation-delay: calc(var(--content-delay) + 100ms) }
#post-container :nth-child(4) { animation-delay: calc(var(--content-delay) + 175ms) }
#post-container :nth-child(5) { animation-delay: calc(var(--content-delay) + 250ms) }
#post-container :nth-child(6) { animation-delay: calc(var(--content-delay) + 325ms) } 
</style>

:::note 关于页面,归档页面同理,修改对应的如about.astro,posts.astro,archive.astro,index.astro,即可 :::

:::caution 因为在我实际使用过程中,发现评论系统在页面的位置比较靠上,和文章正文贴得太近不美观,因此修改了下实际代码:

<!-- giscus评论 -->
<div style="margin-top: 20px;"></div>
<script src="https://giscus.app/client.js"
        data-repo="Lapis0x0/blog-discussion"
        data-repo-id="R_kgDONda6_g"
        data-category="Announcements"
        data-category-id="DIC_kwDONda6_s4ClN0D"
        data-mapping="pathname"
        data-strict="0"
        data-reactions-enabled="1"
        data-emit-metadata="0"
        data-input-position="bottom"
        data-theme="preferred_color_scheme"
        data-lang="zh-CN"
        crossorigin="anonymous"
        async>
</script>

:::

简析经济学与金融学实证中的几个常用简单模型

引言

经济学和金融学作为社会科学的重要分支,其研究目的在于理解和预测经济主体的行为以及金融市场的运作规律,二者研究范围很大一部分都重叠于分析复杂经济体系中各种行为主体的决策及其相互作用机制。实证研究作为连接理论与现实的桥梁,通过对数据的收集、整理和分析来检验经济理论的有效性,并为政策制定和投资决策提供依据。随着近年数据可得性的大幅提升以及量化方法的发展,经济学和金融学实证研究的深度广度均得到了显著增强。

在具体的分析中,模型和变量选择是整个研究全过程的核心。不同模型适用于不同的数据特征与分析需求,可以帮助研究者合理抽象和描述经济现象。尤其是一些相对简单、经典的模型,能够以较低的复杂度实现对真实问题的高效分析。本篇博客将简要介绍经济学与金融学实证研究中最常用的几个简单模型,包括线性回归模型、时间序列分析、面板数据分析、Logit和Probit模型、以及事件研究法。通过对这些模型基本概念、应用案例、优点与局限的梳理,试图帮助读者更好地理解这些模型的功能及其应用场景,为进一步的研究打下基础。

  • 线性回归模型以其简洁性和解释性,成为研究变量之间线性关系的首选工具,例如分析经济增长与投资的关系,或股票价格与宏观经济指标的关系。
  • 时间序列分析则专注于研究随时间变化的数据,能够捕捉数据的动态变化,适用于GDP预测和股票市场波动性分析等问题。
  • 面板数据分析结合了横截面数据和时间序列数据的优势,能够控制个体异质性,提高估计精度,常用于公司财务绩效分析和国家经济发展比较研究。
  • Logit和Probit模型适用于研究二元选择问题,例如信贷违约预测和投资决策分析,它们能够解释事件发生的概率。
  • 事件研究法则专注于评估特定事件对市场的影响,例如公司并购公告的影响或政策变动对市场的影响。

一、线性回归模型(Linear Regression Model)

线性回归模型是经济学和金融学实证研究中最基础且最广泛应用的模型之一,用于描述因变量与一个或多个自变量之间的线性关系。它具有直观的表现形式和较强的解释能力,因此长期以来受到各类研究者的青睐。本节将重点介绍线性回归模型的基本概念、经典应用案例,并讨论其优点与局限。

1. 基本概念

(1)定义和公式

线性回归模型的基本形式为:

$$ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_kX_k + \varepsilon $$

其中:

  • $Y$为因变量(被解释变量),代表所研究的现象或结果;
  • $X_1, X_2, \cdots, X_k $ 为自变量(解释变量),代表影响因变量的不同要素;
  • $\beta_0$为截距,表示当所有自变量取值为0时因变量的期望值;
  • $\beta_1, \beta_2, \cdots, \beta_k$为回归系数,衡量每个自变量对因变量的边际影响;
  • $ \varepsilon $为误差项,表示模型未能解释的部分。

在线性回归模型中,自变量和因变量之间的关系假定为线性,通过最小二乘法(Ordinary Least Squares, OLS)估计模型参数,使得误差项平方和最小化。OLS的目标函数为:

$$ \min_{\beta_0, \beta_1, \cdots, \beta_k} \sum_{i=1}^n (\hat{Y}_i - Y_i)^2 $$

(2)假设条件

为了保证OLS估计具有良好的统计性质(如无偏性和有效性),线性回归模型需满足以下经典假设条件:

  1. 线性假设:因变量与所有自变量之间的关系是线性的;
  2. 随机抽样:样本数据是按照随机抽样的方法获取的;
  3. 同方差性:误差项的方差是恒定的,不随着自变量的变化而变化;
  4. 误差项独立性:误差项彼此之间相互独立,且与自变量无关;
  5. 误差项正态性(在小样本情况下重要):误差项服从正态分布;
  6. 无完全多重共线性:各自变量之间不存在完全线性关系。

上述假设提供了理论支持,但在实际应用中可能不完全成立,研究者需根据数据特性进行检验和调整。

2. 应用案例

(1)经济增长与投资的关系

经济学中,线性回归模型常用于分析经济增长与影响因素之间的关系。例如,一些研究通过回归模型检验投资对经济增长的影响,具体设定为:

$$ GDP_{growth_rate} = \beta_0 + \beta_1Investment + \beta_2Labor + \beta_3Capital + \varepsilon $$

在上述公式中,经济增长率作为因变量,投资、劳动力和资本等作为解释变量,通过估计各变量的系数可以判断其对经济增长的边际贡献。

(2)股票价格与宏观经济指标的关系

金融学中,线性回归模型常用于测试宏观经济变量对股票市场的影响。以某股票价格指数为因变量,该模型可能包括的解释变量有利率、通货膨胀率、货币供应量等:

$$ Stock_Price = \beta_0 + \beta_1Interest_Rate + \beta_2Inflation + \beta_3Money_Supply + \varepsilon $$

这样的分析可以帮助投资者或政策制定者了解宏观经济环境的变化对资本市场的影响,有助于优化投资策略或政策设计。

3. 优点与局限

(1)优点

  1. 简单易用:线性回归模型形式简单,参数估计方法可靠,易于实施;
  2. 解释性强:回归系数能直接反映自变量对因变量的边际影响;
  3. 适用范围广:适用于大多数实证研究场景,无论是单变量问题还是多变量问题,都可以利用线性回归模型进行分析。

(2)局限

  1. 假设线性关系:线性回归模型假设因变量和自变量之间为线性关系,但实际经济和金融现象中可能存在复杂的非线性关系;
  2. 多重共线性问题:当自变量之间存在高度相关性时,模型可能会导致系数不稳定,影响结果的可靠性;
  3. 对异常值敏感:模型对异常值非常敏感,可能导致系数估计值和模型预测不准确;
  4. 忽略动态性:线性回归模型仅关注静态关系,无法捕捉时间序列数据中的动态变化趋势。

线性回归模型作为经济学与金融学实证研究的基础工具,在许多场景下能够快速提供清晰的结果。但其应用也需要注意基本假设对结果的潜在影响,并结合数据特性选择最适合的模型。

二、时间序列分析(Time Series Analysis)

时间序列分析是一类专门用于研究随时间变化数据的方法,在经济学与金融学中用于模型化和预测动态变量(如GDP、股票价格等)的趋势与周期。这类方法特别适用于时间相关的数据,通过合理的建模能够捕捉其动态特性。本节将围绕时间序列分析的基本概念、经典应用案例及其优点与局限展开讨论。

1. 基本概念

(1)定义和分类

时间序列分析是用于研究序列数据(例如按天、月份或年度记录的观测值)的一类统计方法,其核心目标在于发现时间序列的规律并进行预测。根据时间序列的生成机制,可大致将时间序列模型划分为以下几类:

  1. 自回归模型(Autoregressive Model, AR) AR模型假设当前序列值 ( y_t ) 可以用过去的若干序列值的线性组合表示:

    $$ y_t = \phi_1 y_{t-1} + \phi_2 y_{t-2} + \cdots + \phi_p y_{t-p} + \varepsilon_t $$

    其中,$\phi_1, \phi_2, \ldots, \phi_p$为自回归系数,$p$为滞后阶数,$\varepsilon_t $为白噪声。

  2. 滑动平均模型(Moving Average Model, MA) MA模型假设当前序列值与过去的误差项(白噪声)的线性组合相关:

    $$ y_t = \varepsilon_t + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2} + \cdots + \theta_q \varepsilon_{t-q} $$

    其中,$\theta_1, \theta_2, \ldots, \theta_q $为滑动平均系数,$q$为滞后阶数。

  3. 混合模型(Autoregressive Integrated Moving Average Model, ARIMA) ARIMA模型综合了AR模型和MA模型,同时允许序列数据通过差分运算转化为平稳序列:

    $$ y_t = \phi_1 y_{t-1} + \cdots + \phi_p y_{t-p} + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \cdots + \theta_q \varepsilon_{t-q} $$

    若数据非平稳,则需通过 $d $ 阶差分运算$\Delta^d y_t = y_t - y_{t-1}$使其平稳,以达到建模要求。

(2)平稳性和非平稳性

在时间序列分析中,平稳性是一个关键假设。平稳时间序列的统计特性(如均值、方差、自相关函数等)不随时间变化。常用的平稳性检验方法包括:

  • 单位根检验(Unit Root Test):如ADF检验(Augmented Dickey-Fuller Test)KPSS检验,用于检查序列是否存在单位根(非平稳)。
  • 图示法:观察序列的趋势和方差变化,初步判断是否平稳。

若序列非平稳,则可通过如下方法进行处理:

  1. 差分运算:对序列进行一次或多次差分 $\Delta y_t = y_t - y_{t-1}$ 直到序列平稳;
  2. 对数变换或 Box-Cox 变换:处理非平稳序列由于趋势或波动过大引起的问题。

2. 应用案例

(1)GDP预测

时间序列分析大量用于宏观经济预测。例如,研究者可以基于季度或年度的 GDP 数据构建 ARIMA 模型,以捕捉GDP的增长趋势和周期波动,公式如下:

$$ \Delta GDP_t = \phi_1 \Delta GDP_{t-1} + \cdots + \phi_p \Delta GDP_{t-p} + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \cdots + \theta_q \varepsilon_{t-q} $$

模型能够有效结合历史趋势与短期异常,生成可靠的中短期 GDP 增长率预测。

(2)股票市场波动性分析

在金融市场中,股票价格或收益率通常显示出较强的波动聚集效应和自相关性。通过时间序列模型(如 ARIMA 或 GARCH 模型),可以分析股票市场的动态特征。例如,使用 AR 模型分析每日的股票回报率(returns):

$$ r_t = c + \phi_1 r_{t-1} + \phi_2 r_{t-2} + \cdots + \phi_p r_{t-p} + \varepsilon_t $$

此外,通过扩展为 GARCH 模型,还可以刻画波动率的动态变化。此类模型对投资策略和风险管理具有重要意义。


3. 优点与局限

(1)优点

  1. 适应时间数据:时间序列分析方法专门设计用于处理时间序列数据,能够捕捉其动态特性;
  2. 预测能力强:通过识别过去的模式,可以预测序列的未来变化趋势;
  3. 适应多样性问题:AR、MA、ARIMA 等不同模型能够分别处理平稳、非平稳数据以及复杂周期问题。

(2)局限

  1. 对数据要求高:时间序列数据要求具有较好的质量(完整无缺失),且观测时间较长,否则难以获得准确结果;
  2. 平稳性处理复杂:非平稳数据较难建模,前期需要对趋势性、季节性进行充分识别与处理;
  3. 对模型选择敏感:不同模型的效果依赖于数据特性,变量的滞后阶数选择(如ARIMA中的 $p, d, q$严重影响结果,需要借助信息准则(如AIC、BIC)优化模型。

时间序列分析在处理动态数据、研究变量之间的时间依赖性方面具有重要优势。但其建模和预测过程依赖于严格的方法论和数据质量,研究者需要根据数据特性及研究目标谨慎选择合适的模型与处理方式。

三、面板数据分析(Panel Data Analysis)

面板数据分析是一种结合横截面数据(Cross-sectional Data)和时间序列数据(Time Series Data)的分析方法。它广泛应用于经济学和金融学的实证研究中,用于分析不同个体(如公司、地区或国家)随着时间变化的行为差异和动态变化趋势。本节将讨论面板数据分析的基本概念、经典应用案例及其优点和局限性。


1. 基本概念

(1)定义和类型

面板数据指同时包含横截面观测(多个个体)和时间序列观测的数据。例如,第 (i) 个公司的第 (t) 年的财务绩效数据可以表示为 (y_{it})。面板数据模型的基本形式为:

$$ y_{it} = \alpha + \beta X_{it} + u_{it}, \quad i = 1, 2, ... , N; \quad t = 1, 2, ... , T $$

$$ \begin{aligned} \text{其中:} \ & y_{it}:\text{第 } i \text{ 个个体在第 } t \text{ 时期的因变量;} \ & X_{it}:\text{解释变量矩阵;} \ & \alpha:\text{截距项;} \ & \beta:\text{回归系数向量,表示解释变量对因变量的作用;} \ & u_{it}:\text{误差项,可能包含个体效应(个体特有的影响)、时间效应或其他随机部分。} \end{aligned} $$

根据个体和时间效应的处理方式,主要分为以下两类模型:

  1. 固定效应模型(Fixed Effects Model, FEM) 固定效应模型通过控制不可观测的个体特性(例如,国家的制度差异或企业的特点)来减少模型偏误。它假设这些个体特性不会随时间变化,是固定的。其模型形式为:

$$ y_{it} = \alpha_i + \beta X_{it} + u_{it} $$

其中,$alpha_i$是各个个体的固定特定因素。固定效应模型通过引入“个体哑变量(dummy variable)”或“去均值法(within transformation)”实现估计。

  1. 随机效应模型(Random Effects Model, REM) 随机效应模型假设个体差异是随机的,且与解释变量无关。模型形式为:

$$ y_{it} = \alpha + \beta X_{it} + v_i + u_{it} $$

$v_i$ 表示个体特有的随机效应,满足 $E(v_i) = 0$,且与解释变量 $X_{it}$不相关。REM 的估计通常基于广义最小二乘法 (GLS)。

(2)优势:结合横截面和时间序列数据

面板数据分析的一个核心优势在于它结合了横截面数据和时间序列数据的特点,能够捕捉个体间差异及其动态变化趋势。具体优势包括:

  • 提供更大的数据量,有助于提高估计精度;
  • 更好地控制不可观测异质性,减少遗漏变量偏误;
  • 能够分析个体随时间变化的动态关系,例如政策效应、长期趋势等。

2. 应用案例

(1)公司财务绩效分析

在企业层面的研究中,面板数据分析能够有效结合公司间差异与时间上的变化特征。例如,研究上市公司资本结构对绩效的影响时,可以构建如下模型:

$$ Performance_{it} = \alpha + \beta_1 Leverage_{it} + \beta_2 Size_{it} + \beta_3 R&D_{it} + u_{it} $$

其中,$Performance_{it}$表示第 $i$ 个公司的财务绩效(如ROE或利润率),$Leverage_{it}$ 为杠杆率,$Size_{it}$ 为公司规模,$R&D_{it}$ 为研发投入。通过固定效应模型,可控制公司特定的不可观测特性(如管理能力、文化差异等)。

(2)国家经济发展比较

在宏观层面,面板数据分析被广泛用于比较国家间的经济发展。例如,可以分析人口增长率与GDP增长率的关系,模型形式为:

$$ GDP_Growth_{it} = \alpha + \beta_1 Pop_Growth_{it} + \beta_2 Trade_{it} + \beta_3 Invest_{it} + u_{it} $$

其中,第 $i$ 个国家的 GDP 增长率($GDP_Growth_{it}$)受人口增长率($Pop_Growth_{it}$)、贸易额占比($Trade_{it}$)和固定资本投资占比($Invest_{it}$)的影响。通过随机效应模型,可以捕捉不同国家间的异质性及全球经济变化趋势。


3. 优点与局限

(1)优点

  1. 控制个体异质性:有效控制个体间的不可观测异质性,减少模型偏误。
  2. 提高估计精度:面板数据结合了时间序列和横截面维度,使得估计结果更加精确可靠。
  3. 捕捉动态变化:能够分析个体间差异以及动态调整过程,例如政策对经济的长短期影响。
  4. 适用范围广:适用于多种研究领域,如企业行为分析、政策评价等。

(2)局限

  1. 数据收集难度较大:面板数据需要同时涵盖横截面和时间维度,尤其长期面板数据(long panel)很难获取。
  2. 模型选择复杂:固定效应和随机效应模型的选择需要基于理论和统计检验(如 Hausman 检验),且处理过程较繁琐。
  3. 潜在内生性问题:解释变量可能与误差项相关,导致估计结果偏误,需要引入工具变量(IV)或广义矩估计(GMM)进行纠正。
  4. 假设依赖性较强:随机效应模型假设个体随机效应与解释变量无关,这一假设在实际中往往较难满足。

面板数据分析为经济学与金融学的实证研究提供了有效工具,帮助研究者整合多维度数据分析个体差异和动态关系。然而,其模型的复杂性及对数据的高要求也对研究者的专业能力提出了挑战。

四、Logit和Probit模型(Logit and Probit Models)

Logit和Probit模型是经济学、金融学及其他社会科学领域常用的非线性二元选择模型,它们主要用于研究因变量是二元选择数据(如“成功/失败”、“同意/拒绝”)的关系。在很多场景中,研究者关注的是某一事件发生的概率,而Logit和Probit模型可以将这种概率通过解释变量建模。本节将介绍Logit和Probit模型的基本概念、应用案例以及它们各自的优点与局限性。


1. 基本概念

(1)定义和公式

Logit和Probit模型都是基于二元因变量的概率模型,用于研究某事件发生的概率在什么条件下会改变,因变量 ((Y)) 通常取值为1或0(即代表事件分别“发生”和“不发生”)。两种模型的核心在于设定不同的分布函数,将解释变量通过某种形式转换为事件发生的概率。

设 $P(Y=1|X)$ 为事件 $Y=1$ (某事件发生)的概率,模型的通用形式表示为:

$$ P(Y = 1|X) = F(X \beta) $$

其中:

  • $F$:累积分布函数,决定模型类型;
  • $X$:自变量(解释变量);
  • $\beta$:回归系数向量。

具体而言:

1. Logit模型

Logit模型基于累积逻辑分布函数,其公式为:

$$ P(Y = 1|X) = \frac{1}{1 + e^{-X\beta}} $$

或等价地,可以写为对数几率形式:

$$ \ln\left(\frac{P(Y = 1|X)}{P(Y = 0|X)}\right) = X\beta $$

其中,$\ln\left(\frac{P}{1-P}\right)$ 称为对数几率(log odds)。Logit模型非常适合描述概率与线性组合之间的非线性关系,且保证所得概率介于0和1之间。

2. Probit模型

Probit模型基于标准正态分布函数,其公式为:

$$ P(Y = 1|X) = \Phi(X\beta) $$

其中,$\Phi$ 为标准正态分布的累积分布函数:

$$ \Phi(z) = \int_{-\infty}^z \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt $$

Probit模型假设事件发生的概率服从标准正态分布,适用于解释变量对结果具有正态分布特性的场景。

(2)概率解释

在实际研究中,Logit与Probit模型都用于估计变化后的概率。由于两者的函数形式决定了因变量对解释变量的非线性关系,因此结果通常用边际效应(Marginal Effects)来解释,即:

$$ \frac{\partial P(Y=1|X)}{\partial X} = f(X\beta) \cdot \beta $$

其中,$f(X\beta)$ 是对应的分布密度函数。

  • 对于 Logit 模型,密度函数为:

$$ f(z) = \frac{e^{-z}}{(1+e^{-z})^2} $$

  • 对于 Probit 模型,密度函数为标准正态分布函数的导数:

$$ f(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} $$

边际效应展示了解释变量变化时,因变量的发生概率如何随之波动,这为政策决策或现象预测提供了直观的量化依据。


2. 应用案例

(1)信贷违约预测

在金融领域,Logit和Probit模型被广泛应用于信用风险管理。例如,研究贷款人是否违约 (Y = 1) (违约)或 (Y = 0) (不违约)时,可以将贷款申请者的特征(收入、资产负债比、信用评分等)作为解释变量:

$$ P(\text{Default} = 1|X) = F(\beta_0 + \beta_1 \cdot \text{Income} + \beta_2 \cdot \text{DebtRatio} + \beta_3 \cdot \text{CreditScore}) $$

通过估计模型参数,可以得到贷款人违约的概率,从而辅助银行决策是否批准贷款。Logit模型因其解释简便和计算收益被更频繁使用,更能处理高度不平衡的数据集(如违约率较低)。

(2)投资决策分析

在企业投资中,Logit和Probit模型可用来分析企业是否选择进行某类新投资(如技术升级或多元化扩展):

$$ P(\text{Invest} = 1|X) = F(\beta_0 + \beta_1 \cdot \text{MarketCompetition} + \beta_2 \cdot \text{Capital} + \beta_3 \cdot \text{PolicyIncentives}) $$

其中:

  • $\text{MarketCompetition}$ 表示市场竞争程度;
  • $\text{Capital}$ 表示企业的资本状况;
  • $\text{PolicyIncentives}$ 表示政策激励的强度。

模型可以帮助揭示影响企业投资决策的重要因素及其边际效应,为政策支持方向或管理调整提供参考。


3. 优点与局限

(1)优点

  1. 适用于二元选择问题:Logit和Probit模型专门针对二值因变量问题,能够很好地捕捉解释变量对结果的影响;
  2. 解释概率:模型输出可以直接被解释为某事件发生的概率,使得结果易于解读;
  3. 灵活性:Logit模型和Probit模型都可以通过扩展(如Multinomial Logit或Ordered Probit)处理多类别选择问题。

(2)局限

  1. 假设分布形式:两种模型依赖于累积分布函数的假设(Logit假设逻辑分布,Probit假设正态分布),在某些实际中可能不适用;
  2. 结果非线性:模型结果为非线性形式,直接解释可能困难(需要计算边际效应);
  3. 模型参数估计复杂:Logit和Probit模型的极大似然估计较为复杂,与OLS相比需要更高的计算要求;
  4. 适用范围有限:模型仅适用于因变量为二元点的情形,对于连续型或分布更复杂的数据,其适用性受限。

Logit和Probit模型是解释二元选择问题的核心工具,它们通过输出概率为决策提供依据。研究者需要结合数据特点选择合适的模型,并关注边际效应和模型假设可能对结果产生的影响。在实际应用中,对于分类变量分析,两种模型共同构成了强有力的统计支持体系。

五、事件研究法(Event Study Method)

事件研究法是一种用于度量某一特定事件对金融市场中特定资产价格或收益率影响的实证研究方法。它在金融学、经济学以及会计学中被广泛使用,特别是用于检验事件(如并购公告、政策变化、盈利警告等)是否显著影响了股票市场或其他金融市场的表现。本节将介绍事件研究法的基本概念、应用案例以及其优点与局限。


1. 基本概念

(1)定义和步骤

事件研究法的核心目标是评估某个特定事件在一个短期窗口期内,对资产价格或市场表现的影响。这种方法利用经济学理论和金融市场的有效性假设,分析事件前后资产的异常收益(Abnormal Returns, AR),并测试其是否显著偏离正常水平。

事件研究法的标准步骤如下:

  1. 确定事件窗口期(Event Window) 定义研究的关键事件及其发生日期(称为“事件日”,一般用 (t = 0) 表示),以及窗口期的范围。窗口期通常包括事件发生之前的一段时间(用于捕捉市场提前反应)和之后的一段时间(用于观察延迟反应)。例如,窗口期可以设定为 ([-10, +10]),即事件日前后各10天。
  2. 估计窗口期(Estimation Window) 窗口期之外的一段时期被称为估计窗口期,用于构建资产正常收益的估计模型(如市场收益模型或CAPM)。例如,估计窗口期可以设定为事件日前 ([-120, -11])。
  3. 计算正常收益率(Normal Returns, NR) 在估计窗口期内,使用历史数据构建模型预测正常收益。正常收益率的估计方法包括:
  • 市场模型(Market Model):

    $$ R_{it} = \alpha_i + \beta_i R_{mt} + \varepsilon_t $$

    其中,$R_{it}$ 为第 $i$ 个资产在 $t$ 时期的收益率,$R_{mt}$ 为市场收益率,$\alpha_i$ 和 $\beta_i$ 为回归系数。

  • 无条件平均法: 直接用估计窗口期的平均收益率作为正常收益。

  1. 计算异常收益率(Abnormal Returns, AR) 异常收益率表示资产真实收益相较于正常水平的偏离值,定义为:

    $$ AR_{it} = R_{it} - \hat{R}_{it} $$

    其中,$\hat{R}_{it}$ 为估计的正常收益。

  2. 计算累计异常收益率(Cumulative Abnormal Returns, CAR) 将事件窗口中每一天的异常收益率叠加,得到累计异常收益率:

    $$ CAR_{(t_1, t_2)} = \sum_{t=t_1}^{t_2} AR_{it} $$

  3. 统计检验 使用统计方法(如 t 检验)检测异常收益率或累计异常收益率是否显著,判断事件对目标资产的影响是否显著非零。


(2)异常收益率计算

异常收益率的计算是事件研究的核心环节。基于市场模型,异常收益率可以具体表示为:

$$ AR_{it} = R_{it} - (\alpha_i + \beta_i R_{mt}) $$

其中:

  • $R_{it}$:事件窗口期第 $i$ 个资产在 $t$ 时期的实际收益率;
  • $\alpha_i + \beta_i R_{mt}$:第 $i$ 个资产在 $t$ 时期基于估计模型的正常收益;
  • $R_{mt}$:市场收益率。

通过在事件窗口期内累计多个 $AR_{it}$,可以得到累计异常收益率(CAR),用于衡量事件的整体影响。若 $CAR$ 显著为正或为负,说明事件对资产的影响显著。


2. 应用案例

(1)公司并购公告的影响

并购事件(Mergers and Acquisitions,M&A)往往对并购双方的公司股价产生显著影响。研究者可以使用事件研究法评估并购公告对两家公司股价的短期市场反应:

  1. 研究问题:并购公告是否提升了目标公司股东的价值?是否减少了收购公司的股东财富?
  2. 步骤:以并购公告日期为 (t=0),包含事件前后5天窗口期(([-5, 5])),并选择事件日前60天为估计窗口期。通过市场模型估计正常收益率,计算并购双方公司的异常收益率(AR)及累计异常收益率(CAR)。
  3. 实证结果:事件研究通常显示目标公司股东的CAR通常为正,这表明市场对目标公司价值提升有较高预期;而收购公司的CAR则不显著,有时甚至可能为负。

(2)政策变动对市场的影响

政策变动(如利率调整、税收变化或监管放松)是事件研究常见的主题。例如,可以研究政府宣布降低某类行业税收对股票市场的影响:

  1. 研究问题:税收变动是否提升了受影响行业的市场价值?
  2. 步骤:选取政策公告日期作为事件日 (t=0),观测政策执行前后两周(([-10, 10]))的股价运动。利用市场模型估计涉及行业公司股票的正常收益率,计算它们的异常收益率(AR)和累计异常收益率(CAR)。
  3. 实证结果:某些研究发现,财政刺激政策如税收减免通常会显著提升相关行业上市公司的股价,而更严格的政策管控可能导致负向的CAR值。

3. 优点与局限

(1)优点

  1. 评估特定事件的市场反应:事件研究法可以准确捕捉单一事件在短期内对资产价格的影响,具有高度针对性。
  2. 灵活性强:可应用于多种场景(如并购、政策发布、业绩公告等),并能分析短期及长期影响。
  3. 理论支持扎实:基于有效市场假设(EMH),事件研究法利用市场价格快速反映信息的特点,具有较强的理论基础。

(2)局限

  1. 需要大量数据:为了构建可靠的正常收益率模型,事件研究通常需要较长时间段的高频市场数据,这对数据收集带来挑战。
  2. 受市场噪音影响:市场中存在大量噪音(非事件因素引起的价格波动),可能掩盖事件的真实影响。
  3. 模型依赖性:异常收益率的计算依赖于所选模型(如市场模型、CAPM),模型不当可能导致结果偏误。
  4. 仅限于可量化的事件:事件研究法适用于研究市场参与者以价格形式有所反应的事件,而一些难以量化的事件(如情感、文化问题)可能难以分析。

事件研究法是分析关键事件影响的重要工具。它通过评估事件窗口内的异常收益,揭示事件对市场的短期直接效应。然而,其应用效果高度依赖于事件的选择、数据的质量以及模型的合理性。在实际应用中,研究者需要谨慎设计事件研究并采用严格的统计方法验证其结论的稳健性。

从最近的恶性事件看类《看门狗》中CtOS犯罪评估系统的可能性

声明:相关性不等于因果性

首先,必须要在本文开头声明的是,近期大众观念里的“恶性事件频发”可能并不能代表社会整体治安的恶化,更不能将犯罪现象治安问题和所谓的经济下行导致戾气严重相关联。我知道这种因果关系简单直接符合人类思维逻辑,在传播上也容易刺激到人们的爽点,但我在实际查证经济周期和犯罪案件数量之后认为简单将这二者联系起来实际上是一种非常愚蠢的,基于现代传媒操弄下的“提线木偶”思维。

我可以很明确的讲,世界上并没有有一个处于真空球形鸡的国家能满足所谓经济周期和戾气之间的因果关系,如果真的有kol输出这个结论,我只能说要么是他蠢到不值得继续订阅,要么就是坏到不惜败坏自己的学术/能力声誉也要讨好自己的粉丝。

2023年故意杀人类案件5.2万,严重暴力案件6.2万,中国有两千多个行政县,基本上每个县每年起码跳一个学生,一年就得跳两千多个学生,可能就在你看我这篇文章的时候就有一个小孩在自由落体——这就是庞大绝对数量下的统计学真相。

现代传媒常常出于吸引眼球、博取流量的目的,将个别突发事件进行过度放大,甚至营造出一种“社会正在崩溃”的错觉。我们又在现代社会中处于一个普遍的信息过载状态,非常容易对远方的事情产生“共情”,将这些个案与自己的日常生活联系起来,进而产生对社会整体治安的悲观认识,此即为“可得性偏差”和“证实偏差”。

所以,为了写这篇文章,我只能把人类社会这个多层次的社会现象相叠加的混沌模型抽象为一种简单的猜想,假设社会经济周期和恶性事件发生的频率概率之间存在一个粗糙的,未经统计学实证检验的线性关系。这种联系只是表面上的相关而非实际的因果,相关性不等于因果性

有的人看到这里可能会感觉我的“求生欲”很强,但我写这么一大段的目的并非“求生欲”或者什么“免责”,我分享的都是带有我自己立场与惯性的叙事和分析框架,不是什么科学真理、惊天秘辛,也不是借助所谓的冲塔或者别的什么立场来提高自己的论证可靠性。

还希望所有的读者仅仅只把我的文章当作参考,去形成自己的分析评价框架,反过来自己思考我的文章具体逻辑是否通顺、符合经济运行事物,让自己的脑子和嘴真正地思自己所思、言自己所言,以理性的形式主张自己的经济权益。

基于治理恶化下的新思路

因此,我们可以假设认为随着经济周期的演变+社会各思潮的演进,2024年乃至未来中短期内社会恶性事件发生的频率较前十年会持续增长。城市扩张和社会复杂性的提高似乎使得传统的安全措施和现有的大维稳体制逐渐难以有效维持原先的“平安”社会治理愿景。

那有聪明的小朋友可能会说,只要xxx的根本问题/原因不解决,xxx就会越来越多巴拉巴拉巴拉……

要我说这种就属于正确的废话,现代教育体系单单强调解决“核心问题”和“主要矛盾”,但大家很大程度上并没有亲身参与社会治理的经验,并不能真正了解“解决核心/根本问题”这个词本身就近乎不可能,如果社会中各种集团博弈斗争的根本那么好解决,我们现在应该还在周朝开开心心的种井田。

基于这样的认知,我是一个极端现实的建制派,我不相信理想不相信伟大革命不相信爱与和平,我只相信制度博弈下的相互妥协,我只相信庸俗的技术主义,解决问题更多还是要靠工具箱里的方法论与实操性策略。

如果我们关注近期恶性事件的导火索,不难发现多半是犯罪人自认为受到了周边人(上司、伴侣、学校管理人员)等的欺压,在气不过之后选择直接报复社会。嫌疑人在犯罪之前的显著特点就是导火索明确,且情绪积累和爆发的路径清晰可循。这类人群在犯罪前通常经历了一段时间的心理失衡和情绪积累,表现为对身边冲突越来越敏感,行为逐渐极端化。当我们把这些具体的案例进行归纳和分析,可以发现,在多数恶性事件前,这些个体已经在不同程度上表现出情绪波动、社交关系紧张甚至孤立无援的迹象。他们的行为模式往往可以通过数据痕迹、心理指标以及一些社交互动反馈来捕捉到。正是在这种前提下,传统的纠纷调解或维稳措施显得反应迟缓,未能及时介入或事先识别出风险。

是的,在社会本身转型期矛盾没办法快速解决的前提下,我们能否提前识别这种“高危”个体,在他们做出不可挽回的极端行为之前进行有效干预?就像游戏《看门狗》中的 CtOS(Central Operating System)那样,借助类似于CtOS的犯罪预测系统,通过对公民包括社交媒体发言、职场行为、生活轨迹等在内的多维度数据进行全方位分析,形成一个“情境感知”的智能体系,以在潜在犯罪人情绪失控之前,分析其行为模式和关键风险点,构建一个从“情绪波动”到“行为极端化”的追踪路径,从而为执法部门、社区组织或心理健康服务提供提前介入的机会。这种技术能够有效缩短社会系统在面对潜在威胁时的反应时间,最大限度地预防恶性事件的发生。

在探讨具体的技术实现和应用场景之前,我们有必要先回顾一下犯罪预测领域的研究现状。纵观相关领域的发展历史,犯罪预测的研究方向主要可以分为两类:一类是传统犯罪预测,聚焦于基于历史数据和已知犯罪行为模式的分析;另一类则是近年来兴起的数据驱动的以人为对象的犯罪预测,依赖于loT、大数据、人工智能和机器学习等新兴技术的支持。在接下来的部分中,我们将首先介绍传统犯罪预测的研究方向,探讨这种方法的优势与局限性。

一、传统研究方向:以犯罪区域为对象

早在20世纪中叶,西方国家的警察部门就已经应用以传统统计学为基础的犯罪预测方法。这一过程被认为是“精算司法”(actuarial justice)在刑事司法领域兴起的体现。和移动互联网兴起后的大数据云计算浪潮同步,区别于传统结构化、抽样、假设检验的犯罪预测模式,大数据背景下的犯罪预测正在全世界的主流主权国家社会中兴起。大数据背景下的“犯罪预测”被西方学者喻为“旧把戏,新技术”(old trick,new tech)。“旧”指的是犯罪预测惯用的理论模型与实践样态与传统背景下基本一致;“新”指的是犯罪预测的样本选择与分析方式在大数据背景下具有“数据化”的海量特色。

1.核心模型

在现代犯罪预测领域中最主要核心的两个模型分别是“近重复理论(Near Repeat Theory)”和“风险地形建模(Risk Terrain Modeling)”。近重复理论基于“犯罪行为在时间和空间上存在聚集效应”这一基本架设,即当某个地点发生犯罪时,未来相对较短的时间内,该地点及其周边区域再次发生类似犯罪的概率将显著增加。这种现象在盗窃、抢劫等财产犯罪中尤为明显,其背后的逻辑是犯罪分子在成功作案后可能会再次光顾熟悉的地点,或者附近的其他犯罪分子被“启发”,认为该区域易于作案。通过对历史犯罪数据进行分析,近重复理论能够助力预测犯罪行为的 “时间与空间簇集” 情况,进而为执法资源的部署提供参考依据。例如警方可以依据过往盗窃案件的分布情况,识别出未来有可能发生类似犯罪的热点区域,并提前强化巡逻力度或者采取相应的预防措施。

风险地形建模则关注犯罪与环境之间的关系,其主要观点为某些物理环境因素(如商业区、酒吧、交通枢纽、空地等)会增加犯罪发生的可能性。因此,该模型识图通过将地理空间特征与犯罪历史数据结合,识别出上述“犯罪诱因”的分布特征,进而生成一个风险地图,显示哪些区域由于环境特点而更容易成为犯罪现场。通过识别这些高风险地带,执法部门可以更加有针对性地进行干预,例如安装更多监控设备、调整街区的照明条件或增加警力巡逻等。随着数据量的增大以及交互式信息技术的进步,风险地形的预测及预警机制正愈加精确化。

2.局限性

在之前信息化平台未普及时(乃至于现在),各种犯罪信息和城市数据一般都通过纸质归档,信息出自多门难以量化整合到一处进行分析,受限于部门间的信息壁垒和人力资源的限制,预测结果误差较大且高度依赖警察部门分析人员的主观结论。单纯依赖历史犯罪数据也无法完全捕捉到犯罪背后的复杂动因。例如区域的社会经济变动、人口结构的变化、政策的调整等都可能影响犯罪行为的发生,但这些因素往往无法通过简单的空间分析模型进行量化。最后过度依赖犯罪热点和区域特征还可能导致“执法偏见”的产生。特别是在一些长期被认为是高犯罪率的区域,执法资源的过度集中可能加剧对特定社区或少数族裔群体的歧视性执法,进而引发更深层次的社会矛盾。

当然,之所以大家都以犯罪区域为预测对象而不是以人为预测对象当然还有法律制度和loT未普及的原因。这就是非不为也,实不能也。

我国开展过一些预测性警务探索,但尚没有真正实现业务化运行,这可能与国内外警务模式之间存在的较大差异有关。借鉴IBM公司在美国孟菲斯市开发Blue CRUSH(Criminal Reduction Utilizing Statistical History,利用统计历史数据减少犯罪)项目的成功经验,北京市怀柔公安分局于2013年开发了相关应用,实现了警力投量投向的时空引导。江苏省苏州市公安局于2014年开发了一个类似于PredPol的犯罪预测系统,并在2个派出所内开展了试点,据相关报道称取得了不错的应用效果。然而,据了解,由于国内外警务模式的差异,系统运行与我国警务工作机制不相适应,相关系统后续均已停用。在国外,警察预防和打击犯罪的重要手段之一是州、县和城市警察巡逻,而在中国,社区巡逻工作通常是由派出所民警承担,每位民警所负责的警务责任区空间范围相对较小,责任民警对区内整体治安状况和犯罪热点较为熟悉。与责任民警的经验相比,当前大多数犯罪时空预测模型的预测效果并不理想,因此在实践中也就难以得到持续应用。

总之,以美国预测性警务模式为参考,国外很多国家开展了将犯罪时空预测与警务模式相结合的应用实践。我国虽然也较早地同步开展了相关尝试,但由于国内外警务模式之间存在较大差异,并缺乏必要的系统化研究跟进指导,犯罪时空预测结果与国内警务模式的契合程度并不紧密,导致相关实践应用的效果并不理想。

相比于过去单纯以犯罪区域为预测对象,现今越来越多的研究开始关注“以人为预测对象”,即通过数据分析和行为模式的研究,预测潜在犯罪分子的行动,从而在犯罪发生之前进行干预。这一转变不仅能够提高预测的准确性,还可以减少区域化执法偏见,进一步优化犯罪预防的策略。

二、loT时代下以人为预测对象机制

1.理论分析

首先,我们来介绍一下什么是loT。

IoT(Internet of Things)即物联网,是指通过互联网、传统电信网等信息承载体,将各种信息传感设备与互联网结合起来而形成的一个巨大网络。这个网络实现了物与物、物与人的泛在连接,实现智能化识别、定位、跟踪、监控和管理。在IoT系统中,各种设备(如智能手机、可穿戴设备、家用电器、车载设备等)都可以成为数据采集和传输的节点。这些设备通过各种传感器收集环境数据、用户行为数据等,并通过网络将这些数据传输到云端进行分析和处理。

loT领域的快速发展使得强力机关利用互联网对个体实现全方位的监控有了基本的实现空间,IoT技术的应用意味着可以获取更丰富、更实时的数据源。人们的手机、智能手表、家用摄像头、智能交通系统,甚至是城市基础设施中的传感器,都可以捕捉和记录个体的行动轨迹、社交活动和环境变化。这些数据可以帮助执法部门更细致地了解个体的行为模式,并识别出可能的犯罪风险。

传统的犯罪侦查是反应型的被动侦查模式,侦查总是要落后于犯罪行为的发生,公安机关只能做到打击犯罪而无法做到预防犯罪。但现在loT+大数据的发展使得公安机关不仅仅可以通过数据搜索、数据挖掘、数据碰撞和数据建模的方式进行事后的侦查活动,还可以在事前进行主动型的预测和介入。

过去的侦测活动只能通过“犯罪心理画像”——根据现场遗留的痕迹、物证等信息,结合主观经验判断对犯罪嫌疑人的外形、身份和心理活动等要素进行描绘,而现在则可以通过对侦察机关数据库、社会公共数据库、大数据公司的用户数据中的数据与情报进行研判,对犯罪嫌疑人或相关人员的基本信息进行“数据画像”,从个人基本信息、形体特征、行为轨迹、消费习惯、经济状况、兴趣爱好等信息中提炼出性格特征、行为特征、职业特征,从而实现针对高危人员预警的功能。

参见刑事专业研判平台,对前科犯罪人员数据库、旅馆住宿数据库、网吧上网数据库等信息进行算法处理和特征点筛选,初步实践了大数据画像的犯罪预警功能。

2.应用情况

此处有一大坨欧美实际应用场景,但我懒得超过来贴上去了。总之就是部分人类学家和社会学家组成了“社会物理学”学派,主要观点是人类社会的发展变化和人类本身的思想、行为,与自然界的其他组成部分一样遵循着一系列物理规律,只要掌握足够的信息,就能发现这些规律并对其进行预测乃至控制。最知名的案例就是芝加哥警察局和伊利诺伊理工学院合作语言发的“战略对象清单”行动,根据历史犯罪记录对市民犯罪或沦为犯罪受害者的风险进行量化评估并在0~500的区间内评分,据此确定警务工作重点。截至2017年,“战略对象清单”的数据库已包含约40万人的评分,其中约29万人因分数超过250而被标注为“高风险”。调查显示,在2016年,该项目评分为500(最高风险等级)的人员中约1/3卷入了枪击或谋杀案件;得分在429及以上的1400人卷入了芝加哥市当年约20%的涉枪暴力案件,显示该行动在预测暴力犯罪方面较高的准确率。

2010年以后,随着大数据时代的到来,美国警察机关有条件利用更为海量和多元化的数据以提升“预测性警务”的准确性和效率。在奥巴马政府“21世纪警务工作队”倡议的框架下,数据科学和信息技术对改善警察效能和提升社区安全方面的潜力得到进一步重视,美国一些暴力犯罪高发的大城市,如芝加哥,建立了使用各种软件系统和专用工具处理来自城市各个角落的传感器所收集的数据的技术中心,并通过“融合”中心机制与其他政府部门实现了数据共享。新的传感器技术,如基于军队使用的狙击手定位装置的枪击声学感知系统(ShotSpotter)等得到迅速推广。纽约市警察局部署了集成联网摄像头、环境传感器、车牌读取器、报警电话记录系统、枪击声学感知系统等数据采集设备的“场域感知系统”(Domain Awareness system),用以支持基于名为“图形化”(Patternizr)的机器学习算法的“预测性警务”应用,根据2017年的评估,经过为期24周的实验,纽约总体犯罪指数下降了6%。

什么,你说后来呢?

后来各种后现代议题兴起了,这种检测手段被视为歧视性xxxx,已经被废除了。

What can i say?

当然,我相信FBI和CIA肯定不会放弃这么好用的东西,毕竟不道德归不道德,好用是真好用,强力部门当然不可能被简单的民意所裹挟。

3.几个基本的预测分析思路

社交网络分析

马克思曾说"人是社会的动物",以人为核心的犯罪预测自然要研究嫌疑人的关系网,这就是社交网络分析(SNA)。通过分析个体在社交网络中的互动,尤其是与犯罪分子或高风险群体的社交联系,执法机构可以识别潜在的犯罪嫌疑人或高危个体。例如某人的社交圈中频繁出现已知犯罪分子或有犯罪前科的人员,该人的犯罪风险可能随之增加。通过深入分析这些社交网络中的关系强度、互动频率和信息传播路径,预测系统能更早发现犯罪网络中的关键节点,从而提前干预,防止犯罪升级。

进一步讲,SNA的经用场景当然不会仅仅局限于个人关系网分析,还可以帮助揭示整个犯罪网络。类似于金融犯罪洗钱诈骗等有组织犯罪活动背后会有一个复杂的群体犯罪网络结构作为支撑,一套高效的SNA框架可以帮助执法部门识别隐藏在各种三无小号之下的犯罪结构,辨别犯罪的领导者、核心成员和外围支持者,抽丝剥茧的针对性打击犯罪网络的关键节点,继而有效的瓦解整个犯罪组织。此外,SNA还可以帮助识别信息在犯罪网络中的传播路径。例如某些犯罪团伙可能通过社交媒体、即时通讯工具或线下社交圈传播犯罪计划和指令。通过监控这些信息流动,执法部门可以更加精准地预测犯罪活动的发生时间和地点,甚至预防潜在的犯罪企图。这种基于信息传播的分析能够极大提高犯罪预测的前瞻性,使得执法部门能够在犯罪尚未发生之前采取行动。

行为模式分析

相较于之前的SNA社交网络分析,行为模式分析更加侧重于个体的行动轨迹、日常活动和行为习惯。每个人的行为都有一定的规律性,无论是工作通勤、娱乐活动,还是购物消费,都会形成相对稳定的行为模式。而当某个个体的行为突然偏离了这些模式,尤其是出现与已知犯罪行为相似的轨迹或特征时,就可能意味着该个体正在策划或参与犯罪活动。例如,某人如果突然频繁出现在一个与其平时活动轨迹不符的高风险区域,或是经常出入某些犯罪高发场所,这些异常行为就可能引发系统的警示。

社交平台言论分析

在行为科学和认知科学领域的研究表明,人类的某些情绪状态或行为倾向于犯罪行为之间存在着密切的联系,焦虑、愤怒、冲动等负面状态情绪往往是某些犯罪行为的导火索,此类情绪的积累和爆发可能导致个体在短时间内失去理智,做出攻击性、破坏性或反社会的行为。因此,通过对个体情绪状态的监测和分析,执法部门以及相关的预测系统可以识别出潜在的高危人群,及早进行干预,防范犯罪行为的发生。

刚好,当今几乎人人都沉浸在网络世界中。互联网上的自我与现实中的自我共同构成了现代社会中真实的"自我"。

个体的心理状态常常通过社交媒体上的言论、文字表达和行为表现出来。例如当某人在社交平台上频繁发表消极、攻击性或极端言论时,他要么是疯了要么是近期情绪波动严重要么两者皆有()。当这些言论包含愤怒、怨恨、报复、威胁等信息时,很可能预示着该人正处于情绪失控的边缘,这种情绪失控往往是暴力犯罪的前兆。一个人如果频繁发布自我否定、无助感或社会疏离相关的内容,则代表其心理健康处于危险状态,可能萌生制造极端行为的念头。

在网络社群治理中,我们也可以发现某些极端思想和犯罪倾向往往通过网络社群或小圈子传播,尤其是在一些极端主义思想聚集的网络论坛、社交群组中,个体之间的情绪共振和相互煽动可能会加剧犯罪的发生。通过监控这些社交群体中的互动,特别是某些特定话题的讨论热度和情绪走向,系统可以识别出那些正在酝酿犯罪行为的群体,并提前采取行动,干预其犯罪计划的实施。

除开个人/社群言论,个体的网络搜索记录也可暴露其内心变化。行为科学研究表明,人们的网络搜索行为往往与他们当前的心理状态和计划行为有关。当一个人开始频繁搜索与暴力、武器、违法行为或极端思想相关的内容时,可能表明其正在思考或筹划某种犯罪行为。有些恐怖主义行为的实施者在作案前曾进行详细的网络搜索,查找如何制造爆炸物或组织恐怖袭击的细节步骤。通过对这些搜索行为的分析,预测系统可以更早地察觉到个体的犯罪倾向,及时发出预警。

三、CtOS技术原理解析

《看门狗》系列中的CtOS(Central Operating System,中央操作系统)是一个高度集成和智能化的城市管理系统,能够实时监控并分析来自城市各个方面的数据,最终用于管理城市功能和预测犯罪行为。虽然这是一个虚构的系统,但背后的技术概念在现实中已经有了一定的雏形。

首先,整个CtOS系统的实现基础在于其广泛的物联网(IoT)网络,这一网络将城市的各类设备和基础设施连接在一起。在游戏中,芝加哥市的摄像头、交通信号、公共设施、银行系统、智能手机和家用设备等,全部通过CtOS实现集中管理和数据共享。通过这些IoT设备,系统可以实时监控和管理城市中的一切活动。在现实中,城市物联网同样也正在全面铺开(虽然目前各公司部门各自为战数据不互通):城市中的监控摄像头、智能交通灯、空气质量检测设备、智能电表、智能家居设备等,正在形成一个巨大的物联网网络。随着5G网络的普及,IoT设备的连接速度和可靠性得到了显著提升,使得大量数据可以在毫秒级的时间内传输到中央系统进行处理。

基础有了,接下来就是GPU+深度学习加持下的犯罪预测引擎。深度学习是一类基于人工神经网络的机器学习方法,能够从海量数据中自动提取复杂的特征和模式。犯罪预测引擎通过对历史犯罪数据、社交媒体活动、行为模式、地理位置以及其他相关数据的分析,能够识别出潜在的犯罪风险。深度学习模型不仅可以识别已知的犯罪模式,还能够通过学习不断变化的环境和行为数据,逐步优化和改进预测精度。与传统的中央处理器(CPU)相比,GPU在处理大规模并行计算任务时具备显著优势,特别是在训练和运行深度学习模型时。犯罪预测系统需要处理海量数据,包括城市监控录像、实时传感器数据、社交网络信息等,这些数据的处理和分析对计算能力提出了极高的要求。GPU的高速运算能力能够大幅提升深度学习模型的训练效率,使得系统能够在短时间内处理数十亿条数据,并实时作出预测和决策。

当我们操控艾登皮尔斯扮演私法制裁者的时候,预测犯罪还依靠CtOS系统能够实时获取市民的社交网络、财务记录、医疗数据等隐私信息的能力,通过抓取高风险市民的隐私对话记录关键词,系统会自动帮助我们判断ta卷入犯罪的风险,及时通知私法制裁者展开行动。

四、类CtOS系统落地困境与未来展望

尽管人类社会目前有差分隐私同态加密等手段来保护个人隐私,但现实中的城市管理系统仍然在获取和处理公民个人数据时面临着巨大的道德和法律压力。在《看门狗》中,艾登·皮尔斯可以利用CtOS获取到市民的详细背景信息,包括他们的职业、收入水平、甚至是私人健康问题,这种全方位的透明度在现实中几乎不可能被完全允许。哪怕我们抛开打造CtOS所需要的海量资源不谈,一个城市级别的操作系统如果拥有如此广泛的权限,将很容易引发公众对于大哥在看着你式的监控社会的恐惧。

我要再重申一遍,这玩意放到任何一个地方都做不到,因为整合如此海量的数据需要耗费的政治经济资源是极其庞大的,放国内也差不多是要按着腾讯、阿里、字节、百度和华米OV联通电信等巨头的头,让几百万工程师在一起肝好几年统一各种数据规范和接口,然后在全国范围内建好几十座巨型超算中心和储存中心去算十四亿人产生的海量数据,光训和测试模型保底都得个大半年,效果也不一定好。

非不为也,实不能也

那么,距离我们真正实现如《看门狗》中的CtOS系统还有多远?虽然技术上我们已经具备了相当的基础,但一个完整的CtOS系统要真正落地仍然需要解决若干现实问题。除了隐私保护,还包括数据孤岛问题、系统安全问题,以及政策法规议程的推进。首先就是数据不互通,目前许多智能设备和城市基础设施都是由不同的公司和部门独立运营,数据无法在不同设备和系统之间自由流动。要实现像CtOS那样的全城市级别的数据集成和管理,市政当局和技术提供商必须打破数据孤岛,建立统一的数据标准和接口。

这条就基本可以决定CtOS在5年内实现不了了

其次,系统安全也同样重要。一个管理整个城市的中央系统,必然会成为黑客攻击的主要目标。在《看门狗》中,玩家可以通过入侵CtOS系统来操控交通信号灯、关闭电网、甚至引发大规模的社会混乱。虽然这在游戏中是为了提供娱乐性和戏剧性冲突,但在现实中这样的破坏性攻击可能会造成极为严重的后果。这一系统如果只能被极少部分人掌握就没办法完全发挥其预警作用,但一旦可以使用的人多了就极容易给全社会来个大的。

警务通权限管理不严格已经在公民信息方面带来很多问题了

总的来说,虽然像CtOS这样的系统在短期内不太可能以完全相同的形式出现,但它所代表的技术理念——即通过物联网、大数据和人工智能等技术手段,实现城市的高效管理和智能治理——已经在现实中逐步成型。随着技术的不断进步和隐私保护技术的完善,我们或许会看到一个更加智能、安全、且具备高度自动化管理能力的未来城市系统逐渐浮现。到那时,虽然我们可能不会亲自扮演艾登·皮尔斯,但我们生活的城市可能已经在悄然之间变得更加智能、高效——甚至,也许已经具备了某种程度的“犯罪预测”能力。

五、可能的问题Q&A

Q1:根本问题没解决,你这叽里咕噜的没有任何用处!

A:我是一个极端现实的建制派,我不相信理想不相信伟大革命不相信爱与和平,我只相信制度博弈下的相互妥协,我只相信庸俗的技术主义。本文立论的基础就是经济周期和犯罪频率存在宏观意义上的线性关系,经济周期本身不可逆,那么从社会治理的角度就只能“压缩”犯罪而非搞点其他的什么行为艺术。

Q2:不要xx要xx,我们要保护公民隐私……

A:这其实是一个价值观的选择问题,但实际上哪怕在大洋对岸,FBI和CIA乃至于摩萨德也从来没有放弃我上面说的这种监视计划,他们走的要比我们远得多。强力部门不太可能向民意妥协,因为民意似水民动如烟,每一种思潮的奥弗顿窗口期就那么点,但各种恶性犯罪会永远存在并且需要强力部门实际投入资源去解决。

一旦涉及到“我家里真的有一头牛”,所有人就会瞬间老实。

当然如果你真的认为公民隐私对你来说非常非常非常重要,可以选择去相关部门网站的民意咨询中写下你的顾虑与建议,也可以考虑发表专门的学术论文来论证这一套系统无异于压缩犯罪/对社会弊大于利。

Q3:这一系统是否会被滥用?

A:当然会,我在分析问题时通常不会相信任何崇高。不过所幸建设这一系统所需要的巨量资源和上层建筑准备目前来看全世界都没办法在中短期内筹集到,如果真建成了在我的推演内也是利大于弊。

参考文献

[1] 胡铭 严敏姬.大数据视野下犯罪预测的机遇、风险与规制——以英美德“预测警务”为例

[2] 朱浩文.大数据犯罪预测的法律分析

[3] 李皛.美国“预测性警务”的发展与困境 Predictive Policing in the United States:Developments and Dilemmas

[4] Mandalapu, V., Elluri, L., Vyas, P., & Roy, N. (2023). Crime Prediction Using Machine Learning and Deep Learning: A Systematic Review and Future Directions. IEEE Access, 11, 60153-60170. https://doi.org/10.1109/ACCESS.2023.3286344

[5] Safat, W., Asghar, S., & Gillani, S. A. (2021). Empirical Analysis for Crime Prediction and Forecasting Using Machine Learning and Deep Learning Techniques. IEEE Access, 9, 70080-70091. https://doi.org/10.1109/ACCESS.2021.3078117

[6] Kaur, M., & Saini, M. (2022). Indian government initiatives on cyberbullying: A case study on cyberbullying in Indian higher education institutions. Educational Information Technology, 1-7. https://doi.org/10.1007/s10639-022-11168-4

[7] Kaur, M., & Saini, M. (2023). Role of artificial intelligence in cyberbullying and cyberhate detection. In 2023 14th International Conference on Computing Communication and Networking Technologies (ICCCNT), Delhi, 1-7. https://doi.org/10.1109/ICCCNT56998.2023.10308090

[8] HE Rixing, LU Yumei, JIANG Chao, DENG Yue, LI Xinran, SHI Dong. (2023). Progress in Research and Practice of Spatial-temporal Crime Prediction over the Past Decade. ISPRS International Journal of Geo-Information, 12(4), 236.

从碎片到系统:我的信息整理与优化之路

我的管理方案和存在的问题

在信息爆炸的时代,我们每个人的知识源都被碎片化地分布在不同的平台和工具中。从公众号文章到书籍摘录,从研究报告到PDF文件,广领域、多平台、全天候的各种信源交错与堆积,每天都有大量的信息需要管理和处理。

作为一个知识工作者,我处理信息的软件一共有四个:Cubox用来集中处理解析网上看到的有价值的文章、视频、链接,等有时间了再看。Notion作为知识整理中心,我会将Cubox筛选处理后的文章存入Notion的Database里(感谢Notion的万物皆block理念),由AI添加标签和摘要方便后期索引查询。思源笔记我则主要用来进行PDF书籍的批注和阅读,书籍研究报告中的重要摘录和思考都会放在这里。最近,因为飞书多维表格+AI自动化功能非常好用,我又将日常任务管理、OKR编排和个人书库影音库放到了飞书里。

当然,我自己并不是有了这些知识管理工具就直接高枕无忧畅享“第二大脑”了,工具磨合与处理过程中的问题仍然不少。

检索困难:在每个平台中,我都建立了多个分类与标签,以便快速查找。但当信息量积累到一定程度时,这种做法逐渐变得繁琐且低效。举个例子,当我需要回顾一篇文章中的某个概念,而这个概念在不同的笔记软件中可能以不同的形式存在,我往往需要花费大量时间去从多个地方检索(还不一定能找到想要的)

另外,随着我知识库的不断扩展,如何筛选出最为核心、最具价值的信息也成了一个难题。很多时候,我在某个项目或研究中会收集大量的资料,但随着时间的推移,这些资料可能变得过时或不再相关,而我却依然在这些信息的海洋中徘徊,浪费了大量时间。如何筛选和整理出真正能帮助我思考和创作的内容,成了我的另一大困扰。

维护困难:除了信息量的积压,另一个问题是知识管理的“可持续性”。目前的做法依赖于我每次将新的信息手动分类和存储,而这种方式需要持续的时间和精力投入。在繁忙的工作和生活中,很容易就会懈怠,导致知识库的更新和维护停滞不前。这不仅影响了知识库的完整性,也使得之前的知识积累变得碎片化、难以回溯。

面对这些问题,我开始思考,是否有可能找到一种更高效、更系统化的管理方式,能够打破这些平台之间的“信息孤岛”,实现知识的无缝对接与整合。是否能设计一个更加简洁的流程,使得从收集、整理到应用的过程变得更为顺畅和自动化?在这个过程中,我意识到,我不仅需要更高效的工具,还需要在方法论上做出调整——如何从整体上重新审视我的知识管理系统,让它不仅能适应当前的需求,也能具备未来扩展的能力。

解决方案

1.建立信息筛选与知识梳理机制

并不是所有我随手丢到Cubox里的信息都值得我专门存到数据库里方便未来回忆学习,很多时候收藏的文章并没有足够的时效性/重复阅读价值,信息收集的第一步是快速存储,但在日后回顾时,我们需要有一个快速筛选、提炼和更新的流程。

  • 定期整理:每隔一段时间(例如每月),我会对Cubox知识库进行一次全面的整理。重新审视每个信息类别的价值,删除那些已经过时或无关紧要的内容。定期回顾可以避免无用信息的积累,让知识库保持“精简且有效”。
  • 创建信息摘要:对每一篇文章、报告或者书籍的关键内容进行摘要,并将其汇总到 Notion 中。这不仅方便我日后的快速查阅,还能加深我对这些知识的理解和记忆。

2.知识最终存放平台的统一

一个最直接的方法就是将所有的终端沉淀下来的知识放到一个统一的平台,未来检索查询只在这一个平台就可以了,不需要多网页/应用/设备来回倒腾折磨自己。我现在会将Cubox完成筛查的文章统一导入到Notion的专属数据库,并且由Notion ai给文章打标和生成摘要,完美符合懒人天性,爽到。

  • Notion 与其他平台同步:利用 Notion 的集成功能,将 Cubox、思源笔记中的信息通过 API 或手动导入的方式,集中管理。Notion 的强大数据库功能可以让不同类型的信息在一个地方整合,并通过标签、属性进行筛选和分类。
  • Zapier 或 Integromat:利用自动化工具将不同平台之间的数据进行同步,例如将 Cubox 中保存的文章自动导入 Notion,并为其添加合适的标签。通过自动化处理,大大节省了手动输入的时间。

3.P.A.R.A.知识整理方法

P.A.R.A. 是什么及在 Notion 中的应用

P.A.R.A.是一种知识管理方法,由生产力专家Tiago Forte提出。P.A.R.A.是Project(项目)、Area(领域)、Resource(资源)和Archive(归档)的缩写。这四个类别构成了PARA方法的核心框架。以下是PARA方法的主要组成部分:

  1. 项目(Project):具有明确目标和时间范围的任务。这是最小的执行单位。
  2. 领域(Area):你需要持续关注和精进的领域,通常与你的责任相关。
  3. 资源(Resource):你感兴趣的主题,可以支持当前和未来的领域发展。
  4. 归档(Archive):不再活跃但可能在未来有用的内容。

其中 Goal 是贯穿始终的,Area 的持续精进是最终目的,Project 的选择和执行是阶可量化的段性目标,Resource 是支撑二级的「Area」的资源、资料(外部的)。

围绕 Area 的精进,我们需要不断吸收外部的有效信息和进行阶段性的「创作」,而阶段性的创作需要的主题,可以是 Area 的拆分,也可以是基于 Project 的抽象和总结,但来源主要是通过实践(Project)和理论来进行的(即 Resource——外部参考、经验、方法论)。

4. 逐步放弃“过度管理”

过度的管理和分类往往会耗费大量的时间和精力,反而影响效率。为此,我决定放弃一些过于繁琐的管理方式,尽量简化流程:

  • 减少分类层级:避免对每个小类目都建立单独的文件夹或分类标签。简化分类,保持分类的层级尽量扁平化。
  • 优先关注使用频率高的内容:对一些长期不用的内容,我减少更新和整理频率,集中精力管理那些高频使用、对当前工作或学习有实际帮助的信息。

5. 引入AI助手

  • Notion数据库里可以用ai自动打标和生成摘要,检索也可以以自己的整个Notion库为索引范围询问Notion ai,效果非常不错(核心在于不用自己去操心数据库该如何索引用什么模型,Notion可以帮你全部包揽了)。
  • 飞书多维表格在ai方面则更加强一点,可以根据条目让ai在网上搜集可用信息,可以ai识图等等等等……飞书相较于Notion的缺点就是性能表现相对较差,在页面编排上灵活性也稍差(Notion的万物皆block太方便了)

总结

解决这些问题的核心在于建立一种更高效、更系统的管理机制,而不是单纯依赖某一款工具或平台。通过工具的整合、信息的筛选与梳理、跨平台的引用、以及引入 AI 等辅助手段,我希望能够让我的知识管理系统变得更加流畅、易于维护,并且能够适应未来信息量的增长和变化。

说到底,知识管理最终的目的还是知识的运用,管理是为了更好的应用而非给自己营造一种虚假的秩序感来自我满足。我没有耐心和精力去投入大量的时间来维护一个数据库,大部分工作交给AI代劳岂不美哉?

不再依赖平台:如何打造自己专属的博客网站?

这两天我在读居伊·德波的《景观社会》,在网络社会崛起与“媒体过剩”的时代,借助于日益发达的大众传媒工具,景观的作用与功能也日益强化。从轻松的娱乐废料到严肃文学,从日常生活到人的感情和欲望,我们的生活几乎每一个角落都被景观所笼罩和取代,景观的无孔不入让每个个体仿佛置身于一场永不停歇的表演之中。

在现代资本主义框架下的这场永无止境的拜物嘉年华中,“自我表达”便显得尤为宝贵。通过搭建一个属于自己的博客,我们可以选择脱离主流的内容展示平台,跳出景观对内容的定义,去建立一片属于自己的空间,不为流量和点赞左右,纯粹记录自己独立的思考与见解。一个独立的博客可以帮助我们避免信息的过度压缩与表面化处理,构建一个较为纯净的精神空间,让自己的思考和表达不至于被瞬时的注意力洪流所淹没,多输出一点严肃内容总归是对个人,乃至对这个社会是大有裨益的

在搭建个人博客的过程中,有多种方式可以选择。不同方法的难易程度和所需技术背景各不相同,还请各位读者根据自己的需求和技术水平来决定。以下我将按照从易到难的顺序,介绍几种搭建个人博客的方式。

一、使用现成的博客管理框架

  • 在本节,你需要一台可以访问外部网络的VPS(如果你没有/没有足够的资金去购买一台2C2G以上的VPS,可以直接看第二节Vercel)
  • 本节适合有一定技术基础的用户,可以选择搭建在自己的VPS上,使用WordPress或Halo等开源博客程序。这类程序提供丰富的主题和插件,便于高度定制,也让博客具备较强的拓展性。你可以通过选择不同的主题来调整外观,安装插件来添加更多功能,比如SEO优化、数据分析、订阅等。虽然安装和配置过程稍显复杂,但有丰富的文档和社区支持,适合希望有更高自主权的用户。

(一)、WordPress

1.1Panel部署

你可以先安装1Panel(宝塔也可),然后直接通过GUI部署WordPress

# 1Panel安装(CentOS)

curl -sSL <https://resource.fit2cloud.com/1panel/package/quick_start.sh> -o quick_start.sh && sh quick_start.sh

# Ubuntu

curl -sSL <https://resource.fit2cloud.com/1panel/package/quick_start.sh> -o quick_start.sh && sudo bash quick_start.sh

# Debian

curl -sSL <https://resource.fit2cloud.com/1panel/package/quick_start.sh> -o quick_start.sh && bash quick_start.sh

安装成功后,控制台会打印面板访问信息,可通过浏览器访问 1Panel:

http://目标服务器 IP 地址:目标端口/安全入口

  • 如果使用的是云服务器,请至安全组开放目标端口。
  • ssh 登录 1Panel 服务器后,执行 1pctl user-info 命令可获取安全入口(entrance)

从浏览器里访问1Panel之后就可以在应用商店里一键部署WordPress了,容器跑起来之后记得在网站里添加自己的域名,绑定证书并开启反向代理以便通过域名直接访问你的博客。

2.Docker部署(以CentOS为例)(不推荐,因为麻烦)

实际上用1Panel部署WordPress也是在用Docker部署,只是1Panel可以很方便的帮你管理各种镜像和网站。

更新系统软件包:sudo yum update -y

安装依赖:sudo yum install -y yum-utils

添加官方仓库:

sudo yum-config-manager --add-repo <https://download.docker.com/linux/centos/docker-ce.repo>

安装Docker:

sudo yum install -y docker-ce docker-ce-cli [containerd.io](<http://containerd.io/>)

启动并启用 Docker 服务:

sudo systemctl start docker
sudo systemctl enable docker

验证Docker安装:docker --version

Docker拉取WordPress镜像:docker pull wordpress

启动WordPress容器:

docker run --name some-wordpress --network some-network -d wordpress

以下环境变量也可用于配置您的 WordPress 实例(通过自定义 wp-config.php实现⁠):

  • e WORDPRESS_DB_HOST=...
  • e WORDPRESS_DB_USER=...
  • e WORDPRESS_DB_PASSWORD=...
  • e WORDPRESS_DB_NAME=...
  • e WORDPRESS_TABLE_PREFIX=...
  • e WORDPRESS_AUTH_KEY=..., e WORDPRESS_SECURE_AUTH_KEY=... , e WORDPRESS_LOGGED_IN_KEY=... , e WORDPRESS_NONCE_KEY=..., e WORDPRESS_AUTH_SALT=..., e WORDPRESS_SECURE_AUTH_SALT=... , e WORDPRESS_LOGGED_IN_SALT=... , e WORDPRESS_NONCE_SALT=...(默认为唯一的随机 SHA1 值,但仅在提供其他环境变量配置时)
  • e WORDPRESS_DEBUG=1(默认禁用,非空值将启用 WP_DEBUGwp-config.php中)
  • e WORDPRESS_CONFIG_EXTRA=...(默认为空,该值将由 eval()函数在 wp-config.php中进行评估。此变量特别适用于应用此镜像默认未提供的额外配置值,例如 WP_ALLOW_MULTISITE;更多详情请参见docker-library/wordpress#142⁠

WORDPRESS_DB_NAME 需要在给定的 MySQL 服务器上已经存在;它不会由 wordpress 容器创建。

如果您希望能够在主机上访问实例而无需使用容器的 IP 地址,可以使用标准端口映射:

$ docker run --name some-wordpress -p 8080:80 -d wordpress

然后,通过浏览器访问 http://localhost:8080http://host-ip:8080

(二)、Halo(博主目前正在用的)

这部分我懒得写了,俺寻思直接把官方文档链接贴到下面然后读者自己去看肯定比我自己花20分钟照虎画猫憋出一段远不如官方详细完整的博客片段对于读者来说要有价值得多。

1Panel部署(推荐,因为Halo和1Panel均属飞致云团队出品)

部署方法同WordPress,在应用商店中部署后在网站中绑定域名并设置反代即可

详细部署文档(官方)

Docker部署

详细部署文档(官方)

(三)、Typecho(轻量级,适合低性能VPS)

这篇博客已经介绍的非常完整了,参照这位博主的部署过程即可,不过他用的是宝塔,大致流程可以直接迁移平替到1Panel。

才不是我懒得写

二、Vercel(适合白嫖党)

那有人就要问了:我现在没有VPS也不打算买/我懒得维护服务器/我希望直接将Notion数据库里的文章作为博文发表……

那恭喜你,你适合用Vercel!

Vercel 是一个提供静态网站和无服务器功能的平台,主打免费便捷、快速部署的优势。它特别适合不想花费太多精力管理服务器的用户,互联网上也有一大批开源项目支持非常方便的直接用Vercel部署你的个人博客,只需要点点点和填点关键信息。 对于预算有限的个人用户来说,Vercel 几乎可以说是“白嫖”搭建个人博客的理想选择。

(一)、NotionNext

1.项目介绍

NotionNext是一个使用NextJS + Notion API 实现的,部署在 Vercel 上的静态博客系统。为Notion和所有创作者设计。

项目开源地址

项目文档地址

NotionNext的愿景是帮助非技术人员的小白,最低成本、最快速地搭建自己的网站,帮助您将自己的产品与故事高效地传达给世界。 NotionNext可以将Notion笔记实时渲染成静态博客站点,无需购买服务器,只要一个笔记即可搭建完全属于您自己的独立网站,让您与全世界建立连接!

这个框架都有哪些特点?

  • 依托于Notion笔记:借助NotionNext建站,所有文章的编写发布都只在Notion笔记中完成,Notion本身作为次世代笔记软件的强大毋庸置疑。
  • 安装简单方便:安装一路点点点即可,需要修改的地方少,不需要独立VPS
  • 多主题快捷切换:多达数十款主题风格任您挑选,其中有适合做技术文档的Gitbook主题,也有适合做导航站点的Nav主题,还有适合做产品落地页官网的Landing主题与Starter主题,以及适合做相册的Plog主题

2.部署过程

部署站点实际上只需要三步,分别是:

  • 复制作者的Notion模板
  • 复制作者的 Github 库代码
  • 在Vercel中一键部署

(1)创建Notion页面

首先,你需要注册并登录Notion账号(邮箱注册和直接用谷歌账号注册均可),然后打开这个链接,进入到作者的Notion模板页面,在右上角点击Duplicate复制模板,如图所示。点击后会将这个博客数据模板复制到你的笔记空间中。

image.png

(2)获取页面ID(此部分直接援引项目文档)

  • 在Notion笔记中:在页面右上角的菜单栏中,依次点击SharePublishedShare To Web,开启页面分享,获取共享链接
    • 如下图所示,点击右上角 **Share ,**在弹出窗口中点击 PublishShare to web (点击展开截图)

image.png

  • 复制页面ID:页面ID在您的共享链接中、域名中间的一串32位字母与数字

image.png

👇以下我的共享链接,其中标红加粗下划线部分才是页面ID!要忽略?v=后面的英文数字。 https://www.notion.so/tanghh/02ab3b8678004aa69e9e415905ef32a5?v=b7eb215720224ca5827bfaa5ef82cf2d 👇我的页面ID 是 02ab3b8678004aa69e9e415905ef32a5

⚠️新版的notion中,页面ID的格式可能会有一点不同,例如会把页面的标题也带上: https://www.notion.so/tanghh/Today-261c36d269a74acd97682af86d7bc9a0?pvs=4 但不变的是,页面url中的那串连续32为的字符串就是id。

(3)Fork 对应项目的GitHub库

请先注册并登陆Github账号,然后点击此链接,可一键**Fork(复刻)**项目。

image.png

(4)使用Vercel进行部署

首先,你需要注册一个Vercel账号,然后点击此链接来创建导入一个新项目。

image.png

在代码仓库列表中选择导入NotionNext不要急着直接点Deploy,要先把环境变量填好

点击Environment Variables(环境变量),并添加一个属性名称为**NOTION_PAGE_ID值为步骤一获取的页面ID**。

例如,我的页面ID是:02ab3b8678004aa69e9e415905ef32a5,则配置如下:

image.png

填写后要点击右边的 Add按钮确认添加

然后点击 Deploy按钮,静候两分钟等待部署。

image.png

(5)完成!

在部署完成页面,点击 Go to Dashboard访问控制台

image.png

在控制台右上角的 Visit按钮访问您的站点。或在DOMAINS中获取您的网站地址

image.png

博客后期的美化还请参见本部分开头的项目文档

(二)、Mix Space

MixSpace采用前后端分离模式,后端部署在VPS上,前端采用Vercel进行渲染,因为安装比较麻烦所以我懒得写了。

文档链接

虽然但是,Mix Space的博客主题真的很好看

三、静态博客

静态博客里,最常见的选择采用Hexo框架,然后部署到Github Pages了。

当然,你也可以采用Hexo框架然后部署到Vercel

但静态博客一般都需要你将git库克隆到本地,在本地完成博文编写之后push到远程库中,我觉得这种方式不太优雅,因此懒得详细去介绍部署过程了。

Hexo文档

为什么我过去、现在乃至未来都看空零一万物

如果说OpenAI的O1开业内大模型推动System 2思考之浪潮,深度求索的deepseek以其极强的工程化能力一手力推了业内大模型迅速白菜价化,阿里通义千问自身开源闭源两路一同高歌猛进,更是在qwen2.0和qwen2.5发布后均力压meta的llama系列成为世界上最好的开源模型,那零一万物则一直扮演着一个疯狂追逐热点的“小丑”形象:李开复领导下的零一万物初代Yi模型被质疑换皮llama(后来的辩解非常抽象);模型在各种榜单上刷爆所谓SOTA但实际效果一般;2023年年中成立后到现在产品路线模糊,定位不清晰,原本all in C端在被市场暴打后仓促转向B端;再到黄文灏等核心人才出走加入豆包……

我直说吧,从一位金融壬的角度,零一万物并不能被视为一件值得投资的标的物。

在分析零一万物之前,我们需要先探讨一个议题——当前国内,乃至全世界除了OpenAI之外的大模型独角兽共同面临的问题都有哪些?

一、独角兽们的集体困境

我觉得最明显的问题就是:烧钱,并且是遥遥无期的烧钱。

从OpenAI正式推出ChatGPT之后,全世界的投资市场都彻底的被AI浪潮引爆,并且维持了一段时间的极度繁荣((从2022年12月到2023年6月),在这一时期整个VC/PE圈近乎彻底疯狂,每一位投资人和创业者都在念叨“大模型”、“新时代”、“第X次科技革命”等热词,认真的(相当大一部分人是假装自己能读懂)看各类前沿大模型研究论文,转发各种研报和AI早报……

在这一阶段,投资市场的ai板块极度繁荣,市场上崛起了一大批大模型独角兽(基本都以中美为主,日韩欧俄似乎只出了Mistral一根法国独苗,还被微软给吞了),各种融资一轮一轮的给,每一位独角兽的创始人都意气风发,势要将全人类直接送到后ai时代。

当然,后面的事我们都知道了。

一大群独角兽和AI labs正在以非常离谱的估值在市场上狂揽资金,但彼此间做的事情却几乎完全一样:拿OpenAI的模型训练自家的模型-给科技媒体发通稿一顿吹-安抚投资人投钱然后继续砸钱(每次训练百万千万不等)标定OpenAI训练自己的新模型……随着模型能力提升速度的边际递减,过去大家坚信的“Scaling Law”技术曲线已经明显放缓。OpenAI的GPT-5发布一再推迟,行业龙头在内斗中也颓势逐显,长期拿不出真正颠覆性的新活。

我们当然不能否认闭源模型和开源模型和研发对于科研教育市场和科技爱好者的重要性,但大模型的研发训练成本极为高昂,多次训练的压力对于弹药库非常珍贵的独角兽公司来说是难以承受的,而且即使大家愿意投入巨资,一旦市面上的头部企业发布了新的开源模型,原本的投入可能会变得毫无意义(例如meta的llama,阿里的qwen,发布之后很多公司自己炼的模型可以直接作废了,因为拿人家的开源模型效果还会更好)。

在研发端大模型研发(成本)是一个资金黑洞,那消费端(营收)呢?

很遗憾,这块更拉跨,至少对于独角兽来讲是拉跨的。

大模型在产业端究竟该如何应用?

我觉得可以分为两个层面。第一,大模型本身就构成了产业的核心商业模式和关键要素,以C端为主,抛开最原始的Chatbot不谈,软件层面包括最近风头比较旺的虚拟陪玩,社交领域的角色扮演,游戏行业的NPC,这一类场景是AIGC的上下游,有自己独特的工作流且一部分已经经历了PMF验证,但涉及到用户群体、内容创作的持续性以及虚拟人物的生命周期限制,当前的市场总量仍然非常非常非常的有限,可能做到底一年也只有数亿的流水。除了这种细分场景外还有硬件上的革新,例如AI PC和还有Apple和荣耀力推的AI手机,乃至于字节的豆包耳机ai pin等,都有一定的应用场景(但仍然非常有限)。这一大类软硬件模式可以称为大模型对于商业模式的大升级,或多或少可以把模型集中到新的商业模式中作为关键变量。

第二类,是庞大的B端企业级市场,这类未必是对商业模式做了根本性重塑,而是在降本增效场景作用比较突出,比如最典型的客服场景、知识库的问答等等,这些场景在企业内部对提效来说有非常多的帮助。比较好的案例是阿里巴巴旗下的很多产品都使用了通义千问的模型能力,百度的comate阿里的通义灵码在b端也采购的比较多。

一个比较有趣的视角就是,第一类应用是“先有模型,再找场景”;第二类应用则是“现有场景,再找模型”

目前,市面上主流的大模型独角兽都还简单的停留在第一类应用上面,模式以简单的Chatbot为主,兼买点大模型api来自己骗自己真的会有开发者和公司来采购。

什么?你说为什么他们不去做B端?

非不为也,实不能也。

更细的我懒得解释了,B端是什么阿猫阿狗刚创业几个月的公司就能碰的吗,BATH下一轮给你的融资不想要了是伐?

这就是AIGC落地的普遍问题——创始人该如何找到PMF?如何找到一个合适场景,可以解决实际的问题,可以落地,而不是仍然沉浸在自己的叙事中造概念追热点。

一个成功的大模型公司需要回答以下几个关键问题:

  1. 市场需求是什么? 是否有真正的痛点,大模型能够比现有解决方案更好地满足这些需求?
  2. 产品价值如何体现? 用户为什么会愿意为你的产品买单?这种价值是否是持久的,还是仅仅停留在新鲜感的层面?
  3. 商业模式是否可持续? 企业能够通过什么方式建立起长期的盈利能力?这种模式能否复制和扩展?

很可惜,独角兽们并没有一个真正合理的叙事框架来回答这些问题。

最后我中译中总结一下,对于当前大部分大模型独角兽企业,他们共同面临的困境是:需要的钱永无止境,但现在能挣到的钱屈指可数,未来预期更是迷雾重重。

今天很困难, 明天更困难,后天不知道

在缺钱并且挣不到钱这个核心问题之外,还有一个比较重要的方面是除了OpenAI之外的其他ai企业目前都只能追赶OpenAI的步伐,难以先于OpenAI做出新的比较彻底的创新,但这块我并不专业,讲了一定会露拙,所以不讲。

二、乏善可陈的模型更新

哦,当然,我们的李开复院长认为刚发布的Yi-Lightning是正式辟谣零一万物放弃预训练的有力证明。

但他发的那一段话真的可以说服他自己吗?

据介绍,在国际权威盲测榜单 LMSYS 上,Yi-Lightning 超越GPT-4o-2024-05-13、Claude 3.5 Sonnet,排名世界第六,中国第一。

经典刷分王,实测能力味如鸡肋,更何况LMSYS本身公信力就已经弗如去年远甚。

目前,Yi-Lightning已在Yi大模型开放平台上线,价格是0.99元/100万Tokens。在和媒体交流时,李开复多次提到这是“白菜价”,但表示“零一万物还是有利润空间的,不参与价格战”。

无非是deepseek、阿里、字节等友商早在今年年终就把大模型成本大幅压缩的技术路径给提前铺好了,直接拿过来很方便就能用;今年五月信誓旦旦不参与价格战的通稿还在网上挂着呢,自己模型做的没特色没客户买账回旋镖终于打到自己身上了。

他不是知错了,他只是知道他要死了.jpg

392c914c25d4150daf6ff2f8d1d5e842.png

李开复驳斥了关于中国无法进行大模型预训练的说法,表示零一万物不仅不会放弃预训练,而且在速度和质量上都达到了领先水平。这次超越GPT-4o,也表明中国与美国最先进的OpenAI模型之间的差距已缩小到仅5个月。

懒得喷,有本事你跟深度求索月之暗面阿里一样为天下先,做出一点真正的前瞻性的工程探索。

Yi-Lightning模型在现在的市场地位如同鸡肋,价格相近的有深度求索阿里豆包智谱,这四家久经市场验证客户才懒得迁移到你李博士这里(况且最考验团队模型雕花能力的工程细节零一万物也做的并不好),海外有OpenAI的4o mini和虎视眈眈的Claude 3.5 haiku(尚未发布),零一拿头去和其他友商竞争。新模型的唯一用处就是拿出来自己骗自己发一波通稿辟一波谣了,不会真的有成熟开发者和团队会放弃之前已经习惯的成熟模型转而选择零一的。

三、总结

零一万物从创立之初就定位不清职责不明,既没有那种深度求索和月之暗面潜心打磨产品和基座模型的技术理想,也没有阿里字节这种恐怖的渠道优势和产业整合能力,刷榜和白菜价打价格战在骗自己和投资人之外没有任何实际用处。市场上早已不缺一家新的AI lab,具有稀缺性的是能深刻理解行业痛点并提供切实可行解决方案的企业,而零一万物显然还没有找清楚自己的定位。

在他找清楚之前(我质疑它是否有这个能力),我只能对零一万物未来的发展持谨慎态度,并倾向于看空其长期表现。

从2024到2025:我的社科学习书单

阅读进度以本页面为准

阅读进度以本页面为准

阅读进度以本页面为准

阅读进度以本页面为准

阅读进度以本页面为准

pixeleyes

我很喜欢王小波的一句话:“任何貌似理所当然的神话,往往都是不可信的,越是无懈可击,往往越值得怀疑。当一个商业故事以无比圆滑和生动的姿态出现在你面前的时候,你首先必须怀疑,而所有的怀疑,最终都会被证明是正确的,或者至少是值得的。”

社交媒体、广告和新闻常常将某种叙事包装得过于完美,以至于让我们失去了基本的怀疑心。无论是某种商业产品,还是一个政治论述,甚至是一种流行的社会观念,许多被广泛接受得理论或观点经过长时间的传播和重复引用,很可能会被赋予一种“神话化”的特质,当它们显得无懈可击时,往往就隐藏着某种不易察觉的盲点或利益关系,新自由主义如此,后凯恩斯亦如此。

在我的社科书单中,我希望探索的正是这些潜藏在表象背后的复杂性。哲学、经济学和社会学的交叉阅读,能够帮助我更好地理解当今社会的“神话”是如何形成的,又如何通过批判性思考去解构它们。我始终相信这个世界可以同时存在多种并行不悖的体系,我们作为社科的学者要尽量的去解释,而非看到就直接去否定——君子美美与共,政治的最终目的应当是扩大共同体而非相互攻讦。通过专题式的阅读,我期望能够培养一种既能审视当前叙事,又能构建出自己对世界独立见解的能力

专题——权力、潜意识与自我:福柯、弗洛伊德与荣格

本专题侧重于人类近现代哲学与心理学的研究,主要包含三位心理学和哲学大家:福柯、弗洛伊德与荣格。

米歇尔·福柯(Michel Foucault)的哲学思考深受历史和社会结构的影响,他最为人称道的就是对权力机制的揭露和批判。福柯认为权力无处不在,它不仅存在于政府和法律中,还渗透在我们的生活、知识生产、以及自我认知中。权力通过话语构建了我们对正常与异常的看法,进而塑造了个体的行为与思想。

  • [X] 疯癫与文明:理性时代的疯癫史
  • [ ] 词与物:人文科学的考古学
  • [ ] 规训与惩罚
  • [ ] 知识考古学
  • [ ] 性经验史 第一卷: 认知的意志 (Histoire de la sexualité, I : La volonté de savoir)
  • [ ] 性经验史 第二卷: 快感的享用 (Histoire de la sexualité, II : L'usage des plaisirs)
  • [ ] 性经验史 第三卷: 关注自我 (Histoire de la sexualité, III : Le souci de soi)
  • [ ] 性经验史 第四卷:肉欲的忏悔
  • [ ] 临床医学的诞生

西格蒙德·弗洛伊德(Sigmund Freud)提出的潜意识理论则打开了理解人类心理活动的全新窗口。他的观点揭示了意识之外的巨大心理力量如何控制我们的欲望、恐惧和行为。弗洛伊德相信许多看似无意识的行为背后,都隐藏着深层的心理动机,这些动机源自个体无法控制的潜意识冲动。

  • [X] 性学三论
  • [ ] 癔症研究/歇斯底里研究
  • [ ] 梦的解析
  • [ ] 精神分析引论
  • [ ] 释梦
  • [ ] 自我和本我、集体心理学和自我的分析、超越唯乐原则

卡尔·荣格(Carl Jung)则在弗洛伊德的基础上,发展出了自己的分析心理学体系。他提出了“集体无意识”的概念,认为人类心理中存在一种超越个体经验的共性,这种共性通过“原型”展现出来。荣格关注个体自我与集体无意识的关系,探讨个体如何通过自我认知和心理发展,实现人格的完整。

因为荣格全部的学术作品都包含在了《荣格全集》,比较卷帙浩繁,所以我会选择其中我比较感兴趣的去阅读

  • [ ] 精神病学研究
  • [ ] 实验研究
  • [ ] 心理类型
  • [ ] 精神疾病的心因学
  • [ ] 弗洛伊德与精神分析
  • [ ] 原型与集体无意识
  • [ ] 心理治疗的实践

专题——现代资本主义:消费社会与意识形态的批判

现代资本主义的扩展和深化,不仅仅体现在经济结构的变化上,还深刻影响了我们的文化、政治和思想。两本经典著作——赫伯特·马尔库塞(Herbert Marcuse)的《单向度的人》(One-Dimensional Man)和居伊·德波(Guy Debord)的《景观社会》(The Society of the Spectacle)——为我们提供了批判现代资本主义的两种重要视角。它们揭示了当代社会中资本主义如何通过意识形态和视觉文化来控制和塑造个体的思想与行为。

《单向度的人》是一部对技术理性统治下的资本主义社会的深刻批判。马尔库塞认为当代社会中,科技进步不仅没有解放人类,反而成为了压制反叛与批判性思维的工具。资本主义通过消费主义和同质化的文化,将人们变成了“单向度”的人,丧失了多元化的批判能力与精神自由。现代人越来越倾向于接受现状,并习惯于通过物质消费寻找自我满足,而非质疑和挑战资本主义体系。

与此呼应,居伊·德波在《景观社会》中揭示了资本主义如何通过“景观”这一概念操控社会。德波则认为当代社会已经进入了“景观化”阶段,即图像和符号主导了现实,社会生活逐渐被商品化的景观所替代。资本主义不仅控制了经济生产,还塑造了我们对现实的感知,媒体和广告让我们生活在一个虚假的影像世界中,人的主体性被景观所侵占,成为被动的消费者。

本专题将通过对这两本书的探讨,深入理解现代资本主义对社会、文化以及个体意识的影响。笔者希望通过这些经典作品的阅读与反思,帮助读者揭示当今资本主义制度背后隐藏的意识形态机制,并激发对现状的批判性思考与重新审视。

  • [X] 单向度的人:发达工业社会意识形态研究
  • [X] 景观社会
  • [X] 景观意识形态与隐形奴役:居伊·德波《景观社会》解读与批判

专题——法的逻辑与历史:从刑法到宪法的全景透视

法律不仅是社会秩序的基础,更是人类文明发展的重要支柱。它通过规范人与人之间的关系、维护社会正义和保障公民权利,深刻影响着社会的方方面面。本专题将从五个核心领域——刑法、民法、法理学、宪法和法制史——展开,理解法律在社会生活中的角色以及其背后的思想脉络。

刑法是规范行为与社会秩序的法律领域,它定义了什么行为是犯罪,并为违反这些行为的人制定了相应的处罚措施。在刑法的学习中,我们将探讨刑事责任的原则、犯罪的构成要件以及刑罚的合理性与公正性等议题。

民法则是保障个人权利和调整社会经济关系的法律体系。通过阅读和分析民法经典案例和理论,我们将探讨契约、财产权、侵权责任等制度的内在逻辑,以及它们如何在现代社会中平衡个人利益与社会公共利益。

法理学作为法学的理论基础,关注法律的本质、目的以及法律体系背后的哲学思考。通过研究不同的法理学流派与思想,我们将深入探讨法律与道德的关系、正义的标准、法律的解释方法等基本问题。

宪法是国家的根本大法,规定了国家的基本结构、政府的权力来源以及公民的基本权利与自由。在宪法部分,我们将重点分析宪法如何保障公民权利、约束政府权力,并讨论现代宪政制度的发展和挑战。

法制史则为我们提供了一个全景视角,展示了法律如何随着社会、经济和文化的变化而发展。从古代法制到现代法律制度的演变,法制史帮助我们理解当前法律制度的形成过程及其背后的历史逻辑。

  • [ ] 刑法
  • [ ] 民法
  • [ ] 宪法
  • [ ] 法理学
  • [ ] 法制史
  • [ ] 刑法学讲义

专题——金融欺诈与公司财务透明度:上市公司财务舞弊与黑洞研究

这个专题我觉得没啥好说的,会计/金融学学生老本行了。

  • [ ] 上市公司财务舞弊审计研究与案例解析
  • [ ] 上市公司财务黑洞研究理论及案例

其他

除此之外,我还可能会涉及到部分传媒学、宗教学和语言学的探究,传媒学可以帮助我理解当今社会信息传播的方式及其对公众意识的影响,特别是在资本主义、权力和社会控制等主题上的延展。语言学则可以进一步剖析语言在文化传播、社会规范和个体认知中的关键作用。由于相关内容尚未完全确定,未来我会在相关专题中深入探讨这些问题,因此本文暂不展开论述。

从《学园孤岛》看解离型身份障碍

前言

这两天把学园孤岛动漫刷完了,主角由纪的状况就非常有趣:老师佐仓慈 “慈姐”在丧尸压力下选择牺牲自己拯救学生们,但由纪并不能接受这一残酷事实,在精神退行后产生了一个救济人格(幻想中的慈姐)。

同时,在她眼中整个学院仍然是鸟语花香一切如常,她每天都会去那已经残破不堪的教室里上课,还幻想了一大堆同学,她的时间从此停留在了灾变前一天。(所以第一集结尾由纪幻想中的学院切换到恐怖破败的现实世界之后着实给我来了个大的,直呼这番有趣)

image.png

我们抛开这番欢乐幻想与绝望现实绝妙的反差恐怖感不谈,如何从心理学的视角解释由纪的行为?

心理学解释

首先,最明显的就是精神退行下的解离性身份障碍(Dissociative Identity Disorder, DID)

解离性身份障碍是一种严重的心理疾病,主要特征为存在两个或更多独立的人格状态,每个都有各自的记忆、行为和情感。这些不同的人格状态会轮流控制个体的行为,致使个体在不同时间和情境下表现出截然不同的行为模式。通常,该疾病与童年时期的严重创伤有关,如虐待、忽视或其他极端压力形式。

在学术界, 对于 DID的研究始于个案研究, Mitchill 在 1816 记录了美国宾夕法尼亚州一个名为玛丽·雷诺的病例, 被视为最早记载的 DID 案例。法国医生 Pierre Janet 通过对癔症的临床观察, 提出了 “分离”(dissociation) 的概念, 并于 1889 年出版专著《自动心理学》。在对 DID 形成机制的解释中,心理动力学派的观点影响深远。

研究者普遍认为, DID 是一种防御的症状群, 创伤、冲突和缺陷均在 DID 的形成中起作用, 其中创伤起了决定性作用。患者使用分裂(splitting) 和分离的防御方式来保留“好的自身”和“好的客体”, 分离了不相容的心理内容。分离的同时, 也意味着除去感觉或认识的某些方面, 或者说它意味着意识状态的改变, 患者以此除去意识中某种事件或情境

由纪接受不了惨烈的现实与老师的离去,由此她身体自动触发逃避机制,现实和幻想发生了错位——此之谓解离

在剧情中,由纪的解离就表现为她自己想像出了一个“慈姐”去教她学习,会阻止忘记社团活动的由纪“回家”,会在学校图书馆捂住由纪的嘴不让她发出声音,在由纪脱离退行状态前的最后一刻还领着由纪去了广播室化解了危机。

由此,幻想中的慈姐可以被视为由纪的一个内部支持系统,类似于心理学中的“救济人格”(auxiliary ego state)。这个幻想中的慈姐不仅是她内心深处对慈姐的怀念和依赖,更是她在极端环境中寻求安全感和稳定感的一种方式。每当由纪感到孤独、害怕或不知所措时,这个救济人格就会出现,给予她必要的支持和指导。

除了慈姐这个救济人格之外,由纪每天都会去那已经残破不堪的教室里上课,幻想自己还有一群同学陪伴,这就是一种更深层次的“解离”。

她无法接受现实的变化,通过现实与幻想的错位与时间感的扭曲,她选择停留在一个更安全、更熟悉的时间点,通过沉浸在理想化的记忆中来减轻当前的恐惧和无助感。非常非常非常有趣的是,剧情在进行到中期,直树美纪 “美君”加入社团并回忆当时驾车回校的情况时,由纪注意到车子的人数不对,这一事实打破了由纪小天使自己自洽的世界观,她意识到了“认知失调”,于是由纪选择离开当时的团体讨论并到其他屋子内,向“慈姐”寻求自己世界观的再自洽。

费斯廷格(Leon Festinger)的“认知失调“理论认为当个体持有两个或多个相互矛盾的认知(信念、态度、行为等)时,会产生心理上的不适感,即认知失调。为了减少这种不适感,个体会采取各种措施来恢复认知的一致性。斯沃茨(William Swann)提出了“自我验证理论”同样可以解释这个行为。该理论认为个体倾向于寻求和维护与自己自我概念一致的信息和反馈。即使这些信息是消极的,只要它们与个体的自我概念相符,也会被接受和寻求。

结论

《学园孤岛》最令我着迷之处在于温暖的解离想象和绝望的现实,可爱的jk少女和残暴的丧尸带来的极致反差感。在学园孤岛的真相尚未揭露之前,观众的异常感与不适感会随着由纪在校园中走班串楼的活动而不断累积,直至结尾之时全数爆发,酣畅淋漓十分痛快。

豪堪!

参见

[1]王铭,江光荣.分离性身份识别障碍的心理病理机制和临床评估[J].中国临床心理学杂志,2007,(04):426-429.

[2] 萌娘百科.学院孤岛

Weekly通讯-第九期:置信度、乐观主义与为什么集体很容易做出烂决策

信息置信度分级

在一个争夺注意力的开放市场上,相较于积极、建设性的思想,较为阴暗的情绪更能吸引眼球。面对外部信源,我们可以将每一条信息按照置信度从A到F进行分级:

A:完全确定。

B,小规模事件中,关键截图等被刻意淡化,但有网友目击大量间接证明;大规模事件中,有明确方向定性,但规模太大无法在统计学上精确定量。但说东南不会到西北,方向基本上正确。

C,向业内和临近行业的有关人士调查,有一定佐证,但是也有利益相关和当局者迷导致结果不是很准确。

D,零星的消息,提供者无利益相关和造假动机,结论符合逻辑,但缺乏证据

E,没必要发了,有点依据但不多,其他可能性太多很难命中,故而不需采信。

F,经过断章取义的谣言。

革命乐观主义与先做个垃圾出来

边防线上,肚子笑抽抽是常事。这个叫做革命乐观主义精神。请想象一幅宣传画:我是主角,浑身结结实实的肌肉,站在一滩烂泥里面,45 度仰望天空做憧憬状。 「他妈的」也是革命乐观主义精神。 《全金属外壳》里有个士官长,能够 10 分钟不换气地骂脏话,我觉得斯坦利·库布里克刻画得非常传神。美国也有乐观主义,或者可以叫民主灯塔乐观主义;非洲原始部落里也有乐观主义,可以叫酋长乐观主义。没有乐观主义可不行,人类就走不出东非大裂谷。你比方说,「兔子脚呱啦」今天被狮子拖走吃了,你要哭天抹泪的,保不定你也被狮子拖去吃了。环境艰苦,哭天抹泪是不顶用的,不如骂一声「他妈的」,该咋咋地。

道理就是这样,很多时候完全没必要硬给自己加戏扮苦情人设,虽说人生如戏但绝大多数人演的都不会有观众。环境艰苦,未来可期,面对困难时哭天抹泪是没用的,真不如骂一句「他妈的」和「我操」然后继续干活,努力让损失小一点,可争取的收益多一点。

别想着一次成功,别想着一稿通过,先做个垃圾出来。通过了也不会怎么样,成功了也有下一个人物,先做个垃圾出来。有垃圾就有变废为宝的机会。不制作垃圾,你就只有焦虑拖延的机会。

垃圾这个概念,也值得辩证,为什么你做的就是垃圾呢?

这个世界上很多拉胯的人都在信心满满地站在台上,领导团队、领导公司,对着世界指手画脚,对着别人好为人师,很多拉胯的人都不知道自己其实在拉胯,标准不一样罢了。什么是真正的垃圾,飘进海洋、填进陆地、污染空气的垃圾,物理垃圾难以处理,你写的垃圾已经很环保了。

你做的真的中是你眼里的垃圾,你不做这个垃圾出来,下一个人做的还不如你做的垃圾好看好用好有价值,那现在做垃圾的人,凭什么不是你呢?(超级绕口令)

反正大部分人都很垃圾。

处理舆论时切忌懒惰思维

互联网上经常会有这样的声音:反对建制派的会将建制派的思潮称之为“五毛”和“网评员”,建制派经常会将反建制派的思潮称之为“1450”和“网军”。我在这里当然不会否认各种主权政府和实体一定会出于自己的利益培养出自己的舆论力量,但给所有和自己价值观不同的人群思潮贴上一个“被刻意操纵”的标签实际上是一种懒惰和恐惧——因为不愿也不敢相信世界上真的存在和自己相悖的声音。

中国乃至这个世界实在是太大太复杂了,各个地区、群体的经济基础不同,自然而然的就会催生出各种相异乃至于冲突的上层建筑思潮,思潮冲突天然就存在且合理。一味的去否认这些思潮存在的合理性相当于自己把自己的双眼给蒙住,自己给自己创造一大批没有办法去解决的敌人。

我始终相信这个世界可以同时存在多种并行不悖的体系,我们作为社科的学者要尽量的去解释,而非看到就直接去否定。这个观点可以适用于一切左、右、粉、蓝等阵营。小人和而不同,君子美美与共,我们的最终目的应当是扩大共同体而非相互攻讦。

为什么集体很容易做出烂决策?

在写到这点的时候,我能想到的有两种可能:

1.善战者无赫赫之功,集体决策中的好结果被我们当成“应有之事”被忽视了,反而是集体做出的烂决策被当做经典案例给放大,暗合90年代之后的个人主义自由主义之风(例如乌合之众的大火)

2.任何一个集体,只要覆盖面越广,那么其成员的平均素质就会越贴近于全人类社会的平均素质,如果说这个集体的精英寡头能做出来的决策水平是80分,那么扩大到全集体的决策水平就可能会下降到60分;当集体作为决策单位的时候就更可能被煽动,和为了眼前的小利忽视了更为长远的利益……

我觉得其实这两种可能都有道理。人类社会现在的两个主要经济体基本都实质性的实行精英寡头决策制度,所谓的各自的,带有全民参与的决策体系更像是用来安抚民意的制度花瓶。人类社会每天需要处理的议题茫茫多,让集体每天浪费行政资源去充分理解并处理这些议题本身就不可能,民主集中制理论上便是为了解决这个问题而构建的。

言论

  • 许多艺术家对心理学都有些诟病,可能是将精神量化的学科让他们自由的灵魂深感抵触,科学界就相反,他们永远嫌心理学量化得不够彻底,可检验性不够高,哲学家的诟病可能就简单得多,单纯嫌它浅薄而已。
  • 为什么我们制定谋略的时候,总会想着一切都会按照我们想象的去发展,好像连天地都要为我们心中的计谋让路、乃至天地都要配合我们心中的计谋?
  • 使原本可能看不见的东西通过你被他人看见。 —— 法国著名导演 罗伯特・布列松 这也就是所有创作的意义,或者说是创作背后的逻辑。你提供自己独特的视角呈现给这个世界。
  • 任何貌似理所当然的神话,往往都是不可信的,越是无懈可击,往往越值得怀疑。当一个商业故事以无比圆滑和生动的姿态出现在你面前的时候,你首先必须怀疑,而所有的怀疑,最终都会被证明是正确的,或者至少是值得的。

上市公司财报分析思路

现代社会已经进入到资本市场高度发达的阶段,财务报表所提供的财务信息无疑是投资者在资本市场进行决策最重要的信息来源。人们倚重财务报表,尤其是社会公众投资者,由于受到种种条件限制,既没有时间、精力到上市公司调研,也缺乏其他信息来源,就更加依赖财务报表。

看各种上市公司的招股书和财报应该是各路经济学专业学生的基本功了,说到底,金融学仍然是一门需要和人打交道的学问,枯燥复杂的指标也仅仅是辅助决策的数学工具之一,真正发掘企业的价值/风险还是要靠分析师自己的慧眼与经验(乃至于各路酒桌上的小道消息)。

一、初步审查

  • 快速浏览财务报表(最基础的三表一注:资产负债表、利润表、现金流量表和附注)
  • 注意任何异常的数字和趋势,例如收入或支出的突然变化

二、比率指标分析

  • 计算关键财务比率,如流动比率、速动比率(酸性测试比率)、负债权益比率、毛利率、净利润率、资产回报率(ROA)、股东权益回报率(ROE)等。
  • 比较这些比率与行业平均水平或主要竞争对手的数据,以评估企业的相对健康状况。

(一) 盈利能力指标

  1. 毛利率 (Gross Margin):显示销售收入减去销售成本后的剩余比例。
    • 公式:(销售收入 - 销售成本) / 销售收入 * 100%
  2. 营业利润率 (Operating Margin):衡量企业在扣除经营费用后的盈利能力。
    • 公式:营业利润 / 销售收入 * 100%
  3. 净利润率 (Net Profit Margin):显示最终净利润占销售收入的比例。
    • 公式:净利润 / 销售收入 * 100%

(二)偿债能力指标

  1. 流动比率 (Current Ratio):表明企业短期债务偿还能力。
    • 公式:流动资产 / 流动负债
  2. 速动比率 (Quick Ratio):又称酸性测试比率,衡量企业在不依赖存货的情况下偿还短期债务的能力。
    • 公式:(流动资产 - 存货) / 流动负债
  3. 负债权益比率 (Debt-to-Equity Ratio):显示企业负债水平相对于股东权益的比例。
    • 公式:总负债 / 总股东权益

(三)营运效率指标

  1. 存货周转率 (Inventory Turnover):显示企业每年销售并替换其库存的次数。
    • 公式:年度销货成本 / 平均存货
  2. 应收账款周转天数 (Days Sales Outstanding, DSO):衡量企业从销售到收到款项所需的平均天数。
    • 公式:(期初应收账款 + 期末应收账款) / 2 * 365 / 销售收入

(四)投资回报指标

  1. 资产回报率 (Return on Assets, ROA):显示企业利用其总资产产生利润的效率。
    • 公式:净利润 / 平均总资产 * 100%
  2. 股东权益回报率 (Return on Equity, ROE):衡量公司使用股东资金创造利润的效率。
    • 公式:净利润 / 平均股东权益 * 100%

(五)现金流指标

  1. 自由现金流 (Free Cash Flow, FCF):企业经营活动产生的现金减去维持或扩张资产基础所需的资金。
    • 公式:经营现金流 - 资本支出

三、趋势分析

  • 查看过去几年的财务数据,识别收入、成本、盈利能力和现金流的趋势。
  • 分析这些趋势背后的原因,并考虑它们是否可持续。

四、比较分析与风险评估

  • 将企业的财务表现与同行业的其他公司进行对比,识别其在市场中的位置。
  • 考虑宏观经济环境和行业特定因素对业绩的影响。
  • 识别可能影响公司未来业绩的风险因素,包括法律诉讼、供应链中断、市场需求变化等。
  • 评估管理层为应对这些风险所采取的措施的有效性。

五、形成结论

前面五板斧下去,企业基本面咋样,财务表现怎么样各位分析师其实心里也多少有定论了。

到这块就就是根据之前的分析得出关于公司财务健康状况、盈利能力、成长潜力以及风险管理的综合结论。最后就是分析师提出建议,例如股票买卖建议或者改进财务管理的建议。

具体财务造假分析参见: 上市公司财务黑洞研究理论及案例 上市公司财务舞弊审计研究与案例解析

中国与世界的现代化专题(二):货币的本质与中国的税收体系

注:本文为系列专题——“中国与世界的现代化”的一部分

作为中国与世界的现代化专题的第二章,我希望就此开始为我和我的博客逐步构建起一套完整的,体系化的去分析中国乃至于世界现代化的理论框架——了解中国的现代化当然离不开了解政府,剖析政府的额行为动机也必然离不开最核心的财税制度。

因此,我必须要在开头承认,我分享的都是带有我自己立场与惯性的叙事和分析框架,不是什么科学真理、惊天秘辛,也不是借助所谓的冲塔或者别的什么立场来提高自己的论证可靠性。在现在的舆论上,批评公有制主体、唱空经济的可信度天然高人一等,为公有制辩护、解释政策的论证义务从头重上三分,这可不算什么“独立思考”。

所以还希望所有的读者仅仅只把我的文章当作参考,去形成自己的分析评价框架,反过来自己思考我的文章具体逻辑是否通顺、符合经济运行事物,让自己的脑子和嘴真正地思自己所思、言自己所言,以理性的形式主张自己的经济权益。

一、什么是货币

1.人类社会视角下的货币

我们先抛开宏大叙事中的金融战与国际贸易体系重构等议题,思考这样一个问题:

在人类社会中,钱,或者说货币,到底是什么?

要了解货币的用处,我们就需要先想象一下没有货币的世界会是什么样子——在远古时期,人们是如何交易商品和服务的?

没有货币的经济体通常采用物物交易,即用一种商品或服务换另一种商品或服务。在这个世界中,任意两个人之间的交换交易将涉及到需求的双重巧合,两个人各自想要对方可以提供的商品或服务。 例如,如果铁匠想要一双鞋,则该铁匠必须找到一双正确尺码的鞋子,并且愿意用这双鞋换对应的钉子/工具的人。

在几乎不存在分工的原始社会中,这样的交易制度尚且可以延续下去。但一旦人类进入到了农业社会,社会分工开始凸显,这样原始的物物交易制度便无以为继——因为这样交易的时间成本太高了。

由此,人们开始使用“金银”作为货币,作为一般等价物来开展交易。货币作为一种交易媒介,其价值是买卖双方均承认的,采用货币的经济体广泛的接受这种货币可以作为商品、劳动力和金融资本市场上的一种支付方式。借用货币工具,市场中希望交易的双方不必再耗费大量的时间和精力去筛选交易信息,只要有货币就可以任意的买卖。

马老爷子:金银天然不是货币,但货币天然是金银。 至于金银怎么变成货币的,这里我就懒得提了,这个又能新开一篇专题文章

除了交易媒介,货币还具有价值储存的职能。想象一下,原始人在社会中该如何储存“价值”?他可能会囤米、囤肉乃至于囤家畜和囤奴隶,但是米会坏,肉会烂,家畜可能会生病,奴隶可能会暴动会死,并且这些价值只能保存到“现在”,而无法影响“过去”和“未来”。

但货币就不一样了。货币作为一般等价物可以保存和积累价值,让人们可以跨时间和空间转移购买力。这意味着今天赚取的钱可以在未来用于消费或投资,货币的持有者知道他不需要立即花钱,因为它在第二天或第二年仍会保持其价值。 这种金钱功能并不要求金钱是完美的价值存储。 在通货膨胀的经济体中,金钱每年都会失去一些购买力,但它仍然是金钱。

正是因为货币被广泛的运用到了市场的交易中,因此还发挥着记账单位的作用。货币为不同商品之间的“价值”提供了一个共同的衡量标准,使得他们之间可以相互被比较,物体的价值可以被抽象为一个简单的数字,例如我们都知道之前冰红茶三块一瓶,便宜的小汽车一般几万一辆,那么汽车和冰红茶之间的价值就可以通过一个统一的,借由市场凝聚来的价值共识来进行权衡比较。

最后,货币的另一个功能是金钱必须作为延期付款的标准。 这意味着,如果今天有钱可以用来购物,那么今天进行将来付款的购买也必须是可以接受的。 贷款和未来协议以货币形式表示,延期付款的标准使我们能够在今天购买商品和服务,并在将来付款。

信用贴现机制让我们得以通过投资亦或者是消费部门的杠杆来将未来的收益(增长)转移到当期(当下),利用带有预期正面收益的资产作为抵押物,分享预期的未来收益,虚空制造当期的额货币供应量,最终在本期经济循环中消费了未来的收益。

2.政府视角下的货币

在上一节中,我们说明了货币在人类社会中是交换、价值存储、记账单位和延期付款标准的媒介,那么现在由政府主权信用担保发行的货币又扮演着什么样的角色呢?

兰小欢教授非常喜欢两部国产电视剧,分别是《大明王朝1566》和《走向共和》。这两部剧有个共同点:开场第一集中那些历史上赫赫有名的大人物们,出场都没有半点慷慨激昂或阴险狡诈的样子,反倒都在做世上最乏味的事——算账。大明朝的阁老们在算国库的亏空和来年的预算,李鸿章、慈禧和光绪则在为建海军和修颐和园的费用伤脑筋。然而算着算着,观众就看到了刀光剑影,原来所有的政见冲突和人事谋略,都隐在这一两一两银子的账目之中。

国家调节生产秩序和分配秩序需要货币,而税收则是回收货币的极其重要的环节之一。对于任意一个主权政府,货币的发行和管理都反应了政府的信用与能力,货币工具的使用代表政府对经济的控制力和政策导向,是政府维护经济秩序、实现社会经济发展目标的核心工具。货币之于政府仅仅是一个调节社会生产秩序和分配秩序的工具,政府使用货币工具来对全社会的资源进行宏观的分配与再分配,现代社会中法定货币只是政府主权信用担保下的一张纸,货币有用的唯一原因就是全人类对对应货币的价值有普遍信念和信任,或者说对对应法定货币的发行政府的主权信用有普遍信念和信任。

钱很重要,但钱实际上一点都不重要 钱可以近乎买到任何东西,但钱实际上也就是一张废纸

所以,要真正了解政府行为,就必须要了解财税;而只有了解了货币的本质,才能真正理解财税。

二、中国的税收体系

世界上只有两件事是不可避免的,那就是税收和死亡 ——本杰明·富兰克林

1.起步-改革开放:1978-1993

我懒得从几千年前开始回顾中国的税制了,既然本系列的标题就是中国与世界的现代化,那还是直接从和现在的经济运行强相关的78年改革开放开始讲起吧 :D

如果用一个词来概括20世纪80年代的中国经济的特点,那么非“承包”莫属。农村可以有家庭联产承包责任制搞土地承包,城市也有企业承包,那么按照这样的思路,政府也有财政承包——什么都可以被承包。我国的基本国策就决定了不能对所有权进行根本性的变革,只能对使用权和经营权进行承包制以提高积极性。财政承包就开始于1980年,在中央与地方之间的财政分配关系上,实行“分灶吃饭”,中央与省级财政之间对收入和支出进行包干,地方可以留下一部分增收。从 1980 年起,先后推出了“划分收支、分级包干”、“划分税种、核定收支、分级包干”以及“收入递增包干、总额分成、总额分成加增长分成、上解递增包干、定额包干、定额补助”等多种不同的体制模式。

既然是承包,当然要根据地方实际来确定承包形式和分账比例,所以财政包干形式五花八门,各地不同。比较流行的一种是“收入递增包干”。以1988年的北京为例,是以1987年的财政收入为基数,设定一个固定的年收入增长率4%,超过4%的增收部分都归北京,没超过的部分则和中央五五分成。假如北京1987年收入100亿元,1988年收入110亿元,增长10%,那超过了4%增长的6亿元都归北京,其余104亿元和中央五五分成。

学过初中历史的朋友们都知道,在家庭联产承包责任制下农民的生产积极性被极大的激发,相关的产出也有显著提高,财政领域的承包也是如此。财政承包制下,交足中央,剩下的都是地方自己的,因此地方有动力扩大税收来源,大力发展经济。这个阶段各种乡镇企业也如雨后春笋般涌出,和各地方政府大力支持脱不开关系。

在这个时期,地方政府想出了这样的野路子:虽然财政包干制度下留足中央,剩下都是自己的……但如果我把一部分税实际转化成各种费用,不就不用给中央分钱了吗?藏富于民,挺好嘛!

虽然地方预算内的税收收入要和中央分成,但预算外收入则可以独享,这也是为什么九十年代乃至千禧年初期各单位都非常流行预算外的“小金库”,这些小金库是可以不与上级乃至平级单位共享的,可以切切实实为“自己人”谋取利益。如果给地方企业减免税费,在再通过其他诸如行政收费、集资、摊派、赞助等手段收一些回来,就可以避免和中央分成,变成可以完全自由支配的预算外收入。

在这一阶段,我们会惊讶的发现明面上地方政府会非常积极的给地方企业违规减税,企业偷税漏税也非常普遍,税收收入上不去但预算外收入却迅猛增长。1982—1992年,地方预算外收入年均增长30%,远超过预算内收入年均19%的增速。1992年,地方预算外收入达到了预算内收入的86%,相当于“第二财政”。

这一时期是改革开放的起步时期,改革转型的特殊性和制度本身的不完善决定了很多承包制包括财政包干制注定不能持久。无论是放权还是让利,事实上都是以财政上的减收、增支为代价的。主要由财税担纲的以“放权让利”为主调的改革,却使财政收支运行自身陷入了不平衡的困难境地。

财政包干造成了“两个比重”不断降低:中央财政预算收入占全国财政预算总收入的比重越来越低,而全国财政预算总收入占GDP的比重也越来越低。前者由 1978 年的 31. 1% ,相继减少到 1980 年的 25. 5% ,1985 年的22. 2% ,1990 年的 15. 7% 和 1993 年的 12. 3% ;后者则先升后降,1978 年为 15. 5% ,1980 年为24. 5% ,1985 年为 38. 4% ,1990 年下降为 33. 8% ,1993 年进一步下降至 22. 0% 。不仅中央变得越来越穷,财政整体也越来越穷。

中央穷也代表弱干强枝,对于地方的掌控力和议价能力也会削弱

另一方面,财政支出并未随之下降,反而因“放权”、“让利”举措的实施而出现了急剧增加.从 1978 年至 1993 年,财政支出由 1122. 09 亿元一路增加至 4642. 20 亿元,15 年间增加了 3. 1 倍,年均增加 9. 93%。

任何一个体系都不能只进不出对伐,所以这个只能是权宜之计。“两个比重”的下降严重削弱了国家财政能力,不仅财政赤字逐年加大,债务规模日益膨胀,而且中央财政已经达到了难以担负宏观调控之责的空前水平,不利于推进改革。我们在前面就说过货币工具的使用代表政府对经济的控制力和政策导向,政府使用货币工具来对全社会的资源进行宏观的分配与再分配。改革开放后有大量的群体利益受损,这些都需要中央政府有足够的财力去补偿,否则改革就没办法推动,比如国企改革后的职工安置、裁军后的退伍军人转业等。像我国这样的超大规模的现代化国家,改革开放后地区差异进一步显著,如果没有中央财政大量去搞财政转移支付和各种补贴,那么东西的公共服务差异就会越来越大,乃至于中西部地方政府发不出工资,没办法维持政府职能。如果中央没钱,甚至要向地方借钱,那也就谈不上宏观调控的能力。

正如时任财政部部长的刘仲藜所言:当时的理论界对我讲,财政是国家行政能力、国家办事的能力,你没有财力普及义务教育、救灾等,那就是空话。

以中央财政债务依存度[债务收入/(中央财政本级支出 + 中央财政债务支出)]而论,到 1993年我国已经达到 59. 63% 的国际罕见水平。这意味着当年中央财政本级支出中的一半以上,要依赖于举债或借款收入来解决。

搞到这个程度,地方政府再不妥协的话大家不如直接散伙,也别搞什么搭伙吃饭了

2.分税制改革:1994-1998

一方面,改革开放后的财政包干制度确实激发了地方搞活精力的积极性,但另一方面来“两个比重”的降低也带来了严重的财政危机,“放权让利”的改革不可持续,我国正酝酿着全新的财税体制。

随着 1992 年 10 月中共十四大正式确立社会主义市场经济体制的改革目标,1993年 11 月召开的中共十四届三中全会通过了《关于建立社会主义市场经济体制若干问题的决定》。于是,以建立适应社会主义市场经济的财税体制为着眼点,从 1994 年起,财税体制改革踏上了制度创新之路(项怀诚,1994)。

简单来说,94年的分税制改革将税收分成三类:中央税(如关税)、地方税(如营业税)、共享税(如增值税)。其中最重要的税种就是增值税,占全国税收收入的1/4,改革前增值税(产品税)是最大的地方税,改革之后变成了共享税,中央拿走75%,留给地方25%。改革由此建立中央税收和地方税收体系,分设中央税务机构和地方税务机构,实行中央对地方税收返还和转移支付制度,初步建立了分税制财政管理体制基本框架。

此外,分税制改革还彻底取消向中央银行的透支或借款,财政上的赤字全部以举借国债方式弥补,从制度上斩断财政赤字与通货膨胀之间的必然联系。

分税制改革我现在理解的实质就是中央将财权进一步上收,也是90年代推行的根本性和最成功的改革之一。改革后中央占全国预算收入的比重从改革前的22%一跃变成55%,并长期稳定在这一水平;国家预算收入占GDP的比重也从改革前的11%逐渐增加到了20%以上。改革大大增强了中央政府的宏观调控能力,为之后应付一系列重大冲击(1997年亚洲金融危机、2008年全球金融危机和汶川地震等)奠定了基础,也保障了一系列重大改革(如国企改革和国防现代化建设)和国家重点建设项目的顺利实施。可以说,1994 年的财税体制改革,为我国初步搭建起了适应社会主义市场经济体制的财税体制及其运行机制的基本框架,也从根本上改变了地方政府发展经济的模式(为未来的房地产经济也埋下了因果)。1994 年分税制改革显著增强了中央政府的财力,但地方政府的事权与财权并未做出调整导致事权财权失衡,财政收支问题凸显。分税制改革后,解决这一问题的手段一共有两种,一是财政转移支付,二就是未来轰轰烈烈的房地产经济,这个未来有机会讲。

这么大财权的上收,期间中央政府和地方的博弈也是腥风血雨的。 “只要中央做了决策,地方不就只有照办的份儿吗?”有这种观念很正常,一方面,经过分税制改革后多年的发展,今天的中央政府确实要比20世纪80年代末和90年代初更加强势;另一方面,公众所接触的信息和看到的现象,大都已经是博弈后的结果,而缺少社会阅历的学生容易把博弈结果错当成博弈过程。其实即使在今天,中央重大政策出台的背后,也要经过很多轮的征求意见、协商、修改,否则很难落地。成功的政策背后是成功的协商和妥协,而不是机械的命令与执行,所以理解利益冲突,理解协调和解决机制,是理解政策的基础。

所以,之前群里的神友发过一张很傻逼的图:

image.png

为什么这张图很弱智呢?因为分税制改革之后地方财权上交,地方要是财政真能做到自给才见鬼了

image.png

image.png

只能说上面的那张图是非常典型的断章取义和糊弄外行人,我极其厌恶这种行为。

3.税费改革与构建公共财政体制框架:1998-2003

分税制改革固然基本解决了“两个比重”降低的难题,极大的提高了我国进行宏观调控和应对危机的能力,但94年分税制改革的仍然只是当时纳入预算视野的政府收支,游离于体制之外的政府收支小金库则并没有纳入改革的范畴。而且1994 年财税体制改革所着眼的,也主要是以税收制度为代表的财政收入一翼的制度变革。至于另一翼———财政支出的调整,虽有涉及,但并未作为重点同步进行。与此同时,既得利益的掣肘加之财政增收的动因,也在一定程度上束缚了改革的手脚,使得一些做法带有明显的过渡性或变通性色彩。

由此,上世纪90年代后期,以规范政府收支行为及其机制为主旨的“税费改革”以及财政支出管理制度的改革,先后进入财税体制改革的重心地带并由此将改革带上了财税体制整体框架的重新构造之路———构建公共财政体制框架。

1998年3月,当时的共和国朱总理在主持国务院工作之后举行的首次记者招待会上直言不讳:““目前存在的一个问题是费大于税。很多政府机关在国家规定以外征收各种费用,使老百姓不堪负担,民怨沸腾,对此必须整顿和改革。”以此为契机,中国开始了“税费改革”的大幕。

在全国性的税费改革正式启动之前,实际上各个地方政府也做过很多的有益探索,例如“费改税”,通过将五花八门的各种收费改为统一征税的办法来减轻企业和居民的负担(征收程序化标准化)。后来在实践中探索得出,地方政府收费的种种弊端并非出在收费本身,而是大量的项目既未经过人民代表大会的审议,又基本不纳入预算,而是由各部门、各地区自立规章,作为自收自支的财源,或归入预算外收入,或进入制度外收入,直接装入各部门、各地区的“小金库”。

因而,它实质是一种非规范性的政府收入来源。“费改税”的目的,显然不是要将本来意义的政府收费统统改为征税,而是以此为途径,将非规范性的政府收入纳入规范化轨道。于是,“费改税”开始跳出“对应调整”的套路而同包括税收在内的整个政府收入盘子的安排挂起钩来。也正是在这样的背景之下,“费改税”一词为“税费改革”所取代,进而被赋予了规范政府收入行为及其机制的特殊意义。

在“税费改革”日渐深入并逐步取得成效的同时,财政支出一翼的改革也在紧锣密鼓地进行中。先后进入改革视野的有:财政支出结构由专注于生产建设领域逐步扩展至整个公共服务领域的优化调整;推行以规范预算编制和分类方法、全面反映政府收支状况为主要着眼点的“部门预算制度”;实行由财政(国库)部门集中收纳包括预算内外收入在内的所有政府性收入,且由国库单一账户集中支付政府部门所有财政性支出的“国库集中收付制度”;推进将政府部门的各项直接支出逐步纳入向社会公开竞价购买轨道的“政府采购制度”。

所以,这一阶段的财税改革就是支出段和收入端同时标准规范,是更为深入的动刀子改革。

学术界乃至于决策层也发现,如此覆盖规模广大的改革,要涵盖所有财税体制改革事项的概念,似乎除了学术界所采用的“公共财政”之外别无他词可用。由此,在赋予公共财政中国特色意义的基础上,以 1998 年 12 月 15 日举行的全国财政工作会议为契机,决策层做出了一个具有划时代意义的重要决定:构建公共财政基本框架。

三、总结

必然要明确的是,社会科学常常渴望发现一套“放之四海而皆准”的方法和规律,但这种心态往往是幼稚的。不能低估经济的复杂性,也不要高估理论框架和科学工具的质量。经济学不存在什么八纮一宇四海皆准的学说,有的只有对症下药。

我始终坚信在这个世界可以同时存在多种并行不悖的理论体系与价值体系,这些上层建筑分别可以去解释各自对应的经济基础,我们每个人所看到的世界实际上都是真实的世界。朱门酒肉臭是真实的,路有冻死骨也是真实的;脱贫攻坚乡村复兴是真实的,贫富差距地方债务也是真实的;宏大叙事伟大复兴是真实的,小民尊严和时代之山也是真实的。

中国,乃至这个世界实际上远比我们想象的要庞大得多,你方唱罢我登场姹紫嫣红的现实世界暗面是深不可测的庞然阴影,至少我自认为还没有开始躺平,放弃对于世界更优解的追求,那么自然要去不断的去探求测度这个世界运行的方法工具。

下一篇系列专题文章预计为:城投与地方债:从分税制改革到房地产经济的逻辑解读

参见

[1]OpenStax. (2022)宏观经济学/14.货币与银行业. LibreTexts GLOBAL.

[2]兰小欢. (2021)置身事内:中国政府与经济发展. 上海人民出版社.

[3]高培勇.中国财税改革40年:基本轨迹、基本经验和基本规律[J].经济研究,2018,53(03):4-20.

[4]曾康华,徐薇.新一轮财税体制改革的历史起点、问题及设想——1994年以来我国财税体制改革回顾与展望[J].财政监督,2024,(16):5-12.

新一代大模型对话框架——OpenWebUI部署教程

前言

在之前的博客里,我曾对当时最为流行的两个 AI 对话网页项目 ——ChatGPT-Next-web 与 Lobechat 进行了总结。诚然,这两个项目在部署方面极为便捷(能够一键通过 Vercel 启动或借助 Docker 进行部署),无需担忧托管问题,且社区教程文档丰富详实。市面上还有诸如 Chatbox 这般成熟的闭源 AI 对话工具……但终究各有各的缺点:

Next-web 和 Lobechat 终究只是纯前端工具,Nextweb 简洁美观,却在自定义程度上有所欠缺,功能也相对简单;Lobechat 则显得过于臃肿,卡顿现象频发,并且官方近来在商业化进程方面较为激进,还删去了 WebRTC 的同步功能。Chatbox 虽强大,但也存在各种小问题,其同步方式也较为原始。

那么,有没有一款全平台支持,页面好看美观,自定义程度高,社区支持完善的AI对话开源项目呢?

答案是肯定的,它就是我们的——OpenWebUI

https://github.com/open-webui/open-webui/blob/main/demo.gif?raw=true

伟大,无需多言。

优点:

  • 全平台支持(web也是全平台,同步也方便)
  • 页面仿ChatGPT原版设计,好看简洁美观
  • 自定义程度高(自定义模型、Tool、Function)
  • 社区完善,支持各类插件提示词一键导入

缺点:

  • 最大的缺点就是部署在本地对于vps的性能和空间的要求相对较高,剩余内存>2G,硬盘空间>10G
  • 似乎不能编辑对话记录

部署教程

1.准备工作

  • 一台安装了Docker Compose的VPS
  • 推荐安装1Panel或者宝塔面板,方便编辑Docker Compose文件和设置反代

2.开始

  • 使用SSH连接到服务器
  • 创建一个文件夹,用于存放docker compose文件
mkdir openwebui
cd openwebui
# 创建docker-compose.yml文件
touch docker-compose.yml

实际上这些动作直接用1panel等面板也都是一样的,总之创建一个文件夹然后创建docker-compose.yml并编辑即可。

  • docker-compose.yml的文件内容如下:
services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:${WEBUI_DOCKER_TAG-main}
    container_name: open-webui
    volumes:
      - ./data:/app/backend/data
    ports:
      - 8080:8080
    environment:
      - 'WEBUI_SECRET_KEY=123456789'
      # openai 配置
      - 'OPENAI_API_BASE_URL=https://api.openai.com/v1'
      - 'OPENAI_API_KEY=sk-xxxx'
      # 启用openai画图
      - 'ENABLE_IMAGE_GENERATION=true'
      - 'IMAGE_GENERATION_ENGINE=openai'
      # 开启注册登录功能
      - 'WEBUI_AUTH=true'
      - 'ENABLE_SIGNUP=true'
      - 'DEFAULT_USER_ROLE=pending' # 由于我自己没有分享需求,所以注册用户直接选择pending,需要管理员手动激活
      # 模型白名单
      - 'ENABLE_MODEL_FILTER=true'
      - 'MODEL_FILTER_LIST=gpt-3.5-turbo;gpt-4o'
      - 'WEBUI_NAME=OiChat'
      # 默认模型
      - 'DEFAULT_MODELS=gpt-4o' 
    restart: unless-stopped
  • 文件修改完保存即可,然后启动服务 (确保在 docker-compose.yml 所在目录下执行):
docker-compose up -d

之后服务器会自动拉取镜像并启动docker服务,镜像比较大(2个g左右,小水管会比较痛苦),等服务启动后就可以访问了

3.反向代理

1p直接新建网站-反向代理-代理 http://127.0.0.1:8080,然后绑定一下域名证书开启SSL即可(不开也行),宝塔也差不多一个路子。

4.后续更新

# 进入之前创建的文件夹
cd openwebui

# 拉取最新镜像
docker-compose pull

# 重启
docker compose up -d

Weekly通讯-第八期:悬而未决之事、时间窗口与结婚户口的思考

一、消解悬而未决之事带来的焦虑感

我们经常会对一件悬而未决的事情感到焦虑,这实际上是再正常不过的生理本能,悬而未决意味着风险,意味着可能有不确定性带来的损失,我们的本能自然会驱使着大脑尝试寻找解决办法——如果自己的能力阅历找不到,则会直接导致潜在的焦虑烦躁。

但生活中往往不如意者十之八九,这个世界不可能专门按照某一个人划定的秩序去运转,计划刚有雏形的时候不可能指望决策者和参与者马上敲定,事情不可能有了开头就立马有结局。

我能想到的解决方案:

  • 做事之前就想想自己的损失底线在哪,风险和相对的利润空间是否匹配?多做一些预案,尽人事之后方能听天命。
  • 不理会自己介入不了的事情,最多只是等待一个结果(从源头减少需要考量的事情)
  • 提高自己的洞察力与预判能力(能够根据手上现有的信息和过去的经验,对未来做一个相对可控可信的预判,压缩未来决策和执行过程中的不确定性和与之相伴的风险成本)

如何提高自己的洞察力和预判能力又是一门深奥的学科了。终归需要博学而笃志,切问而近思,权力来源于信息,不断提高自己手上信息的深度和广度,然后多做一些预判的训练,及时修正自己的认知框架,洞察力自然会逐渐提高。

洞察力实际上代表着我们拟合世界的能力,洞察力越强,对于未来的拟合能力越强,一些判断也会越接近事情未来真实的走向。

二、时间窗口与周期性

Weekly通讯第六期里讲了一个奥弗顿窗口的概念,大意是一个政治议题是否能被大众接受存在一个时间的窗口期,可能你这个时候不推动的话未来很长一段时间就都不会有这样的机会了。不仅仅是政治议题,基本上所有的社会活动均有其窗口期。继续把视角拉长,历史和现在实际上表现为大周期叠加小周期,大窗口叠加小窗口。产业趋势叠加资本周期,使得任何产业都有其周期性规律,传统资源产业是如此,科技产业亦非例外。大周期实际上是一个存在连续性的整体。所以,在判断一个产业当前的发展周期,首先必然是要拉长时间维度,对其过去的产业周期做一个定调,再来根据现有表现做出最新的周期判断。

全中国乃至全世界有潜力的小孩太多了,都知道自己有天赋有潜力,但现在是下行周期,世界实际上没有那么多把潜力兑换成实力,把实力兑换成成就,把成就兑换成钱的空间。现在很多场景就是处在零和博弈的困境下面,这个是目前基本没有办法去解决的,我们作为芸芸众生的一份子除了直接开躺外没有办法跳出这个循环。

此外,就像我之前一直讲的,世界是一个巨大的混沌模型,开展宏观一点的演算还可以抓住几个关键变量去搞判断,而短期内变量就太多太复杂,一般人很难去拟合出一个真的符合未来走向的结果。

三、从结婚不需要户口本看未来社会的原子化趋势

8月13日有一条新闻,《婚姻登记条例(修订草案征求意见稿)》在民政部网站全文公布并公开向社会征求意见,结婚登记和离婚登记都不再需要户口簿。

这种变化与我国传统家庭结构的演变历程密切相关。我国传统社会的家庭结构最初是 “宗族式” 社会,皇权不下乡,基层社会治理依靠乡绅和宗族自治。后来工业化、城镇化浪潮冲破了传统的乡野文化,传统社会结构和社群纽带不断被削弱,随着工作方式的灵活化和流动性增加,人们不再局限于一个固定的社群或地点生活和工作,大量新市民组成了更小的家庭,也就是我们现在一般认知中的 “Family”(father and mother, I love you,天然的最小单位就是三个人,加上父母就是七人)。

在高速现代化和独生子女政策的加持下,随着人们生活水平的提高和医疗条件的改善,老人的寿命延长,此阶段的家庭结构主要表现为“1+2+4”的特征,即一个孩子,两位大人,四个老人,相信这也是绝大多数独生子女家庭最熟悉的结构。

那么,现在乃至于未来呢?结婚不需要户口本又代表一种什么样的趋势呢?

户口本起源于改革开放前的城乡户籍制度,在家庭设计中本质上是承认“上一辈一家之主的权力”。在传统的家庭结构中,户口本的所有者(父母)天然且正当的被赋予了决定子女未来户口迁移,乃至于同意是否结婚、和谁结婚的权力。尽管在现实操作中这一权力会被社会道德、亲朋关系乃至于子女本身所抑制,但终究是一种制度性的权力分配。这一分配模式伴随着千禧年后中国的进一步工业化城市化已经愈发显得不合时宜,将个体的命运过度与原生家庭的决策紧密捆绑,这本质上不符合现代化的发展方向。

从社会学理论框架审视,户口本及其背后代表的户籍制度,不仅仅是家庭结构和社会权力分配的体现,更是宏观社会结构与变迁的缩影。功能主义理论认为户籍制度如社会机器中的关键框架,维持社会秩序稳定,通过城乡价值输送来配置资源,在计划经济背景下有效控制人口规模,保障工农现代化的劳动力需求配置。但在改革开放资源由市场配置,那么城乡二元分化的户籍制度就形成了系统性的社会不平等。城市居民与农村居民在教育、医疗、就业机会等方面的显著差异,实质上是对社会资源的不公平分配。

从经济基础角度,城市化进程中的人口流动也导致跨地域的家庭分离,高房价高生活成本使得年轻一代难以负担大家庭的生活开支等因素使得子女同父母分开的经济社会因素已经成熟。而现在结婚不需要户口本,代表着中国从顶层制度设计上剥夺了户口本户主对于子女婚姻的决定权,这从制度方面推动了更小家庭结构的产生(从 “1+2+4” 过渡到 “1+2” 乃至于 “0+2”)。

经济基础与上层建筑共同作用,未来社会小家庭、无家庭化和个体原子化已成为大势所趋。对户口本和背后户籍制度权力结构的松绑反映的是中国现代化进程中经济与社会结构的转型,也是对个体主义的一种制度性回应。未来劳动力乃至性资源的配置如何设计,如何改革都需要进一步在实践中得到检验。

摘录

  • 男儿立志出乡关,学不成名死不还。埋骨何须桑梓地,人生无处不青山。 向教员致敬
  • 为什么长期项目胜过短期项目: (1)这个世界上,大多数人都在玩短期游戏。如果你玩长期游戏,你会因此获得优势。 (2)这是因为,如果你做其他人正在做的事情,回报应该跟其他人差不多,只能保证你获得平均结果,除非你很幸运。 (3)要想获得高于其他人的回报,你要么做不同的事情,要么以不同的方式做事。 (4)选择很少人玩的长期游戏,你更容易获得高于其他人的回报。这不是因为它更简单,事实上它更困难,但是你每天都投入去做困难的事情,会使得明天变得更容易。 (5)长期游戏最困难的地方是第一步。你必须愿意承受当前的痛苦,才能让明天变得更容易一点。 (6)在长期游戏中,你每天只能创造出一点微小的优势,它不明显但不意味着不存在。 (7)你不能在所有事情上都进行长期游戏。你需要选择对你来说重要的事情,做一个长期规划,然后长期投入。
  • 王传福多年前关于造车的一句话给了我很大的勇气。 他说很多企业因为不了解,会把技术想象到令人畏惧的高度,这种畏惧正是对手给后来者营造了一种产业恐吓。他们不断地告诉你做不成,投入很大,研发很难,直到你放弃。其实你解决不了的不是因为你没有能力,而是你缺乏勇气。 来源于雷军的年度演讲
  • 以太坊创始人之一的 Vitalik Buterin 在2017年曾经提出,区块链存在三难困境:无法同时实现去中心化、可扩展性和安全性。

RSSHub在Vercel上部署与信源选取

原来都是在vps上用docker部署的RSSHUB,这两天突然发现居然Vercel也能部署RSSHUB,太神奇了。

虽然不像其他能vercel一键部署的项目那样,但实际操作流程也很简单:

一、正式部署流程

1.Fork这个仓库: https://github.com/DIYgod/RSSHub

如果像其他项目,Fork之后直接去Vercel导入即可,但是RSSHub的master分支是没办法直接部署的,bug一直都没修,所以我们必须要切换到legacy分支。

2.将仓库切换到legacy分支

Fork仓库后,在自己账号里被fork的仓库中打开“Setting”设置,于“General”的“Default branch”中将默认的分支从master选为legacy即可。

“Switch default branch to another branch”

3.Vercel部署

部署流程就跟其他的项目没啥差别,去Vercel导入后一路点点点就行。

完成后记得绑定一个自己的域名,Vercel自带的域名国内是没办法直连的。

二、信源选取

毕竟我使用RSS的目的就是主动的获取信息而非平台的算法推送,主打的就是一手高质量信源和多合一信息聚合带来的便利。

以下列表是我截止到2024年8月18日订阅的几乎全部RSS信源,其中微信公众号大部分仍未完成迁移,B站订阅反爬限制严格没办法。这一套下来每天接收到的RSS推送大概一共200-400条,需要看一遍的大概60-80条,信息密度还行。

  • 大模型
    • 贯一智能科技
    • 鹤啸九天
    • 机器之心、量子位、新智元三大ai“顶刊”、极客公园
  • 技术
    • 极客湾
    • 阮一峰的网络日志
    • 少数派
  • 金融信息
    • 财联社
    • 东方财富网—策略报告
    • 国家金融与发展实验室
    • 港股研究社
    • 海豚投研
    • 镜像娱乐
    • 美股研究社
    • 远川研究所
    • 36氪-产品观察
  • 微信订阅号(RSS)
    • 甲子光年
    • 清华大学国际与地区研究院
    • 晚点LatePost
    • 新潮沉思录
  • 新闻
    • 联合早报-东南亚、国际、中港台
    • 半岛电视台
    • 格隆汇

致瞬息万变之物,及亘古不变之物

这篇小作文也勉强可以算是我迟来的20岁生日感想吧,距离我写下《十八岁-未济与求索》的生日感想不过区区两年,心态、见识却变化了太多。

1517年的深秋,马丁·路德终于做好了最后的思想准备,将《九十五条论纲》贴在了德国维滕堡城堡教堂的大门上,轰轰烈烈的宗教改革运动就此开始,曾经不可一世的教会教皇逐渐会意识到世俗的权力必定会高于上帝,或者说上帝忠实的代理——教权。

伴随着宗教改革启蒙运动的大潮,中世纪末教权走向全面瓦解,其背后的基督教意识形态也不可避免的走向解体,科学理性和道德理性先后从基督教意识形态母体中剥离开来,在后期的实践中走向了分离。从伽利略到牛爵爷再到半统数学教科书的符号江山欧拉,以科学为核心的思维被从基督教体系中分离出来,形成了以数学和物理学为核心的科学理性体系。

由此,恺撒的物当归给恺撒,上帝的物当归给上帝,凡人的权柄也当握在凡人手中,科学和理性成为现代价值观的基础,在信用的基础上逐渐演化出现代社会的庞大结构。信用贴现机制让我们得以通过投资亦或者是消费部门的杠杆来将未来的收益(增长)转移到当期(当下),利用带有预期正面收益的资产作为抵押物,分享预期的未来收益,虚空制造当期的额货币供应量,最终在本期经济循环中消费了未来的收益。

这就是构建在数理逻辑上的现代信用社会的绝妙之处,繁杂的金融工具创造了近乎无限的财富。我们围绕着市场形成了一整套的民族国家的政治观念与资本主义法权观念,围绕其建立高效率的社会组织体系,并创建一整套以自由民主平等政治为核心的价值理念,而这个过程并不需要道德理性,只需要基于各方利益精算的政治经济哲学。

这套体系看似完美无缺,也难怪福山老师会在苏联解体之后写出《历史的终结》。

在福山老师看来,将各个层级和各个板块的权力制衡做到极致,所有的政治角色没有任何一个尼采哲学意义上的超人存在,这便是人类终极的乌托邦与理想国,代表着人类在政治哲学上的演化已经走到了尽头。

当然,后面发生的事我们也都知道了。

从中华帝国的皇帝再到高居于白宫的总统,从来都不存在所谓的昭昭天命,秩序本身的建立者正在推动毁灭这一秩序和虚假的天命,曾经的反叛者居然在在所谓的普世价值观下形成的秩序中扮演者受益者和捍卫者的角色。

市场经济和资本主义模式的优势之一就在于其自发的会产生一套激励模式,但这并非是鸟语花香的和平竞争,而是一旦失败就万劫不复的生死竞速。尤其是在当前世界增量严重不足,而存量的争夺也愈发急切的情况下,和平共存的空间越来越少,你死我活的竞争越来越多。

危机会被当下的零和博弈激化,但从更长远的历史走向来看,危机也是一种必然。

多年以后,我们该如何定义2020年这个特殊的时间节点,如何定义从2020年开始的,全球矛盾显著激化的这一段特殊时期呢?

一个可能合适的形容词便是“大争之世”。

瘟疫大流行固然吓人,但其好处是让很大一部分人明白了一个道理——每个人都不天然是这个世界的一部分,世界不认识大多数人。祖逖在南下的惶恐中终于认识到了这个残酷的事实,才最终明白剑与火的回应是这个世界唯一看得懂的表情,暴力是这个世界永恒的底色。鲜花向来都停止不了战争,只能作为停战之后的装饰品慰藉人心。

从古老的边疆区到北方的大城,幸存者们仓皇而行,残酷的屠灭已经从童年开始。从文明最北边的白令海峡到最南边的好望角,所谓的承平日久和世界村更像是建立在信用贴现工具和第三世界丧失话语权下的一种虚假繁荣,是一代年轻人已经被大麻和廉价色情所谋杀后的幻想。

历史的终结,让世界无路可去。最好的制度,让人抱残守缺。政治正确,让天下离心离德。披着自由主义皮的世界市场实际上是在分享着跨国公司主导的全球化之下的赃物转移。

我在纪念十八岁生日的博文中如此写到:

易经以乾坤两卦开始,最后一卦却是 “未济”。

何为 “未济”?孔夫子作的《序卦传》说,“物不可穷也,故受之以未济终焉。” 易经六十四卦到了既济这一卦,乾坤或几乎息矣。矛盾似乎消失,斗争已然停止 —— 但是唯物辩证法告诉我们,矛盾永远不会消失,“物不可穷”,因此既济之后还会有未济,事物矛盾的变化没有穷尽。

世界瞬息万变,矛盾亘古不变。

在唯物史观视角下,矛盾贯穿于历史的场合之中,旧有的矛盾消失了,新的矛盾业已产生,历史的发展正是在接连不断的矛盾的被解决之中波浪化地前进。于是乎,我们,我们之前的我们和我们之后的我们,都被视作了一条绵延不绝的历史展开的一个过程,一个片段。

在这里,不会有"历史的终结",甚至都不能被视作辉格史观下的高歌猛进,乐观主义的坦途。因为它有低潮,有倒退,有曲折,甚至有可能崩溃。中国的发展道路,总是在巨大的张力下行进,作为替代资本主义的现代性的第二条道路,不可能是坦途和一帆风顺。

我们常常感叹历史总是在重复,祖逖以剑与火在北方建功立业,终究保的是皇帝的太平;李闯将闯王在陕西中原出生入死,不会妨碍江南的士绅糜烂涂地。历史终归不是非黑即白的,这一抹精致的灰夹杂着太多的妥协与人性的复杂。千百年后,我们还会赞叹闻鸡起舞,击楫中流的英雄豪气。我们也会感叹六朝何事,只成门户私计。可我们不也一样觉得名士风流,古今绝唱吗?我们不好指责什么,只能希望,享受英雄遗泽的人们不要太早辜负了这一切努力。

二十年前的我们是孤独的,那时能支撑下来的只有伟人丰厚的文化经济遗产与锐意改革之后凝聚的共识,只有已经逝去的和将要逝去的,只有在荒原上的夜行本身。新的纪元大概是已经要到来了,但向前看只有一片混沌。当时的我们并不知道这份混沌究竟会通向何处,更不知道这样的混沌会持续多长时间,抵抗这种混沌只是一种本能,我们甚至不知道这种本能是从哪里继承而来的。在这片混沌前似乎之前所有的上层建筑都是废纸,唯有混沌本身才是真正的应许之地。

在《前进,达瓦里希》让北方帝国的遗老唏嘘不已的时候,我们只是凭借本能知道,这个东西讲的并不是什么苏联。

二十年后的我们依然孤独,但这种孤独和二十年前是不一样的,这是一种自我选择自我扬弃后的孤独,是黑夜中不断加快的脚步,是兴亡载覆峥嵘之后的启航,是亘古一片月之下的万化兴衰——是终会看到麋鹿角解,鲜花满枝。

Weekly通讯-第七期:跳大神、回报预期、奥弗顿窗口和为死亡定价

一、不要随意的做出预言和定论

很多营销号和所谓的经济学家经常喜欢渲染一个或者多个时间节点,来营造一种史诗感来彰显自己的专业,提纯粉丝和造神,通常这种我看到一个屏蔽一个,实在是污染互联网。

归根结底,经济学和其他所有的社会科学一样都是一种归纳性的学问,舆论场上很多人却总喜欢把经济学/金融学当成是什么有前瞻性的预言类学问,实在是荒谬至极。它都预言了,还能叫科学吗?

实际上经济学家看不懂才是常态,大家都是在对过往知识数据的归纳基础上尽力拟合出现实世界未来的走向,这只是未来无限可能性中的其中一条。

偏偏又有许多所谓的经济学学者会迎合媒体的要求,发表一些毫无根据的预言和判断,才强化了这种偏见。于是好好的一门归纳总结的正经社会学科,被整成了神神叨叨的命理学了。


对于我自己来讲,我极其的厌恶所谓的神棍式“预言”,我们没办法准确的预知世界的走向,只能不断地逼近去拟合,就好像是我们永远没办法知道圆周率准确是多少,但我们可以不断的求圆周率的后小数位一直逼近到极限。

但是他妈的现实世界太复杂变量太多了,混沌模型导致我们只能懵懵懂懂的揣测大致的走向,更具体的拟合谁都不好说

二、从赌王之子看努力的回报预期

星竞威武集团于 2024 年 7 月 26 日在美国纳斯达克交易所正式敲钟上市,成为“中国电竞第一股”。其董事长兼联席 CEO 为何猷君,何猷君出生于 1995 年,被纳斯达克副主席称为“亚洲最年轻的纳斯达克上市公司创始人”。

当然,我在这里不是想继续复读鸡汤或者嘲讽人家是赌王之子的,而是想探讨一下不同人群的激励机制和“回报预期”。

我们经常能听到各种富二代的励志故事,例如xx凌晨还泡在哈佛图书馆……是否有可能,对于他们来讲成功的路径是相对清晰的,回报也是相对可以被测定且有人替他们兜底?

我们都知道权威来源于认可,权力来源于信息。这种贵族阶层可以掌握更高质量的信息,因此在投资决策中自然相较于普通人居于优势地位,所以他们努力奋斗的回报预期也相对明朗——毕竟从小就受到的商业教育会告诉他这样做大概率会赚钱,哪怕亏了家里人也可以兜底。而更为底层的普通人则没有这个教育环境和信息,他们的回报预期就更可能是“考上这所大学未来就xx”,自然没办法做出更长远的规划。

我想了想还是不能这么讲,毕竟世界上多的是混吃混喝等死的富二代和鱼跃龙门的普通人,只能作为一种参考观点。

三、奥弗顿窗口

奥弗顿窗口(Overton Window)是一个政治学概念,由美国政策分析师约瑟夫·P·奥弗顿(Joseph P. Overton)提出。大意是在特定的时间段内存在一个公众能够接受的政治思想、政策提议或社会变革的范围窗口。在这个窗口内的观点被视为主流或至少是可以讨论的,而窗口外的观点则被认为是极端的、非主流的,很难在公共讨论或政治议程中获得认真考虑。

奥弗顿窗口不是固定不变的,它可以随着时间、政治环境的变化、舆论领袖的言论、媒体的报道以及突发事件等因素逐渐移动。当公众对某个议题的态度发生变化时,原本被视为极端的观点可能逐渐被接纳,进入可接受的讨论范围,反之亦然。

简单来说,奥弗顿窗口定义了公众认知中“可接受”的政治观念谱,从极为自由到极为保守

最近的例子就是前几年经济形势还好,那么左派lgbt的相关议题政策就比较多;但疫情后世界经济进入困境,大家集体右转,保守势力重新掌权,那么这个阶段就可以被视为左翼议题窗口期已经过去。

四、为死亡定价

经济是一个抽象的概念,或许是一个真实的抽象,但终究是一个抽象,是一系列思想、概念和统计数据的集合,它们通常聚合了真实的人和事物,以及实际的生产和再生产网络。

我经常感叹道资本主义好就好在它可以为万物“定价”,一切都是可以被量化定价去衡量的——当然也包括生命。社会统计数据告诉我们全世界包括富裕国家在内,因忽视和缺乏治疗而死亡的人数以百万计,而许多现代官僚机构在分配资源时,也会习惯性地权衡生命与死亡的概率和成本。世界各地每天都有工人为了替雇主节省开支而置身于致命风险之中。当我们评估药物开发、工作场所安全措施的成本,分配医院床位,或衡量污染减排的价值时,我们实际上是在为生命的价值定价。

是的,虽然我们很可能会直接回避“为生命定价”,但是我们庞大的生产结构不会自己骗自己,将出生和死亡纳入经济计算是不可避免的。

尽管对特定人类生命的价值进行评估是不可能的,但经济学家已经发展出评估‘统计生命’价值的技术;即衡量人们为了降低死亡或疾病风险愿意付出多少。

在美国,定期调查发现,工人愿意接受约 1,000 美元的减薪,以将工作场所的死亡概率降低万分之一。根据经济学家的逻辑,这意味着在一个拥有 10,000 名员工的大公司中,员工们愿意支付 1,000 万美元来挽救一条生命。这就是所谓的统计生命价值(VSL)的由来。1,000 万美元的数值被美国卫生与公众服务部(HHS)、美国环境保护署和美国交通部所接受。世界银行在其成本效益分析中使用 380 万美元的 VSL。OECD则对欧洲人应用 360 万美元的VSL。在中国,我跳大神地认为VSL应该在300-700万(rmb)左右。

注意,VSL存在极大的局限性,它并非任何人在拥有无限预算时愿意支付以挽救生命的金额,也不是我们实际从有限资源中支付的数额。它是一种从低成本选择中推导出的集体衡量标准。由于缺乏更好的替代方案,VSL 估算仍被使用,其优点在于简单且平等。

言论

  • 谁能掌握过去的定义权,谁就能掌握现在的解释权,谁就能对未来施加影响。
  • 团结,是需要代价的
  • 我们之所以强大,并不是因为在现有规则下不存在阴影,而是我们永远不能让阴影行走于阳光之下
  • 自上而下的能力非标且难以复制,被认为是资管行业的稀缺资源,其背后常常是经年累月的经验以及不断的自我否定。沉迷于赛道之中会对世界上正在发生的变化变得迟钝,那不妨站得更高一些。可以在自己的投资框架中引入越来越多的宏观因子和慢变量,逐渐形成重行业选择的投资风格。
  • 政治的艺术在于妥协,妥协的基础在于互相威胁。成功的政策背后是成功的协商和妥协,而不是机械的命令与执行。所以理解利益冲突,理解协调和解决机制,是理解政策的基础。
  • 巴黎真的不愧是巴黎。哪怕它扒手遍地,河流大肠杆菌超标,小巷深处藏着住街的带狗猛男,桥洞中人才济济土方凶猛,但永远有一个如梦如幻的倩影潜伏在所有人的心中,能在恰当的时候给所有的瑕疵及时带上滤镜。
❌