强化学习入门:理解 UCB 动作选择策略 前言: 最近在阅读强化学习导论,由于内容过于理论,看的有些迷茫。为了更好地理解相关知识,计划开始结合AI的回答来做一些笔记。 多臂赌博机(Multi-Armed Bandit) 想象一下你面前有很多台老虎机,每台老虎机吐钱的概率是不同的,但是你事先不知道哪台概率高,哪台概率低。你的目标是在有限的次数内,尽可能多地从这些老虎机里赢钱。这就是一个经典的多臂赌博机(Multi-Armed Bandit)问题。 在强化学习中,智能体(Agent)就像是玩老虎机的你,它需要在一个环境中做出动作(Action),比如选择拉哪一台老虎机的...
I will conduct a deep investigation into how deep unrolling (deep unfolding) methods integrate with ADMM and LASSO for solving inverse problems in NLOS, CT, and MRI reconstruction. The research will focus on: Mathematical Formulation:** High-level explanations of inverse problem models and ho...
前言 最近在看Video Moment Retrieval和Highlight Detection的相关研究,其中效果比较好的工作如Moment-DETR,QD-DETR,CG-DETR都使用了DETR作为基本结构?所以有了这篇笔记。 DETR (Detection Transformer) 概述 DETR 将目标检测任务视为集合预测问题,主要目标是设计一个端到端的模型,不依赖人工设计的先验信息(如non-maximum suppression和anchor generation)。该网络可以分为四个主要部分: CNN特征提取: 使用卷积神经网络(CNN...
对比学习研究的四个阶段 对比学习是一类强大的自监督学习方法,逐步在计算机视觉领域得到了广泛的应用。本文根据对比学习方法的演化,将其分为四个阶段,并对每个阶段的代表性方法进行介绍。 第一阶段:初期对比学习方法 1. InstDisc (Instance Discrimination) Instance Discrimination 提出了个体判别作为代理任务,并首次引入了 memory bank 和 NCE(Noise Contrastive Estimation)损失来训练模型。该方法使用动量更新策略来逐步提升特征的稳定性和一致性。 2. Unsu...
对比学习与无监督学习概述 对比学习(Contrastive Learning)是一种旨在无需图片内容(标签信息)前提下,将相似图像的特征拉近,同时将不同图像的特征尽量拉远的技术。代理任务(Pretext Task)作为一种没有明确语义的任务,目的是生成自监督信号,充当虚拟的标签信息。比如说在计算机视觉任务中,通过人为规则定义哪些图像是相似的,哪些是不相似的。 Instance Discrimination 方法 在对比学习的框架下,Instance Discrimination 是一种物体判别任务。对于同一张图片,query 和 key 是来自该图片的不同视角。通过裁剪...
原文链接 亚里士多德的哲学强调,部分的整合能超越其总和。 1. 概要 人工智能需要摆脱过度还原主义(excessive reducationism),转向一个整体的系统。本文提出一个新的模型概念——Agent Foundation Model。一个具身智能体(embodied agent)被概念化为一个互动系统,它通过感知能力与人类进行交流,并与环境互动,执行符合人类意图的动作。 作者相信,AI 社区将稳步积累必要的知识,从而使 AI 模型从用于被动、结构化任务转型为能够在复杂环境中进行动态交互的角色。这种方...