搜索算法相关联想
搜索引擎的难题 Google早已成为全球最成功的互联网搜索引擎,但这个当前的搜索引擎巨无霸却不是最早的互联网搜索引擎,在Google出现之前,曾出现过许多通用或专业领域搜索引擎。Google最终能击败所有竞争对手,很大程度上是因为它解决了困扰前辈们的最大难题:对搜索结果按重要性排序。而解决这个问题的算法就是PageRank。毫不夸张的说,是PageRank算法成就了Google今天的低...
搜索引擎的难题 Google早已成为全球最成功的互联网搜索引擎,但这个当前的搜索引擎巨无霸却不是最早的互联网搜索引擎,在Google出现之前,曾出现过许多通用或专业领域搜索引擎。Google最终能击败所有竞争对手,很大程度上是因为它解决了困扰前辈们的最大难题:对搜索结果按重要性排序。而解决这个问题的算法就是PageRank。毫不夸张的说,是PageRank算法成就了Google今天的低...
什么是Agent?为什么是Agent? 当我们将大型模型视为“核心调度器“时,它就变成了我们的Agent。借助任务规划、记忆及外部工具等能力,大型模型能够识别出应该执行的任务以及执行方式,从而实现自主决策。 Agent可被视为“具备自主智能的实体”,也被广泛地称作智能体。当前的Agent主要被分为三种类型:单体Agent、多Agent协作(Multi-Agent)、以及与人交互的A...
Pytorch Accelerate多GPU训练推理 训练速度基本是两倍的提升。 很方便的使用混合精度进行训练,进行加速。 #GPU fp16 Batch size per GPU Seconds per epoch 1 no 256 ...
Basic Structure pre-training 架构,对于输入的同一个图像和文本pair对,使他们的相似度越大越好,这就引出了对比学习的方法。简单来讲就是对角线的相似度最大,其他位置最小,以此来训练模型。 核心代码 图像编码器 图像编码器使用的是ViT(简单来讲,就是将图片切割为大小相同的patch,每个patch可以看做是一个token,剩余的做法和普...
Contrastive learning Contrastive learning SimCLR –it is a self-supervise learning Momentum Contrast for Unsupervised Visual Representation Learning MoCo why combine crossEntropy with softmax...
大模型调优方法 这三种技术在性能、效率和适用范围上各有千秋。选择哪种方法取决于具体的应用需求。 提示工程(Prompt Engineering) 输入prompt给large language model,大语言模型就根据这个输入来生成回应。然后得到我们想要的结果。这实际上是一种精确的输入方法,旨在引导模型产生相应的输出。大多数情况下prompts指的是文本,尤其是以自然语言...
Background 一般而言,深度学习模型可以分为判别式模型(Discriminative model)与生成式模型(Generative model)。判别模型需要输入变量,通过 某种模型来预测。生成模型是给定某种隐含信息,来随机产生观测数据。举个简单的例子, 判别模型:给定一张图,判定图中的动物是什么类别 生成模型:给一系列猫的图片,生成一张新的猫咪 由于反向传播 (...
Before Transformer 深度学习做 NLP 的方法,基本上都是先将句子分词,然后每个词转化为对应的词向量序列。这样一来,每个句子都对应的是一个矩阵 $X = (x_1,x_2,…,x_t)$, 其中$x_i$都代表着第i个词的向量(行向量),纬度(d),$X\in R^{n*d}$问题就变成了编码这些序列了。 第一个基本的思路是 RNN 层,RNN 的方案很简单,递归...
Language Usage for NLP task Speech Recognition 语音识别 P(“We built this city on rock and roll”) > P(“We built this city on sausage rolls”) Spelling correction 拼写更正 P(“… has no mistakes”) > ...
pandas 字符串处理 常用函数 大小写转换 lower() upper() 去除首尾空格 strip() 以特定字符串开始 startwith() 替换特定数据 replace() 将某列拆成多列 split() 个性化处理数据 lambda 函数 import pandas as pd data = pd.read_excel('d...