模型压缩方法
模型压缩方法
剪枝、蒸馏、量化、二值化。
参考视频:
理论【传送门】【传送门】【传送门】【MIT的模型压缩与优化】
实战【传送门】【传送门】
1. 量化
将高精度降为低比特。
模型量化是指将神经网络中的连续取值的权重或激活值近似为有限多个离散值的过程。
优势:
压缩参数
提升速度
降低内存占用
劣势:
模型精度下降
量化方法:
量化训练(Quant Aware Training, QAT)
量化训练让模型感知量化运算对模型精度带来的影响,通过finetune训练降低量化误差。
动态离线量化(Post Training Quantization Dynamic, PTQ Dynamic)
动态离线量化仅将模型中特定算子的权重从FP32类型映射成 INT8/16 类型。
静态离线量化(Post Training Quantization Static, PTQ Static)
静态离线量化使用少量无标签校准数据,采用KL散度等方法计算量化比例因子。
2. 模型剪枝
模型剪枝分类
Unstructured Pruning(非结构化剪枝 ...
A Survey on Automatic Chart Understanding in the Era of Large Foundation Models
From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models
arXiv:2403.12027v2
整理图表理解相关文章的仓库【传送门】
Abstract
ChartInstruct
ChartInstruction: Instruction Tuning for Chart Comprehension and Reasoning
arXiv:2403.09028v1
code: [传送门](暂未开源-2024/3/25)
Abstract
1. INSTRUCTION
作者的主要贡献:
通过 LLMs 得到了一个新的适用于真实世界图表和广泛任务的指令跟随语料库;
两个不同的、专门为图表理解任务量身定制的系统;
广泛的评估展示了,ChartInstruct 在现存的图表相关的基准上是 SOTA,并且扩展了其对新任务的适用性。(代码和图表语料库准备开源【暂未2024/3/25】)
2. Related Work
2.1 Chart Modeling
图表理解的方法分为两种:
直接利用语言或者视觉-语言模型进行微调;
性能受限,因为缺乏特定于图表的预训练。
根据特定任务进行定制。
由于在原始的图表特定任务上进行预训练,所以限制了其在真实世界图表场景中的适用性。
2.2 Visual Instruction Tuning
LLMs 上的指令微调 ...
ChartBench
ChartBench: A Benchmark for Complex Visual Reasoning in Charts
Abstract
多模态大型语言模型(MLLMs)展现出令人印象深刻的图像理解和生成能力。然而,现有基准测试使用的图表有限,且与现实世界场景偏离,这对准确评估MLLMs的图表理解能力构成了挑战。为了克服这一限制,我们提出了ChartBench,这是一个专门设计来评估MLLMs在图表理解和数据可靠性方面通过复杂视觉推理的全面图表基准测试。ChartBench包括42个类别、2.1K个图表和16.8K个问答对。与以往的基准测试不同,ChartBench避免使用直接标注数据点的图表或元数据提示。相反,它迫使MLLMs利用图表固有的元素,如颜色、图例或坐标系统,来推导与人类理解相似的值。此外,我们提出了一个增强的评估指标Acc+,它无需劳动密集型的手工努力或基于GPT的昂贵评估就能够促进MLLMs的评估。我们广泛的实验评估涉及12个广泛使用的开源MLLMs和2个专有的MLLMs,揭示了MLLMs在解释图表方面的限制,并提供了宝贵的洞察,鼓励更仔细地审视这一方面。
1. ...
PlotQA
PlotQA: Reasoning over Scientific Plots
PlotQA: 对科学图表进行推理
WACV 2020 | arXiv:1909
code:【传送门】
Abstract
现有的用于推理图表的合成数据集(如FigureQA、DVQA)缺乏数据标签的变化性、实值数据或复杂的推理问题。因此,针对这些数据集提出的模型并未完全解决推理图表的挑战。特别是,它们假设答案要么来自一个固定大小的小词汇表,要么来自图像中的一个边界框。然而,在实践中,这是一个不现实的假设,因为许多问题需要推理,因此其实值答案既不在固定大小的小词汇表中,也不在图像中。在这项工作中,我们旨在弥合现有数据集和实际图表之间的差距。具体来说,我们提出了PlotQA,它包含了来自真实世界来源的28.9百万个问题-答案对,涉及224,377个图表,以及基于众包问题模板的问题。此外,PlotQA中80.76%的超出词汇表(OOV)的问题具有不在固定词汇表中的答案。对PlotQA上的现有模型的分析表明,它们无法处理OOV问题:它们在我们的数据集上的整体准确率仅为个位数。鉴于这些模型并不是为这类问题而设计的 ...
RealCQA
RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic
RealCQA: 科学的图表问答作为一阶逻辑的测试基础
ICDAR '23 | arvix2308
code:【传送门】
0. Abstract
我们提出了一项关于图表视觉问答(QA)任务的综合性研究,以解决在文档中理解和提取图表可视化数据所面临的挑战。尽管已经努力使用合成图表来解决这个问题,但解决方案受到现实世界数据标注不足的限制。为了填补这一空白,我们引入了一个针对真实世界图表的图表视觉QA的基准和数据集,提供了对任务的系统分析以及基于模板的图表问题创建的新型分类方法。我们的贡献包括引入了一个新的答案类型,即“列表”,包括有序和无序的变体。我们的研究基于来自科学文献的真实世界图表数据集进行,相比其他作品,展示了更高的视觉复杂性。我们的重点是基于模板的QA以及它如何作为评估模型一阶逻辑能力的标准。我们在一个真实世界的分布外数据集上进行了实验,结果对大规模预训练模型进行了稳健的评估,并推进了图表视觉QA和神经网络中形式逻辑 ...
Linux科学上网
Linux 科学上网
虚拟机、服务器等我主要用到的还是 Linux 系统,但是 github 下个代码都费劲,之前尝试了很多 Linux 科学上网的方法,有时能成功有时候失败,这次总结一个比较好用的方法。
该方法特点
使用 clash-core
不需要管理员权限,不需要图形化界面(命令行操作即可)
配置方法
首先下载 clash-core
在 github 等途径下载【传送门】
如果有一天路径找不到了,请发挥一下主观能动性,在广袤的互联网上搜索一下。
如下图,我下载的是 clash-linux-amd64-v1.18.0.gz
下载好后,放在 linux 系统用户文件夹下就好,使用如下命令解压:
1gunzip clash-linux-amd64-v1.18.0.gz
重命名解压后的文件:
1mv clash-linux-amd64-v1.18.0 clash
给该文件可执行权限:
1chmod +x clash
然后各显神通,获取到 clash 节点,如果是其他类型的节点格式可以通过节点转换工具转换成 clash 节点格式,修改节点配置文件名称为 config.yaml
此 ...
机器学习复习
机器学习
梳理复习研究生机器学习课程的复习过程。
一、宏观理解
有时间的话可以跟着这个仓库学习《统计学习方法》的代码实现和课后作业。【传送门】
0. 线性回归(Linear Regression)与逻辑回归(Logistic Regression)
线性回归估计结果为实数,可以做回归任务。
逻辑回归利用 sigmoid 等函数将线性数据进行处理,可以减小异常数据带来的影响(比如异常数据可能导致线性拟合的结果相差较大),而逻辑回归的结果在 0-1 之间,所以常用作概率预测,分类任务。
1. 决策树
决策树就是一个搭建好的模型,输入数据,就会按照设计好的路径给出输出。例如经典的用于分类的决策树"ID3",通过输入条件的不同来判断走决策树的哪一个分支,条件越多,分类的结果也越精确。但是决策树的深度要有所权衡,太浅可能导致分类不准确,太深可能导致高代价和过拟合。将熵作为考察依据。注意 ID3 只能做分类树,要想利用决策树实现回归,可以使用 CART, C4.5, CHAID 等。
2. KNN
k 近邻算法,做分类问题,一个样本的分类参考其周围最近的 ...
ChartReader
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules
ChartReader:无启发式规则的图表解渲染与解释的统一框架。
arvix2304
code: 【传送门】
0. Abstract
图表是可视化转换复杂数据的一种有力工具,但是由于图表有丰富的类型和组件,所以图表理解面临着很大的挑战。现存的图表理解方法面临着以下两个问题:①要么利用启发式的规则,②要么过度依赖于 OCR 系统,导致了次优性能。为了解决这些问题,作者提出了 ChartReader ,一个结合了图表解渲染和理解任务的统一框架。本文的方法包含了一个基于 transfomer 的图表组件检测模块和一个面向 chart-to-X 任务的额外的视觉-语言预训练模型。通过自动的从带标注的数据集中学习图表的规则,本文的方法消除了对人工制定规则的需要,降低了这部分的工作量并提升了准确度。本文还为交叉任务训练引入了一种数据变量替代机制以及对于预训练模型的输入和位置 embeddings 的扩 ...
ChartQA
ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
ACL 2022
code: [传送门]
0. 摘要翻译
图表在数据分析中非常受欢迎。在探索图表时,人们经常提出各种涉及多个逻辑和算术操作的复杂推理问题。他们在问题中通常还常常提到图表的视觉特征。然而,大多数现有数据集并未专注于此类复杂推理问题,因为它们的问题是基于模板的,答案来自固定的词汇。在这项工作中,我们提出了一个大规模的基准,涵盖了9.6K个人工编写的问题,以及从人工编写的图表摘要生成的23.1K个问题。为了解决我们基准中涉及图表的视觉和逻辑推理的独特挑战,我们提出了两个基于Transformer的模型,以统一的方式结合图表的视觉特征和数据表来回答问题。虽然我们的模型在先前的数据集以及我们的基准上取得了最先进的结果,但评估也揭示了回答复杂推理问题中的若干挑战。
吐槽一下,初步浏览了一些小标题和图表内容,感觉这文章写的漏洞百出,图表中的很多数据都算错了。。。不知道是不是我没理解,详细看完再说。
...









