主要记录图形算法、建模思想,不记录公式推导和训练思路:

  1. 【Nerf】Representing Scenes as Neural Radiance Fields for View Synthesis.
  2. 【Mip-Nerf】Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields.
  3. 【Mip-Nerf 360】Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
  4. 【Instant-NGP】Instant Neural Graphics Primitives with a Multiresolution Hash Encoding
  5. 【Plenoxels】Plenoxels: Radiance Fields without Neural Networks.
  6. 【Ref-NeRF】Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields
  7. 【3DGS】3d gaussian splatting for real-time radiance field rendering
阅读全文 »

矩阵

标准化矩阵

  1. 遍历矩阵每列求特征的平均值。
  2. 遍历矩阵每个元素减去该列的平均值。
阅读全文 »

Vscode

准备工作

官方文档:https://code.visualstudio.com/docs/cpp/config-mingw

参考:

  1. 在vscode运行c++:https://blog.csdn.net/weixin_62411288/article/details/130796591
  2. 在vscode用makefile运行opengl:https://blog.csdn.net/weixin_43952192/article/details/122877840
  3. VSCode-Clang-MinGW-OpenGl配置教程:https://apollomao.com/VSCode-Clang-MinGW-OpenGl%E9%85%8D%E7%BD%AE%E6%95%99%E7%A8%8B/
  4. vscode中文乱码解决:https://blog.csdn.net/weixin_51723388/article/details/124171357
阅读全文 »

  1. 本人是在 2023 年 5 月份开始学习相关论文,主要面向图像复原相关下游应用的预研工作,全职研究时间大约三个月,不算很长,认识有限。
  2. 写本博客的初衷是为了结构化一下之前学习的知识网络,如果看到外部链接的话就是在串接知识网络(从下一行就开始了),或许介绍一种或许更容易入门理解的方式(论文阅读顺序)。
  3. 本博客需要一定的数学基础,如果想了解 stable-diffusion-webui 或者 ComfyUI 的使用方法请绕路。
  4. 当然真正的勇士也可以像笔者之前一样直面惨淡的数学原理,当然也可以看本博客娓娓道来胡说八道
  5. 可能会以一种不太严谨的方式表达想表达意思,希望能多多包涵,不喜轻喷,也欢迎一起讨论!
阅读全文 »

无论是在商用的midjourney V5,还是在基于开源的stable diffusion的text to image的AI生图中,一个难以绕过去的问题是,人物手部姿势的稳定生成。一个容易遇到的问题场景是,当用户使用精心设计的prompt和denoising parameter生成一张高分辨率的图片,从整体构图,到色彩、人物神情等都比较的满意的时候,却发现人物的手部姿势发生扭曲,最常见的是产生六指。如果此时通过调整参数如textural inversion、LoRA和controlNet等,又会改变生成图像的分布,达不到原来的生成效果。另外一种方案是使用inpainting的方式将畸形的手部区域进行重绘,但是如果没有合适的方法和技巧,仅仅靠不同的随机数搜索好的手姿的分布,其搜索范围将会很大,并且在设备有限的情况下比较耗时。如何设计一个高效的inpainting的工作流将是一个需要不断探索和实践的方向。

在这篇文章中,本人主要探索仅仅使用AI工具对手姿进行修复的工作流,不涉及其他工具如photoshop的使用(主要是没探索出来,用了效果一般)。以下是我复现的效果。

Effect of Inpainting

阅读全文 »

抽空记录中,不研究内容prompt,目前在别人写的prompt下用不同工具调优。

目前的感觉是,场景物体细节越多的图,人物手和面容(眼睛、睫毛)的正常生成非常困难,即使有相关的Lora和negative prompt的进行加持,但基本上只在肢体离镜头比较近的时候才能正常work。既要保证场景内容丰富,又要保证肢体正常绘制,基本不可能一次正确生成,目前的策略是在喜欢的构图上进行肢体细节调优。

基于stable-diffusion-webui 1.6.0写的使用说明,版本更新时间是20230928

预训练模型下载网站:

  1. https://civitai.com/
  2. https://www.liblibai.com/
  3. https://tusi.art/
  4. https://www.esheep.com/
阅读全文 »

时间原因没有认真读论文和看代码,看了一下下Up主-霹雳吧啦Wz的讲述,记录一下自己认为的yolo多次迭代版本的核心设计,以达到临阵磨枪,不快也光的目的。

论文:

  1. 【Yolov1】You Only Look Once: Unified, Real-Time Object Detection (2016 CVPR)
  2. 【Yolov2】YOLO9000: Better, Faster, Stronger (2017 CVPR)
  3. 【Yolov3】YOLOv3: An Incremental Improvement
  4. 【Yolov4】Optimal Speed and Accuracy of Object Detection
  5. 【Yolov5】Github
  6. 【YolovX】YOLOX: Exceeding YOLO Series in 2021

总结下来我认为该系列的核心设计有几个方面:

  1. 数据增强方式
  2. 多尺度特征提取网络结构的设计、多尺度检测头
  3. 多尺度anchor(部分版本)
  4. 定位损失函数的设计
阅读全文 »