Vscode准备工作

官方文档:https://code.visualstudio.com/docs/cpp/config-mingw

参考:

  1. 在vscode运行c++:https://blog.csdn.net/weixin_62411288/article/details/130796591
  2. 在vscode用makefile运行opengl:https://blog.csdn.net/weixin_43952192/article/details/122877840
  3. VSCode-Clang-MinGW-OpenGl配置教程:https://apollomao.com/VSCode-Clang-MinGW-OpenGl%E9%85%8D%E7%BD%AE%E6%95%99%E7%A8%8B/
  4. vscode中文乱码解决:https://blog.csdn.net/weixin_51723388/article/details/124171357
阅读全文 »

  1. 本人是在 2023 年 5 月份开始学习相关论文,主要面向图像复原相关下游应用的预研工作,全职研究时间大约三个月,不算很长,认识有限。
  2. 写本博客的初衷是为了结构化一下之前学习的知识网络,如果看到外部链接的话就是在串接知识网络(从下一行就开始了),或许介绍一种或许更容易入门理解的方式(论文阅读顺序)。
  3. 本博客需要一定的数学基础,如果想了解 stable-diffusion-webui 或者 ComfyUI 的使用方法请绕路。
  4. 当然真正的勇士也可以像笔者之前一样直面惨淡的数学原理,当然也可以看本博客娓娓道来胡说八道
  5. 可能会以一种不太严谨的方式表达想表达意思,希望能多多包涵,不喜轻喷,也欢迎一起讨论!
阅读全文 »

无论是在商用的midjourney V5,还是在基于开源的stable diffusion的text to image的AI生图中,一个难以绕过去的问题是,人物手部姿势的稳定生成。一个容易遇到的问题场景是,当用户使用精心设计的prompt和denoising parameter生成一张高分辨率的图片,从整体构图,到色彩、人物神情等都比较的满意的时候,却发现人物的手部姿势发生扭曲,最常见的是产生六指。如果此时通过调整参数如textural inversion、LoRA和controlNet等,又会改变生成图像的分布,达不到原来的生成效果。另外一种方案是使用inpainting的方式将畸形的手部区域进行重绘,但是如果没有合适的方法和技巧,仅仅靠不同的随机数搜索好的手姿的分布,其搜索范围将会很大,并且在设备有限的情况下比较耗时。如何设计一个高效的inpainting的工作流将是一个需要不断探索和实践的方向。

在这篇文章中,本人主要探索仅仅使用AI工具对手姿进行修复的工作流,不涉及其他工具如photoshop的使用(主要是没探索出来,用了效果一般)。以下是我复现的效果。

Effect of Inpainting

阅读全文 »

抽空记录中,不研究内容prompt,目前在别人写的prompt下用不同工具调优。

目前的感觉是,场景物体细节越多的图,人物手和面容(眼睛、睫毛)的正常生成非常困难,即使有相关的Lora和negative prompt的进行加持,但基本上只在肢体离镜头比较近的时候才能正常work。既要保证场景内容丰富,又要保证肢体正常绘制,基本不可能一次正确生成,目前的策略是在喜欢的构图上进行肢体细节调优。

基于stable-diffusion-webui 1.6.0写的使用说明,版本更新时间是20230928

预训练模型下载网站:

  1. https://civitai.com/
  2. https://www.liblibai.com/
  3. https://tusi.art/
  4. https://www.esheep.com/
阅读全文 »

时间原因没有认真读论文和看代码,看了一下下Up主-霹雳吧啦Wz的讲述,记录一下自己认为的yolo多次迭代版本的核心设计,以达到临阵磨枪,不快也光的目的。

论文:

  1. 【Yolov1】You Only Look Once: Unified, Real-Time Object Detection (2016 CVPR)
  2. 【Yolov2】YOLO9000: Better, Faster, Stronger (2017 CVPR)
  3. 【Yolov3】YOLOv3: An Incremental Improvement
  4. 【Yolov4】Optimal Speed and Accuracy of Object Detection
  5. 【Yolov5】Github
  6. 【YolovX】YOLOX: Exceeding YOLO Series in 2021

总结下来我认为该系列的核心设计有几个方面:

  1. 数据增强方式
  2. 多尺度特征提取网络结构的设计、多尺度检测头
  3. 多尺度anchor(部分版本)
  4. 定位损失函数的设计
阅读全文 »

之前在学习cuda和使用opencv来加速图像处理,同时由于用惯了jetbrain系列,所以不想用vs来写代码,于是在配环境的时候看了很多网上的教程踩了很多坑,大概弄了3天才弄好,不过最近又手贱重装了cuda,所以之前编译的包不能用了,重新配置的时候感觉又忘了很多东西,于是决定写一篇博客来记录下之前操作,可能不是很全,重装电脑的时候再补充。

阅读全文 »

本人在写毕设论文的时候踩了很多坑,让我重新学习了了如何高效使用word进行编辑。当然下面的顺序并不是依照我踩坑的顺序续写的,而是我写完论文之后进行了总结:如果重头开始写论文应该怎么做才是高效且容易管理的,仅记录一些能够免去搬砖的使用技巧,个人感觉套模板是没用滴,学之以渔才是正确路线。注:用到的word是window10的版本。

阅读全文 »