来港第五年 - 求知若饥虚心若愚

Made by Mike_Zhang

Unfold Life Topics | 展开生活主题 $\triangledown$

各位好。

真快，又是一年，距离我2019年8月31日来香港读书已经过去五年了，即将开始第六年。我也用了四篇文章第一年、第二年、第三年以及第四年记录了我在香港的前四年。按照惯例，用这篇文章总结一下我在香港的第五年 - 求知若饥虚心若愚。

从去年发完第四年到今天，这一年内，我在我的UltraFish博客网站上只更新了9篇文章，其中8篇还是课堂的学习笔记，上一次更新文章也还是三个月前，更新频率大不如前，这是因为我把几乎所有的课余时间都放到了学生助理的工作上。

正好，借这篇文章的机会，我回过头反思一下这一年多的工作和学习，顺便也可以给博客更新一篇文章。

1. 学业

一转眼就到了四年本科的最后一年了。在过去的前三年中，我时刻都提醒自己要认真对待每一门课，保持高水准的学业质量，也取得的不错的学业成绩。这对我来说是非常好的一个正反馈，让我能够有动力继续保持这种学习状态。

但是，

我能明显感觉到，从大一到大三，大部分课程的学习在逐渐变得 “套路化”。比如专业课类似的评估流程：作业，小测，期中考试，小组项目，期末考试等。三年来，我对这一套流程越来越熟练，能够去掌握课程的内容，完成各项评估内容，最后也可以拿到一个不错的成绩，也没有对这一套流程感到疲惫。但是，我会发现，在这一套流程下，我对课程内容探索的渴望在减少$^1$，至少没有在来港第一、二年那样强烈。看到最后的成绩时，我会去思考，我掌握的到底是这门课的知识，还是只是这门课的套路。

($^1$我上过的 计算机视觉(COMP4423) 课程除外。正如我在第四年文章中提到的：“ 在我看来，基于课程内容和教授的授课方式，这门课是目前为止我觉得真正意义上的好课之一。 ” 我还是坚持我的这一观点，也欢迎大家选修这门课。)

但但是，

我在这过去一年多的学生助理的工作中，找逐渐回了那一份探索渴望。

2. 研究

从2023年5月到现在，这一年多的时间里，我在教授的指导下，参与了很多科研和工程项目，调研、了解、学习、实践、研究了很多不同方向的内容，真的让我收获颇丰。包括但不限于以下项目。

2.1 Virtual Assistant in AI Coffee System

AI咖啡系统中的虚拟助手

时间：2023年5月到现在

目标：构建一个具有虚拟形象的AI对话助手，能够与用户进行自然语言对话，帮助用户完成咖啡点单等操作。

第一版 (2023年9月)

第二版 (2024年6月)

收获：

了解了大语言模型(LLM)的基本原理和现有技术。
LLM的本地部署和使用，如LLaMA等。
语音识别(ASR)，虚拟人生成，语音合成(TTS)等技术的学习和应用，及其与LLM的结合。
Python在多媒体中的实现，如Multi-threading，视频串流等。
LLM prompt的设计和优化，LLM的fine-tuning。

2.2 Empathetic Dialogue LLM

共情对话语言模型

时间：2023年7月到 2023年9月

目标：用大语言模型(LLM)以及相关的技术，实现一个具有情感感知能力的对话的聊天机器人。

收获：

few-shot leaning，RAG等技术在LLM上的应用。
评估指标的学习和应用，如BLEU，Precision，Recall，F1，ROUGE等。
不同模型，不同指标的展现方式，案例分析和展示。

2.3 Large Language Model + Text2Image Model

大语言模型与文生图模型的结合

时间：2023年10月到 2023年11月

目标：将大语言模型(LLM)与文本到图像模型(Text2Image)结合，探索具有多模态生成能力的模型。

收获：

学习和使用视觉语言模型(Vision-LLM)，如MiniGPT-4，LLaVA等。
深入学习Transformer模型的架构和训练。
- Attention Is All You Need
- 强烈推荐：
  - https://www.youtube.com/watch?v=bCz4OMemCcA
  - https://www.youtube.com/watch?v=ISNdQcPhsts
深入学习LLaMA2模型的架构。
- Llama 2: Open Foundation and Fine-Tuned Chat Models
- 强烈推荐：
  - https://www.youtube.com/watch?v=Mn_9W1nCFLo
  - https://www.youtube.com/watch?v=oM4VmoabDAI
学习和使用Stable Diffusion模型。

2.4 MineCraft Model Generation

我的世界 模型生成

时间：2024年3月到 2024年5月

目标：使用生成模型，探索生成 我的世界(MineCraft) 中的物体模型。

收获：

3D生成方向的调研和学习。
收集和构建大规模MineCraft模型数据集。
学习和使用MineCraft的Python API接口。
设计、实现、训练GPT模型，生成MineCraft建筑模型。

2.5 Participation in Research Papers

参与科研论文

时间：2024年1月到 2024年7月

在教授的指导下，我有幸参与了组内多个科研工作，包括但不限于：

Generative Active Learning for Image Synthesis Personalization

Xulu Zhang, Wengyu Zhang, Xiaoyong Wei, Jinlin Wu, Zhaoxiang Zhang, Zhen Lei, and Qing Li
In ACM Multimedia 2024
Paper

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval

Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, and Qing Li
In ACM Multimedia 2024 (Oral)
Paper

A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

Changmeng Zheng, DaYong Liang, Wengyu Zhang, Xiaoyong Wei, Tat-Seng Chua, and Qing Li
In ACM Multimedia 2024 (Oral)
Paper

Generative Active Learning for Image Synthesis Personalization

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval

A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

我希望能够继续学习新内容，不断有所产出。

3. 机会

成为一名学生助理，给了我很多机会。除了上文提到的科研和工程项目，我还收获了很多其他方面的机会，如：

与教授、师兄师姐、同学进行合作、学习、交流、团建等。
向实验室的访客展示与讲解项目，互相交流学习。
参与部门的宣传、讲座等。
获得前沿的科研信息，计算资源等。
积累有关学术论文写作、表达、图表绘制等经验。

尾巴

最后，愿你我求知若饥虚心若愚无限进步。

原创文章，转载请标明出处
Made by Mike_Zhang

感谢你的支持

来港第五年 - 求知若饥虚心若愚

https://ultrafish.io/post/fifth-year/

Author

Mike_Zhang

Posted on

August 31, 2024

Licensed under

Big Data Analytics Course Note Previous

Machine Learning Course Note Next

来港第五年 - 求知若饥 虚心若愚

1. 学 业

2. 研 究

2.1 Virtual Assistant in AI Coffee System

2.2 Empathetic Dialogue LLM

2.3 Large Language Model + Text2Image Model

2.4 MineCraft Model Generation

2.5 Participation in Research Papers

3. 机 会

尾巴

来港第五年 - 求知若饥虚心若愚

1. 学业

2. 研究

3. 机会