来港第五年 - 求知若饥 虚心若愚

Made by Mike_Zhang


Unfold Life Topics | 展开生活主题 $\triangledown$


各位好。

真快,又是一年,距离我2019年8月31日来香港读书已经过去五年了,即将开始第六年。我也用了四篇文章 第一年第二年第三年以及第四年记录了我在香港的前四年。按照惯例,用这篇文章总结一下我在香港的第五年 - 求知若饥 虚心若愚


从去年发完第四年到今天,这一年内,我在我的UltraFish博客网站上只更新了9篇文章,其中8篇还是课堂的学习笔记,上一次更新文章也还是三个月前,更新频率大不如前,这是因为我把几乎所有的课余时间都放到了学生助理的工作上。

正好,借这篇文章的机会,我回过头反思一下这一年多的工作和学习,顺便也可以给博客更新一篇文章。


1. 学 业

一转眼就到了四年本科的最后一年了。在过去的前三年中,我时刻都提醒自己要认真对待每一门课,保持高水准的学业质量,也取得的不错的学业成绩。这对我来说是非常好的一个正反馈,让我能够有动力继续保持这种学习状态。

但是,

我能明显感觉到,从大一到大三,大部分课程的学习在逐渐变得 “套路化”。比如专业课类似的评估流程:作业,小测,期中考试,小组项目,期末考试等。三年来,我对这一套流程越来越熟练,能够去掌握课程的内容,完成各项评估内容,最后也可以拿到一个不错的成绩,也没有对这一套流程感到疲惫。但是,我会发现,在这一套流程下,我对课程内容探索的渴望在减少$^1$,至少没有在来港第一、二年那样强烈。看到最后的成绩时,我会去思考,我掌握的到底是这门课的知识,还是只是这门课的套路。

($^1$我上过的 计算机视觉(COMP4423) 课程除外。正如我在第四年文章中提到的:“ 在我看来,基于课程内容和教授的授课方式,这门课是目前为止我觉得真正意义上的好课之一。 ” 我还是坚持我的这一观点,也欢迎大家选修这门课。)

但但是,

我在这过去一年多的学生助理的工作中,找逐渐回了那一份探索渴望。


2. 研 究


从2023年5月到现在,这一年多的时间里,我在教授的指导下,参与了很多科研和工程项目,调研、了解、学习、实践、研究了很多不同方向的内容,真的让我收获颇丰。包括但不限于以下项目。

2.1 Virtual Assistant in AI Coffee System

AI咖啡系统中的虚拟助手

时间:2023年5月 到 现在

目标:构建一个具有虚拟形象的AI对话助手,能够与用户进行自然语言对话,帮助用户完成咖啡点单等操作。

第一版 (2023年9月)

第二版 (2024年6月)

收获:

  • 了解了大语言模型(LLM)的基本原理和现有技术。
  • LLM的本地部署和使用,如LLaMA等。
  • 语音识别(ASR),虚拟人生成,语音合成(TTS)等技术的学习和应用,及其与LLM的结合。
  • Python在多媒体中的实现,如Multi-threading,视频串流等。
  • LLM prompt的设计和优化,LLM的fine-tuning。

2.2 Empathetic Dialogue LLM

共情对话语言模型

时间:2023年7月 到 2023年9月

目标:用大语言模型(LLM)以及相关的技术,实现一个具有情感感知能力的对话的聊天机器人。

收获:

  • few-shot leaning,RAG等技术在LLM上的应用。
  • 评估指标的学习和应用,如BLEU,Precision,Recall,F1,ROUGE等。
  • 不同模型,不同指标的展现方式,案例分析和展示。

2.3 Large Language Model + Text2Image Model

大语言模型与文生图模型的结合

时间:2023年10月 到 2023年11月

目标:将大语言模型(LLM)与文本到图像模型(Text2Image)结合,探索具有多模态生成能力的模型。

收获:

2.4 MineCraft Model Generation

我的世界 模型生成

时间:2024年3月 到 2024年5月

目标:使用生成模型,探索生成 我的世界(MineCraft) 中的物体模型。

收获:

  • 3D生成方向的调研和学习。
  • 收集和构建大规模MineCraft模型数据集。
  • 学习和使用MineCraft的Python API接口。
  • 设计、实现、训练GPT模型,生成MineCraft建筑模型。

2.5 Participation in Research Papers

参与科研论文

时间:2024年1月 到 2024年7月

在教授的指导下,我有幸参与了组内多个科研工作,包括但不限于:

Generative Active Learning for Image Synthesis Personalization

  • Xulu Zhang, Wengyu Zhang, Xiaoyong Wei, Jinlin Wu, Zhaoxiang Zhang, Zhen Lei, and Qing Li
  • In ACM Multimedia 2024
  • Paper

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval

  • Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, and Qing Li
  • In ACM Multimedia 2024 (Oral)
  • Paper

A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

  • Changmeng Zheng, DaYong Liang, Wengyu Zhang, Xiaoyong Wei, Tat-Seng Chua, and Qing Li
  • In ACM Multimedia 2024 (Oral)
  • Paper
Generative Active Learning for Image Synthesis Personalization
Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

我希望能够继续学习新内容,不断有所产出。


3. 机 会

实验室展示-2023理大资讯日参观
实验室展示-2024理大暑校参观
参与部门50周年纪念视频拍摄
参加部门讲座

成为一名学生助理,给了我很多机会。除了上文提到的科研和工程项目,我还收获了很多其他方面的机会,如:

  • 与教授、师兄师姐、同学进行合作、学习、交流、团建等。
  • 向实验室的访客展示与讲解项目,互相交流学习。
  • 参与部门的宣传、讲座等。
  • 获得前沿的科研信息,计算资源等。
  • 积累有关学术论文写作、表达、图表绘制等经验。

尾巴

最后,愿你我求知若饥 虚心若愚 无限进步


原创文章,转载请标明出处
Made by Mike_Zhang




感谢你的支持

来港第五年 - 求知若饥 虚心若愚
https://ultrafish.io/post/fifth-year/
Author
Mike_Zhang
Posted on
August 31, 2024
Licensed under