来港第五年 - 求知若饥 虚心若愚
Made by Mike_Zhang
Unfold Life Topics | 展开生活主题 $\triangledown$
各位好。
真快,又是一年,距离我2019年8月31日来香港读书已经过去五年了,即将开始第六年。我也用了四篇文章 第一年、第二年、第三年以及第四年记录了我在香港的前四年。按照惯例,用这篇文章总结一下我在香港的第五年 - 求知若饥 虚心若愚。
从去年发完第四年到今天,这一年内,我在我的UltraFish博客网站上只更新了9篇文章,其中8篇还是课堂的学习笔记,上一次更新文章也还是三个月前,更新频率大不如前,这是因为我把几乎所有的课余时间都放到了学生助理的工作上。
正好,借这篇文章的机会,我回过头反思一下这一年多的工作和学习,顺便也可以给博客更新一篇文章。
1. 学 业
一转眼就到了四年本科的最后一年了。在过去的前三年中,我时刻都提醒自己要认真对待每一门课,保持高水准的学业质量,也取得的不错的学业成绩。这对我来说是非常好的一个正反馈,让我能够有动力继续保持这种学习状态。
但是,
我能明显感觉到,从大一到大三,大部分课程的学习在逐渐变得 “套路化”。比如专业课类似的评估流程:作业,小测,期中考试,小组项目,期末考试等。三年来,我对这一套流程越来越熟练,能够去掌握课程的内容,完成各项评估内容,最后也可以拿到一个不错的成绩,也没有对这一套流程感到疲惫。但是,我会发现,在这一套流程下,我对课程内容探索的渴望在减少$^1$,至少没有在来港第一、二年那样强烈。看到最后的成绩时,我会去思考,我掌握的到底是这门课的知识,还是只是这门课的套路。
($^1$我上过的 计算机视觉(COMP4423) 课程除外。正如我在第四年文章中提到的:“ 在我看来,基于课程内容和教授的授课方式,这门课是目前为止我觉得真正意义上的好课之一。 ” 我还是坚持我的这一观点,也欢迎大家选修这门课。)
但但是,
我在这过去一年多的学生助理的工作中,找逐渐回了那一份探索渴望。
2. 研 究
从2023年5月到现在,这一年多的时间里,我在教授的指导下,参与了很多科研和工程项目,调研、了解、学习、实践、研究了很多不同方向的内容,真的让我收获颇丰。包括但不限于以下项目。
2.1 Virtual Assistant in AI Coffee System
AI咖啡系统中的虚拟助手
时间:2023年5月 到 现在
目标:构建一个具有虚拟形象的AI对话助手,能够与用户进行自然语言对话,帮助用户完成咖啡点单等操作。
第一版 (2023年9月)
第二版 (2024年6月)
收获:
- 了解了大语言模型(LLM)的基本原理和现有技术。
- LLM的本地部署和使用,如LLaMA等。
- 语音识别(ASR),虚拟人生成,语音合成(TTS)等技术的学习和应用,及其与LLM的结合。
- Python在多媒体中的实现,如Multi-threading,视频串流等。
- LLM prompt的设计和优化,LLM的fine-tuning。
2.2 Empathetic Dialogue LLM
共情对话语言模型
时间:2023年7月 到 2023年9月
目标:用大语言模型(LLM)以及相关的技术,实现一个具有情感感知能力的对话的聊天机器人。
收获:
- few-shot leaning,RAG等技术在LLM上的应用。
- 评估指标的学习和应用,如BLEU,Precision,Recall,F1,ROUGE等。
- 不同模型,不同指标的展现方式,案例分析和展示。
2.3 Large Language Model + Text2Image Model
大语言模型与文生图模型的结合
时间:2023年10月 到 2023年11月
目标:将大语言模型(LLM)与文本到图像模型(Text2Image)结合,探索具有多模态生成能力的模型。
收获:
- 学习和使用视觉语言模型(Vision-LLM),如MiniGPT-4,LLaVA等。
- 深入学习Transformer模型的架构和训练。
- 深入学习LLaMA2模型的架构。
- 学习和使用Stable Diffusion模型。
2.4 MineCraft Model Generation
我的世界 模型生成
时间:2024年3月 到 2024年5月
目标:使用生成模型,探索生成 我的世界(MineCraft) 中的物体模型。
收获:
- 3D生成方向的调研和学习。
- 收集和构建大规模MineCraft模型数据集。
- 学习和使用MineCraft的Python API接口。
- 设计、实现、训练GPT模型,生成MineCraft建筑模型。
2.5 Participation in Research Papers
参与科研论文
时间:2024年1月 到 2024年7月
在教授的指导下,我有幸参与了组内多个科研工作,包括但不限于:
Generative Active Learning for Image Synthesis Personalization
- Xulu Zhang, Wengyu Zhang, Xiaoyong Wei, Jinlin Wu, Zhaoxiang Zhang, Zhen Lei, and Qing Li
- In ACM Multimedia 2024
- Paper
Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval
- Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, and Qing Li
- In ACM Multimedia 2024 (Oral)
- Paper
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning
- Changmeng Zheng, DaYong Liang, Wengyu Zhang, Xiaoyong Wei, Tat-Seng Chua, and Qing Li
- In ACM Multimedia 2024 (Oral)
- Paper
我希望能够继续学习新内容,不断有所产出。
3. 机 会
成为一名学生助理,给了我很多机会。除了上文提到的科研和工程项目,我还收获了很多其他方面的机会,如:
- 与教授、师兄师姐、同学进行合作、学习、交流、团建等。
- 向实验室的访客展示与讲解项目,互相交流学习。
- 参与部门的宣传、讲座等。
- 获得前沿的科研信息,计算资源等。
- 积累有关学术论文写作、表达、图表绘制等经验。
尾巴
最后,愿你我求知若饥 虚心若愚 无限进步。
原创文章,转载请标明出处
Made by Mike_Zhang