清华大学THUNLP实验室简介
清华大学自然语言处理与社会人文计算实验室(THUNLP)是中国自然语言处理领域的先驱研究机构,隶属于清华大学人工智能研究院。自20世纪70年代末成立以来,实验室在中文信息处理、大语言模型、知识图谱与机器翻译等核心方向持续深耕,取得了广泛的国际学术影响力。
实验室领导与重要项目
THUNLP由孙茂松教授、刘洋教授和刘知远副教授共同领导,专注于以中文为核心的自然语言处理前沿研究。实验室承担了包括国家973项目、国家重点研发计划在内的多项重要科研任务,并与腾讯、华为等顶尖企业建立了紧密的产学研合作关系。
核心研究方向与成果
THUNLP的研究覆盖自然语言处理多个关键领域,其核心方向与代表性成果如下:
语言与跨模态大模型
实验室在大语言模型(LLM)与多模态智能体方面进展显著。例如,与ModelBest联合研发的AgentCPM-GUI模型,基于MiniCPM-V架构,具备80亿参数规模,能高效在移动终端运行,专精于支持中文应用的图形界面操作任务。
中文信息处理工具
THUNLP开发并开源了多款高效、实用的中文NLP工具,极大地推动了中文信息处理技术的发展:
- THULAC:一款高效的中文词法分析工具,集成中文分词与词性标注功能,其分词F1值可达97.3%。
- DeepTHULAC:基于自研BERT模型的中文词法分析工具,性能进一步提升,分词F1值高达97.6%。
- THUCTC:一个功能全面的中文文本分类工具包,支持用户对自定义语料进行训练、评测与分类。
开源项目与社区影响
实验室积极践行开源精神,其发布的THULAC、THUCTC等项目在GitHub上获得了超过1万颗星标,被广泛应用于学术界与工业界的研发实践中,为社区做出了重要贡献。
人才培养与团队建设
THUNLP长期面向全球招募博士后、研究员及实习生,提供充足的算力资源、数据支持、科研经费以及具有竞争力的薪酬待遇。实验室致力于营造开放、协作的科研环境,热忱欢迎有志于自然语言处理研究的学者与工程师加入。
作为中国自然语言处理领域的领军力量,THUNLP通过其在中文信息处理、大模型及多模态智能等方向的持续创新,不断推动人工智能技术的进步与落地应用,充分展现了清华大学在人工智能领域的深厚积淀与战略布局。
