搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
#自然语言处理#大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
中文公开聊天语料库
Collections of Chinese NLP corpus
Some useful Chinese corpus datasets 中文语料小数据
Awesome Chatbot Projects,Corpus,Papers,Tutorials.Chinese Chatbot =>:
dgk_lost_conv 中文对白语料 chinese conversation corpus
中文相关词典和语料库。
word2vec/glove/swivel binary file on chinese corpus
A large-scale cleaned Chinese chitchat corpus and Chinese dialogpt models
This is a corpus of Chinese abbreviation, including negative full forms.
An Implementation of 'Attention is all you need' with Chinese Corpus
#数据仓库#Language Understanding Evaluation benchmark for Chinese: datasets, baselines, pre-trained models,corpus and leaderboard
翻译 - 汉语语言理解评估基准:数据集,基线,预训练模型,语料库和排行榜
中文单/多轮对话语料库
Annotator for Chinese Text Corpus (UNDER DEVELOPMENT) 中文文本标注工具
Word Cloud for Chinese Text Corpus (中文词云制作)
Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
Chinese word segmentation algorithm without corpus(无需语料库的中文分词)
An collection of Chinese nlp corpus including basic Chinese syntatic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。
PTT 八卦版問答中文語料
Modification and Augmentation for Tencent AI Lab Embedding Corpus for Chinese Words and Phrases