#自然语言处理#Haystack 是一个开源 NLP 框架,利用预训练的 Transformer 模型。 帮组开发者能快速实现一个生产级的语义搜索、问答、摘要和文档排名的NLP应用
#自然语言处理#Topic Modelling for Humans
翻译 - 人类主题建模
#自然语言处理#DocsGPT 是一个用于“文档”的基于GPT聊天助手,能快速检索项目文档,帮助开发人员轻松地提出与项目相关的问题,并获得准确的答案
#搜索#Weaviate 是一个开源矢量数据库,它同时存储对象和矢量,允许将矢量搜索与结构化过滤与云原生数据库的容错和可扩展性相结合,所有这些都可以通过 GraphQL、REST 和各种语言客户端访问。
#大语言模型#Gen-AI Chat for Teams - Think ChatGPT if it had access to your team's unique knowledge.
#自然语言处理#Open source libraries and APIs to build custom preprocessing pipelines for labeling, training, or production machine learning pipelines.
#大语言模型#Retrieval and Retrieval-augmented LLMs
#搜索#Unified embedding generation and search engine. Also available on cloud - cloud.marqo.ai
#搜索#Apache Lucene 和 Solr 已迁移至各自独立的仓库
#搜索#Apache Lucene 是一个用Java开发的全文搜索引擎
Up to 10x faster strings for C, C++, Python, Rust, and Swift, leveraging NEON, AVX2, AVX-512, and SWAR to accelerate search, sort, edit distances, alignment scores, etc 🦖
Track any ip address with IP-Tracer. IP-Tracer is developed for Linux and Termux. you can retrieve any ip address information using IP-Tracer.
翻译 - 使用IP-Tracer跟踪任何IP地址。 IP-Tracer是为Linux和Termux开发的。您可以使用IP-Tracer检索任何IP地址信息。
MTEB: Massive Text Embedding Benchmark
telegram group scraper tool. fetch all information about group members
翻译 - 电报组刮板工具。获取有关组成员的所有信息
#向量搜索引擎#Up to 200x Faster Dot Products & Similarity Metrics — for Python, Rust, C, JS, and Swift, supporting f64, f32, f16 real & complex, i8, and bit vectors using SIMD for both AVX2, AVX-512, NEON, SVE, & S...
Anserini is a Lucene toolkit for reproducible information retrieval research
翻译 - 用于可复制信息检索研究的Lucene工具包
Information Gathering tool - DNS / Subdomains / Ports / Directories enumeration
#搜索#PISA: Performant Indexes and Search for Academia
翻译 - PISA:绩效指标和学术界搜索
#自然语言处理#STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases (https://stark.stanford.edu/)