Чем предстоит заниматься
-
Разрабатывать и поддерживать модели классификации тендеров по справочникам (ECLASS, UNSPSC, GS1 GPC, ЕНСТРУ)
-
Строить пайплайны извлечения и нормализации атрибутов (бренд, тех‑характеристики, единицы) из неструктурированного текста (тендерные ТЗ, инвойсы, описания товаров)
-
Проектировать эмбеддинги и метрики сходства для product‑matching и атрибутивного выравнивания
-
Создавать решения RAG с LLM (Azure) для автоматической разметки и валидации
-
Плотно взаимодействовать с бэкендом для интеграции в MCP/API
Стек и инструменты
-
Python 3.10+
-
PyTorch или TensorFlow, HuggingFace Transformers — плюс
-
Azure Cosmos DB, Data Factory, AI Search, Functions — плюс
-
spaCy / FastText / Textract или аналоги — плюс
-
LangChain/LangGraph или аналоги — плюс
-
Neo4j, PostgreSQL, или RDF‑triple‑store (Fuseki, Blazegraph) — плюс
Ожидаемый опыт
-
2+ года в ML/NLP‑проектах для e‑commerce или каталогов товаров
-
Практика обучения классификаторов с тысячами классов (hierarchical softmax, label‑embeddings, zero‑shot)
-
Опыт автоматического сопоставления товаров между различными справочниками
-
Навыки построения пайплайнов NER / attribute extraction
-
Английский B1+ (чтение стандартов, общение с OSS‑комьюнити)
Что предлагаем
-
Свобода выбора архитектуры
-
Свободный график
-
Удаленная работа
Процесс отбора
-
Короткая Google‑форма (ссылка приходит автоматически)
-
Оплачиваемое тест‑задание (4‑6 ч): парсинг и классификация 1 000 строк описаний товаров
-
Google Meet‑интервью: 30 мин тех
Ключевые навыки
- Работа с базами данных
- Python
- Разработка ПО
- SQL
- TensorFlow
- Azure
- Машинное обучение
Задайте вопрос работодателю
Вакансия опубликована 16 июня 2025 в Астане