Используется специализированный софт по типу Key Collector. Данные собираются из Wordstat.Yandex, собираются поисковые подсказки, берутся исторические данные из метрики сайта, а также парсится семантика по сайтам-конкурентам из специализированных сервисов.
В случае с особо крупными сайтами может производиться генерация семантики путем генерации "хвостов" по товарами и категориям сайта. После генерации все хвосты обрабатываются по частотности и удаляются запросы с нулевой частотой.
Далее вся полеченная семантика фильтруется путем составлении списка минус-слов и ручным просмотром.
Следующий этап - это фильтрация по коммерческости, геозависимости и другим показателям.
После этого проводится автоматизированная группировка на основании схожести урлов в выдаче специализированным софтом или SEO-сервисами. Эти данные уже вручную обрабатываются и распределяются вручную сео-специалистом.
Оставшиеся "за бортом" коммерческие запросы, а также информационная семантика не удаляется, а добавляется как дополнительные и уходит в отдельные вкладки семантического ядра для использования в дальнейшей работе.
Таким образом мы получаем максимально качественное и конверсионное ядро, состоящее из коммерческих запросов с адекватной видимостью и распределением, в котором учтена как автоматизация, так и опыт и логика сео-специалиста относительно совместимости запросов и их интента (смысла).