Академия интернет-маркетинга
№1
 
Модальное окно

Латентно-семантический анализ. Андрей Натальченко в WebromoExperts.TV #68

В 68-м выпуске WebPromoExperts.TV в программе «Фишки интернет-маркетинга» Андрей Натальченко рассказал про особенности использования латентно-семантического анализа и об основных моментах его проведения. На практических примерах из выпуска вы сможете более подробно разобраться в данной тематике.

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1
(0 голосов, в среднем: 0 из 5)


 
Ведущий:

Латентно-семантический анализ. Андрей Натальченко в WebromoExperts.TV #68Андрей Натальченко
 
Руководитель отдела продвижения в Promo.ua и куратор дистанционного курса «SEO-оптимизация: продвижение сайтов в поисковых системах»

В 68-м выпуске WebPromoExperts.TV в программе «Фишки интернет-маркетинга» Андрей Натальченко рассказал про особенности использования латентно-семантического анализа и об основных моментах его проведения. На практических примерах из выпуска вы сможете более подробно разобраться в данной тематике.

Егор Солодкий

PR-менеджер Академии интернет-маркетинга «WebPromoExperts»

Если Вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Поделитесь этим материалом с вашими друзьями в социальных сетях:

 

Подпишись на обновления блога

Поделитесь вашим мнением. Оставьте комментарий!

  • http://Prodvigator.ua/ gelo_biz

    Привет. Пару вопросов:
    1. Ты говоришь что матрица нормализовалась по IDF, откуда вы берете данные про idf?
    2. Как без сингулярного разложения вы получили векторное пространство?
    3. В примере ты показываешь слова с малым IDF и говоришь что это плохо что они появились. Как они появились если ты говорил что нужно нормализировать по IDF?
    4. Насколько я понимаю, для того что бы сделать рекомендательную систему которая покажет какие слова нужно включить в текст, необходима большая база текстов для обучения. Какая полнота вашей базы ?

    Спасибо за ответы.

    • Andrey Natalchenko

      Привет. Спасибо, Олег за вопросы.
      1,2 ) Пояснения в видео получились сокращенными, поскольку время было ограничено поэтому было упущено ряд моментов при этом важных.
      а) О том как собственно составлялась указанная в видео частотная матрица индексируемых слов. А именно, что строки — это индексируемые слова, а столбцы 9 документам приведенным из примера ранее с заголовками. И что в каждой ячейке указано какое количество раз слово встречается в документе.
      б) Конечно ты прав и следующим шагом было сингулярное разложение на три составляющих: 2 ортоганальных матрицы и 1 диагональную. После произведения матриц стало видно, что столбцы и строки соответствующие меньшим сингулярным значениям дают наименьший вклад в итоговое произведение, что позволило отбросить последние столбцы одной из ортогональных матриц и последние строки второй ортогональной матрицы оставив только первые 2.
      После чего уже собственно на графике отметились точки соответствующие отдельным текстам и словам.

      3) По поводу примера, уточни пожалуйста, какой именно имеешь ввиду.

      4) По поводу базы, точечно выполняем парсинг текстов по необходимым тематикам из индекса Google

      • http://Prodvigator.ua/ gelo_biz

        1. Спасибо, это я понимаю. Вопрос был по поводу нормализации по IDF. Откуда Вы брали данные о IDF? Какой источник?

        3. Речь про этот слайд https://dl.dropbox.com/u/4299528/ShareX/2015-02/2015-02-03_15-16-07.png
        Как там попали вообще эти слова, если была нормализация?

        4.Т.е. Каждый раз для тематики отдельной тематики? Т.е. берем n — текстов по тематике и анализируем только их?
        Я просто не совсем понимаю как вы получаете конечный набор слов. Ведь при таком подходе вы получаете n- кластеров слов. Как вы определяете какой набор «подходит» целевому сайту

        • zergut

          1. Олег, ну стандартное ранжирование по TF-IDF, насколько я понял. Тут (в примере) в качестве корпуса берётся эти 9 строк. Отсюда и IDF.

          По остальным интересно автора послушать.

          • Антон Воронюк

            Zergut, и Олег, и Андрей будут докладываться на WebPromoExperts SEO Day https://webpromoexperts.com.ua/seo-day/

          • Dmitriy Klepko

            о, клас! особенно, чтобы преподнесли каждый свое понимание LSALSI ))

  • Dmitriy Klepko

    скажем так, «фишку» LSA затронули…

  • zergut

    Не могу не поучаствовать.
    Получился достаточно сокращённый пересказ бородатой статьи с хабра. Даже иллюстрации оттуда :)
    http://habrahabr.ru/post/110078/

    Андрей, вы, вроде-бы, не автор? Или таки ваша статья?

    • Andrey Natalchenko

      Нет, не автор конечно же. Статья отличная. Достаточно хорошо все разъясняет. Как раз на ней и разбирался сам в теме.

Подпишись на обновления блога

  • Мы в социальных сетях

  • Новое видео

  • Популярное

  • Комментарии