Проверить строку на содержательность — c# алгоритм строки

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
Загрузка...

Вопрос:


Собственно, нужно проверить, является ли комментарий содержательным, а не чем-то вида «спасибо спасибо спасибо».

Например, функция, подсчитывающая максимальное количество последовательно идущих одинаковых подстрок минимальной длины, которая для

- 'ааааа' вернет 5 (подстрока 'а' повторяется 5 раз)
- 'aa aa aa' получается, вернет 2 (подстрока 'аа '. конечно лучше, 
чтоб вернула 3, но не понятно, как реализовать это)

а также как можно задать для такой функции минимальную длину анализируемых подстрок
например, если мин. длина равна 3, то

- 'аааааа' вернет 2 (т.е. подстрока 'ааа' повторяется 2 раза)

Как можно реализовать такую функцию? Или может есть другие идеи, как отсеять комментарии по содержательности?

Автор вопроса: sam3434

На мой взгляд более полезным было бы сначала удалить из комментария слова не несущие информационной нагрузки (понадобится словарик из таких слов), а затем оценить что осталось после удаления и/или соотнести число оставшихся слов с числом удаленных. В любом случае задача эвристическая и фантазировать тут можно до бесконечности.

Текст сообщения можно разбить на N-граммы. Например, биграмма для «на дворе трава, на траве дрова» будет следующей: «на дворе», «дворе трава», «трава на», «на траве», «траве дрова».
Из большого количества текстов с нормальными комментариями надо создать базу данных из разных N-грамм.
После этого новые комментарии также разбиваете на N-граммы и смотрите сколько таких же есть в базе данных.
Например: «В библиотеке маленький лист разжигают. Огонь… эээ… будет вырабатываться гораздо легче, чем учебник крепкий <…> Вот в магазине 22 она может расщепиться, экономика!» — это шизофазия.
Даже по двум биграммам «учебник крепкий» и «расщепиться экономика» понятно.

Можно попытаться использовать алгоритм классификации с использованием теоремы Байеса, когда подсчитывают вероятность того, является ли данное сообщение содержательным или нет. Собственно, так и работают многие анализаторы спам / не спам. Ссылка для примера.

Источник

Вам также может быть интересно:

Использование вложенных маршрутов в React Router — javascript reactjs react-router
Вопрос: Для организации маршрутов в приложении использую React Router. <Route path="/" component={...}> <IndexRoute component={...}/> <Route path="user/:userId" component={...}> ...
Как с помощью Retrofit 2.0 отправить данные в JSON на сервер и получить ответ? — java android retrofit
Вопрос: Только начал читать про Retrofit 2.0 до этого использовал HttpURLConnection. Как я работаю с HttpURLConnection, формирую Json перевожу его в byte, ставлю header в ...
Не приходят push уведомления. FCM — android firebase android-notification
Вопрос: Появилась необходимость реализовать push уведомления. Прописал в манифесте сервис: <service android:name=".MyFirebaseMessagingService"> <intent-filter> ...
Принцип браузерной игры в линукс терминале — java linux terminal
Вопрос: Наткнулся на Java библиотеку CHARVA. И хотел бы уточнить у знающих людей, возможно ли на основе данной библиотеки сделать программу по принципу браузерной игры, но ...
Мерцание заблокированного экрана при выключенной подсветке в Debian 8 Gnome 3 — linux debian экран
Вопрос: На ноутбуке с Debian 8 Jessie и Gnome 3 имеется следующая проблема. При выключенном заблокированном экране сквозь него можно наблюдать, как весь экран становится белым, ...
Создание WCF клиента на готовый SOAP web сервер — c# wcf
Вопрос: Доброго времени суток. Появилась задача опрашивать web сервер с клиента на котором планируется написать WCF клиентскую часть. Информации про сервер очень мало (не знаю платформу ...
Безопасно ли удалить файл логов general_log.txt? — mysql
Вопрос: При выполнении запроса со вставкой данных большого объёма SQLyog начал вылетать с ошибкой: not enough memory application terminated В связи с этим я решила ...
Callback функции создания таблицы mysql в nodejs — mysql node.js callback
Вопрос: Есть функция, которая при запуске создает базу даных, function showDb() { pool.query("show databases like 'bt' ",function (err, ...
Как создать Adapter с неограниченным количеством строк и с неограниченным разным количеством столбцов в каждой строке — java android
Вопрос: Как создать Adapter с неограниченным количеством строк и с неограниченным разным количеством столбцов в каждой строке Автор вопроса: Salut Amigo Источник
Не могу передать байтовый массив в контроллер — c# asp.net-mvc entity-framework
Вопрос: У меня изображения храняться в бд в формате байтового массива, через форич отлично все выводит, но когда я хочу открыть страницу для работы с ...
proguard release error — java android mvp
Вопрос: Включил в проекте proguard, apk собирается, все хорошо, но приложение не работает) Proguard-rules.pro -keepattributes InnerClasses -keepattributes EnclosingMethod -keepattributes *Annotation* -dontoptimize # Keep Butterknife -keep class butterknife.** { *; } -dontwarn butterknife.internal.** -keep ...
Не отрабатывает page:update — javascript ruby-on-rails
Вопрос: Есть мой учебный проект на ruby. Делаю редактирование объектов с помощью JS. Сейчас работает так: Редактирую первый раз - всё нормально. Не обновляя страницу, ...
Как найти определенный символ в строке и удалить значение после него (и вместе с ним) Jquery — javascript html jquery
Вопрос: Здравствуйте, есть определенный набор строк, типа "L / Красный / 12345", как можно на странице найти их, и вырезать из них все что находится ...
Почему не работает wildcard module declaration? — typescript
Вопрос: Почему не работает такой способ декларации: declare module "*!text" {} ? Цель - использовать контент файла в переменной: import layout = require("/js/views/layouts/wnd.html!text"); или так: import layout from "/js/views/layouts/wnd.html!text"; Если ...
Как прервать 3rd-party код? — c# многопоточность .net-core
Вопрос: Есть 3rd-party код из библиотеки который "зависает" в ожидании где-то в работе с сетью. CancellationToken поддержки нет, таймаутов нет. Запускаю я его через: Task.Run(() => ...

Оставьте ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *