Merge 4f389dab9d into 2fed55ae6b

2024-11-16 11:42:29 +08:00 · 2024-11-15 16:31:52 +08:00 · 2024-11-15 16:31:52 +08:00 · 6fad128ed6
commit 6fad128ed6
parent 2fed55ae6b 4f389dab9d
6 changed files with 127 additions and 8 deletions
--- a/api/configs/feature/init.py
+++ b/api/configs/feature/init.py
@ -616,6 +616,11 @@ class DataSetConfig(BaseSettings):
        default=False,
    )

+    PLAN_SANDBOX_CLEAN_MESSAGE_DAY_SETTING: PositiveInt = Field(
+        description="Interval in days for message cleanup operations - plan: sandbox",
+        default=30,
+    )
+

 class WorkspaceConfig(BaseSettings):
    """
--- a/api/extensions/ext_celery.py
+++ b/api/extensions/ext_celery.py
@ -68,6 +68,7 @@ def init_app(app: Flask) -> Celery:
        "schedule.clean_unused_datasets_task",
        "schedule.create_tidb_serverless_task",
        "schedule.update_tidb_serverless_status_task",
+        "schedule.clean_messages",
    ]
    day = dify_config.CELERY_BEAT_SCHEDULER_TIME
    beat_schedule = {
@ -87,6 +88,10 @@ def init_app(app: Flask) -> Celery:
            "task": "schedule.update_tidb_serverless_status_task.update_tidb_serverless_status_task",
            "schedule": crontab(minute="30", hour="*"),
        },
+        "clean_messages": {
+            "task": "schedule.clean_messages.clean_messages",
+            "schedule": timedelta(days=day),
+        },
    }
    celery_app.conf.update(beat_schedule=beat_schedule, imports=imports)

--- a/api/migrations/versions/2024_11_12_0925-01d6889832f7_add_created_at_index_for_messages.py
+++ b/api/migrations/versions/2024_11_12_0925-01d6889832f7_add_created_at_index_for_messages.py
@ -0,0 +1,31 @@
+"""add_created_at_index_for_messages
+
+Revision ID: 01d6889832f7
+Revises: 09a8d1878d9b
+Create Date: 2024-11-12 09:25:05.527827
+
+"""
+from alembic import op
+import models as models
+import sqlalchemy as sa
+
+
+# revision identifiers, used by Alembic.
+revision = '01d6889832f7'
+down_revision = '09a8d1878d9b'
+branch_labels = None
+depends_on = None
+
+
+def upgrade():
+    # ### commands auto generated by Alembic - please adjust! ###
+    with op.batch_alter_table('messages', schema=None) as batch_op:
+        batch_op.create_index('message_created_at_idx', ['created_at'], unique=False)
+    # ### end Alembic commands ###
+
+
+def downgrade():
+    # ### commands auto generated by Alembic - please adjust! ###
+    with op.batch_alter_table('messages', schema=None) as batch_op:
+        batch_op.drop_index('message_created_at_idx')
+    # ### end Alembic commands ###
--- a/api/models/model.py
+++ b/api/models/model.py
@ -719,6 +719,7 @@ class Message(db.Model):
        db.Index("message_end_user_idx", "app_id", "from_source", "from_end_user_id"),
        db.Index("message_account_idx", "app_id", "from_source", "from_account_id"),
        db.Index("message_workflow_run_id_idx", "conversation_id", "workflow_run_id"),
+        db.Index("message_created_at_idx", "created_at"),
    )

    id = db.Column(StringUUID, server_default=db.text("uuid_generate_v4()"))
--- a/api/schedule/clean_messages.py
+++ b/api/schedule/clean_messages.py
@ -0,0 +1,79 @@
+import datetime
+import time
+
+import click
+from werkzeug.exceptions import NotFound
+
+import app
+from configs import dify_config
+from extensions.ext_database import db
+from extensions.ext_redis import redis_client
+from models.model import (
+    App,
+    Message,
+    MessageAgentThought,
+    MessageAnnotation,
+    MessageChain,
+    MessageFeedback,
+    MessageFile,
+)
+from models.web import SavedMessage
+from services.feature_service import FeatureService
+
+
+@app.celery.task(queue="dataset")
+def clean_messages():
+    click.echo(click.style("Start clean messages.", fg="green"))
+    start_at = time.perf_counter()
+    plan_sandbox_clean_message_day = datetime.datetime.now() - datetime.timedelta(
+        days=dify_config.PLAN_SANDBOX_CLEAN_MESSAGE_DAY_SETTING
+    )
+    page = 1
+    while True:
+        try:
+            # Main query with join and filter
+            messages = (
+                db.session.query(Message)
+                .filter(Message.created_at < plan_sandbox_clean_message_day)
+                .order_by(Message.created_at.desc())
+                .paginate(page=page, per_page=100)
+            )
+
+        except NotFound:
+            break
+        if messages.items is None or len(messages.items) == 0:
+            break
+        for message in messages.items:
+            app = App.query.filter_by(id=message.app_id).first()
+            features_cache_key = f"features:{app.tenant_id}"
+            plan_cache = redis_client.get(features_cache_key)
+            if plan_cache is None:
+                features = FeatureService.get_features(app.tenant_id)
+                redis_client.setex(features_cache_key, 600, features.billing.subscription.plan)
+                plan = features.billing.subscription.plan
+            else:
+                plan = plan_cache.decode()
+            if plan == "sandbox":
+                # clean related message
+                db.session.query(MessageFeedback).filter(MessageFeedback.message_id == message.id).delete(
+                    synchronize_session=False
+                )
+                db.session.query(MessageAnnotation).filter(MessageAnnotation.message_id == message.id).delete(
+                    synchronize_session=False
+                )
+                db.session.query(MessageChain).filter(MessageChain.message_id == message.id).delete(
+                    synchronize_session=False
+                )
+                db.session.query(MessageAgentThought).filter(MessageAgentThought.message_id == message.id).delete(
+                    synchronize_session=False
+                )
+                db.session.query(MessageFile).filter(MessageFile.message_id == message.id).delete(
+                    synchronize_session=False
+                )
+                db.session.query(SavedMessage).filter(SavedMessage.message_id == message.id).delete(
+                    synchronize_session=False
+                )
+                db.session.query(Message).filter(Message.id == message.id).delete()
+                db.session.commit()
+    end_at = time.perf_counter()
+    click.echo(click.style("Cleaned unused dataset from db success latency: {}".format(end_at - start_at), fg="green"))
--- a/api/schedule/clean_unused_datasets_task.py
+++ b/api/schedule/clean_unused_datasets_task.py
@ -22,7 +22,6 @@ def clean_unused_datasets_task():
    start_at = time.perf_counter()
    plan_sandbox_clean_day = datetime.datetime.now() - datetime.timedelta(days=plan_sandbox_clean_day_setting)
    plan_pro_clean_day = datetime.datetime.now() - datetime.timedelta(days=plan_pro_clean_day_setting)
-    page = 1
    while True:
        try:
            # Subquery for counting new documents
@ -62,14 +61,13 @@ def clean_unused_datasets_task():
                    func.coalesce(document_subquery_old.c.document_count, 0) > 0,
                )
                .order_by(Dataset.created_at.desc())
-                .paginate(page=page, per_page=50)
+                .paginate(page=1, per_page=50)
            )

        except NotFound:
            break
        if datasets.items is None or len(datasets.items) == 0:
            break
-        page += 1
        for dataset in datasets:
            dataset_query = (
                db.session.query(DatasetQuery)
@ -92,7 +90,6 @@ def clean_unused_datasets_task():
                    click.echo(
                        click.style("clean dataset index error: {} {}".format(e.__class__.__name__, str(e)), fg="red")
                    )
-    page = 1
    while True:
        try:
            # Subquery for counting new documents
@ -132,14 +129,13 @@ def clean_unused_datasets_task():
                    func.coalesce(document_subquery_old.c.document_count, 0) > 0,
                )
                .order_by(Dataset.created_at.desc())
-                .paginate(page=page, per_page=50)
+                .paginate(page=1, per_page=50)
            )

        except NotFound:
            break
        if datasets.items is None or len(datasets.items) == 0:
            break
-        page += 1
        for dataset in datasets:
            dataset_query = (
                db.session.query(DatasetQuery)
@ -149,11 +145,13 @@ def clean_unused_datasets_task():
            if not dataset_query or len(dataset_query) == 0:
                try:
                    features_cache_key = f"features:{dataset.tenant_id}"
-                    plan = redis_client.get(features_cache_key)
-                    if plan is None:
+                    plan_cache = redis_client.get(features_cache_key)
+                    if plan_cache is None:
                        features = FeatureService.get_features(dataset.tenant_id)
                        redis_client.setex(features_cache_key, 600, features.billing.subscription.plan)
                        plan = features.billing.subscription.plan
+                    else:
+                        plan = plan_cache.decode()
                    if plan == "sandbox":
                        # remove index
                        index_processor = IndexProcessorFactory(dataset.doc_form).init_index_processor()