查询一个的链许多和多对一

我现在有3个表大致描述为以下的SQLAlchemy映射：查询一个的链许多和多对一

class Task(BASE): 
    __tablename__ = 'tasks' 
    id = Column(Integer, primary_key=True) 

    service_id = Column(Integer, ForeignKey('services.id')) 
    service = relationship('Service', back_populates="tasks") 

    updates = relationship("TaskUpdate") 


class TaskUpdate(BASE): 
    __tablename__ = 'task_updates' 

    id = Column(Integer, primary_key=True) 
    external_status = Column(String(32)) 
    external_updated_at = Column(DateTime(timezone=True)) 

    task_id = Column(Integer, ForeignKey('tasks.id')) 
    task = relationship('Task', back_populates="updates") 


class Service(BASE): 
    __tablename__ = 'services' 

    id = Column(Integer, primary_key=True) 

    client_id = Column(Integer, ForeignKey('clients.id')) 
    client = relationship('Client', back_populates='services')

所以我有一对多的从任务关系TaskUpdates和许多从任务到服务。

我试图创建一个查询来获取所有任务，其最新的TaskUpdate（通过时间戳）具有“新建”或“打开”的external_status。

这里就是我的了：

sub = SESSION.query(
     TaskUpdate.task_id, 
     TaskUpdate.external_status.label('last_status'), 
     func.max(TaskUpdate.external_updated_at).label('last_update') 
     ).group_by(TaskUpdate.task_id 
     ).subquery() 
tasks = SESSION.query(Task 
     ).join(Service 
     ).filter(Service.client_id == client_id 
     ).join((sub, sub.c.task_id == Task.id) 
     ).filter(sub.c.last_status.in_(['New', 'Open']))

当我运行它，我得到这个错误：

ProgrammingError: (psycopg2.ProgrammingError) column "task_updates.external_status" must appear in the GROUP BY clause or be used in an aggregate function

我会很感激任何帮助，您可以给。这个很重要。

更新1（这是结束了工作的SQL（据我所知，我无法测试前端，直到我在SQLAlchemy中得到这个工作虽然：

SELECT t.* FROM ( 
    SELECT DISTINCT ON (task_id) task_id, external_status 
    FROM task_updates 
    ORDER BY task_id, external_updated_at DESC NULLS LAST) tu 
JOIN tasks t ON t.id = tu.task_id 
JOIN services s ON s.id = t.service_id 
WHERE s.client_id = '" + str(client_id) + "' 
AND tu.external_status IN ('New', 'Open');

这是我尝试转换，仍然没有工作：

sub = SESSION.query(TaskUpdate).distinct(TaskUpdate.task_id).order_by(TaskUpdate.task_id.desc().nullslast(), TaskUpdate.external_updated_at.desc().nullslast()).subquery() 
tasks = SESSION.query(Task).join(Service).join(sub.c.task_id==Task.id).filter(TaskUpdate.external_status.in_(['New', 'Open']))

更新2：查询下面我有工作，但是当我做.Count之间（）返回总数TaskUpdates的，没有任务，我怀疑查询需要重做一种不同的方式，除非有人知道如何处理这个问题？

来源

2017-04-01 Phil Salesses

在办法做到这一点：

SELECT t.* 
FROM (
    SELECT DISTINCT ON (task_id) 
      task_id, external_status 
    FROM task_updates 
    ORDER BY task_id, external_updated_at DESC NULLS LAST 
    ) tu 
JOIN tasks t ON t.id = tu.task_id 
WHERE tu.external_status IN ('New', 'Open');

首先得到每个任务的最后一行，则只能挑任务机智的权利external_status。

详细为DISTINCT ON解释：

Select first row in each GROUP BY group?

如果每个任务很多行，有更快的查询方法：

Optimize GROUP BY query to retrieve latest record per user

来源

2017-04-01 12:31:23

选择T * FROM（SELECT DISTINCT ON（TASK_ID）TASK_ID，external_status FROM task_updates ORDER BY TASK_ID，external_updated_at DESC NULLS LAST）TU join任务T ON t.id = tu.task_id JOIN服务S ON秒。 .id = t.service _id WHERE s.client_id ='1'和tu.external_status IN（'New'，'Open'）; 这是最后的查询工作，谢谢。现在我需要将其转换为SQLAlchemy。 –

如果您对此查询进行计数，它将返回TaskUpdates的总数。这不是理想的行为。有更清洁的吗？ –

@PhilSalesses：如果您对此查询进行计数，它*不会*返回TaskUpdates的总数。你可以在task_updates中获得至少有一个相关行的'tasks'中的行数。在某个地方肯定会有误解。 –

自从他将我带入正确的道路之后，我将功劳归功于Erwin，但这是我最终使用的。工作得不错。一旦我真的有一个或几个工程师与我合作，将来会优化。 :)

谢谢！

sub = SESSION.query(TaskUpdate.task_id, TaskUpdate.external_status).distinct(TaskUpdate.task_id).order_by(TaskUpdate.task_id.desc().nullslast(), TaskUpdate.external_updated_at.desc().nullslast()).subquery() 
tasks = SESSION.query(Task).join(Service).join((sub, sub.c.task_id==Task.id)).filter(sub.c.external_status.in_(['New', 'Open', 'Pending']))

也许我这个转换错误，但是当我做一个计数，它给了我TaskUpdates，没有任务的数量。这导致我的应用程序出现问题。

来源

2017-04-02 02:42:04

这里得到需要的结果的一种方法：

在SQL（测试）：

SELECT a.task_id, a.external_status, a.external_updated_at 
FROM ( 
    SELECT task_id, max(external_updated_at) AS last_updated_at 
    FROM task_updates 
    GROUP BY task_id 
) b 
JOIN task_updates a ON a.task_id = b.task_id 
WHERE 
    a.external_updated_at = b.last_updated_at AND 
    a.external_status IN ('New', 'Open') 
ORDER BY 
    a.task_id;

在Python/SQLAlchemy的（没有测试，不具备SQLAlchemy的得心应手的那一刻）：

subq = session.query(
    TaskUpdate.task_id, func.max(TaskUpdate.external_updated_at).label('last_updated_at') 
).group_by(
    TaskUpdate.task_id 
).subquery() 

q = session.query(
    TaskUpdate.task_id, TaskUpdate.external_status, TaskUpdate.external_updated_at 
).join(
    TaskUpdate.task_id == subq.c.task_id) 
).filter(
    TaskUpdate.external_updated_at == sub.c.last_updated_at, 
    TaskUpdate.external_status.in_(['New', 'Open']) 
).order_by(
    TaskUpdate.task_id 
)

来源

2017-04-12 06:27:52

查询一个的链许多和多对一

回答

相关问题